Google – incluir e excluir páginas – robots.txt

16/06/2011 at 3:32 pm Leave a comment

Não sei explicar os mecanismos de pesquisa do Google, Yahoo e muitos outros.

Sei que procuram pelo arquivo robots.txt, caso encontre este arquivo no seu site, eles respeitam as instruções, exemplo que informa para todos que não deve pesquisar neste site, crie um arquivo no raiz do site com nome de robots.txt com este conteúdo.

  User-Agent: *
  Disallow: /

 

O exemplo acima é copia do kernel.org, como tem este arquivo no raiz, seu conteúdo não é pesquisado nem aparece nas pesquisas dos mecanismos de busca.

ftp://mirrors.kernel.org/robots.txt

Sem este arquivo no raiz do site, os mecanismos de busca acham qualquer página em seu servidor web sem proteção por senha, mesmo quem não usa um domínio e coloca o servidor no ar com acesso somente via IP, como é meu caso que mantenho o FAQ em um servidor sob um dominio e também mantenho um mirror do FAQ em minha maquina com IP fixo, o Google pega os dois.

Basta alguma referencia na web para acessarem seu IP, nem precisa solicitar a inclusão de suas páginas, de forma automatica, periodicamente os robots do Google acessam seu servidor para atualizar o banco de dados, não sei informar com qual frequência nem critérios, nas páginas dele tem informações e endereços para entrar em contato.

Verifique nos logs do Apache que acha o IP destes mecanismos de buscas, alguns tem identificação, quando aparece somente o IP dá um pouco de trabalho, tem que pegar o IP e levantar de quem são, neste meio aparece Google e outros mecanismos de busca.

Isto é muito bom, não paga nada para divulgar seu site, nem precisa fazer cadastro, não precisa fazer nada, basta colocar o site no ar que depois de algum tempo vai aparecer nos mecanismos de busca, inclusive o Google, caso queira, pode se fazer o cadastro, na maioria dos mecanismo de busca tem alguma opção, alguns tem até classificação por assunto e etc…

Quando não quiser o conteúdo de seu servidor web ou páginas fazendo parte das pesquisas do Google, siga estas dicas.

Como excluir suas páginas ou servidor web das pesquisas do Google.
Informações do Google para Webmasters – Googlebot: Indexador do Google
http://www.google.com/webmasters/bot.html#howoften
Advertisements

Entry filed under: Apache.

DNS Ambiente de testes

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Trackback this post  |  Subscribe to the comments via RSS Feed



%d bloggers like this: