em Etc, Web

The Bandwidth Bandit

Vira e mexe, navegando pela Internet, a gente se depara com um ou outro site que está temporariamente fora do ar devido ao famigerado erro HTTP 509, Bandwidth Limit Exceeded, que, em outras palavras, indica que o consumo de banda contratado pelo responsável pelo site foi excedido naquele mês: Uma foto mais pesada ou vídeo hospedado no site, que eventualmente se tornaram mais populares, recebendo centenas ou milhares de visitas diárias — ou até mesmo um aumento significativo no número de visitas de uma hora pra outra — podem todas ser razões para que isso aconteça.

Eu, dono deste humilde site, nunca me preocupei com isso, no entanto, pois minha bandwidth nunca sequer chegou perto da metade, quem dirá de seu limite final. Pelo menos até agora. Ocorre que, durante esta semana, comecei a receber e-mails automáticos vindos de meu servidor, me avisando que o consumo de banda já havia ultrapassado os 80% para este mês. Sem entender direito os motivos pra que isso ocorresse, repentinamente, e atolado de serviço até a tampa, não tive como dar atenção ao fato. Resultando destes fatores, ontem, sexta-feira, meu site chegou a ser bloqueado por algumas horas devido justamente ao problema citado anteriormente.

Emergencialmente, pedi a meu provedor que duplicasse meu limite mensal de banda, o que fez com que o site voltasse ao ar, me permitindo então diagnosticar 52% de uso da banda total, já após o upgrade solicitado por mim. Comecei então uma busca sem muitas pistas, na esperança de identificar o que poderia estar causando este problema de uma hora pra outra. Cheguei mesmo a culpar o excelente Bad Behaviour, plugin do WordPress que auxilia no combate a spam, pelo problema, visto que eu acabo de atualizá-lo para a última versão. No entanto, desabilitado o plugin, fiquei pasmo mais uma vez: De ontem pra hoje, meus 52% de consumo se tornaram 55%.

O primeiro pensamento que me ocorreu quando vi este salto assustador foi que alienígenas estão abduzindo — ou melhor, consumindo — toda a minha banda contratada. Mas, como tais coisas só existem em seriados como Arquivo X, precisei procurar outras explicações. Descobri que boa parte do consumo de minha banda mensal este mês se deveu a visitas de spiders, aqueles programas que são utilizados pelos sites de busca para indexação do seu site. Particularmente, o maior problema se refere a um tal Googlebot. Em resumo, parece que o Google está se revelando um belo de um ladrão de banda. Em relação ao mês passado, a banda do meu site consumida pelo bot deles cresceu surpreendentes 687%, como é possível perceber pela imagem abaixo:

Fazendo uma busca rápida, notei algumas reclamações de pessoas que afirmam que o Googlebot tem atingido muito duramente, nestes últimos tempos, páginas dinâmicas geradas em PHP, como é o caso de 99% do conteúdo no meu site. O que fiz, após esta triste constatação, foi tomar algumas providências. A primeira delas foi providenciar um arquivo robots.txt para o site, de forma a bloquear o acesso de spiders, inclusive a do Google, a partes do site que eu não quero que sejam indexadas. Também configurei, para este arquivo, o parâmetro Crawl-delay, em 60 segundos, de forma a evitar que a indexação ocorra muito rapidamente.

Adicionalmente, verifiquei todos os erros HTTP 404 do site, eliminando alguns arquivos obsoletos e até inexistentes para que parassem de consumir banda. Estou também pensando em adotar um tema mais leve para o blog, embora eu acredite que isso, neste instante, não seja realmente necessário, pois o consumo de banda gerado por visitantes de carne e osso está dentro da média que sempre observei por aqui.

Agora vou observar o que acontece novamente. Não sou expert neste tipo de assunto e, caso alguém possa me dar mais alguma dica, ficaria imensamente grato. à parcela geek que lê este meu site, fica aqui, realmente registrado, um pedido expresso de socorro. Dupliquei meu limite de banda, é verdade, mas não posso arcar com este tipo de coisa sempre. Não quero me tornar refém de spiders de sites de busca. Mas para o meu bolso, tal atentado, caso se torne uma constante, será tão grave quanto os atentados criminosos que pararam São Paulo na semana que passou. Help, anyone?

Escreva um comentário

Comentário

  1. Essa talvez seja a sugestão mais tola que lhe darão, mas será que um host com limite de tráfego maior não é mais interessante? Também enfrento problemas com isso e só estou esperando meu limite (quase) chegar ao limite para mudar para uma host mais generoso. Até agora as opções tem sido o http://www.dreamhost.com (1 TB de tráfego) e o http://www.bluehost.com (400 GB de tráfego). Ambos oferecem preços bons (em dólar) e serviços satisfatórios. Estou pesquisando para saber qual é o melhor. Bom, taí a sugestão. Até mais!

  2. Danniel,

    tive esse problema logo no início, mas foi bem pior, pois não foi um ou outro spider que me fisgou… Eu instalei um plugin que fazia com que aparecessem taglines randomicas no meu blog, a partir de um file “fortune.txt”.

    Até aí nada, mas começou a sumir banda, sumir banda, eu eu não entendia o porquê… Quando fiz uma análise um pouco mais detalhada descobri que o que estava aconteendo era que outros sites linkvam diretamente para o meu fortune.txt, chupando aminha banda… Eram centenas de sites, ou seja, alguma sacanagem da grossa, que tenho certeza fez muitas vítimas. Sem saber muito o que fazer, detonei o file, o plugin e voltei a sorrir. Hoje eu sei que poderia ter mudado o nome do arquivo, e modificado também a o código do plugin, mas na hora do desespero, preferi ser radical. Hoje estou usando o dreamhost, e recomendo, é ótimo, te respeitam. Mas começa a valer mesmo a pena se você fizer o pagamento anual ou maior. Se resolver comprar vai pelo link do meu blog, que me ajuda a pagar a hospedagem do ano que vem! 🙂

  3. Caramba! que exagero cara!!
    E oq se pode fazer? de qualquer forma anular isso também é maléfico pro site não é mesmo?..

    enfim, vou te dar uma dica que me deixou sossegado sobre se preocupar com limite e espaço..

    ! =P~~

    custa $7.90 se vc fechar o contrato de dois anos indicando a palavra chave de algum usuário.

    Tem 20 GB de disco, e aumenta 160MB por semana
    Tem 1TB de transferência e aumenta 8GB por mes..

    sussego ne? hahahahaha

    se quiser usar a minha palavra chave eu agradeço!

    Palavra chave: tmobilon

    um abraço, e boa sorte ;)!

  4. Será que bloquear indexadores é o melhor a ser feito? Uma grande parcela de visitantes conhecem o blog através do Google, e seria meio que um tiro no pé impedir que ele indexasse páginas daqui… No meu blog, este mês, o Googlebot só consumiu 40 MB; é o segundo maior, só perde para um tal de Inktomi Slurp, que pelo que pesquisei, é o spider do Yahoo! Search.

    []’s