ПРОЕКТЫ 


  АРХИВ 


Apache-Talk @lexa.ru 

Inet-Admins @info.east.ru 

Filmscanners @halftone.co.uk 

Security-alerts @yandex-team.ru 

nginx-ru @sysoev.ru 


  СТАТЬИ 


  ПЕРСОНАЛЬНОЕ 


  ПРОГРАММЫ 



ПИШИТЕ
ПИСЬМА












     АРХИВ :: nginx-ru
Nginx-ru mailing list archive (nginx-ru@sysoev.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: борьба с ботами средствам и nginx


  • To: nginx-ru@xxxxxxxxx
  • Subject: Re: борьба с ботами средствам и nginx
  • From: Roman Hlynovskiy <roman.hlynovskiy@xxxxxxxxx>
  • Date: Mon, 16 Mar 2009 23:54:19 +0600
  • Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=gamma; h=domainkey-signature:mime-version:received:in-reply-to:references :date:message-id:subject:from:to:content-type :content-transfer-encoding; bh=d9V5QUv+sLbiPXPKsxIgSe104U2EK6biAmvjTjErv4E=; b=ET0IhxA2ysDd+qhnxTZQWl1TBK3xqdzMWaeopTFJbAr+wXOYnWKSJs84gv6jR7VrPR +T0JPAXQCHD2uVnay0jz7ToQ7Q70ogkDLLXD7wN1sHuVKxDHkWeGtZAOBfPturw/lZIC NmiQ4ZzM4T9+lYrJ16UBcz6QACttD2yTSb9Jk=
  • Domainkey-signature: a=rsa-sha1; c=nofws; d=gmail.com; s=gamma; h=mime-version:in-reply-to:references:date:message-id:subject:from:to :content-type:content-transfer-encoding; b=XLCwoFQHMYOF7tmXNCma1qdz2zaHRp6pWB25LMwphF34PUNmm/9NxuzGx3Eu46xdQS 90KrykDtRu1QiakUuXONm8YfCCZr1/mb+D0dJQvEqz+SlfyFsprj8wBCe8qac8pwuc6M d98DfM0rTJpaCgJgijnBnhBGPyg8L/S70Q6sE=
  • In-reply-to: <1807272582.20090316165718@xxxxxxxxxxxxx>
  • References: <afa4ab8a0903160607m1403fc19hc4d61e8ccd411f61@xxxxxxxxxxxxxx> <1807272582.20090316165718@xxxxxxxxxxxxx>

А не даст ли данный подход абсолютно противоположный эффект?
ведь limit_rate ограничивает скорость отдачи, а не количество процессов.
т.е. не начнет-ли crawler поисковика закидывать сайт повторными
запросами если не дождался ответа при большом объеме запрашиваемой
странички?
я просто не совсем точно представляют как себя в ведут поисковики в
настоящее время.

16 марта 2009 г. 19:57 пользователь Монашёв Михаил
<postmaster@xxxxxxxxxxxxx> написал:
> Здравствуйте, Роман.
>
> if ($http_user_agent ~ 
> "Yandex|Google|Rambler|Yahoo|msn|Ask|baidu|YaDirectBot|Twiceler"){
>    set $limit_rate  1000;
> }
>
>
>> добрый день,
>
>> а у кого какой опыт есть борьбы с поисковыми ботами средствами nginx?
>
>> сегодня столкнулись с интересной проблемой - дурной клиент то-ли купил
>> сервис по seo-оптимизации, то-ли сам где-то научился, но его ресурс
>> обступили вкруговую поисковые боты.
>> одновременно 10-15 разных поисковых ботов начали активно индексировать
>> ресурс. все-бы ничего, но ресурс поднят на базе одного очень дурного
>> CMS разработчики которого видимо не в курсе что существуют понятия
>> индексов в БД.
>> в итоге получился небольшой DOS. сервер выдержал, но 'осадок' остался,
>> в виде очень нехороших iowait'ов.
>
>> хотел-бы узнать кто-как решает подобные наплывы ботов у себя?
>> закрывать полностью ip-адреса ботов тоже не вариант, т.к. речь идет о
>> шаред хостинге.
>
>> соответственно у меня возникло 2 различные идеи воплощения этой задачи;
>
>> 1) разрешить только одному боту в одну единицу времени получать свой
>> честный 200, всем остальным - 503
>> 2) разрешить не более одного коннекта с одного ip-адреса при условии
>> что user_agent соответствует некому набору бот-шаблонов.
>
>> попытался реализовать второй вариант через limit_conn следующим образом:
>
>> http {
>>     limit_zone   bots  $binary_remote_addr  16m;
>
>>    . . .
>
>>    server {
>
>>     if ($http_user_agent ~* "StackRambler|Yandex") {
>>     limit_conn bots 1;
>>    }
>
>
>>   }
>
>> }
>
>> на практике получил облом, т.к. limit_conn не может быть внутри if-а.
>> какие варианты тут могуть быть?
>
>> реализовывал-ли кто-нибудь что-нибудь подобное первому варианту?
>> у меня вообще не приходят мысли как может выглядеть подобная конфигурация.
>
>
>
>
>
> --
> С уважением,
> Монашёв Михаил, SoftSearch.ru
> mailto:postmaster@xxxxxxxxxxxxx
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
>
>



-- 
...WBR, Roman Hlynovskiy


 




Copyright © Lexa Software, 1996-2009.