ПРОЕКТЫ 


  АРХИВ 


Apache-Talk @lexa.ru 

Inet-Admins @info.east.ru 

Filmscanners @halftone.co.uk 

Security-alerts @yandex-team.ru 

nginx-ru @sysoev.ru 


  СТАТЬИ 


  ПЕРСОНАЛЬНОЕ 


  ПРОГРАММЫ 



ПИШИТЕ
ПИСЬМА












     АРХИВ :: nginx-ru
Nginx-ru mailing list archive (nginx-ru@sysoev.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Можно ли огранивать limit_r ate по времени? Если нет, м ожет переменную завести?



On 10/01/10 14:01, Sergey Shepelev wrote:
2010/10/1 Виктор Вислобоков<corochoone@xxxxxxxxx>:
Хех. По поводу robots.txt могут сказать две вещи:
1. Файл robots.txt относится к содержимому сайта клиента! Хостер в сайт
клиента лазить не должен!
Тогда, да, проблема. Их воспитывать непросто...
Остаётся только подсовывать nginx'у конфиг, соответствующий времени суток.

2. Далеко не все боты читают robots.txt и используют его директивы в деле
касающемся скорости и частоты индексации. Например, директива Crawl-delay:
понимается только Яндексом, а остальные на неё кладут.

Далее, лично мне неизвестны директивы, которые позволяют задать разное
поведение индексирующего робота в зависимости от времени суток. Может
известны вам? :)

http://en.wikipedia.org/wiki/Robots_exclusion_standard #Extended standard
http://www.conman.org/people/spc/robots2.html
...
Request-rate: 1/5          # maximum rate is one page every 5 seconds
Visit-time: 0600-0845     # only visit between 06:00 and 08:45 UTC (GMT)

Но, разумеется, практически никто этого не поддерживает.
Угу, это (кто что на данный момент поддерживает и кто на что забил) знают только матёрые оптимизаторы, к числу коих я, к счастью, не отношусь. То есть, затачивают robots.txt только под нужные поисковики, остальных посылают подальше, исходя из $http_user_agent.

_______________________________________________
nginx-ru mailing list
nginx-ru@xxxxxxxxx
http://nginx.org/mailman/listinfo/nginx-ru


 




Copyright © Lexa Software, 1996-2009.