ПРОЕКТЫ 


  АРХИВ 


Apache-Talk @lexa.ru 

Inet-Admins @info.east.ru 

Filmscanners @halftone.co.uk 

Security-alerts @yandex-team.ru 

nginx-ru @sysoev.ru 

  СТАТЬИ 


  ПЕРСОНАЛЬНОЕ 


  ПРОГРАММЫ 



ПИШИТЕ
ПИСЬМА














     АРХИВ :: Apache-Talk
Apache-Talk mailing list archive (apache-talk@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [apache-talk] Apache & wget



In <Pine.LNX.3.96.990208210347.30938A-100000@cec.vstu.vinnica.ua> Dmitri V. 
Ivashina (demon@vstu.vinnica.ua) wrote:
DI> Подскажите , как Apache настроить, чтобы wget не могли скачать мои HTML

Дам ответ в лучших традициях USSR (который продавал оружие обоим воюющим
сторонам :)

Wget о себе говорит в "User-Agent", что он "Wget/1.5.3" (ну или какая уж там
версия). На этом основании его можно отловить и послать "на север" (через
mod_rewrite или кому как нравится).

Теперь совет для другой стороны: у wget'а есть (уже весьма давно) полезный
ключик -U -- указать "User-Agent" принудительно. Соответствено нужно
пользовать либо
wget -U "Mozilla/4.5 [en] (Win98; I)" ...
либо вписать это файл стандартных настроек wget'а. При этом, правда, Russian
Apache выдаст вам все в кодировке windows-1251, но тут уж ничего не поделаешь
(можно говорить и "Mozilla/4.5 [en] (X11; I; Linux 2.2.2 i686)" или
"Mozilla/4.5 [en] (X11; I; SunOS 5.5.1 sun4u)" или даже
"Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)" притворяясь Netscape'ом
для Linux'а, SunOS'а или MS IE 4.01 для Windows 98 соответственно -- это уж
смотря по тому, кого пускают :-))

Можно еще опираться на то, что Netscape всегда посылает кривой "Accept-charset"
"iso-8859-1,*,utf-8", а MS IE дополнительно посылает разную информацию о
системе, но это тоже легко исправляется в wget'е (благо исходники доступны).
Далее можно учитывать скорость, с которой человек может щелкать по сслыкам,
а wget придется править на тему не слишком активного скачивания и вообще
более "правдоподобных" действий. Следующий этап, видимо, проверка OS с помощью
методов queso (что, правда, уже отсечет часть посетителей -- тех, что ходят
через proxy да и вообще всех использующих не Winblows), что уже лечится
сложнее (придется править ядро), но лечится если приспичит...

Ну в общем "на войне, как на войне". Обычная такая "гонка вооружений".
Web-site'ы, которые отсекают Wget по User-Agent я уже видел и скачивать с них
wget'ом я тоже научился. Дельнейшие шаги -- пока теория, но, думаю, со
временем ее реализуют на практике.

P.S. Web-site, на которые нельзя зайти потому что какие-то кретины поставили
firewall с отфильтровыванием всех icmp-пакетов (если кто-нибудь не понимает
почему этого делать нельзя -- почитайте на досуге описание TCP/IP :-) я уже
видел. Посмотрим к чему приведет эта война...



=============================================================================
=               Apache-Talk@lists.lexa.ru mailing list                      =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/apache-talk                 =



 




Copyright © Lexa Software, 1996-2009.