Ograniczanie dostępu
Przeglądając http://www.webmasterworld.com/forum92/906.htm zauważyłem świetne regułki blokujące dostęp do strony niektórym user-agentom.
Po miesiącu testowania ich u siebie mogę zauważyć, że:
- wp.pl używa robota identyfikowalnego jako Java, więc wywaliłem go z tych regułek
- pozwoliłem na dostęp wget-em
- dodałem za to robota 'iltrovatore'
- zmieniłem regułkę łapiącą ZyBorg-a ta nazwa jest teraz w środku a nie zakotwiczona na początku ciągu '^'
- regułka blokująca dostęp kiedy user-agent i referer są puste spełnia swoje zadanie jeśli zrobimy wyjątek - robots.txt
Jeżeli chcecie się przyjrzeć moim regułkom zobaczcie tutaj: rules.txt. Oczywiście tak jak jest to powiedziane w artykule na webmasterforum -> używacie na własne ryzyko.
Ale muszę przyznać - te regułki są zrobione trochę na wyrost - nie widziałem w logach na przykład żadnego z tych IPków oraz 90% z tych user-agentów. Nagminnie pałęta mi się ZyBorg, ale pomimo tego, ze mi indeksował stronę to jego wyszukiwarka mnie całkowicie olewa, więc poprawiłem regułkę blokującą go.
To, co niestety nie dało się osiągnąć tymi regułkami to blokowanie harvesterów spamerskich. Po prostu spamerzy są na tyle bezczelni, że podają się za np. IE6. Natomiast zdradza ich jedno - ciągną zawartość w szybkim tempie - wystarczy więc zrobić zabezpieczenie na ilość odsłon/minutę z jednego IP, dodać do tego pułapkę w postaci niewidzialnego ifrejma 1x1.
A nawet jak się wycwanią to zawsze można ich poczęstować nieistniejącymi adresami email.