Na starých stránkách bývala statistika geocacherů. Napadlo mě jak (legálně) získat data pro sestavení žebříčku nálezů. Spousta lidí má nalinkovaný v profilu statbar. A právě v něm se schovává požadovaná informace. Jistě by bylo možné pomocí OCR funkce vydolovat číslo ze statbaru a následně sestavit žebříček nálezů. Skript by se mohl spouštět 1x denně přes CRON. Jistě je méně náročné, než přepočítávat jednotlivé keše v profilech.
Tento odkaz již je v sekci odkazy… Nevýhodou www.cacherstats.com je minimální limit 200 nálezů a aktualizace pouze 2x týdně… Vlastní statistika by šla také lépe integrovat do stránek GC.CZ a právě mě napadlo, že by třeba šly generovat časové osy nálezů apod… To už jsou ale spíše srandičky…
Zbytečně komplikované. Ideální je to dělat tak, jak uvedená statistika na cacherstats.com - v každém listingu jsou totiž za usernamy uvedeny i počty nálezů. Stačí vhodně zvolit "profilové" kešky, z kterých se to bude načítat a je to.
Nicméně jak moc je to legální, to těžko říct, jelikož by nikdo neměl ke sosání dat z gc.com používat robota.
Jinymi slovy me ted napada, ze cacherstats.com je s velkou pravdepodobnosti taky nelegalni. Ve FAQ se sami priznavaji, ze periodicky stahujou "profilove" kesky a z nich generujou statistiky.
proč vůbec nejsou oficiální statistiky všeho(cacherů, cachí, atd…)přímo na GC.com? všichni to chtěj tak proč by to nešlo. odpadlo by jim nelegální stahování dat.
V tomhle směru bych řek, že má Groundspeak co dohánět.
Je to možné. O těch robotech jsem to nevěděl (nikdy mě nenapadlo, že to budu potřebovat), citoval to tady někdo na fóru. Přesná pravidla gc.com jsem v tomto směru nečetl.
Protoze to je strategie GS–v podminkach zakazat vse, ale tise to tolerovat a kdykoliv si reknout dost, tak cokoliv zatrhnou.
Nebo alternativni pristup, ze neco nezatrhne GS sam, ale nejaky geocacher rekne, ze se mu nelibi, ze je v zebricku tak nizko, a tak serveru napise, ze data ziskava nelegalne, a at to odstrani. Samozrejme ze ten dany geocacher nebude hledet na ty tisice ostatnich geocacheru, kteri ten server pouzivali.
No, pro načtení informací pro statistiky myslím není nutné se zalogovat ani potvrdit souhlas s podmínkami použití a server gc.com pro detaily kešek roboty nezakazuje http://www.geocaching.com/robots.txt
Samozřejmě, ale to můžou banovat vždycky když jim rupne v kouli. Pokud dostanu kvalifikované vyjádření, že stažení třeba 20 stránek v průběhu dne, ke kterým není potřeba potvrdit souhlas s jejich podmínkami použití je technicky v pořádku, že získáním příslušných statistických údajů neporušuje žádný zákon ani práva provozovatele gc.com, tak sem ty statistiky s klidným svědomím udělám. A neni problém to načítat přes jiný server.
Já už si nějaký takový statistiky dělám, mám ale trošku strach, protože nevím, kde se nachází ta hranice únosnosti pro GS. Teď stahuju řekněme 10x denně 22 listingů a zatím mi to prochází. Nestahuje se to cronem, ale na můj manuální pokyn a načítá se jeden listing po druhém, tzn. žádné souběžné thready nemám.
Ja si myslim, ze na GC.com to neni z jednoho prosteho duvodu. Aby to fungovalo, museli by udelat extra aplikaci, ktera by to tahala napr. 1x za den do samostne databaze nekam externe. Coz je prace navic. Pokud by to totiz udelali online, coz by nebyl asi takovy problem, byl by to desivy zahul pro server. Tech dat tam musi byt silene mnozstvi a uz takhle maji servery co delat, aby ustali bezne pohybovani se na serveru uzivateli, kor kdyz by museli online generovat udaje z cele databaze. Tot muj nazor.
No, ja myslim, ze skrysotlac nestahuje pres externi server, ale pres IP adresu toho kdo ten java aplet spusti. Skrysotlac ceka cca 10 sekund mezi kazdym listingem a zasekne se nekde po 200 listinzich. Pokud se ale spojeni rozpoji a spoji znova, muzes hned delat dalsich 200, takze ban nenastava.
Jinak taky se da v soucasnosti bez banu stahovat kazdych 5 minut cely den seznam 20 nejblizsich kesi a skenovat je na vyskyt nove nenalezene.
No, gc.com už teď počty nálezů eviduje (zobrazuje je v každém listingu a statbarech). Stránka s nějakým reportem (globální žebříček/v rámci státu), by server určitě nepoložila (zátěž ve srovnání se zbytkem systému minimální).
imho jediný prostý důvod, proč to tam neni je, že se to nikomu z gc.com nechce udělat.
Naprosto souhlasím. Vygenerovat takový seznam s omezením řekněme na 1000 záznamů je záležitost na zlomek sekundy. Záleží ovšem, jak mají postavenou databázi. Pokud se nálezy sčítají při každém zobrazení (čemuž nevěřím), tak by to byl záhul, ale jinak to je opravdu jednoduchý dotaz do databáze a je mi záhadou, proč to už dávno nemají implementované.