BLOG
Přednáška o fulltextu Seznam.cz
            Dnes jsem zavítal na jednu z přednášek pořádaných Seznamem.cz, tentokrát na téma fulltextové vyhledávání. Přednášel Petr Nevrlý - již 3 roky je člen fulltextového týmu. Přečtěte si o čem se mluvilo.
Ve zhruba dvouhodinovém bloku Petr Nevrlý shrnul základní informace: co je fulltextové vyhledávání, jak funguje jeho architektura, jak pracuje robot a samotné vyhledávání, došlo i na pár informací o hodnocení relevance stránek a řazení výsledků a ke konci jsme se dozvěděli i pár čísel.
V publiku seděli jak studenti tak samozřejmě i SEO optimalizátoři, kteří si přišli ucelit znalosti a zjistit, co je ve fulltextu nového. Díky tomu, že se v průběhu přednášky rozvinula poměrně zajímavá diskuze, dostalo se i na několik snad i užitečných informací.
Kdo snad očekává, že se zde dozví, jak Seznam fulltext řadí výsledky a jak funguje rovnice pro výpočet vah, toho zklamu :), na to skutečně nedošlo a Petr se snažil těmto informacím úspěšně vyhýbat. Celý průběh semináře zde nemá smysl vypisovat, zkusím shrnout v bodech, co zhruba bylo řečeno.
Pro mnoho z vás to budou známé věci, ale opakování je matka moudrosti :)
Shrnutí informací v bodech
- Robot fulltextu častěji navštěvuje stránky, které jsou často aktualizovány
 - Aktualizací stránky se rozumí například změna TITLE tagu, existují ovšem i změny, které nejsou pro robota zajímavé (například jsou-li na webu hodiny ukazující i vteřiny)
 - Robot navštíví všechny stránky v indexu znovu nejdéle za 200 dní
 - Potřebujete-li přidat novou stránku webu do fulltextu, urychlíte to přidávacím formulářem
 - Petr naznačil, že rank webu má vliv na pozici v SERP (zatím jsem se setkal převážně s názory, že rank ukazuje pouze frekvenci návštěvy robota - to Petr nevyvracel)
 - SRank je závislý nejen na počtu odkazů na web ale zejména na kvalitě - pozor tedy na patičky, skutečně kvalitní odkaz je něco jiného.
 - Mezi hlavní kritéria, na základě kterých Seznam řadí výsledky, jsou TITLE, obsah a URL
 - Pokud máte klíčová slova v URL adrese, nesejde na tom, kde je v adrese máte
 - Používejte sitemapy - nastavujte priority stahování stránek a také frekvenci - usnadníte tak robotovi práci
 - Seznam umí hledat mimo v HTML souborech také v PDF, DOC a nově i v RTF
 
Na závěr trochu čísel
- Seznam nyní zná cca 250 milionů dokumentů
 - Umí zpracovat na 400 stránek za vteřinu
 - Průměrná stránka v indexu Seznamu má 10Kb (zdrojový kód)
 - Na seznamu je denně zaznamenáno na 15 milionů hledání
 - Zpracuje přibližně 3 miliony unikátních dotazů denně
 - Až 40% hledání na seznamu je učiněno přes našeptávač
 
Díky Petrovi za zajímavou přednášku, těším se na další.