BLOG

Přednáška o fulltextu Seznam.cz

Přednáška o fulltextu Seznam.cz

Dnes jsem zavítal na jednu z přednášek pořádaných Seznamem.cz, tentokrát na téma fulltextové vyhledávání. Přednášel Petr Nevrlý - již 3 roky je člen fulltextového týmu. Přečtěte si o čem se mluvilo.

Ve zhruba dvouhodinovém bloku Petr Nevrlý shrnul základní informace: co je fulltextové vyhledávání, jak funguje jeho architektura, jak pracuje robot a samotné vyhledávání, došlo i na pár informací o hodnocení relevance stránek a řazení výsledků a ke konci jsme se dozvěděli i pár čísel.

V publiku seděli jak studenti tak samozřejmě i SEO optimalizátoři, kteří si přišli ucelit znalosti a zjistit, co je ve fulltextu nového. Díky tomu, že se v průběhu přednášky rozvinula poměrně zajímavá diskuze, dostalo se i na několik snad i užitečných informací.

Kdo snad očekává, že se zde dozví, jak Seznam fulltext řadí výsledky a jak funguje rovnice pro výpočet vah, toho zklamu :), na to skutečně nedošlo a Petr se snažil těmto informacím úspěšně vyhýbat. Celý průběh semináře zde nemá smysl vypisovat, zkusím shrnout v bodech, co zhruba bylo řečeno.

Pro mnoho z vás to budou známé věci, ale opakování je matka moudrosti :)

Shrnutí informací v bodech

  • Robot fulltextu častěji navštěvuje stránky, které jsou často aktualizovány
  • Aktualizací stránky se rozumí například změna TITLE tagu, existují ovšem i změny, které nejsou pro robota zajímavé (například jsou-li na webu hodiny ukazující i vteřiny)
  • Robot navštíví všechny stránky v indexu znovu nejdéle za 200 dní
  • Potřebujete-li přidat novou stránku webu do fulltextu, urychlíte to přidávacím formulářem
  • Petr naznačil, že rank webu má vliv na pozici v SERP (zatím jsem se setkal převážně s názory, že rank ukazuje pouze frekvenci návštěvy robota - to Petr nevyvracel)
  • SRank je závislý nejen na počtu odkazů na web ale zejména na kvalitě - pozor tedy na patičky, skutečně kvalitní odkaz je něco jiného.
  • Mezi hlavní kritéria, na základě kterých Seznam řadí výsledky, jsou TITLE, obsah a URL
  • Pokud máte klíčová slova v URL adrese, nesejde na tom, kde je v adrese máte
  • Používejte sitemapy - nastavujte priority stahování stránek a také frekvenci - usnadníte tak robotovi práci
  • Seznam umí hledat mimo v HTML souborech také v PDF, DOC a nově i v RTF

Na závěr trochu čísel

  • Seznam nyní zná cca 250 milionů dokumentů
  • Umí zpracovat na 400 stránek za vteřinu
  • Průměrná stránka v indexu Seznamu má 10Kb (zdrojový kód)
  • Na seznamu je denně zaznamenáno na 15 milionů hledání
  • Zpracuje přibližně 3 miliony unikátních dotazů denně
  • Až 40% hledání na seznamu je učiněno přes našeptávač

Díky Petrovi za zajímavou přednášku, těším se na další.

1 komentář
2.7.2009, 22:21
Ahoj, díky za ifno, ale ještěže jsem tam nebyl, to bych si výroky "podal" a byl bych také nevrlý. Protože Srank nebyl tehdy přiliš funkční. A co se týká návštěv robota, tak na mých stránkách nebyl ani jednou sám, jediný robot, který dělá pravidelnou návštěvu, je yahoobot. J.

Také občas tweetuji,
co mne kde zaujalo.

Podívejte se.