04.11.2008

Přednáška o fulltextu Seznam.cz

Přednáška o fulltextu Seznam.cz

Dnes jsem zavítal na jednu z přednášek pořádaných Seznamem.cz, tentokrát na téma fulltextové vyhledávání. Přednášel Petr Nevrlý - již 3 roky je člen fulltextového týmu. Přečtěte si o čem se mluvilo.

Ve zhruba dvouhodinovém bloku Petr Nevrlý shrnul základní informace: co je fulltextové vyhledávání, jak funguje jeho architektura, jak pracuje robot a samotné vyhledávání, došlo i na pár informací o hodnocení relevance stránek a řazení výsledků a ke konci jsme se dozvěděli i pár čísel.

V publiku seděli jak studenti tak samozřejmě i SEO optimalizátoři, kteří si přišli ucelit znalosti a zjistit, co je ve fulltextu nového. Díky tomu, že se v průběhu přednášky rozvinula poměrně zajímavá diskuze, dostalo se i na několik snad i užitečných informací.

Kdo snad očekává, že se zde dozví, jak Seznam fulltext řadí výsledky a jak funguje rovnice pro výpočet vah, toho zklamu :), na to skutečně nedošlo a Petr se snažil těmto informacím úspěšně vyhýbat. Celý průběh semináře zde nemá smysl vypisovat, zkusím shrnout v bodech, co zhruba bylo řečeno.

Pro mnoho z vás to budou známé věci, ale opakování je matka moudrosti :)

Shrnutí informací v bodech

  • Robot fulltextu častěji navštěvuje stránky, které jsou často aktualizovány
  • Aktualizací stránky se rozumí například změna TITLE tagu, existují ovšem i změny, které nejsou pro robota zajímavé (například jsou-li na webu hodiny ukazující i vteřiny)
  • Robot navštíví všechny stránky v indexu znovu nejdéle za 200 dní
  • Potřebujete-li přidat novou stránku webu do fulltextu, urychlíte to přidávacím formulářem
  • Petr naznačil, že rank webu má vliv na pozici v SERP (zatím jsem se setkal převážně s názory, že rank ukazuje pouze frekvenci návštěvy robota - to Petr nevyvracel)
  • SRank je závislý nejen na počtu odkazů na web ale zejména na kvalitě - pozor tedy na patičky, skutečně kvalitní odkaz je něco jiného.
  • Mezi hlavní kritéria, na základě kterých Seznam řadí výsledky, jsou TITLE, obsah a URL
  • Pokud máte klíčová slova v URL adrese, nesejde na tom, kde je v adrese máte
  • Používejte sitemapy - nastavujte priority stahování stránek a také frekvenci - usnadníte tak robotovi práci
  • Seznam umí hledat mimo v HTML souborech také v PDF, DOC a nově i v RTF

Na závěr trochu čísel

  • Seznam nyní zná cca 250 milionů dokumentů
  • Umí zpracovat na 400 stránek za vteřinu
  • Průměrná stránka v indexu Seznamu má 10Kb (zdrojový kód)
  • Na seznamu je denně zaznamenáno na 15 milionů hledání
  • Zpracuje přibližně 3 miliony unikátních dotazů denně
  • Až 40% hledání na seznamu je učiněno přes našeptávač

Díky Petrovi za zajímavou přednášku, těším se na další.

 

Přidat komentář
Komentáře (1)

02.07.2009, 22:21 [1] Jur

Ahoj, díky za ifno, ale ještěže jsem tam nebyl, to bych si výroky "podal" a byl bych také nevrlý. Protože Srank nebyl tehdy přiliš funkční. A co se týká návštěv robota, tak na mých stránkách nebyl ani jednou sám, jediný robot, který dělá pravidelnou návštěvu, je yahoobot. J.

Přidej komentář

Emailová adresa nebude zobrazena, řádky se zalamují automaticky, URL adresa bude nahrazena odkazem.

HTML tagy budou odstraněny!

Opište přesně kód z obrázku

© Martin Matějka, 2008, sitemapa, kopu za Optifor