Příběhy výzkumu a vývoje: Jak rychle najít Zlatou bulu sicilskou

Při vší covidové smůle měli letošní maturanti na rozdíl od loňských kolegů i kousek štěstí. Pokud hledali odpovědi na maturitní otázky ve Vyhledávání Seznam.cz, dostali mnohem přesnější informace než loni. Seznam.cz na začátku roku nasadil technologii, která umožňuje hledat na internetu pomocí významových vektorů. Tato největší změna tuzemského vyhledávání za posledních deset let výrazně vylepšuje výsledky hledání u dlouhých a složitých dotazů. Nová funkce totiž najde hledaný obsah i na stránkách, na nichž se nenacházejí přímo všechna konkrétní slova použitá v samotném dotazu.

seznam 45 optimized

Příkladem může být otázka „Jak se nazýval dokument z roku 1212, který mj. zaručoval českým panovníkům dědičný královský titul?“. Díky podobnostnímu hledání se na prvním místě zobrazí odkaz pro heslo Zlatá bula sicilská na wikipedii. Bez něj by tento odkaz v seznamu doporučených stránek chyběl, nebo by byl umístěný na nižších místech.

UMĚLÁ INTELIGENCE V HLAVNÍ ROLI

Vývoj nové funkce trval dvacítce výzkumníků a vývojářů v Seznamu zhruba rok. „Pro každou webovou stránku se spočítá zhruba 300 čísel, do nichž se obsah stránky zakóduje. Stejně se převede na čísla také dotaz uživatele. Pak vyhodnotíme, do jaké míry se těchto 300 čísel z dotazu podobá 300 číslům určité webové stránky. Čím jsou si podobnější, tím výše se ve výsledcích vyhledávání stránka zobrazí,“ vysvětluje princip podobnostního hledání Vladimír Kadlec. V Seznamu vede skupinu výzkumníků, kteří se zabývají vylepšováním fulltextového vyhledávání.

Nejsložitější bylo pro výzkumníky vymyslet, jak tyto mnohočíselné významové vektory spočítat pro stránky v češtině. Nemohli se opřít o funkční jazykové modely, které existují jen pro angličtinu. Rozhodli se proto vycvičit vlastní umělou inteligenci. „Jedno kolo učení trvalo zhruba čtrnáct dnů. Museli jsme jich ale absolvovat několik, abychom naši umělou inteligenci správně vyladili. Celkem jsme jejím tréninkem strávili půl roku. Výhodou je, že jazykový model se už dál učit nemusí, nadstavbu použitou pro řazení dokumentů nicméně doučujeme průběžně,“ říká Kadlec.

UŽIVATELÉ JSOU SPOKOJENÍ

Počítání vektorů je velmi náročné na výpočetní výkon procesorů na serverech. Kvůli nasazení podobnostního hledání proto Seznam musel zainvestovat i do nového hardware. Podstatné bylo, aby celý proces vyhodnocování dotazu a hledání výsledků trval co nejkratší dobu. Přesněji, aby se vešel do jedné desetiny sekundy.

Podobnostní hledání je jen jedním z nástrojů, které při fulltextovém vyhledávání dávají dohromady výsledný seznam doporučených webových stránek. Při testování, kdy se uživatelům zobrazovalo více verzí vyhledaných výsledků, se ukázalo, že uživatelé jsou spokojenější, když se do hledání zapojily i významové vektory. „Spokojení uživatelé se k nám vracejí. Tím se vylepšené vyhledávání promítá i do našeho byznysu,“ dodává Kadlec.

Významové vektory by vědci ze Seznamu chtěli v budoucnu používat i pro lepší kategorizaci dokumentů nebo hledání obrázků bez použití klíčových slov.

Článek vyšel v časopisu Svazu průmyslu Spektrum 3Q/2021. Celé číslo čtěte zde.

kategorie Z členské základny