Úvahy mimo téma – Gemini: AI nástroj od Google

AI je pro mě zajímavé téma a psal jsem o něm na tomto blogu několikrát, v dnešním článku se k němu vrátím, souvisí totiž s tím, jak si na tom stojí Google v rámci generativní umělé inteligence pro širokou bázi spotřebitelů a korporátních klientů a jak může nebo nemůže konkurovat Microsoftu.

Půodní LLM (large language model) od Google se jmenoval Bard, a byl reakcí na náhlé spuštění Chat-GPT od OpenAI (což byl defacto start implementace nástrojů umělé inteligence do nástrojů od Microsoftu, počínaje vyhledávačem Bing až po sooučasné zařazení Copilota do Office 365). Na přelomu roku 2023/24 pak došlo k přejmenování služby na Gemini, která se nabízí analogicky v podobné struktuře jako Chat-GPT. Tj slabší verze Gemini zdarma, schopnější Gemini Advanced za poplatek cca 20USD/měsíc a v beta verzi pro vývojáře existuje i Gemini Ultra, která zvládá pracovat s výrazně většími vstupy.

Vzhledem k tomu, že Google momentálně nabízí 2 měsíce zkušební dobu na Google One, který obsahuje právě i Gemini Advanced, bych se rád rozepsal o tom, co je možné s Gemini vyzkoušet už dnes z pohledu běžného uživatele s osobním Google účtem.

Předně k nastavení. Gemini Advanced (link) je chatbot podobný ChatGPT, ale v rámci Google účtu nabízí integraci s některými dalšími Google službami – specificky se jedná především o Gmail, Google Drive, Google Docs a Youtube. Háček je ale v tom, že aby bylo možné propojení zapnout, je potřeba Google účet přepnout do anglického jazyka. Pokud máte jako primární jazyk nastavenou češtinu, propojení zůstane zamčené a nefunkční. To je trochu kuriozní situace, protože s Gemini jde normálně komunikovat česky, takže samotné znepřístupnění služby na českých účtech je mi záhadou.

Po přepnutí do angličtiny můžete v na hlavní stránce Gemini rozkliknout v nastavení položku Extensions a propojení pozapínat. Výsledkem bude, že při psaní promptu do příkazového řádku můžete pomocí znaku @ odkázat AI na některou z Google služeb. Například: „Podívej se na @Google Drive a najdi soubor s názvem XYZ.pdf a napiš mi, co se v něm píše o Janu Novákovi.“… Podobným způsobem je možné odkazovat i na Youtube (AI je schopna si poslechnout video a odpovídat na jeho obsah), Google Mapy (AI umí na mapě vyhledat požadované místo, zjistit například jak se na místo dostat pomocí veřejné dopravy, případně překopírovat náhled mapy do chat okna), a široké využití služby nabízí i propojení s Gmailem.

Úskalí současné verze Gemini (ostatně i GPT-4) je limit objemu tokenů na vstupu, ve kterých je AI model schopen držet kontext. Maximální velikost promptu v tokenech pro Gemini Advanced se mi bohužel nepodařilo dohledat, z praxe se ale jedná maximálně o několik jednotek normostran textu. Pokud je na vstupu příliš velký objem dat, model si vypomáhá a obchází velikost tím, že si dobře pamatuje věci na začátku a na konci, ale vše co je mezitím ignoruje. Dobře patrné je to v situacích, kdy například po modelu budete chtít, aby shrnul delší video. V souhrnu budou informace z úvodu a závěru, ale podstatné body z prostřední části videa Gemini zamlčí. Požadované informace je z něj možné dostat pouze v případě, že jej na informaci z prostřední části obsahu, které chcet vědět, konkrétně nasměrujete dotazem, ale ani to nezafunguje spolehlivě vždy. A hlavně je to nepraktické, protože schopnost sumarizace je prospěšná hlavně tehdy, kdy si chcete ověřit, jestli má smysl rozsáhlá data (audio, video nebo text, to je jedno) sám procházet, tedy v situaci, kdy nevíte jestli obsahuje to, co vás zajímá.

K čemu tedy Gemini Advanced, respektive celý Google Workspace používat?

Předně, to co již funguje dobře delší dobu a jen se to s AI zdokonalilo, jsou překlady jazyka. Pokud máte libovolné pdf nebo jiný textový soubor, a otevřete ho v Google Docs, v nabídce Nástroje je možnost Přeložit dokument. Překlad je pochopitelně ve velmi dobré kvalitě a tento způsob umožňuje překládat i velmi dlouhé dokumenty v rozsahu několika set stran pohodlně jedním klikem. Pokud se jedná o jednotlivá slova nebo věty, je možné se ptát přímo Gemini pomocí promptu.

Další, odvozenou schopností Gemini související s předchozím bodem, je restylizace a pochopení textu. Typickým příkladem je situace, kdy máte odoborný článek, kterému nerozumíte. Gemini je schopná pomocí příkazu typu „vysvětli mi to jako 10 letému dítěti“ velmi dobře přeformátovat text, aby jeho obsah zůstal víceméně stejný. To samé platí i pro jiné varianty toho samého – převeď mi text do formální podoby byznysového stylu, rozšiř text do delšího formátu nebo napak jej zkrať atd.

Třetím vhodným způsobem využití je brainstorming. Pokud potřebujete nápady na nějaké téma (kam jet na dovolenou, dárky pro manželku, vtip na téma broskev apod.) tak je Gemini velmi jednoduchý způsob, jak se k takovým nápadům dostat. Z deseti tipů je obvykle polovina těch, co vás napadnou taky, čtyři jsou nepoužitelné blbosti ale jeden zbývající je často to, co by vás nenapadlo a co může přinést přidanou hodnotu.

První vtip má kupodivu velmi dobrý dvojsmysl…

Naopak k čemu se zatím Gemini nedokázalo dostat, je správné využití přidružených Google služeb ke zjišťování faktických dat. Gemini postupně integruje ostatníí Google služby, ale propojení s Google Search zatím nefunguje tak, jak by si asi každý optimálně přál. LLM modely samotné nejsou vhodný nástroj k hledání dat, ale pokud by se dokázaly ideálně propojit s Google Search (které naopak data hledá dobře), kombinace obojího by mohla celý nástroj posunout na novou úroveň. A i když Gemini zjevně Search využívá při odpovídání na dotazy (a v takových případech často zobrazí i zdrojové linky odkud čerpalo), neumí s výsledky hledání pracovat správně, zvlášť pokud se jedná o specifická data, jako „Jak se změnila hodnota indexu SP500 za včerejší den?“. Je otázka, jak a kdy se podaří obě služby správně propojit, jisté ovšem je, že teď aktuálně tomu tak není.

Výsledkem tedy je, že při práci s dnešní verzí Gemini potřebujete nejprve sami sehnat data, ověřit si jejich správnost a pak až je možné nechat Gemini s těmito daty pracovat. AI tedy umí pomoci s interpretací dat, ale ne s jejich sběrem.

A vzhledem k omezenému objemu tokenů v promptu nesmí být datový soubor na vstupu příliš dlouhý, jinak si s ním AI neporadí – neudrží totiž kontext dat jako celku. Není potřeba propadat skepsi, jak jsem psal v minulém článku Investování v detailech – nVidia, Gemini a Sora neveřejná nová verze Gemini si s rozsáhelejšími soubory na vstupu dokáže poradit. Problém tedy není v technologii, ta je připravena, ale v ceně inference, protože pokyny podobného stylu jako „Analyzuj dvouhodinové video“ spolykají ohromné množství výpočetního výkonu, a tedy i energie a amortizaci hardware… Letos nás s vysokou pravděpodobností během několika měsíců čeká GPT-5 a nová Gemini, nechme se tedy překvapit, kam se možnosti využití AI pro běžného uživatele počítače posunou. A mezitím doporučuji ve zkušební době vyzkoušet Gemini Avanced a začít sbírat zkušenosti, budou se velmi brzy hodit.

Napsat komentář