Investování v detailech – nVidia, Gemini a Sora

Jeden článek na AI jsem zde již psal, dneska k němu nabízím aktuální vývoj, i když spíše ze strany investic. Pokud je pro vás AI španělská vesnice, doporučuji přečíst předchozí článek, jinak se budete možná mírně ztrácet. I když od minulého textu uběhlo jen půl roku, situace se dost dramaticky začíná měnit pod rukama.

Začnu od poskytovatelů LLM modelů. Vzniknul totiž velmi zajímavý efekt, kdy zjevně první bere vše, a tak pokud se s někým budete bavit o jazykových modelech, bude znát pravděpodobně jen Chat-GPT od Open AI. Což je škoda, ale i fajn věc. Škoda je to v tom, že konkurence nemá dostatek pozornosti na trhu, a tak se o ní moc nemluví a ani neví. Skvělá věc je to v tom, že veřejnosti uniká to, co se děje v Google.

Google Gemini

Zatímco AI horečka vystřelila všechny společnosti, které s ní nebo na ní pracují do nebes, tak Alphabet, pod který Google spadá, je oceněn docela vlažně. Přitom v Googlu se dějí poměrně zajímavé věci. Google Deepmind je právě to oddělení, které přišlo jako první na potenciál využití transformer algoritmů pro LLM. A má ve vývoji AI dlouhou historii, která pokračuje dodnes. Nejde jen o LLM, ale i o vše ostatní. Google má svoje hyperscale centra poháněná vlastními Tensor procesory, které mu pomáhá vyvíjet Broadcomm a výrobět (pravděpodobně) Samsung. A zcela narovinu, to že Google search dokáže vyhledávat tak, že na dotaz odpovídá s velmi dobrou relevancí a přesností je také způsobeno tím, že Google již dlouho využívá umělou inteligenci pro kontextové vyhledávání a doporučování (nejen reklamy). Nicméně právě u Google LLM modelu došlo v posledních dnech k zajímavé změně.

Původní model Bard dostal aktualizaci a je přejmenován na Google Gemini. Vyzkoušet si její slabší verzi můžete zde zdarma a rozhodně se nejedná ani u této bezplatné verze o blbé ořezávátko. Například tuhle slovní úlohu pro žáky 9. třídy dalo bez zaváhání napoprvé.

A dovolím si ještě jeden, jde už jsou patrné jisté rezervy modelu, nicméně správně vyhodnotil, že na obrázku je Elizabeth Holmes na obálkách prestižních byznys časopisů představovaná jako budoucí zázrak byznysu, i když ve skutečnosti byla později odsouzena za podvod a dnes sedí za mřížemi.

Placená verze Gemini Advanced za 550 CZK měsíčně (cena srovnatelná s Chat-GPT4) je ještě lepší. Mnohem. To co mě ale zaujalo nejvíc, je release nové verze Gemini 1.5 určené pro výzkum a vývoj a uzavřenou betu. Proč?

Umožňuje totiž vytvářet prompt, který má rozsah až 10 milionů tokenů a model je schopen v zadání udržet konzistenci a relevanci. To prakticky znamená, že do dotazu můžete vložit třeba 5 hodinový film a nebo 1000 stránkovou knihu, a zeptat se na cokoliv a Gemini dokáže vyhledat odpověď i v rámci rozsáhlého zdroje a odkázat se na ni. To je věc, kterou dosud žádný model nedokázal (alespoň ne veřejně), jakmile je totiž na vstupu příliš mnoho informací, AI modely jako GPT se jimi přestávají řídit a obvykle si pamatují jen začátek a konec. Této nové schopnosti jejich LLM říká Google searching needle in a haystack, neboli schopnost najít jehlu v kupce sena. A existují i velmi dobré ukázky:

Teď se nabízí dobrá otázka: jakto, že jste o tom neslyšeli (omlouvám se těm pár lidem, co o tom ví) ? Protože pár hodin po tom, co Google zveřejnil Gemini 1.5 šel Sam Altman z Open AI na X a vypustil ven pár videií z AI modelu Sora. Náhoda? Řekl bych že ne. Open AI nemá absolutně žádný důvod vypouštět ukázky toho, co má schováno pod pokličkou, leda by jeho dominantní postavení nezačlo být dotahováno konkurencí. A to se podle mého názoru s novou verzí Gemini právě děje. Už bylo koneckonců na čase.

Open AI Sora

Pokud jste o Soře neslyšeli, jedná se o text-to-video model od OpenAI, který, jak název napovídá, dokáže na základě textového příkazu vytvořit video. Nejedná se o první model tohoto typu, ale jedná se o první model, kde po shleédnutí těch nejlepších videí zůstanete uzemněni. Moje oblíbená ukázka je toto:

Jenom pro ujasnění. Na videu není reálné město, ani člověk a není ani generováno pomocí CGI, upravené v postprodukci atd. Jediný lidský vstup byl prompt v podobě:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Největší wow moment pro někoho, kdo delší dobu alespoň povrchově zkoumá aktuální schopnosti generativních AI modelů, je u těchto Sora videí to, že model dokáže udržet konzistenci během celé jednominutové stopáže. Dříve by se vám totiž dělo, že s každým snímkem videa by se objekty, včetně hlavní postavy, drobně měnily. Tady ne, nebo rozhodně ne v tak velkém měřítku jako dříve. LLM modely zjevně začínají mít paměť. (A ano, Chat-GPT nově má paměť kam si ukládá dosavadní komunikaci a tím pádem je schopen dobře zohledňovat dosavadní text i když je jeho rozsah pro klasický prompt příliš dlouhý).

To je k LLM modelům vše. Rozebírat, jak moc jsme blízko k AGI nechci, zmíním jen svůj osobní názor, že multimodalita (schopnost modelu pracovat s textem, zvukem, videem aj.) jsou klíčem k AGI – obecné umělé inteligenci, tj. takovému modelu AI, který je schopen konkurovat člověku ve všech aspektech rozumového myšlení, aniž by byl specializován jen na nějakou část (jako je třeba počítání, překlad jazyků nebo hraní her). Pokud už funkční AGI není tajně hluboko uvnitř laboratoří OpenAI, tak tu bude do roka a do dne.

Envy innovation

Fajn a nyní k hardware, tam se totiž dějí taky zajímavé věci. Asi nikomu nemohlo uniknout, jak moc zamávala s trhy nVidia za poslední půlrok. Shodou okolností měla včera celoroční výsledky za rok 2024 a protože jsem měl na nVidii vsazeno pomocí call opcí, tak jsem jejich konferenci v noci se zájmem poslouchal. A tak jako vždy, i tentokrát dokázala ohromit.

To, že má společnost tržní kapitalizaci 1,8T USD není bezdůvodně. Dokázala totiž 3-4 násobně zvýšit svoje tržby meziročně a z nich generovat zisk s 50% marží. Ať se situace může zdát jakkoliv absurdní, faktem je že nVidia není ani zdaleka tak drahá, jak vypadá. Zhruba 40 násobek budoucích zisků není pro high-tech společnost s monopolním postavením a vysokou marží tolik. Viz. například ASML. Jinými slovy, u nVidie se nejedná o čiré pomatení mysli nebo manipulaci trhu jako u ARM, SMCI aj. Mám na nVidii nejspíš tento týden slušně vyděláno díky poměrně hloupému pokusu trefit útok nVidie na kapitalizaci 2T, který možná i vyjde, pro vstup do tohoto vlaku je už ale docela pozdě a pokud nedojde k nějakému nervóznímu poklesu ceny (jako byl loni u Mety), tak i když akcie není drahá, tak není ani výrazně levná a i přes její dost pravděpodobný posun na pozici největší společnosti na světě v následujících letech je zisk relativně omezený na +50%.

Jak již bylo naznačeno výše, levno je na poli AI ale jinde.

Alphabet je ukázkový compounder s dominantním postavením na trhu s vyhledáváním a kontextovou reklamou. A i když mu některé věci jdou tzv. jako by se drbal levou rukou na pravém uchu, tak narozdíl od zbytku trhu nemám absolutně žádnou obavu, že by jeho pozici mohlo nějak AI ohrozit. Protože narozdíl od drtivé většiny ostatních firem, je Alphabet otcem zakladatelem AI a patří právem mezi špičku v tomto oboru. Je to jako kdyby se někdo pokoušel tvrdit, že elektromobilita zničí Teslu. A proč je lepší než Microsoft? Protože narozdil od něj má kompletní kontrolu nad divizí Deepmind. Zato Microsoft OpenAI neovládá.

To vše zabaleno do dárkové krabičky se stužkou fwd P/E 20. Doporučuji nastudovat.

3 komentáře: “Investování v detailech – nVidia, Gemini a Sora”

Miroslav Novák píše:

26 února, 2024 (10:30 am)

Jenže pokud se naplní scénář, že goog přijde o značnou část podílu na vyhledávání (generuje hlavní příjem) díky konkurenčním AI, tak kde ty příjmy nažene? Jak dokáže zrovna goog monetizovat AI? U MSFT si to třeba dovedu představit velice snadno u kancelářského ekosystému, možná už to i dělají, nevím. V případě goog mi nějak chybí fantazie a jsem možná i skeptičtější než zbytek trhu.

To se mi líbíTo se mi líbí

Odpovědět
- Marek Sorf píše:
  
  27 února, 2024 (10:39 am)
  
  LLM modely nejsou díky halucinacím nefungují dobře samy o sobě pro vyhledávání faktických dat. LLM jsou dobré nástroje na práci s textem, ale ne na vyhledávání dat. Naopak Google má ve vyhledávání dlouhodobý náskok a je praktticky jisté, že pro vyhledávácí algoritmy už roky používá machine learning. Tohohle se bojím nejméně. Google Search a navázaná reklama (sponozorované linky atd.)) jsou podle mého názporu minimálně na několik let v bezpečí. Kde se o ogle naopak bojím je Cloud, protože jsou an něm minimální marže, obrovské kapitálové náklady a paradoxně i velmi silná konkurence od ostatních big-tech.
  Za mě je Google momentálně nejlépe naceněná sázka na AI, kde skutečně zároveň je lidský kapitál, nějaké výsledky a úspěšná historie. MOnetizace je asi skutečně náročnější než u Microsoftu (ke dto je no-brainer), ale jak jsem psal, Microsoft nemá ani majoritní kontrolu nad OpenAI.
  
  To se mi líbíTo se mi líbí
  
  Odpovědět
Úvahy mimo téma – Gemini: AI nástroj od Google – Investiční Blog píše:

28 března, 2024 (11:58 am)

[…] totiž kontext dat jako celku. Není potřeba propadat skepsi, jak jsem psal v minulém článku Investování v detailech – nVidia, Gemini a Sora neveřejná nová verze Gemini si s rozsáhelejšími soubory na vstupu dokáže poradit. Problém […]

To se mi líbíTo se mi líbí

Odpovědět