Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 1

Má-li mít váš web v době AI šanci, musí jazykové modely váš obsah objevit, správně pochopit a následně využít ve svých odpovědích. Bez solidního technického základu se ale ani ten nejlépe napsaný text do odpovědí AI nedostane. Nebo se dostane, ale bude zkreslený a neúplný. Technická optimalizace je tak podmínkou, bez níž veškerá obsahová práce ztrácí efekt.

Tento návod se zaměřuje výhradně na technickou stránku věci. na to, jak váš web zpřístupnit AI crawlerům, jak strukturovat data a eliminovat technické bariéry, které brání správné interpretaci vašeho obsahu.

Pokud jste ještě nečetli náš návod Jak na GEO optimalizaci, doporučujeme začít tam – vysvětluje základní principy generativní optimalizace, strategie tvorby obsahu a způsoby, jak budovat autoritu v očích jazykových modelů. Tento článek na něj přímo navazuje a představuje konkrétní kroky, které mění strategii v konkrétní praxi.

Nastavení robots.txt pro AI roboty

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 3

Soubor robots.txt je jedním z nejstarších nástrojů webové správy. Jeho účel je jednoduchý – říká robotům, které stránky webu mají procházet a které mají přeskočit. Běžně se využívá k usměrňování crawlerů vyhledávačů (Googlebot, Seznam Bot, Bingbot a další), případně botů SEO nástrojů jako Ahrefs či Semrush.

Dnes ale k těmto klasickým botů přistupují ještě AI roboti. Jejich záměry se přitom liší.

Část z nich sbírá data pro trénink jazykových modelů. Jiní procházejí weby v reálném čase, aby mohli odpovídat na aktuální dotazy uživatelů. Další boti vytvářejí vlastní vyhledávací index, podobný indexu klasických vyhledávačů.

GPTBot od OpenAI, ClaudeBot od Anthropic, PerplexityBot nebo Google-Extended. To vše jsou samostatní agenti, kteří se řídí vlastními identifikátory a na které musíte v robots.txt reagovat zvlášť.

Pokud chcete mít nad situací kontrolu, nestačí spoléhat na výchozí nastavení. Musíte se rozhodnout, které AI roboty na svůj web pustíte a za jakých podmínek.

Webu, který chce být citován v odpovědích ChatGPT nebo Perplexity, se rozhodně nevyplatí blokovat jejich crawlery. Naopak, pokud nechcete, aby vaše texty sloužily jako tréninková data bez vašeho svolení, máte právo konkrétní boty s pomocí robots.txt omezit nebo zcela zablokovat.

Nejběžnější typy AI botů a jejich účel

Ne každý AI bot, který navštíví váš web, tam přichází ze stejného důvodu. Některé sbírají data pro trénink modelů, jiné reagují na konkrétní dotaz uživatele v reálném čase. Pokud chcete nastavit robots.txt správně, je třeba vědět, s kým máte tu čest.

Scrapery tréninkových dat

Jedná se o boty, kteří systematicky procházejí weby a shromažďují obsah sloužící k budování znalostní základny AI modelů. To, co sesbírají, se stane součástí trvalé paměti modelu a tato data už nelze zpětně odebrat ani „odnaučit“.

Patří sem například

  • GPTBot,
  • ClaudeBot,
  • Google-Extended,
  • Bytespider
  • nebo CCBot.

Jejich návštěvy jsou automatické, nepravidelné a bez předchozího upozornění.

AI asistenti

Fungují na zcela jiném principu. Neskenují váš web plošně, přijdou pouze tehdy, když uživatel v konverzaci s AI přímo požádá o načtení konkrétní stránky. Jde o proces zvaný RAG (Retrieval-Augmented Generation): model doplní své tréninkové znalosti o živý obsah z vaší URL.

Typickými zástupci takovýchto botů jsou například ChatGPT-User nebo DuckAssistBot.

Každá návštěva takového bota je jednorázová a spuštěná člověkem, ne automatem.

AI search crawlery

Jsou nejbližší příbuzní klasických botů vyhledávačů. Indexují váš obsah proto, aby se mohl objevit jako citovaný zdroj v odpovědích jednotlivých AI nástrojů.

Bez jejich indexace nemáte prakticky žádnou šanci na citaci.

Mezi tyto boty patří

  • OAI-SearchBot,
  • PerplexityBot,
  • Claude-SearchBot
  • nebo Applebot.

Část AI nástrojů jinak spoléhá na indexy Googlu či Bingu, jiné si budují vlastní, případně volí kombinace obojího.

AI agenti

Jsou zatím nejméně rozšířený, ale nejrychleji rostoucí typ. Uživatel jim zadá úkol, třeba porovnat produkty nebo zarezervovat letenku, a oni za něj procházejí weby krok za krokem jako skutečný člověk.

AI agenti neslouží k vyhledávání, ale ke konkrétní akci. ChatGPT Agent, Google Mariner nebo NovaAct generují návštěvy vašich stránek jako vedlejší produkt plnění zadaných úkolů, ne jako výsledek automatického crawlingu.

Podrobnější přehled různých AI crawlerů vám přinese tato stránka.

Jak sledovat AI crawlery na vašem webu

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 5

Většina webů sleduje návštěvnost z Google Analytics nebo Search Console. O tom, jak jejich obsah prochází AI crawlery, nemají zpravidla žádnou představu. Právě tato data ale mohou odhalit, proč určité stránky v AI odpovědích chybí a co s tím dělat.

Cloudflare

Pokud váš web běží na Cloudflare, máte k dispozici jeden z nejpřehlednějších nástrojů pro sledování AI botů. Cloudflare zobrazuje, které AI crawlery váš web navštěvují, jak často a zda jsou některé z nich blokovány, ať už záměrně, nebo omylem špatně nastaveným robots.txt. Vidíte konkrétní boty: GPTBot, ClaudeBot, PerplexityBot, Google-Extended a další. Pro každý z nich tak můžete individuálně nastavit, zda má přístup povolen nebo zakázán..

Konkrétní návod, jak Cloudflare ke sledování AI botů využít, je zde, případně zde.

Server logy jako GEO analytický nástroj

I bez Cloudflare lze vaše server logy analyzovat a mít tak v ruce cenný zdroj dat. Logy zaznamenávají skutečné HTTP požadavky, tedy každou návštěvu crawlera s přesným časovým razítkem, user agentem a navštívenou URL. Rovněž z logů zjistíte, kteří AI boti váš web navštěvují, jak často přicházejí a s jakou frekvencí se vracejí na konkrétní stránky.

Pokud například GPTBot navštěvuje vaše starší články, ale ignoruje nové, může to značit problém s interním prolinkováním nebo indexací. Pokud ClaudeBot nechodí vůbec, stojí za to zkontrolovat robots.txt a ověřit, zda není nechtěně blokován.

Co v logu hledat

Při analýze logů se soustřeďte:

  • Za prvé na to, kteří boti se vůbec objevují. Soustřeďte se na nejrelevantnější GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended a Amazonbot.
  • Za druhé, které stránky crawleři navštěvují nejčastěji. Takové stránky jsou potenciální kandidáti na citaci a stojí za to zkontrolovat jejich strukturu a aktuálnost.
  • A za třetí, jaká je frekvence návštěv. Pokud se bot vrací pravidelně, dost možná stránku považuje za relevantní zdroj a sleduje její aktualizace.

Takto získáte přehledný obraz o tom, jak AI ekosystém s vaším webem skutečně pracuje a kde jsou mezery, které stojí za zaplnění.

Jaký přístup k AI botům zaujmout

Než začnete upravovat robots.txt, položte si otázku: chcete, aby AI boti váš obsah četli, a pokud ano, do jaké míry?

Odpověď není univerzální, závisí na vašem oboru, obchodních cílech a na tom, jak moc vám záleží na přímé návštěvnosti webu oproti viditelnosti v AI odpovědích.

Například e-shopy a firmy orientované na budování značky mají zpravidla důvod AI crawlery vítat s otevřenou náručí. Čím více botů jejich obsah zpracuje, tím větší šanci mají, že se jejich produkty, služby nebo jméno firmy objeví v odpovědích ChatGPT, Perplexity nebo jiných nástrojů, kde se dnes odehrává stále větší část nákupního rozhodování. Pro tyto weby je blokování AI botů spíše nevýhodou než ochranou.

Vydavatelé, zpravodajské weby a obsahové platformy to mají složitější. Jejich obsah má přímou ekonomickou hodnotu, která se odvíjí od počtu čtenářů na webu. Pokud AI nástroje jejich články shrnují do dvou vět a uživatel pak nemá důvod klikat na originál, může to reálně ohrozit návštěvnost i příjmy z reklamy.

Tady dává smysl přístup diferencovat. Například povolit indexaci pro účely citace, ale omezit scrapery, kteří data využívají výhradně k tréninku modelů.

Dávejte si také pozor, aby nebyli boti blokováni ze strany poskytovatele hostingu, což je také občasným problémem. Podrobněji viz tento článek, jak vám může hosting poškodit viditelnost u AI.

Konkrétní direktivy pro povolení přístupu AI botů v robots.txt

Na různé stránky můžete pouštět různé boty, ať už se jedná o boty vyhledávačů nebo AI.

Pro ChatGPT:

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

Pro Claude:

User-agent: ClaudeBot
Allow: /

Pro Perplexity:

User-agent: PerplexityBot
Allow: /

Pro Google Gemini:

User-agent: Google-Extended
Allow: /

Povolením těchto botů umožníte, že vás najdou a je tak větší šance, že váš obsah využijí. U obsahu, který nechcete dávat ke zveřejnění, je zase můžete zablokovat:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

Abyste zjistili, jestli váš soubor robots.txt funguje správně, umístěte jej do kořenového adresáře vašeho webu, tedy ihned za doménu nejvyšší úrovně. S pomocí Google Search Console nebo obdobných nástrojů můžete následně provést simulaci toho, jak budou různí crawlingoví boti váš web procházet.

Abychom vám vše zjednodušili, připravili jsme pro vás copy-paste šablonu s aktuálním seznamem všech relevantních AI crawlerů, kterou stačí rovnou vložit do vašeho stávajícího souboru.

(Stáhnout šablonu)

XML sitemapy a proč je potřebujete

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 7

XML mapy stránek jsou důležitou součástí optimalizace jak pro klasické vyhledávače, tak i pro AI, které ostatně z indexů vyhledávačů rovněž čerpají. Účelem sitemapy je postarat se o to, že se vyhledávače na vaší stránce vyznají a že objeví a zaindexují všechny důležité stránky.

Do sitemapy nemusí a ani by být neměly zahrnuty úplně všechny stránky, které váš web má. Sitemapa má obsahovat především relevantní informační nebo prodejní stránky, které jsou důležité pro vaše návštěvníky, řeší jejich problémy a odpovídají na jejich dotazy.

Kromě klasické sitemapy existují i sitemapy například pro videa či obrázky, takže pokud je váš web bohatý na tento typ obsahu, mohly by se vám rovněž hodit.

Sitemapa nemusí být jen jedna. Zejména velké weby jich mají několik, přičemž hlavní sitemapa odkazuje na nižší sitemapy pro jednotlivé části webu.

Zde najdete podrobnější instrukce, jak takovou sitemapu vytvořit.

Soubor llms.txt - navrhovaný standard pro komunikaci s AI

Soubor robots.txt řeší přístupová práva k vašim stránkám – kdo kam smí a nesmí.

Navrhovaný standard llms.txt má být alternativou robots.txt navrženou speciálně pro AI modely. Namísto kontroly přístupu jim má ale sloužit spíše jako navigátor po vašem obsahu.

Tento soubor umístěný v kořenovém adresáři webu poskytuje jazykovým modelům kontext, který by si jinak musely domýšlet samy.

Říká

  • které části stránek jsou klíčové,
  • jak chápat hierarchii obsahu,
  • na co brát ohled při citování,
  • nebo které informace upřednostnit, když sestavují odpověď.

Pomáhá také s pochopením vaší případné API dokumentace.

Jde o relativně mladý koncept, který je zatím spíše ve fázi návrhu. Vzešel ale z praktické potřeby, kdy si tvůrci obsahu začali uvědomovat, že AI modely sice jejich web navštíví, ale ne vždy ho správně uchopí.

llms.txt je pokus tuto mezeru překlenout přímou komunikací. Místo aby model obsah interpretoval podle vlastního uvážení, dostane od vás instrukce, jak to udělat správně.

Podpora konceptu zatím není plošná. Jeho vliv na chování modelů není zcela měřitelný a žádný z velkých AI hráčů zatím do svých crawlingových protokolů llms.txt oficiálně nezapojil. Ačkoliv třeba společnost Anthropic (Claude) vlastní llms.txt zveřejnilo a Google tento standard začlenil do svého protokolu Agents to Agents (A2A). Další AI firmy se vesměs vyjadřují ke konceptu llms.txt pozitivně.

Standard je nicméně stále ve vývoji a probíhají diskuse o jeho finální podobě.

Přesto má smysl ho zavést už teď. Pokud llms.txt nefunguje, nepřijdete o nic. Pokud funguje, nebo až začne fungovat naplno, budete mít před konkurencí náskok, který byste jinak těžko doháněli zpětně. Poměr rizika a potenciálního přínosu tady hraje jednoznačně ve váš prospěch.

Struktura llms.txt souboru

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 9

Podle navrhovaného standardu by měl být soubor llms.txt strukturován a zapisován v jazyce Markdown.

Markdown je jednoduchý značkovací formát založený na čistém textu, který umožňuje přehledně strukturovat obsah bez složité syntaxe. Jde o stejný formát, jaký se běžně používá například v README souborech na GitHubu, a zároveň je velmi dobře čitelný a interpretovatelný pro AI systémy.

Nejčastějšími Markdown prvky v llms.txt souborech jsou:

  • pro hlavní nadpis (H1), ## pro podnadpisy (H2), ### pro další úrovně struktury atd.*

  • > pro zvýrazněné bloky textu, například důležitá vysvětlení nebo kontext
  • – nebo pro nečíslované seznamy
  • [text](url) pro odkazy na relevantní stránky či zdroje
  • : pro doplnění krátkého popisu k odkazu, který vysvětluje jeho účel
  • „` pro bloky kódu při uvádění technických ukázek

Oficiální specifikace llms.txt uvádí pouze velmi jednoduchý ukázkový zápis. Pokud je však váš web rozsáhlejší nebo obsahově složitější, je možné strukturu dále rozšířit — třeba pomocí nadpisů H3 a H4 pro podsekce, přidáním tabulek pro přehlednější organizaci informací nebo bloků kódu pro demonstraci práce s API.

Markdown je pro AI crawlery plně srozumitelný a při dodržení platné syntaxe by neměl být problém. Naopak, detailnější struktura může AI systémům poskytnout více kontextu a usnadnit správnou interpretaci obsahu.

Jednoduchý příklad llms.txt souboru podle základní specifikace může vypadat třeba takto:

# Název společnosti

> Stručný popis toho, čím se společnost zabývá

## Produkty

– [Produkt 1](https://example.com/product-1): Krátký popis produktu

– [Produkt 2](https://example.com/product-2): Stručné vysvětlení, k čemu slouží

## Dokumentace

– [Začínáme](https://example.com/docs/getting-started): Úvod do platformy

– [API dokumentace](https://example.com/api): Kompletní technický přehled API

Tento základ můžete dále rozšiřovat podle potřeb vašeho webu a množství informací, které chcete AI systémům zpřístupnit.

Jak llms.txt soubor implementovat

Jde o poměrně technický úkon, proto je ideální zapojit vývojáře a postupovat systematicky podle následujících tří kroků.

  1. Určete, jaký obsah chcete AI systémům zpřístupnit

Ještě před samotným vytvořením souboru si ujasněte, které části webu mají být pro AI crawlery prioritní.
Pokud plánujete llms.txt pro celý web, zaměřte se minimálně na následující sekce:

  • stránky s produkty nebo službami
  • aktuální a relevantní články na blogu
  • ceník
  • stránku „O nás“
  • kontaktní stránku

Právě tyto typy obsahu dávají AI nejrychlejší a nejpřesnější přehled o tom, čím se vaše firma zabývá, jakou hodnotu nabízí a komu pomáhá.

  1. Vytvořte soubor llms.txt

Otevřete libovolný textový editor, například Poznámkový blok, Visual Studio Code nebo jiný editor, a založte nový soubor s názvem llms.txt.

Soubor musí být zapsán ve zmíněném jazyce Markdown, což je další důvod, proč je vhodné mít u tvorby vývojáře. Markdown umožňuje jasnou strukturu a je dobře čitelný pro AI systémy.

Základní struktura může vypadat například takto:

# Název webu

> Stručné vysvětlení, čemu se web věnuje

Důležité informace:

– Hlavní odlišnost vaší nabídky

– Podstatné omezení nebo specifikum vašeho podnikání

– Další klíčový bod, který definuje vaši hodnotu

## Produkty

– [Produkt 1](https://example.com/product-1): Krátký popis hlavní funkce a přínosu

– [Produkt 2](https://example.com/product-2): Stručné vysvětlení, k čemu slouží

– [Produkt 3](https://example.com/product-3): Hlavní výhoda pro zákazníka

## Blog

– [Název článku 1](https://example.com/blog-post-1): O čem článek je a proč je užitečný

– [Název článku 2](https://example.com/blog-post-2): Stručný popis tématu a přínosu

– [Název článku 3](https://example.com/blog-post-3): Jaký problém článek řeší

## Společnost

– [O nás](https://example.com/about): Informace o firmě, misi a týmu

– [Kontakt](https://example.com/contact): Jak se s námi spojit

– [Ceník](https://example.com/pricing): Přehled plánů, funkcí a cen

Strukturu můžete samozřejmě přizpůsobit rozsahu a typu webu, důležité ale je, aby byla srozumitelná a konzistentní.

  1. Nahrajte soubor na správné místo

Hotový soubor je potřeba umístit tak, aby jej AI crawlery mohly najít.

Umístění závisí na tom, jaký rozsah má llms.txt pokrývat:

  • Pokud se vztahuje na celý web, nahrajte jej do kořenového adresáře domény, aby byl dostupný na adrese
    https://vasedomena.cz/llms.txt
  • Pokud se týká pouze dokumentace nebo konkrétní sekce, umístěte jej do odpovídajícího podadresáře, například
    https://docs.vasedomena.cz/llms.txt

Tímto krokem dáváte AI systémům jasný a strukturovaný přehled o tom, jaký obsah má pro ně největší význam a kde jej na vašem webu najdou.

Soubor llms-full.txt nabídne kompletní obsah na jednom místě

Vedle souboru llms.txt se navrhuje ještě jeho doplněk llms-full.txt. Ten by měl nabízet shrnutí vašeho webu jako celku, včetně kompletního textu, ukázkového kódu, API specifikace atd.

Tam, kde llms.txt funguje jako kurátorská mapa webu s vybranými odkazy a stručnými popisy, je llms-full.txt v podstatě zhuštěným obsahem webu najednou. Oba soubory jsou psány ve stejném jazyku Markdown.

Návrh llms-full.txt vznikl ve spolupráci společností Mintlify a Anthropic a má nabízet způsob, jak dostat celou dokumentaci k AI modelům naráz bez nutnosti složitě se probírat HTML kódem.

Oba soubory obsluhují jiné typy AI.

  • Soubor llms.txt nejlépe využijí AI boti pracující v reálném čase, kteří jej rychle zpracují, pochopí strukturu vašeho webu a rozhodnou se, kam na webu dál a kde hledat nejdůležitější obsah například k citování.
  • Soubor llms-full.txt je naopak určen pro RAG (Retrieval-Augmented Generation) systémy a kódovací asistenty (Cursor, GitHub Copilot), kteří potřebují kompletní kontext bez dalšího proklikávání.

Co se týče velikosti, llms.txt by ideálně měl zůstat pod 10 000 tokeny. U llms-full.txt jsou limity volnější a soubor do přibližně 100 KB zpracují bez problémů všechny současné modely. Nezapomeňte přitom na fakt, že modely přikládají větší váhu informacím na začátku a konci textu, takže nejdůležitější obsah patří nahoru.

Souborů llms-full.txt může být dokonce více, například větší weby a e-shopy klidně uplatní až desítky takových llms-full.txt, každý věnovaný jiné kategorii produktů. Soubor llms.txt pak zároveň slouží jako rozcestník k různým llms-full.txt.

AI agent si pak stáhne pouze to, co pro svůj dotaz skutečně potřebuje.

Podoba souboru se může lišit podle toho, zda provozujete e-shop, blog nebo web se službami. Abychom vám ušetřili práci, připravili jsme pro vás samostatné šablony přizpůsobené každému z těchto typů, připravené k vyplnění vlastním obsahem.

(Stáhnout šablonu)

Markdown verze stránek servíruje čistý obsah bez balastu

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 11

Jazykové modely se při zpracování webových stránek musí prokousat vrstvami kódu, které pro ně nemají žádnou informační hodnotu. Různá navigační menu, JavaScripty, cookie bannery a desítky vizuálních HTML prvků jsou pro pochopení vašeho obsahu umělou inteligencí zcela nepotřebná.

Verze stránek ve zmíněném formátu Markdown tento problém řeší.

Princip vychází přímo ze specifikace llms.txt a je jednoduchý. Každá stránka, která obsahuje obsah užitečný pro jazykové modely, by měla mít svou čistou Markdown verzi dostupnou na stejné URL s příponou .md.

Článek na vasedomena.cz/blog/clanek tak dostane svůj protějšek na vasedomena.cz/blog/clanek.md. Jde o prostý text se zachovanou strukturou nadpisů, bez veškerého vizuálního obalu. Tento přístup už dnes přebírají Cloudflare, Anthropic, Stripe nebo Vercel.

Aby AI crawler věděl, že čistší verze existuje, stačí do HTML hlavičky každé stránky přidat alternativní odkaz:

Tento tag funguje podobně jako hreflang pro jazykové varianty a říká crawlerům, že existuje alternativní reprezentace téhož obsahu, tentokrát optimalizovaná přímo pro jejich potřeby.

Někteří provozovatelé pak rovnou implementují automatické servírování Markdownu pro konkrétní AI boty.

Například s pomocí platformy Fern lze nastavit detekci příchozího LLM bota a nabídnout mu Markdown verzi stránky, čímž se podle dostupných dat snižuje spotřeba tokenů o zhruba 90 %.

Vlastní řešení lze postavit server-side detekcí user-agenta – při příchodu GPTBota, ClaudeBota nebo jiného AI crawleru server odpoví Markdownem namísto standardní HTML stránky. Pro větší weby s vysokou frekvencí AI návštěv to může mít i měřitelný dopad na serverovou zátěž.

Vytvořit Markdown verzi stránek není těžké a je spousta bezplatných nástrojů na konverzi HTML na Markdown, třeba https://htmlmarkdown.com/.

Markdown není jedinou možností, jak AI crawlerům servírovat obsah bez zbytečného šumu. Alternativou je redukovaný HTML – standardní stránka očištěná od navigace, reklam, cookie bannerů a dalších elementů bez přidané hodnoty pro AI.

Pro tabulková data se zase vyplatí využívat zápis JSON, nebo ještě lépe formát CSV, který dokáže ušetřit podstatné množství tokenů.

Jsou 2 verze téže stránky cloaking?

Při všem, co bylo řečeno, možná někomu vyvstává otázka – není podávání jiného obsahu různým návštěvníkům cloaking – technika, kterou Google explicitně zakazuje a která může vést k penalizaci? Odpověď je ne – za předpokladu, že obsah zůstává shodný. Cloaking nastává tehdy, když crawlerům podstrčíte odlišné informace, než které vidí uživatel, s cílem manipulovat hodnocením. Pokud ale pouze odstraňujete prezentační vrstvu a samotný text, nadpisy ani strukturální informace se nemění, jde o legitimní optimalizaci.

Markdown a ekonomie “Context Window”

Každý AI model pracuje s omezeným kontextem – množstvím textu, které dokáže najednou zpracovat a držet „v paměti“ při generování odpovědi.

Tento takzvaný context window není nekonečný a při sestavování odpovědi na dotaz ho model neplní jen vaším obsahem. Vejít se musí samotný dotaz uživatele, instrukce systému, obsah z více zdrojů současně a průběžně generovaná odpověď. Váš článek tedy od začátku soutěží o prostor s dalšími stránkami, které model považuje za relevantní.

Na tokenech záleží

Token je základní jednotka, se kterou AI modely pracují. Může jít o celé slovo, jeho část, nebo třeba jen jednotlivý znak. Každý zbytečný token, který model zpracuje bez informační hodnoty, je token, který mohl být využit pro hodnotnější obsah z vaší stránky nebo jiného zdroje.

Z hlediska psaní pro AI je důsledek ten, že nejde jen o to, co napíšete, nýbrž i o to, kolik prostoru vaše sdělení zabere. Rozvláčný úvod, opakující se závěry nebo věty plné výplňových slov jsou tokeny spotřebované bez návratu.

HTML versus Markdown

Již bylo řečeno, že standardní webová stránka v HTML představuje pro AI modely hromadu zcela zbytečných tokenů.

Markdown verze téže stránky může oproti HTML ušetřit až 90 % tokenů. Ze stejného context window tak AI vytěží výrazně více hodnotného obsahu.

Jak se AI vyhledávání stává složitějším a modely zpracovávají stále více zdrojů najednou, právě efektivní alokace tokenů a informační hustota bude čím dál více rozhodovat. O tom, který obsah se do AI odpovědí dostane a který se kontextovým oknem zkrátka neprotlačí.

Strukturovaná data aneb Jak dát obsahu význam

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 13

Přirozený jazyk je pro stroje nejednoznačný. Slovo „Apple" může označovat firmu, ovoce nebo hudební vydavatelství. Bez přidaného kontextu AI jen odhaduje, o čem je řeč.

Strukturovaná data tento problém řeší tím, že obsahu přiřazují explicitní sémantický význam. Místo aby model musel kontext dovozovat z textu, dostane přesný návod: toto je článek, napsal ho tento autor, vyšel tehdy a tehdy, toto jsou otázky a odpovědi v FAQ sekci.

Standardem, na který se dnes soustředí jak SEO, tak GEO optimalizace, je kombinace dvou věcí.

Schema.org je společný slovník vyvinutý ve spolupráci Googlu, Microsoftu, Yahoo a Yandexu. Definuje, co všechno lze popsat - například Article, Product, Person, Organization, FAQPage a stovky dalších typů - a jaké vlastnosti každý typ má. Je to jazyk, jeho gramatika i slovní zásoba zároveň.

JSON-LD (JavaScript Object Notation for Linked Data) je pak způsob, jak tímto jazykem psát. Jde o formát zápisu, který se vkládá přímo do sekce stránky jako samostatný blok kódu, oddělený od HTML struktury.

To je jeho hlavní praktická výhoda oproti starším alternativám jako Microdata nebo RDFa: JSON-LD lze upravovat a aktualizovat bez zásahu do vizuální vrstvy webu, což výrazně zjednodušuje správu i debugging.

Strukturovaná data nejsou sama o sobě izolovaným faktorem. Google i AI platformy je využívají jako jeden ze signálů důvěryhodnosti v rámci E-E-A-T hodnocení.

Správně propojená data, například schema.org/Person s atributem sameAs odkazujícím na LinkedIn nebo Google Scholar profil autora dohromady tvoří jeden z nejsilnějších technicky měřitelných signálů autority, které AI systémy dokáží zpracovat.

Strukturovaná data tedy nejsou jen navigační pomůcka pro roboty, ale aktivní součást budování důvěryhodnosti vašeho obsahu v očích jazykových modelů.

Například Article schema je typ strukturovaných dat ze slovníku Schema.org, který explicitně říká, že daná stránka obsahuje článek. Umožňuje předat klíčové informace jako název, autora, datum publikace nebo perex ve strojově čitelné podobě, bez nutnosti je odvozovat z textu. Konkrétní zápis strukturovaných dat a využití Article schematu může vypadat třeba takto:


Tento záznam obsahuje řadu informací, které pomohou AI modelům správně pochopit váš obsah. Nejprve údaje o autorovi včetně jeho odborného zaměření a odkazů na profesní profily. Dále obsahuje časové značky s přesným datem vzniku a poslední revize obsahu. Obsahový popis poskytuje stručnou anotaci, která umožňuje pochopit tematické zaměření článku. Nakonec jsou zde uvedeny i údaje o vydavateli obsahu.

Mezi další schema zápisy, bez kterých se při optimalizaci neobejdete, patří především FAQ schema. To má pro AI modely velkou hodnotu, jeho struktura totiž kopíruje způsob, jakým lidé kladou dotazy jazykovým modelům. Když uživatelé komunikují s AI, formulují své požadavky převážně jako otázky. FAQ formát přímo koresponduje s tímto komunikačním stylem a výrazně zvyšuje šanci, že AI vytáhne právě váš obsah jako odpověď na podobně položený dotaz.

Lokální podniky rozhodně musí implementovat LocalBusiness schema, které poskytuje informace o vaší adrese, kontaktech, otevírací době, atd.

A pokud provozujete třeba e-shop nebo prodáváte konkrétní produkty, pak budete zase potřebovat Product schema, které vám poslouží ke kompletní specifikaci produktu – od cenových informací a skladové dostupnosti až po zákaznická hodnocení a recenze. Díky těmto strukturovaným údajům budou AI modely schopny poskytovat uživatelům přesné a aktuální informace o vašem zboží, když se na něj kdokoliv dotáže.

Hlavní databázi tisíců různých schema zápisů najdete na adrese Schema.org.

Strukturovaná data jsou jedním z nejsilnějších signálů, které lze směrem AI platformám vysílat. Nicméně psát JSON-LD ručně je zdlouhavé a náchylné k chybám. Ke stažení jsme pro vás proto připravili šablony pro nejdůležitější typy schémat: Article, FAQ, Product, LocalBusiness a Organization, každou s komentáři přímo v kódu.

(Stáhnout šablony)

Sémantické HTML

Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 15

Každá webová stránka se skládá z bloků obsahu – hlavní text, navigace, postranní panel, zápatí, obrázky s popisky. Otázka je, zda váš kód toto rozčlenění jen vizuálně simuluje, nebo ho přímo vyjadřuje.

Sémantické HTML dělá to druhé. Je to způsob psaní kódu sloužící k označování obsahu a pomáhající ozřejmit jeho smysl a roli na stránce.

Specifické tagy sémantického HTML jako

,
Technická optimalizace webu pro AI. Jak usnadnit zpracování vašeho obsahu AI modely obrázek 21
Článek napsal
Maksym Kovryhin
zakladatel SEO agentury Topranker.cz

Ve většině agentur vám řeknou, že SEO je trvalý proces, vyžadující si dlouhodobé SEO smlouvy a měsíční paušály.

I já si zprvu myslel totéž, ačkoliv jsem při práci čím dál více začal narážet na limity tohoto řešení.

Lepším řešením jsou jednorázové soubory konkrétních prací na míru, podložené důkladnou analýzou a strategickým plánem.

S možností libovolného doobjednání dalších sprintů podle potřeby a rozpočtu, ale bez nutnosti vázat vás dlouhodobou smlouvou.

Dovolte, abych vás s nabídkou těchto účelových SEO sprintů seznámil.