Nahrajte Word, PDF, tabulky nebo stažený e-mail a stáhněte čisté Markdown soubory připravené pro
vektorové vyhledávání.
Normalizátor sjednotí strukturu dokumentů do konzistentních nadpisů a bloků, odstraní rušivé
opakování a zachová tabulky. **Nově podporuje i skenované dokumenty (OCR)**, které převede na
strukturovaný text. Umí vytěžit i stažený e-mail ve formátu .eml
nebo e-booky .epub. Výsledkem jsou čisté Markdown soubory
připravené pro RAG ingest.
Poznámka k tabulkám: U digitálních PDF a Wordu jsou tabulky převáděny
velmi přesně. U skenovaných dokumentů je rozpoznávání tabulek technicky náročné – pokud
jsou pro vás data v tabulkách kritická, doporučujeme preferovat originální digitální dokumenty.