Studie a práce

Články
Is the Distribution of L-Motifs Inherited from the Word Lengths Distribution?
In Sequences in language and text (2015).

Je distribuce L-motivů zděděná z distribuce délek slov?
Distribuce L-motivů měřená na textu T je podobná distribuci L-motivů změřené na pseudotextu T', který je konstruován náhodnou tranpozicí všech slovních tokenů textu T. Toto zjištění nás navádí k doměnce, že distribuce L-motivů je bezezbytku vysvětlitelná distribucí slov v daném textu. Článek jasně ukazuje, že vzdor této podobnosti je detekovatelná struktura l-motivů, kterou pouhá distribuce délek slov nemůže vysvětlit. Je distribuce L-motivů zděděná z distribuce délek slov?.

Menzerath's Law: The whole is greater than the sum of its parts.
In Journal of Quantitative Linguistics 2/21 (2014).

Menzerathův zákon: Celek je větší než součet jeho částí
V roce 1984 Reinhard Köhler předložil myšlenku, že textové segmenty, které mají být zpracovány lidskou myslí, se skládají z prosté informace (která má být komunikována) a ze strukturní informace a že tato skutečnost může vysvětlit existenci Menzerathova zákona. Tento článek staví na předpokladu, že množství strukturní informace v segmentu je nezávislé na množství prosté informace. Na tomto předpokladu může být založen nový model vnořených textových struktur, potažmo Menzerathova zákona. Vzorec odvozený z tohoto předpokladu je empiricky testován a srovnán s klasickým Menzerath-Altmannovým zákonem.
Menzerath's Law: The whole is greater than the sum of its parts.

Konfidenční intervaly v empirické lingvistice.
In Lingvistika Praha 2014.

Tento článek si klade za cíl uvedení konfidenčních intervalů do (zejména české) empirické lingvistiky. Nejprve je pojednáno o klasických inferenčních testech a jejich neschopnosti určit signifikanci v opravdovém světě. Dále jsou definovány konfidenční intervaly a popsána základní myšlenka výpočtu konfidenčních intervalů pro binární opozice. Dále je ukázáno, jak mohou být konfidenční intervaly použity při zkoumání vztahů dvou proměnných. Poslední část práce se zabývá relevancí této metody pro český lingvistický diskurz.
Konfidenční intervaly v empirické lingvistice..

(S Georgiem Mikrem) Distribution of the Menzerath’s Law on the Syllable Level in Greek texts.
In Gabriel Altmann, Radek Čech, Ján Mačutek, Ludmila Uhlířová (eds.) Empirical Approaches to Text and Language Analysis. RAM-Verlag 2014 Lüdenscheid.

Distribuce hodnot Menzerathova zákona na úrovni slabik v novořeckých textech
Při zkoumání velkého novořeckého korpusu jsme zjistili, že průměrná délka slabik dvouslabičných slov je nižší než průměrná délka slabik ve slovech jednoslabičných a zároveň nižší než průměrná délka slabik ve slovech trojslabičných. Toto velmi podivné zjištění může být interpretováno jako protipříklad Menzerathova zákona na úrovni slabik.
Distribution of the Menzerath’s Law on the Syllable Level in Greek texts.

Quotations, Relevance and Time Depth: Medieval Arabic Literature in Grids and Networks.
In Proceedings of the 3rd Workshop on Computational Linguistics for Literature (CLfL)(2014)

Relevance jednotlivých děl dané literatury a časová hloubka této relevance je zajímavá ze spousty důvodů. A také je mnoho metod, které tuto relevanci odkrývají. Tento příspěvek je založen na extrakci citátů, jak přiznaných tak nepřiznaných v rámci 420 milionového diachronního arabského korpusu. Je k tomu použit algoritmus, který je tolerantní k drobným lexikálním změnám i změnám ve slovosledu. Z opakujících se citátů je utvořena citační síť, která je posléze užita k interpretaci různých aspektů arabské literatury. Prezentovány jsou též dvě případové studie, na kterých se ukazuje, jak lze interpretovat centralitu děl v síti a jejich impakt v čase.
Quotations, Relevance and Time Depth.

(s Miroslavem Kubátem): Vocabulary Richness Measure in Genres
In Journal of Quantitative Linguistics 4/20 (2013).

(Rozdíl velikosti slovníku v různých žánrech) Článek se týká bohatosti slovníku, jedné z nejstarších veličin kvantitativní lingvistiky. Existuje sice spousta metod a metrik na její měření, nicméně všechny závisí na velikosti textu. Autoři navrhují nový způsob měření, který na délce textu závislý není. V druhé části článku je tato metoda použita k žánrové analýze Čapkových textů. Dále se práce zaměřuje na rozdíly mezi žánry a mezi autory. Vocabulary Richness Measure in Genres. Software, který je v článku použit, je ke stažení zde.

Rank-frequency Relation and Type-token Relation: Two Sides of the Same Coin
In Ivan Obradović, Emmerich Kelih and Reinhard Kohler (Eds.) Methods and Applications of Quantitative Linguistics - Selected papers of the 8th International Conference on Quantitative Linguistics (QUALICO). 2013

(Distribuce slov a vztah tokenů a typů: Dvě strany jedné mince)
Článek založený na stejnojmenné prezentaci na konferenci QUALICO 2012 v Bělehradě. V tomto článku se ukazuje, že type-token relation, hapax-token relation a obecně jakýkoli vztah mezi typy o různé frekvenci a tokeny mohou být spočítány z distribuce typů v textu, taktéž type token relation může být spočten z hapax-token relation. Není k tomu třeba žádné aproximace a tyto vzorce mohou být odvozeny čistě algebraicky. Druhá část článku zachycuje skutečnost, že pro velmi velké korpusy konverguje poměr mezi počtem hapaxů a celkovým počtem typů ke konstantě Z, která je větší než nula. Tod touto podmínkou pak je konstruována aproximace, která umožňuje předpovídat hodnoty zmíněných funkcí z jediného parametru Z. Poslední kapitola ukazuje, že tento předpoklad vede při nekonečném počtu tokenů k počtu typů limitně se blížícímu nekonečnu.
Rank-frequency Relation and Type-token Relation: Two Sides of the Same Coin. Software, který je n atomto modelu založen je ke stažení zde

Minimal Ratio: An Exact Metric for Keywords, Collocations etc.
In Czech and Slovak Linguistic Review 1/2012.

(Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.)
Tento článek definuje minimální poměr a ukazuje, jak jej používat. Minimálním poměr je exaktní metrika, která vyjadřuje poměr mezi změřenou hodnotou a jí bližší mezí konfidenčního intervalu spočítaného pomocí vzorce, který užívá Fisherův exaktní text. Tato metrika byla vyvinuta, aby pomáhala automaticky hledat významné kolokace, klíčová slova a porovnávat texty nebo korpusy podle distribuce slovních typů nebo podobných měřítek.
Software, který tuto metriku používá je ke stažení zde
Minimal Ratio: An Exact Metric for Keywords, Collocations etc.

S Janem Chromým: Experimentální zkoumání stylotvorných faktorů: první výstupy
In Naše řeč 95/4(2012).

Roku 2010 jsme uskutečnili experiment zaměřený na výzkum role stylotvorného faktoru připravenost/nepřipravenost v produkci psaného textu. Tento stylotvorný faktor jsme si vybrali z toho důvodu, že je poměrně snadno operacionalizovatelný (i když jsou s tím spojeny jisté teoreticko-metodologické problémy) a že se o něm ve zkoumání psaní dosud moc neuvažovalo (lze říci, že zatímco se rozlišuje připravené a nepřipravené mluvení, spojuje se psaní obvykle s připraveností). Cílem popisovaného výzkumu tedy bylo zjistit, jestli připravenost/nepřipravenost jako stylotvorný faktor má vliv na to, jak vzniká psaný text a na jeho výslednou podobu.
Odkaz

Valency and Information Structure: A quantitative approach to from – to juxtaposition in Arabic
In Proceedings of CL Birmingham 2011.

(Valence a informační struktura aneb Kvantitativní přístup k jextapozici z – do v arabštině)
Článek založený na prezentaci přednesené na konferenci v Birminghamu v létě 2011. V arabštině není vzájemný pořádek slov ve větě ani pevně daný, ani libovolný, což se vztahuje i na vzájemnou pozici předložkových frází závislých na jednom slovese či jméně. Tento článek odhaluje faktory, na kterých závisí pořadí předložek z a do. Prozkoumáno je mnoho faktorů syntaktických, morfologických a fonologických.
Dostupné ze stránek konference, nebo z těchto stránek.

A Combinatorial Method for a Context Comparison
In Issues in Quantitative Linguistics 2. Lüdenscheid 2011.

Kombinatorická metoda pro porovnávání kontextů
Porovnávání užití dvou slov (dvou slovních typů) v rámci jednoho textu je možno udělat porovnáním kontextů, ve kterých se objevují. Vybereme všechny tokeny, které se objevují například v bezprostředním pravém kontextu typu A a v bezprostředním pravém kontextu typu B, čímž dostaneme dvě podmultimnožiny textu. Tento článek nabízí metodu pro porovnávání takových podmultimnožin (a tedy jeho dopad není omezen pouze pro lingvistiku). Tato metoda je založena na porovnávání kardinality průniku dvou podmultimnožin a modelu, který udává průměrnou kardinalitu všech možných podmultimnožin dané délky a dané multimnožiny (textu). Tento model je odvozen algebraicky.

Budování česko-arabského paralelního korpusu
In Mnohojazyčný korpus Intercorp: Možnosti studia. Nakladatelství Lidových novin, Praha 2010

Článek stručně charakterizuje problémy vznikající při tvorbě česko-arabského paralelního korpusu a jejich příčiny. Poté představuje nástroje, díky kterým je možné se s nimi částečně vypořádat. Prvním z nich je program, jenž segmentuje arabský text na věty (na základě algoritmu, který respektuje arabské zvyklosti při kladení interpunkce a pokouší se vypořádat s jejich značnou variabilitou) a druhým program, který zefektivňuje ruční větné zarovnávání paralelních textů; následuje popis algoritmu, který texty zarovnává semiautomaticky. Závěrem jsou nastiňovány cesty dalšího vývoje.

Type-token & Hapax-token Relation: A Combinatorial Model
In Glottotheory. International Journal of Theoretical Linguistics 2/1 (2009).

Velikost lexikonu a počet hapaxů v něm v závislosti na délce textu

Článek obsahující exaktní vzorec pro výpočet vztahu typů a tokenů z jakékoli distribuce typů z textu. Tento vzorec je dále zobecněn pro hapaxy a vůbec jakékoli typy o určité frekvenci. lidově řečeno, článek ukazuje, že pro homogenní text je křivka, kterou popisuje Herdanův (Heapsův) zákon odvoditelná z křivky, kterou popisuje zákon Zipfův.)
20. 8. 2008;
Software založený na vzorcích z této publikace.
Type-token & Hapax-token Relation: A Combinatorial Model.

Knihtisk v dějinách islámské kultury.
In Nový orient 64/2 (2009).

Tato studie odpovídá na závažné otázky spojené s absencí knihtisku pracujícího s arabskými typy na Blízkém východě a srovnává síly a ideje, které bránily jeho rozšíření s překážkami, které musel překonat knihtisk v Evropě. Dále mapuje historii arabské typografie a publikační činnosti od nesmělých evropských experimentů, přes rozkvět, kterého se jí dostalo v područí církví a evropských univerzit, až po její implementaci na Blízkém východě zásluhou křesťanských menšin a reformních snah turecké státní moci.
9. 5. 2007; Plná verze: Cesta k arabskému knihtisku na Blízkém východě.
2009 Krácená verze publikovaná v časopise Nový Orient (64/2)

Studentské práce
Nabíl Na''úm Gorgí a jeho Sen otroka

Tato studie textologicky kvantitativně analyzuje formu a vyprávěcí techniky povídky Nabíla Na''úma Gorgího Hilmu 'l-'abd (Sen otroka). Poté se zaměřuje na postupný rozbor jejích jednotlivých prvků, ať již jsou řazeny lineárně, nebo zaujímají suprasegmentální pozici. V poslední fázi je proveden pokus o interpretace. Studie může sloužit jako pomůcka pro překladatele, inspirační zdroj pro syntetickou práci o díle tohoto významného egyptského autora, popřípadě jako příspěvek k technice literární vědy, neboť některé metody kvantitativní lingvistiky jsou na tomto poli aplikovány vůbec poprvé.
2. 12. 2008; 0,25 MB
Přílohy: 12 MB

Listina XVIII G 199 Národní knihovny v Praze: Soubor islámských magických čtverců

Tato studie předkládá edici listiny uchovávané v Národní knihovně v Praze pod signaturou XVIII G 199. Tato listina obsahuje magické čtverce původem z islámského kuturního areálu a arabské okultní texty. Vzhledem k jejímu značnému poškození bylo nutno některé informace doplnit, část však již byla nerekonstruovatelná. Edici doprovází poznámkový aparát usnadňující interpretaci. Poslední kapitola je věnována diskusi k účelu listiny; ta zřejmě sloužila jako talisman, ovšem nejsou vyloučeny ani jiné způsoby využití.
2. 8. 2008; Plná verze

Parodia canonica v islámu

Práce si klade otázku: Do jaké míry může muslim parodovat posvátno? Popřípadě jaké duchovní prvky může v parodii použít? Nepouští se do laciných aktualizací, jako metodologické východisko používá Zrcadlo skutečnosti Eduarda Petrů a jeho postupy aplikuje pozitivně na korpus vybraných literárních děl islámské kulturní oblasti.
15. 4. 2008; Plná verze

Předběžná studie k větnému zarovnávání česko-arabského paralelního korpusu

Tato práce hledá metody, na kterých by bylo možno založit úspěšný algoritmus pro automatické větné zarovnávání arabsko-českého paralelního korpusu. První část se věnuje možnostem využití kvantitativních jazykových charakteristik na fonologické úrovni, následuje rozbor úrovně morfologické a posléze se pohybuje na hladině lemmat a slov. Tato data jsou interpretována a doplněna úvahami o možnostech aplikace získaných poznatků a o dalším směřování takového výzkumu.

* * *

Studie a práce

ČlánkyIs the Distribution of L-Motifs Inherited from the Word Lengths Distribution? In Sequences in language and text (2015).

Menzerath's Law: The whole is greater than the sum of its parts. In Journal of Quantitative Linguistics 2/21 (2014).

Konfidenční intervaly v empirické lingvistice. In Lingvistika Praha 2014.

(S Georgiem Mikrem) Distribution of the Menzerath’s Law on the Syllable Level in Greek texts. In Gabriel Altmann, Radek Čech, Ján Mačutek, Ludmila Uhlířová (eds.) Empirical Approaches to Text and Language Analysis. RAM-Verlag 2014 Lüdenscheid.

Quotations, Relevance and Time Depth: Medieval Arabic Literature in Grids and Networks.In Proceedings of the 3rd Workshop on Computational Linguistics for Literature (CLfL)(2014)

Rank-frequency Relation and Type-token Relation: Two Sides of the Same Coin In Ivan Obradović, Emmerich Kelih and Reinhard Kohler (Eds.) Methods and Applications of Quantitative Linguistics - Selected papers of the 8th International Conference on Quantitative Linguistics (QUALICO). 2013

Minimal Ratio: An Exact Metric for Keywords, Collocations etc.In Czech and Slovak Linguistic Review 1/2012.

S Janem Chromým: Experimentální zkoumání stylotvorných faktorů: první výstupyIn Naše řeč 95/4(2012).

Valency and Information Structure: A quantitative approach to from – to juxtaposition in ArabicIn Proceedings of CL Birmingham 2011.

A Combinatorial Method for a Context Comparison In Issues in Quantitative Linguistics 2. Lüdenscheid 2011.

Budování česko-arabského paralelního korpusuIn Mnohojazyčný korpus Intercorp: Možnosti studia. Nakladatelství Lidových novin, Praha 2010

Type-token & Hapax-token Relation: A Combinatorial Model In Glottotheory. International Journal of Theoretical Linguistics 2/1 (2009).

Knihtisk v dějinách islámské kultury. In Nový orient 64/2 (2009).

Studentské práceNabíl Na''úm Gorgí a jeho Sen otroka