(s Miroslavem Kubátem): Vocabulary Richness Measure in Genres
In Journal of Quantitative Linguistics 4/20 (2013).
(Rozdíl velikosti slovníku v různých žánrech)
Článek se týká bohatosti slovníku, jedné z nejstarších veličin kvantitativní lingvistiky. Existuje sice spousta metod a metrik na její měření, nicméně všechny závisí na velikosti textu. Autoři navrhují nový způsob měření, který na délce textu závislý není. V druhé části článku je tato metoda použita k žánrové analýze Čapkových textů. Dále se práce zaměřuje na rozdíly mezi žánry a mezi autory.
Vocabulary Richness Measure in Genres.
Software, který je v článku použit, je ke stažení
zde.
Rank-frequency Relation and Type-token Relation: Two Sides of the Same Coin
In Ivan Obradović, Emmerich Kelih and Reinhard Kohler (Eds.) Methods and Applications of Quantitative Linguistics - Selected papers of the 8th International Conference on Quantitative Linguistics (QUALICO). 2013
(Distribuce slov a vztah tokenů a typů: Dvě strany jedné mince)
Článek založený na stejnojmenné prezentaci na konferenci QUALICO 2012 v Bělehradě.
V tomto článku se ukazuje, že type-token relation, hapax-token relation a obecně jakýkoli vztah mezi typy o různé frekvenci a tokeny mohou být spočítány z distribuce typů v textu, taktéž type token relation může být spočten z hapax-token relation. Není k tomu třeba žádné aproximace a tyto vzorce mohou být odvozeny čistě algebraicky. Druhá část článku zachycuje skutečnost, že pro velmi velké korpusy konverguje poměr mezi počtem hapaxů a celkovým počtem typů ke konstantě >Z, která je větší než nula. Tod touto podmínkou pak je konstruována aproximace, která umožňuje předpovídat hodnoty zmíněných funkcí z jediného parametru
Z. Poslední kapitola ukazuje, že tento předpoklad vede při nekonečném počtu tokenů k počtu typů limitně se blížícímu nekonečnu.
Rank-frequency Relation and Type-token Relation: Two Sides of the Same Coin.
Software, který je n atomto modelu založen je ke stažení
zde
Minimal Ratio: An Exact Metric for Keywords, Collocations etc.
In Czech and Slovak Linguistic Review 1/2012.
(Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.)
Tento článek definuje
minimální poměr a ukazuje, jak jej používat.
Minimálním poměr je exaktní metrika, která vyjadřuje poměr mezi změřenou hodnotou a jí bližší mezí konfidenčního intervalu spočítaného pomocí vzorce, který užívá Fisherův exaktní text. Tato metrika byla vyvinuta, aby pomáhala automaticky hledat významné kolokace, klíčová slova a porovnávat texty nebo korpusy podle distribuce slovních typů nebo podobných měřítek.
Software, který tuto metriku používá je ke stažení
zde
Minimal Ratio: An Exact Metric for Keywords, Collocations etc.
S Janem Chromým: Experimentální zkoumání stylotvorných faktorů: první výstupy
In Naše řeč 95/4(2012).
Roku 2010 jsme uskutečnili experiment zaměřený na výzkum role stylotvorného faktoru připravenost/nepřipravenost v produkci psaného textu. Tento stylotvorný faktor jsme si vybrali z toho důvodu, že je poměrně snadno operacionalizovatelný (i když jsou s tím spojeny jisté teoreticko-metodologické problémy) a že se o něm ve zkoumání psaní dosud moc neuvažovalo (lze říci, že zatímco se rozlišuje připravené a nepřipravené mluvení, spojuje se psaní obvykle s připraveností). Cílem popisovaného výzkumu tedy bylo zjistit, jestli připravenost/nepřipravenost jako stylotvorný faktor má vliv na to, jak vzniká psaný text a na jeho výslednou podobu.
Odkaz
Valency and Information Structure: A quantitative approach to from – to juxtaposition in Arabic
In Proceedings of CL Birmingham 2011.
(Valence a informační struktura aneb Kvantitativní přístup k jextapozici
z –
do v arabštině)
Článek založený na prezentaci přednesené na konferenci v Birminghamu v létě 2011.
V arabštině není vzájemný pořádek slov ve větě ani pevně daný, ani libovolný, což se vztahuje i na vzájemnou pozici předložkových frází závislých na jednom slovese či jméně. Tento článek odhaluje faktory, na kterých závisí pořadí předložek
z a
do. Prozkoumáno je mnoho faktorů syntaktických, morfologických a fonologických.
Dostupné ze
stránek konference, nebo z
těchto stránek.
A Combinatorial Method for a Context Comparison
In Issues in Quantitative Linguistics 2. Lüdenscheid 2011.
Kombinatorická metoda pro porovnávání kontextů
Porovnávání užití dvou slov (dvou slovních typů) v rámci jednoho textu je možno udělat porovnáním kontextů, ve kterých se objevují. Vybereme všechny tokeny, které se objevují například v bezprostředním pravém kontextu typu A a v bezprostředním pravém kontextu typu B, čímž dostaneme dvě podmultimnožiny textu. Tento článek nabízí metodu pro porovnávání takových podmultimnožin (a tedy jeho dopad není omezen pouze pro lingvistiku). Tato metoda je založena na porovnávání kardinality průniku dvou podmultimnožin a modelu, který udává průměrnou kardinalitu všech možných podmultimnožin dané délky a dané multimnožiny (textu). Tento model je odvozen algebraicky.
Budování česko-arabského paralelního korpusu
In Mnohojazyčný korpus Intercorp: Možnosti studia. Nakladatelství Lidových novin, Praha 2010
Článek stručně charakterizuje problémy vznikající při tvorbě česko-arabského paralelního korpusu a jejich příčiny. Poté představuje nástroje, díky kterým je možné se s nimi částečně vypořádat. Prvním z nich je program, jenž segmentuje arabský text na věty (na základě algoritmu, který respektuje arabské zvyklosti při kladení interpunkce a pokouší se vypořádat s jejich značnou variabilitou) a druhým program, který zefektivňuje ruční větné zarovnávání paralelních textů; následuje popis algoritmu, který texty zarovnává semiautomaticky. Závěrem jsou nastiňovány cesty dalšího vývoje.
Type-token & Hapax-token Relation: A Combinatorial Model
In Glottotheory. International Journal of Theoretical Linguistics 2/1 (2009).
Velikost lexikonu a počet hapaxů v něm v závislosti na délce textu
Článek obsahující exaktní vzorec pro výpočet vztahu typů a tokenů z jakékoli distribuce typů z textu. Tento vzorec je dále zobecněn pro hapaxy a vůbec jakékoli typy o určité frekvenci. lidově řečeno, článek ukazuje, že pro homogenní text je křivka, kterou popisuje Herdanův (Heapsův) zákon odvoditelná z křivky, kterou popisuje zákon Zipfův.)
20. 8. 2008;
Software založený na vzorcích z této publikace.
Type-token & Hapax-token Relation: A Combinatorial Model.
Knihtisk v dějinách islámské kultury.
In Nový orient 64/2 (2009).
Tato studie odpovídá na závažné otázky spojené s absencí knihtisku pracujícího s arabskými typy na Blízkém východě a srovnává síly a ideje, které bránily
jeho rozšíření s překážkami, které musel překonat knihtisk v Evropě. Dále mapuje
historii arabské typografie a publikační činnosti od nesmělých evropských
experimentů, přes rozkvět, kterého se jí dostalo v područí církví a evropských
univerzit, až po její implementaci na Blízkém východě zásluhou křesťanských
menšin a reformních snah turecké státní moci.
9. 5. 2007;
Plná verze: Cesta k arabskému knihtisku na Blízkém východě.
2009 Krácená verze publikovaná v časopise Nový Orient (64/2),
Knihtisk v dějinách islámské kultury.
Studentské práce
Nabíl Na''úm Gorgí a jeho Sen otroka
Tato studie textologicky kvantitativně analyzuje formu a vyprávěcí techniky povídky Nabíla Na''úma Gorgího
Hilmu 'l-'abd (Sen otroka). Poté se zaměřuje na postupný rozbor jejích jednotlivých prvků, ať již jsou řazeny lineárně, nebo zaujímají suprasegmentální pozici. V poslední fázi je proveden pokus o interpretace. Studie může sloužit jako pomůcka pro překladatele, inspirační zdroj pro syntetickou práci o díle tohoto významného egyptského autora, popřípadě jako příspěvek k technice literární vědy, neboť některé metody kvantitativní lingvistiky jsou na tomto poli aplikovány vůbec poprvé.
2. 12. 2008;
0,25 MB
Přílohy:
12 MB
Listina XVIII G 199 Národní knihovny v Praze: Soubor islámských magických čtverců
Tato studie předkládá edici listiny uchovávané v Národní knihovně v Praze pod
signaturou XVIII G 199. Tato listina obsahuje magické čtverce původem z islámského kuturního areálu a arabské okultní texty. Vzhledem k jejímu značnému
poškození bylo nutno některé informace doplnit, část však již byla nerekonstruovatelná. Edici doprovází poznámkový aparát usnadňující interpretaci. Poslední
kapitola je věnována diskusi k účelu listiny; ta zřejmě sloužila jako talisman,
ovšem nejsou vyloučeny ani jiné způsoby využití.
2. 8. 2008;
Plná verze
Parodia canonica v islámu
Práce si klade otázku: Do jaké míry může muslim parodovat posvátno? Popřípadě jaké duchovní prvky může v parodii použít? Nepouští se do laciných aktualizací, jako metodologické východisko používá Zrcadlo skutečnosti Eduarda Petrů a jeho postupy aplikuje pozitivně na korpus vybraných literárních děl islámské kulturní oblasti.
15. 4. 2008;
Plná verze
Předběžná studie k větnému zarovnávání česko-arabského paralelního korpusu
Tato práce hledá metody, na kterých by bylo možno založit úspěšný algoritmus pro automatické větné zarovnávání arabsko-českého paralelního korpusu. První část se věnuje možnostem využití kvantitativních jazykových charakteristik na fonologické úrovni, následuje
rozbor úrovně morfologické a posléze se pohybuje na hladině lemmat
a slov. Tato data jsou interpretována a doplněna úvahami o
možnostech aplikace získaných poznatků a o dalším směřování takového výzkumu.
* * *