Zpravodaj Československého sdružení uživatelů TEXu, ISSN 1211-6661, eISSN 1213-8185, http://bulletin.cstug.cz/
Issue homepage: http://bulletin.cstug.cz/bul20043-4.shtml, URL to PDF: http://bulletin.cstug.cz/pdf/bul_0434.pdf
Volume 14, Number 3–4, pages 183189, 2004. BibTEX source; DOI:10.5300/2004-3-4/183
Published by CSTUG, printed and distributed by Konvoj, s. r. o.
Slovak Hyphenation Patterns: a Time for Change? (in Czech)
Abstract: Word hyphenation or algorithmic segmentation of high number of strings is problem tackled more often than looks on the first sight. Freely available Slovak hyphenation patterns are based only on the definition of syllables, without coverage of high number of exceptions. We have collected and hyphenated more than million Slovak word forms and generated new hyphenation patterns for Slovak by the program PatGen. New patterns cover all known exceptions so far. The result is usable not only in TEX distributions, but also in other systems as OpenOffice.org. We discuss techniques used in the pattern development: bootstrapping, stratification and argue for much wider use of these techniques.
Slovenské vzory dělení slov: čas pro změnu?
Abstrakt: Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TEXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.
Author
Petr Sojka
Cited-by CrossRef


Webpage prepared by editors of the journal.