Polish language, and some irregular verbs as well.
Additionally, verbs conjugate according to person
and tense while verb tenses are additionally
modified by aspect. Stem of the verb is conjugation
sensitive, and changes according to person, tense
and aspect, like for example for irregular verb być –
to be (Słownik SJP – an digital dictionary of Polish):
być, bądź, bądźcie, bądźcież, bądźmy, bądźmyż,
bądźże, będą, będąc, będąca, będącą, będące,
będącego, będącej, będącemu, będący, będących,
będącym, będącymi, będę, będzie, będziecie,
będziemy, będziesz, bycia, byciach, byciami, bycie,
byciem, byciom, byciu, byli, byliby, bylibyście,
bylibyśmy, byliście, byliśmy, był, była, byłaby,
byłabym, byłabyś, byłam, byłaś, byłby, byłbym,
byłbyś, byłem, byłeś, było, byłoby, byłobym, byłobyś,
byłom, byłoś, były, byłyby, byłybyście, byłybyśmy,
byłyście, byłyśmy, byto, jest, jestem, jesteś, jesteście,
jesteśmy, niebędąca, niebędącą, niebędące,
niebędącego, niebędącej, niebędącemu, niebędący,
niebędących, niebędącym, niebędącymi, niebycia,
niebyciach, niebyciami, niebycie, niebyciem,
niebyciom, niebyciu, niebyć, są
or for regular verb brać – to take:
brać, bierz, bierzcie, bierzcież, bierze, bierzecie,
bierzemy, bierzesz, bierzmy, bierzmyż, bierzże,
biorą, biorąc, biorąca, biorącą, biorące, biorącego,
biorącej, biorącemu, biorący, biorących, biorącym,
biorącymi, biorę, brali, braliby, bralibyście,
bralibyśmy, braliście, braliśmy, brał, brała, brałaby,
brałabym, brałabyś, brałam, brałaś, brałby,
brałbym, brałbyś, brałem, brałeś, brało, brałoby,
brałobym, brałobyś, brałom, brałoś, brały, brałyby,
brałybyście, brałybyśmy, brałyście, brałyśmy, brana,
braną, brane, branego, branej, branemu, brani,
brania, braniach, braniami, branie, braniem,
braniom, braniu, brano, brany, branych, branym,
branymi, brań, niebiorąca, niebiorącą, niebiorące,
niebiorącego, niebiorącej, niebiorącemu,
niebiorący, niebiorących, niebiorącym,
niebiorącymi, niebrana, niebraną, niebrane,
niebranego, niebranej, niebranemu, niebrani,
niebrania, niebraniach, niebraniami, niebranie,
niebraniem, niebraniom, niebraniu, niebrany,
niebranych, niebranym, niebranymi, niebrań.
3.2 Noun and an Adjective
Also Polish declension, despite of being quite
complex, offers quite a lot of irregularities. Polish
nouns and adjectives are inflected by cases, genders
and number. There are seven cases, two number
classes, and three main genders: masculine (with
subclasses: personal in sing., non-personal animate,
non-personal inanimate in pl.) feminine, and neutral.
Cases combined by number and gender create
seventeen declension types. Noun declension
inflects not only suffixes, but it may also derive the
root, e.g. człowiek (a man), N. sg. to ludzie, N. pl.
All grammatical forms of noun człowiek (a man) are
as follow:
człowiek, człowiecze, człowieka, człowiekiem,
człowiekowi, człowieku, ludzi, ludziach, ludzie,
ludziom, ludźmi.
It its worth to mention that personal names in
Polish are also subject to declension rules.
Due the complex morphology of Polish language
using a stemmer for Polish texts classification task is
not the best choice. There are few stemmers for
Polish, though even for classical Information
Retrieval task stemmed does not appear to increase
the effectivity of pre-processing tasks. Much better,
in subject (topic) or stylometric classification,
performs lemmatizing approach, transforming any
word in text into its basic, grammatical form – a
lemma, i.e. nominative singular for nouns, for
example.
4 POLISH TEXTS COLLECTION
A corpus of press news has been prepared for the
research. Each of the document was manually
categorized according to at least two, out of three
classification systems, i.e.: internal categories of
press agency, subject categories and IPTC subject
codes (News Categories Taxonomy for the Media:
https://iptc.org/standards/subject-codes/).
For the classifiers training we composed a sub-
corpus, consisting of documents assigned to one of
the following five classes, of comparable sizes in
documents noumbers: diplomacy: 1082 docs., sport:
1823, disasters and accidents: 1052, economy,
business and finances: 1522 and transportation:
1085. Altogether there are 6564 documents. Average
size of a document was 267 words. As a main class
indicator, internal categories of press agency were
used for their descriptive and comprehensive
contents. Over documents from this sub-corpus we
conducted a series of TC experiments described in
the next section.
5 EXPERIMENTS, RESULTS AND
EVALUATION
The documents from training corpus were used to
Polish Texts Topic Classification Evaluation
517