Kristín Bjarnadóttir
Beygingarlýsing íslensks nútímamáls: Regluverk eða beygingardæmi

(Database of Modern Icelandic Inflection: A set of rules or inflectional paradigms)

Útdráttur
Í greininni er fjallað um Beygingarlýsingu íslensks nútímamáls (BÍN) sem er safn ríflega 270 þúsund beygingardæma, með yfir 5,8 milljón beygingarmyndum. Tilgangurinn með BÍN er margþættur og verkið er ætlað til nota í máltækni, orðabókargerð og til upplýsingar fyrir almenning á vefnum. Þrátt fyrir langa hefð í málfræðirannsóknum var ljóst frá upphafi að gögn til þess að setja fram reglukerfi fyrir íslenska beygingakerfið væru ekki tiltæk, ef markmiðið er að sýna allar og aðeins þær myndir sem raunverulega eru til í nútímamáli. Reglukerfi sem byggt er á fyrirliggjandi gögnum í upphafi verks hefði orðið bæði van- og ofvirkt, þ.e. það hefði sleppt beygingarmyndum og búið til myndir sem enginn fótur er fyrir. Vegna þessa var ákveðið að búa til gagnasafn með beygingardæmum þar sem allar myndir eru vistaðar. Í greininni er sagt frá vinnulagi við gerð BÍN og heimildum. Í upphafi var orðaforðinn í BÍN fenginn úr orðabókarefni en með tilkomu Markaðrar íslenskrar málheildar (MÍM) gefst í fyrsta sinn tækifæri til að skoða beygingarkerfið í ljósi raungagna svo nokkru nemi. Niðurstaða af samanburði á BÍN og MÍM er sú að stærð markamengisins valdi gagnaskorti og því er tæplega hægt að lýsa íslenska beygingarkerfinu eingöngu út frá málheild.

Abstract
The topic of the article is the Database of Modern Icelandic Inflection (DMII), a collection of about 270 thousand paradigms with over 5.8 million inflectional forms. The DMII was created as a multipurpose resource, for use in language technology, lexicography, and as a reference tool for the general public online. In spite of a long tradition of morphological research, it was clear from the beginning that the necessary data for a productive rule system for Icelandic inflection was not available, in a manner that would produce all and only the appropriate inflectional forms. The result is therefore a database containing the full set of inflectional forms, with grammatical tags. The article contains a description of the creation of the DMII and it’s sources, initially almost completely lexicographic. The creation of the Tagged Icelandic Corpus (MÍM) has, for the first time, made an empirical study of Icelandic inflection possible, but comparison of the data from the DMII and MÍM shows that data scarcity makes it imperative to use both kinds of data for a thorough description of the inflectional system, due to the huge tag set in a very rich inflectional system.