Risamálheildin

Sækja nýjustu útgáfu hér.

Risamálheildin (RMH) er mörkuð málheild sem þýðir að hverri orðmynd fylgir uppflettimynd (e. lemma), t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna, og greiningarstrengur eða mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar. Málheildin er ætluð til málfræðirannsókna og til notkunar í máltækniverkefnum.

Vinna við verkið hófst á Stofnun Árna Magnússonar í íslenskum fræðum árið 2015. Stöðugt er unnið að textasöfnun fyrir málheildina og gefin er út ný útgáfa á hverju ári með nýjum textum. Nýjasta útgáfa málheildarinnar inniheldur texta sem komu út til loka árs 2019. Í henni eru um 1550 milljónir lesmálsorða. Hluti textanna í málheildinni eru opinberir textar (t.d. Alþingisræður sem ná aftur til ársins 1911, lagatexti, dómar) en málheildin inniheldur einnig stór textasöfn frá ýmsum fjölmiðlum og ýmsa texta úr textasafni Stofnunar Árna Magnússonar í íslenskum fræðum.

Til þess að unnt sé að nota málheildina í máltækniverkefnum er lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Upphaflega var miðað við að afla leyfa frá rétthöfum til þess að veita aðgang að textunum með leyfi sem samtökin Creative Commons hafa skilgreint. Ekki gátu allir rétthafar samþykkt þá skilmála. Textum málheildarinnar er því skipt í tvo hluta, RMH1 og RMH2. Í RMH1 eru textar sem veittur er aðgangur að með sérstöku leyfi sem byggist á leyfi sem var útbúið fyrir texta Markaðrar íslenskrar málheildar (MÍM). Í RMH2 eru opinberir textar og textar sem sem hægt er að nota með CC BY leyfi. Allir rétthafar hafa samþykkt að veita afnotarétt af textum sínum án þess að greiðsla komi fyrr. Þegar Mörkuð íslensk málheild var gerð var útbúin sérstök samþykkisyfirlýsing með aðstoð lögfræðings sem var notuð með nauðsynlegum breytingum við gerð RMH1 og rétthafar sem samþykktu ekki CC BY leyfið undirrituðu.

Málheildin er unnin með sjálfvirkum aðferðum. Textum RMH er skipt upp í setningar og orðmyndir sem eru síðan markaðar og lemmaðar. Mörk og lemmur eru ekki leiðrétt handvirkt.

Undirmálheildir

...

Leyfi

Málheildin er gefin út í tveimur pökkum vegna ólíkra leyfa á textunum. Um helmingur málheildarinnar er gefinn út með CC BY 4.0 leyfi og hinn helmingurinn með sérstöku leyfi.

Munurinn á þessum leyfum felst fyrst og fremst í því að texta sem eru gefnir út með sérstöku leyfi er óheimilt að endurbirta. Bæði leyfin bjóða þó upp á að textarnir séu nýttir í gerð og útgáfu málfræðilegra líkana og notkun í öðrum máltæknilegum tilgangi og málfræðirannsóknum.

Útgáfur

Nýjasta útgáfa málheildarinnar er útgáfa 20.05. Sækja RMH1 og RMH2.

RMH 20.05 (2019) er skipt í tvennt. RMH1 (843 milljónir lesmálsorða) er gefin út með sérstöku MÍM leyfi og RMH2 (712 milljónir lesmálsorða) er gefin út með CC BY 4.0 leyfi. Bæði leyfi heimila notkun á gögnunum í þjálfun og útgáfu mállíkana og í öðrum máltæknirannsóknum. RMH 2019 inniheldur texta til loka árs 2019, samtals 1555 milljónir lesmálsorða. Málheildin var mörkuð með fyrstu útgáfu af ABLTagger og lemmuð með Nefni. Notast var við markamengið úr markaskrá MIM-GULL 2.0.

Fyrri útgáfur:

RMH 2. útgáfa (2018): IGC1 (799 milljónir lesmálsorða) er gefin út með sérstöku MÍM leyfi og RMH2 (595 milljónir lesmálsorða) er gefin út með CC BY 4.0 leyfi. RMH 2018 inniheldur texta til loka árs 2018, samtals 1394 milljónir lesmálsorða. Málheildin var mörkuð með IceStagger og lemmuð með Nefni. Notast var við markamengið úr markaskrá MIM-GULL 1.0.

RMH 1. útgáfa (2017): IGC1 (710 milljónir lesmálsorða) er gefin út með sérstöku MÍM leyfi og RMH2 (543 milljónir lesmálsorða) er gefin út með CC BY 4.0 leyfi. RMH 2017 inniheldur texta til loka árs 2017, samtals 1253 milljónir lesmálsorða. Málheildin var mörkuð með IceStagger og lemmuð með Nefni. Notast var við markamengið úr markaskrá MIM-GULL 1.0.

Aðrar útgáfur:

IGC-Parl: Alþingisræður frá árunum 2011-2019. Þetta er hluti af RMH 20.05 en inniheldur nákvæmari lýsigögn um alþingismenn, stjórnmálaflokka og fleira. IGC-Parl (219 milljónir tóka) er gefið út með CC BY 4.0 leyfi.

Tengd gagnasöfn:

IGC: Evaluation set 20.09 er handyfirfarið (manually curated) til að meta nákvæmni mörkunar í níu mismunandi undirmálheildum RMH. IGC-evaluation set 20.09 inniheldur 101.261 tóka og er gefið út með sérstöku MÍM leyfi.

MIM-GOLD 20.05 is a er gullstaðall fyrir mörkun á íslenskum textum. Það inniheldur um 1 milljón lesmálsorða með handannotated mörkum. MIM-GOLD 20.05 notast við markamengi sem var endurskoðað á árunum 2019-2020. Þjálfunar- og prófunarhlutar eru líka aðgengilegir. Eldri útgáfur af MIM-GOLD eru aðgengilegar 0.9 og 1.0.

Mörkuð íslensk málheild inniheldur um 25 milljónir lesmálsorða. Nánari upplýsingar hér.

Íslensk orðtíðnibók hefur verið notuð til að þjálfa og prófa markara fyrir íslensku síðan slík vinna hófst. Þjálfunar- og prófunarsett eru aðgengileg með ýmsum endurskoðuðum útgáfum af markamenginu. Núverandi útgáfa er 20.05. Útgáfur 18.10 og 12.11 eru líka aðgengilegar.

Að nota málheildina

Málheildinni má hlaða niður hér.

Hún er einnig aðgengileg í leitarkerfi þar sem mörkin (málfræðileg greining) eru notuð til að skilgreina leitina nákvæmlega. Leitin skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC) ásamt upplýsingum um uppruna hvers textadæmis. Leitarviðmótið keyrir á sænska leitarkerfinu Korp.

Upplýsingar um orðtíðni eru aðgengilegar á sér vefsíðu. Þar má útbúa tíðnilista eftir ýmsum skilyrðum.

N-stæður allt upp í þrístæður eru aðgengilegar í n-stæðuskoðara.

Fólkið á bak við málheildina

Eftirfarandi aðilar hafa unnið að málheildinni:

Eiríkur Rögnvaldsson, verkefnastjórn
Sigrún Helgadóttir, verkefnastjórn og leyfismál
Steinþór Steingrímsson, verkefnastjórn, leyfismál, textasöfnun (compilation) og hugbúnaðarþróun
Starkaður Barkarson, verkefnastjórn, textasöfnun (compilation) og hugbúnaðarþróun
Gunnar Thor Örnólfsson, hugbúnaðarþróun
Kristján Rúnarsson, hugbúnaðarþróun
Hildur Hafsteinsdóttir, gagnasöfnun og leyfismál
Þórdís Dröfn Andrésdóttir, gagnasöfnun
Finnur Ingimarsson, gagnasöfnun

Tilvísanir og ítarefni

Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð Risamálheildarinnar skal vísa í eftirfarandi grein:

    @inproceedings{steingrimsson-etal-2018-risamalheild,
    title = "{R}isam{\'a}lheild: A Very Large {I}celandic Text Corpus",
    author = {Steingr{\'\i}msson, Stein{\th}{\'o}r and
    Helgad{\'o}ttir, Sigr{\'u}n and
    R{\"o}gnvaldsson, Eir{\'\i}kur and
    Barkarson, Starka{\dh}ur and
    Gu{\dh}nason, J{\'o}n},
    booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
    year = "2018",
    address = "Miyazaki, Japan",
}

Ef orðtíðnivefur eða n-stæðuskoðari eru notaðir skal einnig vísa í eftirfarandi grein:

    @inproceedings{steingrimsson-etal-2020-facilitating,
    title = "Facilitating Corpus Usage: Making {I}celandic Corpora More Accessible for Researchers and Language Users",
    author = {Steingr{\'\i}msson, Stein{\th}{\'o}r and
    Barkarson, Starka{\dh}ur and
    {\"O}rn{\'o}lfsson, Gunnar Thor},
    booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference",
    year = "2020",
    address = "Marseille, France",
    pages = "3399--3405",
}

Einnig má lesa um málheildina í An Icelandic Gigaword Corpus e. Steinþór Steingrímsson, Sigrúnu Helgadóttur og Eirík Rögnvaldsson, NFL 2018, og í Risamálheildin e. Steinþór Steingrímsson, Orð og tunga 21, 2019.

Samstarf og fjármögnun

Upphafleg vinna við Risamálheildina, frá 2015 til 2017, fór fram hjá Stofnun Árna Magnússonar í íslenskum fræðum og var að mestu fjármögnuð af Innviðasjóði (nr. 15110-0031, verkefnastjóri Eiríkur Rögnvaldsson) og af Mótframlagasjóði Háskóla Íslands. Frekari vinna við málheildina hefur verið fjármögnuð af Mennta og menningarmálaráðuneytinu og Máltækniáætlun fyrir íslensku 2019-2023.

Útgefendur fjölmiðla og bókaútgefendur hafa tekið þátt í að safna textum, ásamt fyrirtækinu Creditinfo sem veitti aðstoð við að sækja texta úr útvarpi og sjónvarpi og af vef- og prentmiðlum.