Risamálheildin

Sækja nýjustu útgáfu hér.

Risamálheildin (RMH) er mörkuð málheild sem þýðir að hverri orðmynd fylgir uppflettimynd (e. lemma), t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna, og greiningarstrengur eða mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar. Málheildin er ætluð til málfræðirannsókna og til notkunar í máltækniverkefnum.

Vinna við verkið hófst á Stofnun Árna Magnússonar í íslenskum fræðum árið 2015. Stöðugt er unnið að textasöfnun fyrir málheildina og gefin er út ný útgáfa á hverju ári með nýjum textum. Nýjasta útgáfa málheildarinnar (2021) inniheldur texta sem komu út til loka árs 2020. Í henni eru um 1871 milljónir lesmálsorða. Hluti textanna í málheildinni eru opinberir textar (t.d. ræður, frumvörp og þingsályktunartillögur af Alþingi, og dómar) en málheildin inniheldur einnig stór textasöfn frá ýmsum fjölmiðlum og samfélagsmiðlum og ýmsa texta úr fræðilegum tímaritum og útgefnum bókum.

Til þess að unnt sé að nota málheildina í máltækniverkefnum er lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Upphaflega var miðað við að afla leyfa frá rétthöfum til þess að veita aðgang að textunum með leyfi sem samtökin Creative Commons hafa skilgreint. Ekki gátu allir rétthafar samþykkt þá skilmála. Textar málheildarinnar eru því ýmist gefnir út með CC BY leyfi eða sérstöku leyfi sem byggist á leyfi sem var útbúið fyrir texta Markaðrar íslenskrar málheildar (MÍM). Allir rétthafar hafa samþykkt að veita afnotarétt af textum sínum án þess að greiðsla komi fyrr. Þegar Mörkuð íslensk málheild var gerð var útbúin sérstök samþykkisyfirlýsing með aðstoð lögfræðings sem var notuð með nauðsynlegum breytingum við gerð RMH og rétthafar sem samþykktu ekki CC BY leyfið undirrituðu.

Málheildin er unnin með sjálfvirkum aðferðum. Textum RMH er skipt upp í setningar og orðmyndir sem eru síðan markaðar og lemmaðar. Mörk og lemmur eru ekki leiðrétt handvirkt.

Undirmálheildir

Fyrstu þrjú árin var RMH gefin út í tveimur pökkum vegna ólíkra leyfa á textunum en frá og með útgáfu 2021 hefur málheildinni verið skipt upp í átta undirmálheildir:

  • IGC-Adjud: Dómar héraðsdómstóla, Landsréttar og Hæstaréttar (CC BY leyfi)
  • IGC-Books: Útgefnar bækur (MÍM leyfi)
  • IGC-Laws: Lög, frumvörp og þingsályktunartillögur (CC BY leyfi)
  • IGC-Journals: Fræðileg tímarit (CC BY leyfi)
  • IGC-News1: Fréttir (CC BY leyfi)
  • IGC-News2: Fréttir (MÍM leyfi)
  • IGC-Parla: Alþingisræður (CC BY leyfi)
  • IGC-Social: Spjallþræðir, blogg og textar af Twitter (CC BY leyfi)
  • IGC-Wiki: Textar af íslensku Wikipedíu (CC BY licence)

Leyfi

Fyrstu þrjú árin var málheildin er gefin út í tveimur pökkum vegna ólíkra leyfa á textunum. Um helmingur málheildarinnar var gefinn út með CC BY 4.0 leyfi og hinn helmingurinn með sérstöku leyfi. Frá 2021 hefur málheildinni verið skipt í nokkrar undirmálheildir eftir textategundum og eru þær ýmist með CC BY eða sérstöku MÍM leyfi.

Munurinn á þessum leyfum felst fyrst og fremst í því að texta sem eru gefnir út með sérstöku leyfi er óheimilt að endurbirta. Bæði leyfin bjóða þó upp á að textarnir séu nýttir í gerð og útgáfu málfræðilegra líkana og notkun í öðrum máltæknilegum tilgangi og málfræðirannsóknum.

Útgáfur

Nýjasta útgáfa málheildarinnar er útgáfa 2021 og skiptist hún í átta undirmálheildir. Nánari upplýsingar og krækjur á hverja málheild má nálgast á varðveislusvæði CLARIN-IS.

RMH 4. útgáfa (2021) inniheldur texta til loka árs 2020, samtals 1871 milljónir lesmálsorða. Málheildin var mörkuð með útgáfu 2.0.4 af ABLTagger og lemmuð með Nefni. Notast var við markamengið úr markaskrá MIM-GULL 2.0.

Útgáfa Útgáfuár Orð (M) POS-Markari Tókari Lemmald MIM-GULL markaskrá Hlekkir
RMH 2022 2022 2,429 ABL-tagger 3.0.0 Tokenizer Nefnir útg. 2.0 IGC 2022 - ómörkuð
IGC 2022 - mörkuð
RMH 2021 2021 1,880 ABL-tagger 2.0.4 Tokenizer Nefnir útg. 2.0 RMH 2021
RMH 2020 2020 1,532 ABL-tagger 0.9 Tokenizer Nefnir útg. 1.0 RMH1 (843 milljónir lesmálsorða) MIM leyfi
RMH2 (712 milljónir lesmálsorða) CC BY 4.0
RMH 2018 2019 1,394 IceStagger IceNLP Nefnir útg. 1.0 RMH1 (799 milljónir lesmálsorða) MIM leyfi
RMH2 (595 milljónir lesmálsorða) CC BY 4.0
RMH 2017 2018 1,259 ABL-tagger 0.9 Tokenizer Nefnir útg. 1.0 RMH1 (716 milljónir lesmálsorða) MIM leyfi
RMH2 (543 milljónir lesmálsorða) CC BY 4.0

* Engin útgáfa er með viðskeytinu 2019 vegna breyinga á nafnakerfi. Fyrstu tvær útgáfurnar vísuðu til útgáfuárs nýjustu texta en síðan þá hefur útgáfuár málheildarinnar verið notað. Þetta gæti valdið einhverjum ruglingi og ef einhvers staðar er vísað til RMH-2019 (eða IGC-2019) þá er líkast til verið að vísa til RMH-2020.

Aðrar útgáfur:

IGC-Parl: Alþingisræður frá árunum 2011-2019. Þetta er hluti af RMH 20.05 en inniheldur nákvæmari lýsigögn um alþingismenn, stjórnmálaflokka og fleira. IGC-Parl (219 milljónir tóka) er gefið út með CC BY 4.0 leyfi.

Tengd gagnasöfn:

IGC: Evaluation set 20.09 er handyfirfarið (manually curated) til að meta nákvæmni mörkunar í níu mismunandi undirmálheildum RMH. IGC-evaluation set 20.09 inniheldur 101.261 tóka og er gefið út með sérstöku MÍM leyfi.

MIM-GOLD 20.05 er gullstaðall fyrir mörkun á íslenskum textum. Það inniheldur um eina milljón lesmálsorða með handannotated mörkum. MIM-GOLD 20.05 notast við markamengi sem var endurskoðað á árunum 2019-2020. Þjálfunar- og prófunarhlutar eru líka aðgengilegir. Eldri útgáfur af MIM-GOLD eru aðgengilegar 0.9 og 1.0.

Mörkuð íslensk málheild inniheldur um 25 milljónir lesmálsorða. Nánari upplýsingar hér.

Íslensk orðtíðnibók hefur verið notuð til að þjálfa og prófa markara fyrir íslensku síðan slík vinna hófst. Þjálfunar- og prófunarsett eru aðgengileg með ýmsum endurskoðuðum útgáfum af markamenginu. Núverandi útgáfa er 20.05. Útgáfur 18.10 og 12.11 eru líka aðgengilegar.

Að nota málheildina

Málheildinni má hlaða niður hér.

Hún er einnig aðgengileg í leitarkerfi þar sem mörkin (málfræðileg greining) eru notuð til að skilgreina leitina nákvæmlega. Leitin skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC) ásamt upplýsingum um uppruna hvers textadæmis. Leitarviðmótið keyrir á sænska leitarkerfinu Korp.

Upplýsingar um orðtíðni eru aðgengilegar á sér vefsíðu. Þar má útbúa tíðnilista eftir ýmsum skilyrðum.

N-stæður allt upp í þrístæður eru aðgengilegar í n-stæðuskoðara.

Fólkið á bak við málheildina

Eftirfarandi aðilar hafa unnið að málheildinni:

Eiríkur Rögnvaldsson, verkefnastjórn
Sigrún Helgadóttir, verkefnastjórn og leyfismál
Steinþór Steingrímsson, verkefnastjórn, leyfismál, textasöfnun (compilation) og hugbúnaðarþróun
Starkaður Barkarson, verkefnastjórn, textasöfnun (compilation) og hugbúnaðarþróun
Gunnar Thor Örnólfsson, hugbúnaðarþróun
Kristján Rúnarsson, hugbúnaðarþróun
Hildur Hafsteinsdóttir, gagnasöfnun og leyfismál
Þórdís Dröfn Andrésdóttir, gagnasöfnun
Finnur Ágúst Ingimundarson, gagnasöfnun
Árni Davíð Magnússon, gagnasöfnun

Tilvísanir og ítarefni

Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð Risamálheildarinnar skal vísa í eftirfarandi grein:

bib
Barkarson, Starkaður, Steinþór Steingrímsson and Hildur Hafsteinsdóttir. 2022. Evolving Large Text Corpora: Four Versions of the Icelandic Gigaword Corpus. Proceedings of the Language Resources and Evaluation Conference, pp. 2371-2381. Marseille, France.
bib
Steingrímsson, Steinþór, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson and Jón Guðnason. 2018. Risamálheild: A Very Large Icelandic Text Corpus. Proceedings of LREC 2018, pp. 4361-4366. Myazaki, Japan.

Ef orðtíðnivefur eða n-stæðuskoðari eru notaðir skal einnig vísa í eftirfarandi grein:

bib
Steingrímsson, Steinþór, Starkaður Barkarson and Gunnar Thor Örnólfsson. 2020. Facilitating Corpus Usage: Making Icelandic Corpora More Accessible for Researchers and Language Users. Proceedings of the 12th Language Resources and Evaluation Conference, pp. 3399-3405. Marseille, France.

Einnig má lesa um málheildina í An Icelandic Gigaword Corpus e. Steinþór Steingrímsson, Sigrúnu Helgadóttur og Eirík Rögnvaldsson, NFL 2018, og í Risamálheildin e. Steinþór Steingrímsson, Orð og tunga 21, 2019.

Samstarf og fjármögnun

Upphafleg vinna við Risamálheildina, frá 2015 til 2017, fór fram hjá Stofnun Árna Magnússonar í íslenskum fræðum og var að mestu fjármögnuð af Innviðasjóði (nr. 15110-0031, verkefnastjóri Eiríkur Rögnvaldsson) og af Mótframlagasjóði Háskóla Íslands. Frekari vinna við málheildina hefur verið fjármögnuð af Mennta og menningarmálaráðuneytinu og Máltækniáætlun fyrir íslensku 2019-2023.

Útgefendur fjölmiðla og bókaútgefendur hafa tekið þátt í að safna textum, ásamt fyrirtækinu Creditinfo sem veitti aðstoð við að sækja texta úr útvarpi og sjónvarpi og af vef- og prentmiðlum.