Sækja nýjustu útgáfu hér.
Risamálheildin (RMH) er mörkuð málheild sem þýðir að hverri orðmynd fylgir uppflettimynd (e. lemma), t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna, og greiningarstrengur eða mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar. Málheildin er ætluð til málfræðirannsókna og til notkunar í máltækniverkefnum.
Hluti textanna í málheildinni eru opinberir textar (t.d. ræður, frumvörp og þingsályktunartillögur af Alþingi, og dómar) en málheildin inniheldur einnig stór textasöfn frá ýmsum fjölmiðlum og samfélagsmiðlum og ýmsa texta úr fræðilegum tímaritum og útgefnum bókum.
Vinna við verkið hófst á Stofnun Árna Magnússonar í íslenskum fræðum árið 2015. Stöðugt er unnið að textasöfnun fyrir málheildina og gefin er út ný útgáfa á hverju ári með nýjum textum.
Nýjasta útgáfa málheildarinnar (2024) er viðbót við útgáfuna frá 2022 og inniheldur einkum texta frá árunum 2022 og 2023. Hún inniheldur um 162 milljónir lesmálsorða.
Útgáfa 2022 inniheldur um 2.429 milljónir lesmálsorða.
Til þess að unnt sé að nota málheildina í máltækniverkefnum er lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Upphaflega var miðað við að afla leyfa frá rétthöfum til þess að veita aðgang að textunum með leyfi sem samtökin Creative Commons hafa skilgreint. Ekki gátu allir rétthafar samþykkt þá skilmála. Textar málheildarinnar eru því ýmist gefnir út með CC BY leyfi eða sérstöku leyfi sem byggist á leyfi sem var útbúið fyrir texta Markaðrar íslenskrar málheildar (MÍM). Allir rétthafar hafa samþykkt að veita afnotarétt af textum sínum án þess að greiðsla komi fyrr. Þegar Mörkuð íslensk málheild var gerð var útbúin sérstök samþykkisyfirlýsing með aðstoð lögfræðings sem var notuð með nauðsynlegum breytingum við gerð RMH og rétthafar sem samþykktu ekki CC BY leyfið undirrituðu.
Málheildin er unnin með sjálfvirkum aðferðum. Textum RMH er skipt upp í setningar og orðmyndir sem eru síðan markaðar og lemmaðar. Mörk og lemmur eru ekki leiðrétt handvirkt.
Fyrstu þrjú árin var RMH gefin út í tveimur pökkum vegna ólíkra leyfa á textunum en frá og með útgáfu 2021 hefur málheildinni verið skipt upp í átta undirmálheildir:
Fyrstu þrjú árin var málheildin er gefin út í tveimur pökkum vegna ólíkra leyfa á textunum. Um helmingur málheildarinnar var gefinn út með CC BY 4.0 leyfi og hinn helmingurinn með sérstöku leyfi. Frá 2021 hefur málheildinni verið skipt í nokkrar undirmálheildir eftir textategundum og eru þær ýmist með CC BY eða sérstöku MÍM leyfi.
Munurinn á þessum leyfum felst fyrst og fremst í því að texta sem eru gefnir út með sérstöku leyfi er óheimilt að endurbirta. Bæði leyfin bjóða þó upp á að textarnir séu nýttir í gerð og útgáfu málfræðilegra líkana og notkun í öðrum máltæknilegum tilgangi og málfræðirannsóknum.
Nýjasta útgáfa málheildarinnar er útgáfa 2024 sem er viðbót við útgáfu 2022 og inniheldur einkum texta frá árunum 2022 og 2023*. Útgáfa 2022 skiptist í níu undirmálheildir en útgáfa 2024 inniheldur aðeins viðbót við fimm þeirra (IGC-Adjud, IGC-Law, IGC-News1, IGC-News2 og IGC-Parla). Nánari upplýsingar og krækjur á hverja málheild má nálgast á varðveislusvæði CLARIN-IS.
RMH 2022 inniheldur texta til loka árs 2021, samtals 2.429 milljónir lesmálsorða. Nýrri útgáfur Risamálheildar voru markaðar með útgáfu 2.0.4 af ABLTagger og lemmuaðar með Nefni. Notast var við markamengið úr markaskrá MIM-GULL 2.0.
Útgáfa | Útgáfuár | Orð (M) | POS-Markari | Tókari | Lemmald | MIM-GULL markaskrá | Hlekkir |
---|---|---|---|---|---|---|---|
RMH 2024 (viðb.) | 2024 | 162 | ABL-tagger 3.0.0 | Tokenizer | Nefnir | v. 2.0 |
RMH 2024ext - ómörkuð RMH 2024ext - mörkuð |
RMH 2022 | 2022 | 2,429 | ABL-tagger 3.0.0 | Tokenizer | Nefnir | útg. 2.0 |
IGC 2022 - ómörkuð IGC 2022 - mörkuð |
RMH 2021 | 2021 | 1,880 | ABL-tagger 2.0.4 | Tokenizer | Nefnir | útg. 2.0 |
RMH 2021 |
RMH 2020 | 2020 | 1,532 | ABL-tagger 0.9 | Tokenizer | Nefnir | útg. 1.0 |
RMH1 (843 milljónir lesmálsorða) MIM leyfi RMH2 (712 milljónir lesmálsorða) CC BY 4.0 |
RMH 2018 | 2019 | 1,394 | IceStagger | IceNLP | Nefnir | útg. 1.0 |
RMH1 (799 milljónir lesmálsorða) MIM leyfi RMH2 (595 milljónir lesmálsorða) CC BY 4.0 |
RMH 2017 | 2018 | 1,259 | ABL-tagger 0.9 | Tokenizer | Nefnir | útg. 1.0 |
RMH1 (716 milljónir lesmálsorða) MIM leyfi RMH2 (543 milljónir lesmálsorða) CC BY 4.0 |
* Þar sem nýir textar frá árinu 2021 voru aðgengilegir fyrir IGC-Parla og tvær undirmálheildir IGC-Law voru textar frá því ári látnir fylgja með útgáfu 2024. IGC-Law3 inniheldur lagasafn Íslendinga í heild sinni og kemur því alfarið í stað IGC-Law3 í útgáfu 2022..
* Engin útgáfa er með viðskeytinu 2019 vegna breyinga á nafnakerfi. Fyrstu tvær útgáfurnar vísuðu til útgáfuárs nýjustu texta en síðan þá hefur útgáfuár málheildarinnar verið notað. Þetta gæti valdið einhverjum ruglingi og ef einhvers staðar er vísað til IGC-2019 (eða IGC-2019) þá er líkast til verið að vísa til IGC-2020.
Aðrar útgáfur:
IGC-Parl: Alþingisræður frá árunum 2011-2019. Þetta er hluti af RMH 20.05 en inniheldur nákvæmari lýsigögn um alþingismenn, stjórnmálaflokka og fleira. IGC-Parl (219 milljónir tóka) er gefið út með CC BY 4.0 leyfi.
Tengd gagnasöfn:
IGC: Evaluation set 20.09 er handyfirfarið (manually curated) til að meta nákvæmni mörkunar í níu mismunandi undirmálheildum RMH. IGC-evaluation set 20.09 inniheldur 101.261 tóka og er gefið út með sérstöku MÍM leyfi.
MIM-GOLD 20.05 er gullstaðall fyrir mörkun á íslenskum textum. Það inniheldur um eina milljón lesmálsorða með handannotated mörkum. MIM-GOLD 20.05 notast við markamengi sem var endurskoðað á árunum 2019-2020. Þjálfunar- og prófunarhlutar eru líka aðgengilegir. Eldri útgáfur af MIM-GOLD eru aðgengilegar 0.9 og 1.0.
Mörkuð íslensk málheild inniheldur um 25 milljónir lesmálsorða. Nánari upplýsingar hér.
Íslensk orðtíðnibók hefur verið notuð til að þjálfa og prófa markara fyrir íslensku síðan slík vinna hófst. Þjálfunar- og prófunarsett eru aðgengileg með ýmsum endurskoðuðum útgáfum af markamenginu. Núverandi útgáfa er 20.05. Útgáfur 18.10 og 12.11 eru líka aðgengilegar.
Málheildinni má hlaða niður hér á TEI-sniði. Ef þú vilt sameina útgáfur 2022 og 2024 þarftu að hafa í huga að í sumum tilvikum á sér stað skörun þar sem IGC-Parla og tvær undirmálheildir IGC-Law innihalda texta frá árunum 2021 í báðum útgáfum. Einnig inniheldur þriðja undirmálheildin (IGC-Law3) íslenska lagasafnið í heild sinni í útgáfu 2024 og kemur því alfarið í stað samsvarandi máheildar í útgáfu 2022.
Málheildin (2022) eru einnig aðgengileg á Huggingface á jsonl-sniðmáti sem hentar t.d. vel þegar þjálfa á stór mállíkön.
Hún er einnig aðgengileg í leitarkerfi þar sem mörkin (málfræðileg greining) eru notuð til að skilgreina leitina nákvæmlega. Leitin skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC) ásamt upplýsingum um uppruna hvers textadæmis. Leitarviðmótið keyrir á sænska leitarkerfinu Korp.
Upplýsingar um orðtíðni (fyrir útgáfu 2022) eru aðgengilegar á sér vefsíðu. Þar má útbúa tíðnilista eftir ýmsum skilyrðum.
N-stæður (fyrir útgáfu 2022) allt upp í þrístæður eru aðgengilegar í n-stæðuskoðara.
Eftirfarandi aðilar hafa unnið að málheildinni:
Eiríkur Rögnvaldsson, verkefnastjórn
Sigrún Helgadóttir, verkefnastjórn og leyfismál
Steinþór Steingrímsson, verkefnastjórn, leyfismál, textasöfnun (compilation) og hugbúnaðarþróun
Starkaður Barkarson, verkefnastjórn, textasöfnun (compilation) og hugbúnaðarþróun
Gunnar Thor Örnólfsson, hugbúnaðarþróun
Kristján Rúnarsson, hugbúnaðarþróun
Hildur Hafsteinsdóttir, gagnasöfnun og leyfismál
Þórdís Dröfn Andrésdóttir, gagnasöfnun
Finnur Ágúst Ingimundarson, gagnasöfnun
Árni Davíð Magnússon, gagnasöfnun
Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð Risamálheildarinnar skal vísa í eftirfarandi grein:
Ef orðtíðnivefur eða n-stæðuskoðari eru notaðir skal einnig vísa í eftirfarandi grein:
Einnig má lesa um málheildina í An Icelandic Gigaword Corpus e. Steinþór Steingrímsson, Sigrúnu Helgadóttur og Eirík Rögnvaldsson, NFL 2018, og í Risamálheildin e. Steinþór Steingrímsson, Orð og tunga 21, 2019.
Upphafleg vinna við Risamálheildina, frá 2015 til 2017, fór fram hjá Stofnun Árna Magnússonar í íslenskum fræðum og var að mestu fjármögnuð af Innviðasjóði (nr. 15110-0031, verkefnastjóri Eiríkur Rögnvaldsson) og af Mótframlagasjóði Háskóla Íslands. Frekari vinna við málheildina hefur verið fjármögnuð af Mennta og menningarmálaráðuneytinu og Máltækniáætlun fyrir íslensku 2019-2023.
Útgefendur fjölmiðla og bókaútgefendur hafa tekið þátt í að safna textum, ásamt fyrirtækinu Creditinfo sem veitti aðstoð við að sækja texta úr útvarpi og sjónvarpi og af vef- og prentmiðlum.