O projektu

Glavni namen projekta je bila nadgradnja portala raziskovalne infrastrukture CLARIN.SI s storitvami, ki bi vsebine portala, predvsem korpuse, približale širši množici uporabnikov.

V okviru projekta sta nastali dve povsem novi jezikovni orodji. Prvi je povzemalnik korpusnih podatkov Korpusnik, ki nudi hiter osnovni pregled rabe besed v petih korpusih slovenskega jezika – Gigafida 2.0, Trendi 2023-09, OSS 1.0, JANES 1.0 in Gos 2.0. Uporabnik lahko tako na enem mestu preveri rabo besed v standardni, sprotni, akademski, spletni in govorjeni slovenščini. Drugi vidnejši rezultat projekta je aplikacija za stavčno poenostavljanje in analizo SENTA. Aplikacija identificira in poenostavi kompleksne povedi, enostavne povedi pa pusti nespremenjene. Pri tem pripravi tudi analizo z osnovno statistiko besedila. Posebnost obeh virov je to, da sta prilagojena tudi uporabi oseb s posebnimi potrebami. 

Poleg tega je bila v okviru projekta izvedena nadgradnja podatkov v referenčnem korpusu Gigafida in referenčnem korpusu govorjene slovenščine Gos. Besedila v korpusu Gigafida so bila na novo segmentirana, na novo so jim bile pripisane tudi avtomatske kategorije. Na besedilih v korpusu Gos je bila ponovno izvedena poravnava zvoka in transkripcij, poleg tega pa je bila podatkom strojno pripisana tipičnost izgovorjave.

V projektu je pri snovanju rešitev za osebe s posebnimi potrebami ter njihovi promociji sodeloval konzorcijski partner Društvo študentov invalidov Slovenije. Infrastrukturno podporo projektu nudi Center za jezikovne vire in tehnologije Univerze v Ljubljani v okviru konzorcija CLARIN.SI.

vodja projekta:
Iztok Kosem
iztok.kosem@ijs.si

Dostopnost