Rezultati projekta

1. Izdelava orodja za povzemalni prikaz različnih korpusnih podatkov Korpusnik

 Korpusnik na pregleden način povzema statistične in tekstovne podatke iz petih korpusov slovenskega jezika: referenčnega korpusa pisne slovenščine Gigafida 2.0, spremljevalnega korpusa Trendi, korpusa akademske slovenščine OSS 1.0, korpusa internetne slovenščine JANES 1.0 in referenčnega korpusa govorjene slovenščine Gos 2.0. Na voljo je na spletnem naslovu https://korpusnik.cjvt.si/.

Pri pripravi orodja je bila posebna pozornost namenjena temu, da je dostopno čim več različnim osebam s posebnimi potrebami. Korpusnik je pripravila ekipa Instituta »Jožef Štefan« v sodelovanju z Društvom študentov invalidov in infrastrukturno podporo Centra za jezikovne vire in tehnologije Univerze v Ljubljani v okviru konzorcija CLARIN.SI.

  1. Nadgradnja podatkov v referenčnem korpusu Gigafida

Pri tej aktivnosti smo naslovili eno precejšnjih pomanjkljivosti trenutne različice korpusa Gigafida, ki pri časopisnih besedil vsebuje celotne izvode kot eno besedilo, t.j. posamezni članki niso prepoznani kot ločena besedila.

S postopkom postopnega programiranja in evalvacije smo segmentirali besedila časopisov Dnevnik in Delo, ki predstavljata zelo velik delež časopisnih besedil v korpusu Gigafida. Pri tem je iz cca. 13.000 datotek nastalo več kot 400.000 datotek. Vse pripravljene skripte za postopek segmentacije so na voljo pod odprto licenco na https://github.com/clarinsi/gigafida_segmentacija. Segmentiranim besedilom smo nato avtomatsko pripisali eno od 13 tematskih kategorij: Umetnost in kultura, Črna kronika, Gospodarstvo, Okolje, Zdravje, Prosti čas, Politika in pravo, Znanost in tehnologija, Družba, Šport, Vreme, Zabava in Izobraževanje. Nadgrajeni podatki bodo implementirani v novo različico korpusa Gigafida.

  1. Nadgradnja podatkov v referenčnem korpusu govorjene slovenščine Gos
    Izvedli smo poskuse za izboljšanje označevanja transkripcij govorjenih besedil. Rezultati naših poskusov so na voljo na spletni strani https://github.com/clarinsi/classla-spoken.

Medtem ko so bili zvočni posnetki korpusa GOS in njihove transkripcije že poravnani na ravni izjav (govorjenih povedi), ki v povprečju obsegajo pet do petnajst besed, smo za boljšo uporabo korpusa GOS v projektu SLOKIT izvedli še poravnavo zvoka in transkripcij na ravni besed, tako da smo za vsako besedo izračunali, v kateri milisekundi posnetka se začne in v kateri milisekundi konča.

Z novim sistemom za strojno označevanje smo ponovno označili najnovejšo različico korpusa GOS 2.0, podatkom smo tudi strojno pripisali tipičnost izgovorjave.

Novi korpus GOS 2.1 smo objavili v repozitoriju CLARIN.SI (http://hdl.handle.net/11356/1863) ter ga naložili na prosto dostopne konkordančnike CLARIN.SI, ki omogočajo njihovo nadaljnjo analizo širši javnosti (https://www.clarin.si/noske/run.cgi/corp_info?corpname=gos21&struct_attr_stats=1, https://www.clarin.si/ske/#dashboard?corpname=gos21, https://www.clarin.si/kontext/query?corpname=gos21).

  1. Izdelava analizatorja in poenostavljalnika besedil SENTA

Orodje SENTA (kratica za Stavčno poENosTavljanje in Analiza) ponuja ogled dveh besedil, izvirnega in poenostavljenega. Kompleksne povedi poenostavi, enostavne povedi pa pusti nespremenjene. Pri tem pripravi tudi analizo z osnovno statistiko besedila.

SENTA je prosto dostopna na https://senta.cjvt.si/. Pri pripravi orodja je bila posebna pozornost namenjena temu, da je dostopno čim več različnim osebam s posebnimi potrebami.

Poenostavljalno orodje SENTA je pripravila ekipa Instituta »Jožef Štefan« v sodelovanju z Društvom študentov invalidov in infrastrukturno podporo Centra za jezikovne vire in tehnologije Univerze v Ljubljani v okviru konzorcija CLARIN.SI.

Dostopnost