Delovni sklopi

Podroben opis delovnega programa

Projekt bo razdeljen v naslednje delovne sklope, ki vključujejo različne metode dela:

WP1: Zagotavljanje podatkov (meseci 0-6):

  • Vodilni partner: UL.
  • Korpus: trijezični (angleški, slovenski, hrvaški) vzporedni-primerljivi korpus besedil s področja krasoslovja bo zgrajen, oblikoskladenjsko označen in stavčno poravnan. Ciljna velikost korpusa je ca. 1 milijon besed na jezik. Korpus bomo zgradili v orodju Sketchengine.
  • Zbiranje in digitalizacija obstoječih terminoloških virov za krasoslovje.

WP2 Odkrivanje znanja (meseci 7-24):

  • Vodilni partner: IJS.
  • Z obstoječimi orodji bodo kandidati za termine in definicije samodejno izluščeni iz treh jezikov. To bo najprej izvedeno enojezično, v naslednjem koraku pa bomo razvili metode za luščenje iz vzporednih in primerljivih podatkov.

WP3 Analiza struktur znanja v različnih jezikih, žanrih, tipih in izvorih besedil (meseci 11-29):

  • Vodilni partner: UL.
  • Ta delovni paket poteka vzporedno z WP2 in predstavlja jezikovni in neavtomatski del procesa modeliranja znanja.
  • Kot prvi korak WP2 bodo izluščeni terminološki kandidati, variacije in prevodi. Ker predpostavljamo, da so mnogi krasoslovni pojmi v resnici nejasni, z različnimi in nasprotujočimi si definicijami in semantičnimi polji, pa tudi odvisni od jezika ali regije, bo prva naloga WP3 preverjanje in kategoriziranje terminov ter njihovih resničnih ali bližnjih sopomenk kot tudi terminoloških variacij, ki jih najdemo v besedilih.
  • Definicijske strukture in relacije, opredeljene v WP2, bodo ročno označene s semantičnimi komponentami po teoriji terminologije shem in tako  bodo dodeljene  semantične vloge elementom v definiciji, kot so LOCATION, FUNCTION, RESULT ali FORM.

WP4 Oblikovanje podatkovne infrastrukture za bazo TermFrame (meseci 13‐30):

  • Vodilni partner: IJS.
  • Namen te faze je vzpostavitev trajnostnega delokroga za zbiranje in potrjevanje specializiranega znanja, pa tudi oblikovanje rešitve za fleksibilno besedilno in vizualno spletno predstavitev preverjenega znanja. Naloga vključuje integracijo obstoječih odprtokodnih orodij ter razvoj lastnih programskih rešitev v celovito spletno okolje. Vizualizacijo BioMine bomo prilagodili, da bo podpirala večjezično vizualizacijo pojmov, s tem pa omogočala odkrivanje kognitivnih struktur in razlik med jeziki in kulturami.

WP5. Pridobivanje podatkov za bazo znanja TermFrame in vnos (meseci 25-36):

  • Znanje o pojmovnih razmerjih, terminih, definicijah in kontekstih, ki ga bomo izluščili iz korpusov ter dopolnili s strokovnjaki v fazah 1‐4, bo preneseno v okolje TermFrame ter ovrednoteno s strani uporabnikov (raziskovalcev, prevajalcev, študentov itd.