:: Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik ::
>> NASLOVNICA
Novosti, obavijesti i najave Novosti:

Sastanak programa:
2007-05-30, 9:00, FFZG, B-003


Predavanje o programu održao je Marko Tadić na Zagrebačkome lingvističkome krugu, 2007-04-24


Članak Computational Linguistic Models and Language Technologies for Croatian autorâ Bojane Dalbelo Bašić, Zdravka Dovedana, Ide Raffaelli, Sanje Seljan i Marka Tadica prihvaćen za konferenciju ITI2007 u Sekciji za jezične tehnologije.

Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik?

Temeljna je nakana ovoga interdisciplinarnoga programa koji objedinjuje tri znanstvena područja i tri znanstvena polja (humanističke znanosti: jezikoslovlje, društvene znanosti: informacijske znanosti i tehničke znanosti: računarstvo) proučiti i izgraditi teorijske modele funkcioniranja pojedinih podsustava hrvatskoga jezika. Na temeljima tih teorijskih spoznaja izgradit će se računalne primjene tih teorijskih modela u obliku računalno podržanih resursa i alata. Ti će resursi i alati biti i javno dostupni kako akademskoj tako i široj društvenoj zajednici putem internetskoga pristupa.

Ti će resursi i alati ujedno postati i temelj za daljni razvitak jezičnih tehnologija za hrvatski jezik (JTHJ).

Sljedeća nakana ovoga programa upravo je podizanje ukupne razine JTHJ kako bi se uhvatio priključak s jezicima našega europskog okružja.

Ciljevi su ispitati, izgraditi i izvesti:

  1. proširenje sadašnjega Hrvatskoga nacionalnog korpusa na opseg od 200 milijuna riječi, označiti ga na morfološkoj, (dijelom) sintaktičkoj i semantičkoj razini;
  2. niz usporednih/usporedivih korpusa “hrvatski—jezik X” za proučavanje odnosa hrvatskoga i drugih jezika;
  3. sustave za automatsko označavanje vrsta riječi, gramatičkih kategorija i lematizaciju hrvatskih tekstova;
  4. sustav za automatsku analizu hrvatske sintakse (parser);
  5. semantičku mrežu tj. Hrvatski WordNet (CroWN);
  6. osnovne resurse za strojno potpomognuto prevodenje (prijevodne memorije);
  7. ispitati mogućnosti izvedbe statističkoga strojnoga prevođenja i modula za EC-Systran za smjerove hr-en i en-hr;
  8. ispitati mogućnosti izvedbe sustava za e-učenje hrvatskoga;
  9. sustave za (polu)automatsko sadržajno označavanje dokumenata tj. (polu)automatsko indeksiranje;
  10. sustave za klasifikaciju, vizualizaciju i sažimanje dokumenata;
  11. sustave inteligentno pretraživanje i crpljenje podataka iz tekstovnih dokumenata.

Svi će se teorijski modeli provjeravati putem njihovih računalnih implementacija i na stvarnoj jezičnoj gradi, što će povratno voditi višekratnoj daljnoj razradi tih modela.

Ovaj će program, osim što će ponuditi nove teorijske modele i rješenja za neka do sada još niti ne postavljena ili neuočena pitanja o funkcioniranju hrvatskoga jezika, ujedno ostvariti nužne preduvjete za daljnji razvitak jezičnih tehnologija za hrvatski jezik. One su nezaobilazne za konstituiranje e-humanističkih i e-društvenih znanosti tj. predstavljaju istraživačku infrastrukturu za one znanosti čiji se predmeti istraživanja izravno ili neizravno ostvaruju upravo kao tekst ili putem teksta.

U širem društvenom kontekstu jezične su tehnologije za hrvatski jezik nezaobilazne za stvaranje informacijskoga društva tj. društva znanja u Republici Hrvatskoj.

Program se sastoji od pet projekata:

Znanstveno područje: humanističke znanosti

Vrsta istraživanja: ciljana temeljna istraživanja

Prioritetno područje istraživanja: Društvene i humanističke znanosti i hrvatski identitet

Voditelj programa: prof. dr. sc. Marko Tadić

Doprinos ostvarivanju kratkoročnih i dugoročnih ciljeva razvitka RH:

Ključne riječi: računalnolingvistički modeli, jezične tehnologije, hrvatski jezik, otkrivanje znanja, informacijsko društvo, društvo znanja

Design LABOO WEB DESIGN i MARKO TADIĆ. Validni XHTML i CSS.