Korpus

Prethodna istraživanja

HNK nastavlja tradiciju sastavljanja hrvatskih korpusa u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu. Ona ima svoj svoj začetak u prvome hrvatskom računalnom korpusu (Bujasova konkordancija Gundulićeva Osmana iz 1967., objavljena 1974.). Njezin nastavak predstavlja prva uporaba računalnih korpusa u kontrastivnim proučavanjima jezikâ u povijesti lingvistike (Filipovićevi kontrastivni projekti počevši od 1968.) kao i projekt Računalna obrada Starih pisaca hrvatskih (Moguš iz '70-tih i '80-tih godina 20. st.).

Nakon završetka sastavljanja Jednomilijunskoga korpusa hrvatskoga književnoga jezika, tzv. "Moguševa korpusa" (Moguš od 1976. do 1996.) i objavljivanja Hrvatskoga čestotnoga rječnika (Moguš, Bratanić, Tadić 1999.) na njegovim temeljima, pojavila se potreba za sastavljanjem više desetaka milijuna velikog reprezentativnog korpusa hrvatskoga jezika koji bi poslužio kao osnovna jezična građa za leksikografska, pravopisna, morfološka, sintaktička i semantička istraživanja suvremenoga hrvatskoga jezika.

Teorijska polazišta

Premda su se prve ideje o višemilijunskome hrvatskome korpusu počele pojavljivati još krajem '80-tih godina 20. st. (Tadić 1990), svoje su zaokruženje našle u nekoliko temeljnih članaka u kojima se daje nacrt strukture HNK, njegov opseg, raspon, tekstna i žanrovska tipologija te odnos prema do tada postojećim hrvatskim korpusima (Tadić 1996., 1997., 1998., 1999., 2002.).

HNK v 1.0

Premda je polazna ideja HNK bila sastaviti reprezentativni korpus suvremenoga hrvatskoga jezika, uskoro se pokazalo da i stariji tekstovi također zaslužuju korpusnolingvističku obradu tako da je prva inačica HNK zamišljena i ostvarena u okviru projekta MZT-a 130718 Računalna obradba hrvatskoga jezika (prosinac 1998.) u dvije osnovne sastavnice:

U te dvije sastavnice HNK je bio dostupan i pretraživ putem www-sučelja od kraja 1998. do kraja 2004. uz ograničene mogućnosti pretraživanja.

HNK v 2.0

Od početka 2005., a u okviru projekta MZOŠ-a 0130418 Razvitak hrvatskih jezičnih resursa, HNK se premješta na novu poslužiteljsku platformu koja je omogućila uporabu Manatee "korpusnoga menadžera" Pavela Rychlýja. Novi poslužitelj prati i slobodno dostupan klijentski program Bonito za pristupanje korpusu i njegovo pretraživanje koji omogućuje:

HNK v 2.5 (u najavi!)

Nova inačica HNK (proljeće 2008.) podržavat će pretragu s pomoću lema i gramatičkih kategorija ([lemma="glava"] ili npr. [msd="S.*"] [msd="Nc."] za dobivanje svih kombinacija prijedlog+opća imenica).

Takav se način pretrage već sada može provjeriti na ograničenom probnom korpusu (u Bonitu odaberite potkorpus cw2000).

Način obilježavanja hrvatskih gramatičkih tj. morfosintaktičkih kategorija usklađen je s međunarodnom preporukom MulTextEast za obilježavanje srednjo- i istočnoeuropskih jezika.