Back

ⓘ Korpusna lingvistika




                                     

ⓘ Korpusna lingvistika

Korpusna lingvistika je naziv za metod u lingvističkim istraživanjima u kome se koriste veliki uzorci prirodnog govora. Korpusi se sastoje od više stotina hiljada reči i njih je moguće automatski pretraživati. Analizom korpusa donose se pouzdani zaključci o frekvenciji upotrebe reči i izraza, kontekstu upotrebe konstrukcija koje želimo da proučimo, o različitim značenjima jedne reči, odlikama žanrova itd. Korpusi se dele na: opšte korpuse, koji se sastoje od tekstova svih žanrova, i specijalizovane korpuse, koji se fokusiraju na uzorke jezika iz jedne epohe ili odredene grupe govornika.

                                     

1. Primena korpusa u leksikografiji

Pošto daju pristup velikim uzorcima spontano upotrebljenog jezika, korpusi su danas neizbežan izvor podataka prilikom izrade rečnika. Veliki broj primera upotrebe koji su dostupni u elektronskoj formi ne samo da olakšava izradu, dopunjavanje i osavremenjivanje rečnika, već uvečava tačnost i preciznost informacija u rečniku. Opšti korpusi koji sadrže više desetina ili stotina miliona reči daju nam uvid u upotrebu i učestalost korišćenja reči, što je posebno važno za opis manje frekventnih reči. Uz to, mnogi korpusi sadrže i informacije poput mesta i vremena gde je tekst nastao, pola osobe koja je autor teksta, žanra kome tekst pripada i slične podatke koji mogu biti od koristi leksikografima. Korpusi koji se stalno dopunjavaju engl. monitor corpora daju uvid i u nove reči i izraze i tačne načine na koje ih govornici upotrebljavaju.

                                     

2. Primena korpusa u sintaksičkim istraživanjima

U izučavanju sintakse, korpusi omogućavaju da se težište u istraživanjima stavi na kvantitativnu umesto kvalitativne analize. Umesto subjektivnih procena prihvatljivosti ili učestalosti odredenih sintaktičkih konstrukcija, korpusi daju empirijski uvid u najtipičnije upotrebe i varijacije do kojih dolazi u odnosu na jezički varijetet, žanr i slične varijable.

                                     

3. Istorijat korpusne lingvistike

Začeci korpusne lingvistike bila su popisivanja višestrukih upotreba reči i izraza u tekstovima. U početku su ovi poslovi bili vezani za popisivanje svih reči iz Biblije i mesta u tekstu gde su se te reči javile. Prve takve konkordanse Biblije datiraju iz XIII veka i na njima je po pravilu radio veliki broj monaha koji su indekse reči iz Biblije pravili ručno. Osim Biblije, na isti način su indeksirana i dela pisaca poput Šekspira radi lakšeg proučavanje njihovih opusa; primer takve konkordanse je A Concordance to Shakespeare Endrua Beketa iz 1787. godine.

Jezuita Roberto Busa pedesetih godina XX veka započeo Index Thomisticus, indeks svih dela Tome Akvinskog, koji je kasnije prenesen na bušene kartice i predstavlja prvi korpus koji se mogao kompjuterski pretraživati i konkordansirati.

Veoma važan bio je rad leksikografa, koji su rečnike izradivali na osnovu primera stvarne upotrebe jezika. Rad dr Semjuela Džonsona na rečniku engleskog jezika iz 1755. godine oslanjao se na ogroman korpus sastavljen od papirnih traka sa primerima upotrebe reči zabeleženih izmedu 1560. i 1660. godine. Oksfordov rečnik engleskog jezika Oxford English Dictionary izraden je na isti način uz pomoć više od tri miliona papirnih traka.

Ova metoda korišćena je i za potrebe izrade gramatika. Medu takvim primerima su višetomna gramatika Ota Jespersena A Modern English Grammar on Historical Principles 1909–1949, kao i korpus Survey of English Usage SEU Corpus na osnovu kojeg je izradena gramatika A Comprehensive Grammar of the English Languag e.

Još jedan doprinos razvoju pretraživih zbirki dali su bibliotekari. Sedamdesetih godina XX veka bibliotekari su osmislili neke sisteme za pretraživanje ključnih reči u kontekstu radi lakše izrade bibliotečkih kataloga, bibliografija i sl.

Američki lingvisti strukturalisti zagovarali su korišćenje i proučavanje autentičnih primera jezika u spontanoj upotrebi. Zbirke uzoraka teksta bile su neizostavne u istorijskoj lingvistici, gde nije bilo moguće doći do izvornih govornika, recimo srednjevekovnog engleskog jezika. Zatim, fonetičari i lingvisti koji proučavaju usvajanje jezika kod dece počeli su da koriste korpuse. U usvajanju jezika su tokom šezdesetih godina XX veka već korišćeni transkribovani primeri upotrebe jezika u govoru dece CHILDES.

Korpusna lingvistika je na kratko oslabljena širenjem postavki transformaciono-generativne gramatike Noama Čomskog. Zbog naglaska na jezičkoj kompetenciji jezičkoj intuiciji govornika, a ne na performansi stvarnoj upotrebi jezika, korpusne metode su bile zanemarene u proučavanju jezika od kraja pedesetih do osamdesetih godina XX veka. Ipak, korpusna lingvistika nije nestala i šezdesete i sedamdesete godine XX veka donele su neke prekretnice u razvoju ove oblasti.

Prvi elektronski korpus pisanog jezika, the Brown Corpus, sastavili su š ezdesetih godina XX veka Nelson Frensis i Henri Kučera. Ovaj korpus je prvo zapisan na bušenim karticama, a kasnije je prenesen na magnetne trake. T he Brown Corpus se sastojao od oko milion reči iz tekstova na engleskom jeziku sa američkog govornog područja. Materijal je prikupljen tokom 1961. godine iz petnaest različitih jezičkih žanrova i bio je sastavljen specijalno za potrebe lingvističke analize. Ovaj korpus je postavio prve standarde u izradi opštih korpusa i poslužio je kao model za sastavljanje drugih korpusa. Po ugledu na njega nastao je britanski pandan Lancaster-Oslo/Bergen Corpus LOB.

Prvi korpus govornog engleskog jezika izraden je na Univerzitetu u Edinburgu je izmedu 1963. i 1965. godine. Sastojao se od 166.000 reči. Izmedu 1975. i 1990. izraden je korpus govornog engleskog jezika the London-Lund Corpus of Spoken English LLC koji je sadržao pola miliona reči.

Tokom sedamdesetih godina XX veka postepeno se umnožavao broj elektronskih korpusa. Pored engleskog, javljaju se i korpusi na drugim jezicima. Javljaju se i drugačije vrste jezičkih korpusa. Tokom osamdesetih i devedesetih godina XX veka korpusna lingvistika je doživela pravi procvat.Razvoj korpusne lingvistike u ovom periodu omogućili su sve veća dostupnost kompjutera i napredak tehnologije u pogledu kapaciteta i brzine prikupljanja i obrade podataka.



                                     

4. Spoljašnje veze

  • DMCBC.com
  • Manuel Barberas overview site
  • Bookmarks for Corpus-based Linguists – very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
  • AskOxford.com the composition and use of the Oxford Corpus
  • Freely-available, web-based corpora 100 million – 400 million words each: American COCA, COHA, British BNC, TIME, Spanish, Portuguese
  • Przemek Kaszubskis list of references
  • Corpora discussion list
                                     
  • Горњолужичкосрпски текстуални корпус глсрп. HOrnjoserbski Tekstowy KOrpus скраћ. HoTKo дигитални је текстуални корпус горњолужичкосрпског језика. Историја
  • члан Комисије за творбу ријечи Међународног славистичког комитета корпусна лингвистика стилистика словенских језика посебно у односу на категорију деминутива
  • је 1968. године, а 1991. за вр ши ла Групу за српски је зик и оп шту лин гви сти ку на Фи ло ло шком факулте ту у Београ ду. Магистрирала је 1993, а док то ри ра ла

Users also searched:

...