Co to jest KORPUS?

Korpus to dowolny zbiór tekstów, w którym czego¶ szukamy. O korpusach w tym znaczeniu mówi± najczê¶ciej jêzykoznawcy, ale tak¿e archiwi¶ci, historycy i informatycy. Korpus Jêzyka Polskiego PWN to fragment s³ownikowej "kuchni", czyli autentyczny materia³ jêzykowy, na którego podstawie opisujemy znaczenia s³ów i konstrukcji sk³adniowych.

Korpus Jêzyka Polskiego PWN
Nasz korpus jest tworzony od 1996 roku i liczy obecnie ponad 70 milionów s³ów. Sk³ada siê z tekstów ksi±¿ek, czasopism, druków ulotnych i akcydensowych (np. reklam, instrukcji obs³ugi, regulaminów, ulotek), stron internetowych oraz tekstów mówionych. Wszystkie uzyskane teksty, maj±ce ró¿n± objêto¶æ, w³±czamy do podstawowego korpusu w ca³o¶ci. Dbamy o zrównowa¿enie tematyczne, dobieraj±c teksty z odpowiednich dziedzin.

Czego mo¿emy dowiedzieæ siê z korpusu?
Przede wszystkim tego, jak czêsto, w jakich kontekstach i znaczeniach, a tak¿e w jakich odmianach wspó³czesnej polszczyzny pojawia siê interesuj±ce nas s³owo lub okre¶lona forma gramatyczna. Na podstawie korpusu tworzona jest lista frekwencyjna wyrazów, bardzo pomocna przy tworzeniu nowych s³owników.

Korpus o zwyczajach jêzykowych Polaków
Je¶li kto¶ chcia³by z takiej listy wyci±gaæ wnioski o zwyczajach Polaków czy naszym stereotypowym my¶leniu, to dowiedzia³by siê m.in., ¿e:
O kobietach piszemy i mówimy trzykrotnie rzadziej ni¿ o mê¿czyznach, tzn. ¿e czasowniki oznaczaj±ce czynno¶ci w rzeczywisto¶ci tak samo czêsto wykonywane przez mê¿czyzn jak i kobiety s± w formie mêskiej czasu przesz³ego trzykrotnie czêstsze ni¿ w ¿eñskiej, np. powiedzia³ do powiedzia³a ma siê tak jak 3:1. Podobne wyniki otrzymujemy po odrzuceniu zdañ z nieosobowym lub nieokre¶lonym p³ciowo odniesieniem czasownika, np. Kto¶ powiedzia³... Ca³y dom mówi³... Ca³a klasa my¶la³a...

Taki rozk³ad frekwencji form mêskich i ¿eñskich jest tym bardziej interesuj±cy, ¿e czêsto¶æ s³owa kobieta jest w przeciêtnym tek¶cie oko³o dwa razy wiêksza ni¿ s³owa mê¿czyzna. Tylko kobieta mie¶ci siê na li¶cie dwustu najczêstszych s³ów korpusu zrównowa¿onego. Mê¿czyzna ma na li¶cie frekwencyjnej dopiero 400. pozycjê.

Najwa¿niejszym, tzn. najczê¶ciej wspominanym dniem tygodnia jest niedziela, a dalej: sobota, pi±tek, poniedzia³ek, ¶roda, czwartek, wtorek.

Jesieñ i zima s± czê¶ciej wspominane ni¿ wiosna i lato.

Narody i kraje, o których najczê¶ciej mówimy, to Niemcy, Rosja i Rosjanie, Ameryka i Amerykanie oraz Francja i Francuzi.

Psy wystêpuj± w tekstach dwukrotnie czê¶ciej ni¿ koty.

Kawa jest wymieniana dwukrotnie czê¶ciej ni¿ herbata.

Piwo i wino wspominamy czê¶ciej ni¿ wódkê.

Czê¶ciej mówimy o sa³acie ni¿ o schabowym, ale na czele wci±¿ s± ziemniaki (nieco rzadziej zwane kartoflami).

Obszern± próbkê korpusu publikujemy, wraz z wyszukiwark±, na p³ycie do³±czonej do luksusowego wydania Uniwersalnego s³ownika jêzyka polskiego PWN. Korpus zamieszczony na CD stanowi fragment zrównowa¿onego Korpusu Jêzyka Polskiego PWN i liczy prawie 7,5 mln s³ów (razem z korpusem Rzeczpospolitej).

Pod adresem: korpus.pwn.pl znajduje siê próbka korpusu on line.