Co to jest KORPUS?
Korpus to dowolny zbiór tekstów, w którym czego¶ szukamy. O korpusach w tym znaczeniu mówi± najczê¶ciej jêzykoznawcy, ale tak¿e archiwi¶ci, historycy i informatycy. Korpus Jêzyka Polskiego PWN to fragment s³ownikowej "kuchni", czyli autentyczny materia³ jêzykowy, na którego podstawie opisujemy znaczenia s³ów i konstrukcji sk³adniowych. Korpus Jêzyka Polskiego PWN Nasz korpus jest tworzony od 1996 roku i liczy obecnie ponad 70 milionów s³ów. Sk³ada siê z tekstów ksi±¿ek, czasopism, druków ulotnych i akcydensowych (np. reklam, instrukcji obs³ugi, regulaminów, ulotek), stron internetowych oraz tekstów mówionych. Wszystkie uzyskane teksty, maj±ce ró¿n± objêto¶æ, w³±czamy do podstawowego korpusu w ca³o¶ci. Dbamy o zrównowa¿enie tematyczne, dobieraj±c teksty z odpowiednich dziedzin. Czego mo¿emy dowiedzieæ siê z korpusu? Przede wszystkim tego, jak czêsto, w jakich kontekstach i znaczeniach, a tak¿e w jakich odmianach wspó³czesnej polszczyzny pojawia siê interesuj±ce nas s³owo lub okre¶lona forma gramatyczna. Na podstawie korpusu tworzona jest lista frekwencyjna wyrazów, bardzo pomocna przy tworzeniu nowych s³owników. Korpus o zwyczajach jêzykowych Polaków Je¶li kto¶ chcia³by z takiej listy wyci±gaæ wnioski o zwyczajach Polaków czy naszym stereotypowym my¶leniu, to dowiedzia³by siê m.in., ¿e: O kobietach piszemy i mówimy trzykrotnie rzadziej ni¿ o mê¿czyznach, tzn. ¿e czasowniki oznaczaj±ce czynno¶ci w rzeczywisto¶ci tak samo czêsto wykonywane przez mê¿czyzn jak i kobiety s± w formie mêskiej czasu przesz³ego trzykrotnie czêstsze ni¿ w ¿eñskiej, np. powiedzia³ do powiedzia³a ma siê tak jak 3:1. Podobne wyniki otrzymujemy po odrzuceniu zdañ z nieosobowym lub nieokre¶lonym p³ciowo odniesieniem czasownika, np. Kto¶ powiedzia³... Ca³y dom mówi³... Ca³a klasa my¶la³a... Taki rozk³ad frekwencji form mêskich i ¿eñskich jest tym bardziej interesuj±cy, ¿e czêsto¶æ s³owa kobieta jest w przeciêtnym tek¶cie oko³o dwa razy wiêksza ni¿ s³owa mê¿czyzna. Tylko kobieta mie¶ci siê na li¶cie dwustu najczêstszych s³ów korpusu zrównowa¿onego. Mê¿czyzna ma na li¶cie frekwencyjnej dopiero 400. pozycjê. Najwa¿niejszym, tzn. najczê¶ciej wspominanym dniem tygodnia jest niedziela, a dalej: sobota, pi±tek, poniedzia³ek, ¶roda, czwartek, wtorek. Jesieñ i zima s± czê¶ciej wspominane ni¿ wiosna i lato. Narody i kraje, o których najczê¶ciej mówimy, to Niemcy, Rosja i Rosjanie, Ameryka i Amerykanie oraz Francja i Francuzi. Psy wystêpuj± w tekstach dwukrotnie czê¶ciej ni¿ koty. Kawa jest wymieniana dwukrotnie czê¶ciej ni¿ herbata. Piwo i wino wspominamy czê¶ciej ni¿ wódkê. Czê¶ciej mówimy o sa³acie ni¿ o schabowym, ale na czele wci±¿ s± ziemniaki (nieco rzadziej zwane kartoflami). Obszern± próbkê korpusu publikujemy, wraz z wyszukiwark±, na p³ycie do³±czonej do luksusowego wydania Uniwersalnego s³ownika jêzyka polskiego PWN. Korpus zamieszczony na CD stanowi fragment zrównowa¿onego Korpusu Jêzyka Polskiego PWN i liczy prawie 7,5 mln s³ów (razem z korpusem Rzeczpospolitej). Pod adresem: korpus.pwn.pl znajduje siê próbka korpusu on line. |