Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp

Abstract
Celem artykułu jest próba porównania oczekiwań użytkownika korpusu równoległego co do możliwości prowadzenia różnego typu badań, zwłaszcza analiz konfrontatywnych oraz translatologicznych z technicznymi możliwościami twórców korpusu. Autorzy rozpoczynają rozważania od szczegółowego opisu problemów twórców InterCorp. Wskazują na największe bolączki polegające na braku proporcji pomiędzy liczbą tekstów w poszczególnych językach umieszczonych w korpusie, a także na tym, że teksty reprezentują różne poziomy anotacji i tagowania. Szczegółowo opisana została polska część korpusu InterCorp. Autorzy podają dane statystyczne dotyczące poszczególnych wersji korpusu. Wiele miejsca poświęcono również problemowi anotacji i tokenizacji (znakowania). Zauważono, że dużym utrudnieniem jest brak jednolitego systemu znakowania dla wszystkich obecnych w InterCorpie języków. Na przedstawione w skrócie problemy twórców korpusu nakładają się trudności, jakie napotykają jego użytkownicy oraz ich oczekiwania względem jego zasobów. Osoby korzystające np. z zasobów polsko-czeskiej części InterCorpu narzekać mogą na zestawienie tekstów. O ile literatura piękna jest opracowywana ręcznie, o tyle tzw. kolekcje tekstów (Acquis, PressEurope, Europarl, Open Subtitles) są opracowywane tylko automatycznie. Paradoksalnie więc teksty, które nie sprawiają kłopotów twórcom korpusu, są dla niektórych użytkowników mniej przydatne. Nie można na przykład przeprowadzić szeregu badań opartych na materiale korpusowym, jeżeli nie da się ustalić kierunku przekładu albo języka źródłowego. Dotyczy to wszystkich analiz translatologicznych. Również niedostateczna wielkość korpusu stanowi dla użytkowników dużą przeszkodę. Zbyt mała liczba poświadczeń może uniemożliwić całkowicie przeprowadzenie badań nad konkretnym zjawiskiem leksykalnym czy gramatycznym (przykłady podane zostały w artykule). Użytkownicy sięgają jednak do korpusów paralelnych, ponieważ, mimo wszelkich niedociągnięć, stanowią one niezwykłe narzędzie służące do poszukiwania ekwiwalentów, a także porównywania znaczeń jednostek językowych. Dopasowanie odpowiedniego tematu badania do możliwości korpusu jest w tym przypadku podstawową czynnością poprzedzającą samo badanie, a jednocześnie gwarantem wiarygodności wyników. Sposób rozbudowywania InterCorpu jest sprawą powodującą prawdopodobnie największe kontrowersje pomiędzy twórcami a użytkownikami korpusu. Korzystającym z części polsko-czeskiej czy czesko-angielskiej zależy na tym, aby twórcy poświęcili jak najwięcej uwagi tej konkretnej parze języków, tę część rozbudowywali i doskonalili. Twórcy natomiast chcą uwzględnić w korpusie jak najwięcej języków. Z puntu widzenia użytkowników to zabieg mniej ważny, z punktu widzenia twórców to działanie przyszłościowe. Zarówno użytkownik korpusu, jak i jego twórca, znajdują się w sytuacji pomiędzy tym, co mogą i tym, co by chcieli – między swoistym młotem i kowadłem.
Description
Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 41-65.
Keywords
Citation
Belongs to collection