Mixed corpus design for researching the Eurolect: a genre-based comparable-parallel corpus in the PL EUROLECT project

Biel, Łucja

Mixed corpus design for researching the Eurolect: a genre-based comparable-parallel corpus in the PL EUROLECT project

Abstract

W artykule opisano mieszaną strukturę gatunkowego korpusu porównawczo-równoległego budowanego w ramach projektu PL EUROLECT finansowanego przez NCN (grant SONATA BIS, 2015-2018). Celem projektu jest kompleksowe zbadanie polskiego eurolektu, nowej hybrydowej odmiany języka polskiego powstającej w wyniku tłumaczenia i stosowanej w kontekście unijnym oraz dogłębne zrozumienie procesów i czynników go kształtujących, a także jego wpływu na poakcesyjną polszczyznę urzędową. Podstawą korpusu będzie struktura gatunkowa obejmująca cztery gatunki uznane za reprezentatywne dla komunikacji unijnej (akty prawne, orzeczenia, sprawozdania i urzędowe strony internetowe dla obywateli) podzielone na podgatunki – np. w ramach korpusu aktów prawnych wydzielone zostaną podkorpusy rozporządzeń, dyrektyw i decyzji. Struktura gatunkowa korpusu umożliwi zbadanie zróżnicowania wewnętrznego eurolektu i uzyskanie bardziej precyzyjnych danych ilościowych. Na strukturę gatunkową zostanie nałożony dwujęzyczny korpus równoległy zawierający wyrównane teksty w języku angielskim i polskim oraz jednojęzyczny korpus porównawczy zawierający nieprzetłumaczone teksty administracyjne w języku polskim, a także – jako punkt odniesienia – zrównoważona próba Narodowego Korpusu Języka Polskiego. Mieszana struktura korpusu ma umożliwić badanie dwóch fundamentalnych relacji, tj. ekwiwalencji – relacji eurolektu do tekstów źródłowych (korpus równoległy) oraz dopasowania tekstowego – relacji eurolektu do nieprzetłumaczonych tekstów w języku docelowym (korpus porównawczy). W strukturze korpusu uwzględniony zostanie również korpus diachroniczny polszczyzny urzędowej sporządzony dla poszczególnych gatunków z okresu przedakcesyjnego i poakcesyjnego w celu zbadania wpływu eurolektu na urzędową odmianę języka polskiego. Uzyskane dane ilościowe będą rejestrować stan eurolektu i polszczyzny w przekroju gatunkowym w konkretnych przedziałach czasowych, i stanowić punkt odniesienia dla innych badaczy. Gatunkowe dane ilościowe otrzymane z analizy korpusowej zostaną poddane triangulacji z danymi jakościowymi (analiza dyskursu, semiotyka społeczna, badania prawnoporównawcze terminologii). Celem metodologicznym jest opracowanie interdyscyplinarnego modelu teoretycznego do badania odmian języka powstających z udziałem tłumaczy.

Description

Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 198-208.