korpus f19 dostępny przez wyszukiwarkę Poliqarp/marasca

Korpus polszczyzny 1830-1918 na stronie Szukaj w słownikach (https://szukajwslownikach.uw.edu.pl/f19/).

Kilka lat temu prof. Janusz S. Bień udostępnił słownik  „warszawski” oraz słownik  S.B. Lindego z wyszukiwarką poliqarp zmodyfikowaną tak, by obsługiwała wielowarstwowa pliki djVu. Obecnie te i inne zasoby są dostępne na stronie https://szukajwslownikach.uw.edu.pl/pl/.

Ze względu na różnorodność źródeł korpusu f19 trudne i zapewne nieopłacalne byłoby wykorzystanie dotychczasowego sposobu udostępniania, wykorzystującego format djVu. Jednocześnie przygotowany przez nas korpus — w odróżnieniu od innych zasobów na stronie https://szukajwslownikach.uw.edu.pl/pl/ — ma zweryfikowaną postać tekstową. Pliki korpusu zostały więc zanalizowane analizatorem Morfeusz2 ze słownikiem 1830-1918, a następnie otagowane za pomocą taggera Concraft2. Należy pamiętać, że nie jest to tager przystosowany do danych z XIX wieku, jednak eksperymenty dały wyniki, które uznaliśmy za wystarczająco dobre, by udostępnić korpus w wersji otagowanej. W bardzo wielu wypadkach pozwala on na wyszukania znacznie bardziej zaawansowane niż samo przeszukiwanie po kształtach ortograficznych.

Każda próbka została opisana metadanymi z metryczki korpusowej, która zawiera łącza do zasobów źródłowych, z których pochodzą wyekscerpowane tekstu. Umożliwia to zapoznanie się z oryginalnym skanem, a w razie potrzeby także z pełnym dokumentem.

Niezbędnych adaptacji wyszukiwarki Poliqarp/marasca dokonał Michał Rudolf.
Pliki przeanalizował zmodyfikowanym analizatorem Morfeusz i otagował Concraftem2 otagował Witold Kieraś. Zachętą, a nawet przynagleniem służył nam prof. Janusz S. Bień, szczególnie za to drugie jesteśmy mu bardzo wdzięczni.