Korpus, wersja 0.4

Udostępniamy drugą wersję roboczą korpusu tekstów z lat 1830-1918. Aktualnie w jego skład wchodzi 414 próbek podzielonych na pięć stylów funkcjonalnych. Obecny stan korpusu obrazuje około 40% jego rozmiaru docelowego.

W aktualnej wersji podział próbek w poszczególnych stylach przedstawia się następująco:

  1. teksty popularnonaukowe: 26
  2. drobne wiadomości prasowe: 46
  3. publicystyka: 108
  4. proza artystyczna: 200
  5. dramat: 34

Jak widać, od poprzedniej wersji przybyły przede wszystkim próbki z prozy i publicystyki.

W stosunku do korpusu 200 próbek wprowadzono zmiany mające na celu urozmaicenie tekstów podstawy: zamiast 5 tekstów J. Słowackiego z 1834 (pierwodruk „Poezyj”) – dwa, zamiast pięciu tekstów J.I. Kraszewskiego – teksty czworga autorów (J. Dzierzkowski, J. Masłowski, J. Bliziński, E. Chojecki, J. Łuszczewska – Deotyma).

Łączna liczba słów tekstowych (od spacji do spacji) w aktualnej wersji korpusu wynosi 430 403 słowa.

Objętość próbek: najkrótsza 211 segmentów (1868_3.3_sample.txt, wiadomość prasowa), najdłuższa 1408 (1893_5.1_sample.txt, fragment dramatu).

13 próbek ma długość mniejszą niż 1000 segmentów +/- 10%, 40 – większą; różnice w długości wynikają z różnic w typie tekstu (wśród krótkich wiadomości trudno znaleźć takie, które mają 1000 segmentów, podjęliśmy decyzję o niełączeniu w próbce kilku tekstów, a zatem o zwiększeniu liczby próbek).

Każda próbka składa się z dwóch części: pliku zawierającego tekst (pliki *_sample.txt) oraz metryczki (pliki *_meta.txt). Lista plików korpusu z metryczką.

Nie licząc 49 tekstów anonimowych, w korpusie zgromadzono próbki autorstwa 212 osób: 158 autorów po 1 tekście, 28 – po 2, 13 – po 3, 5 – po 4, 2 po -5 (Z. Krasiński, J. Dzierzkowski), więcej niż 6 tekstów ma 6 autorów: M. Bałucki (6), S. Przybyszewski (8), J. I. Kraszewski, E. Orzeszkowa (po 10), J. Słowacki (11). [wykaz autorów]

Rozkład nierozpoznanych segmentów w badanym okresie wygląda następująco:

  1.  Zbadaliśmy też, jak poprzednio, jedną z najistotniejszych ilościowo cech tekstów z lat 1830-1918, tj. kreskowanie e 
  2. oraz kreskowanie w końcówkach inst, loc sg, loc pl M, N oraz gen, dat, loc sg F (-ém, -émi, -éj)
  3. Sprawdziliśmy też użycie wielkich liter; uwaga! wyniki zawierają również nazwy własne:

[Dodane w 2017] Statystyki nierozpoznanych segmentów z podziałem na style i dla całej próby N=200: