Тест словарного запаса: методика

Тест словарного запаса


Методика

Задача данного теста — определить ваш пассивный словарный запас (то есть количество слов, которые вы узнаете при чтении и на слух). Единственный способ сделать это точно — взять словарь потолще (тысяч на сто слов), отметить все слова, которые вы знаете, и посчитать их. Вряд ли найдется желающий пойти на подобное испытание. Задача, к счастью, значительно упрощается, если сделать одно разумное предположение — вероятность знания слов, использующихся в языке одинаково часто, примерно одинакова. Иными словами, если вы знаете слово «кошка», то и слово «собака» вы также будете знать, а если не знаете, что такое «амбивалентность», то и «трансцендентальность» не знаете тоже. Таким образом, можно сгруппировать слова по сложности — от простых до самых редких, и из каждой группы выбрать по одному представителю. Если вы знаете это слово — можно считать, что и всю группу вы тоже знаете. Если групп достаточно много (хотя бы сто), то такой метод позволит определить словарный запас довольно точно.

Технически использованная методика определения словарного запаса проста, однако дьявол, как всегда, в деталях.

Частотный словарь

Итак, первой задачей было построить достаточно полный частотный словарь русского языка (к сожалению, существующие частотные словари слишком малы для определения словарного запаса начитанного носителя русского языка). Для этого нужны две вещи. Первое — как можно более полный словарь русского языка; был использован толковый словарь Ефремовой (136 тыс. слов, небольшое количество слов было также взято из словаря Хагена), http://www.speakrus.ru/dict). Второе — корпус русского языка; был использован Национальный Корпус Русского Языка (http://www.ruscorpora.ru). Корпус состоит из большого количества (86 тысяч) текстов разной тематики — художественная литература, публицистика, научные и научно-популярные, религиозные и философские тексты, личная переписка, дневники; общий объем текстов — 230 миллионов слов. За счет большого объема и широкого охвата этот корпус представляет собой слепок современного (54% всех текстов были созданы после 1950-го года) русского языка. Для каждого слова из словаря Ефремовой с помощью корпуса была найдена его частота — мера того, как часто это слово употребляется в языке (частота обычно измеряется в количестве употреблений слова на миллион слов корпуса). Получившийся частотный словарь был затем отсортирован — от высокочастотных (простых) слов к низкочастотным (сложным).

Словарные гнёзда

Основная идея статистического подхода к оценке словарного запаса заключается в том, что вероятность знания слова испытуемым зависит от частотности этого слова (того, как часто это слово встречается в текстах или используется в речи). Это, однако, не совсем так. К примеру, слово "думать" встречается в 100 тысяч раз чаще, чем "думающий", однако если испытуемый знает одно из них, то, скорее всего, знает и другое. Можно сказать, что существуют некоторые "словарные гнёзда". В каждое гнездо входят одно основное слово, а также его производные, которые можно образовать от основного по простым правилам с помощью приставок и суффиксов. Зная любое слово из гнезда и обладая некоторым лингвистическим чутьем, можно догадаться о значении всех остальных слов этого гнезда. Частотный словарь был перегруппирован с учётом таких гнёзд.

В тестах на словарный запас английского языка подобные гнёзда называются "word families", причем знание одной word family приравнивается к знанию одного слова. Таким образом, в оценке словарного запаса учитывается знание только основных слов, но не их производных. Существуют общепринятые правила формирования word families (L. Bauer and P. Nation, Int. J. Lexicography (1993)). В русском языке, к сожалению, таких правил не разработано. Из-за этого было принято решение давать оценку словарного запаса, учитывая не только основные, но и производные слова тоже.

Тестирование в два этапа

Методика определения словарного запаса является двухэтапной. На первом этапе отсортированные слова делятся на 40 групп (первые группы содержат самые простые слова, последние – самые сложные). Из каждой группы выбирается тестовое слово; получившиеся 40 тестовых слов формируют первый тестовый набор. По результатам ответов можно приблизительно определить нижнюю и верхнюю границы словарного запаса. Ниже нижней границы испытуемый знает практически все слова. Выше верхней – не знает практически ничего. На следующем этапе отсортированные слова в этом приблизительном диапазоне делятся на более мелкие группы и формируется второй тестовый набор. Окончательная оценка словарного запаса — это сумма слов во всех группах, тестовые слова из которых испытуемый пометил как известные. Идея адаптивного тестирования в два этапа была заимствована на сайте http://testyourvocab.com.

Точность и повторяемость

Тест можно проходить много раз — из-за большого количества тестовых слов (около 1200) они будут повторяться довольно редко. Стандартное отклонение оценки при этом составляет около 4%. Это означает, что в 68% всех прохождений оценка будет лежать в пределах плюс-минус 4% от среднего, в 96% - в пределах плюс-минус 8% от среднего. Простыми словами — если вы прошли тест два раза, то оценки вполне могут отличаться на 10-15%, это неизбежное следствие статистического подхода.

Защита от неаккуратного прохождения

Тест строится на предположении, что испытуемый честно и внимательно отмечает знакомые слова. К сожалению, это не всегда так. Чтобы распознавать случаи неаккуратного прохождения, в тест были введены слова-ловушки. Такие слова звучат, как русские, но ничего не обозначают. Их нет ни в одном словаре; более того, даже поисковые системы не находят их в интернете. Если испытуемый отмечает такое слово как знакомое, его результат считается недостоверным и не включается в итоговое исследование словарного запаса русскоговорящих. Однако оценка, которую человек получает, никак не модифицируется (выдается только словесное предупреждение о недостоверности результатов).

Технологии

Методика тестирования реализована на языке Python с использованием веб-фреймворка Flask и фронтэнда Zurb Foundation.

Заключение

Как вы уже, скорее всего, убедились (если прошли тест) – методика определения словарного запаса работает. По крайней мере, она дает некоторую достаточно разумную оценку. Чтобы улучшить эту оценку, я предлагаю двигаться в двух направлениях. Я, как автор, буду работать над методикой и повышать ее точность. А вы можете прочитать пару-тройку серьезных книг и пройти тест еще раз – результат вам обязательно понравится.

Если у вас остались вопросы - читайте большую статью про методику, валидацию и исследование точности теста.