Πώς λειτουργεί

Read in English

Το τεστ εκτιμά το δεκτικό λεξιλόγιο — τον αριθμό λέξεων που αναγνωρίζετε κατά την ανάγνωση και ακρόαση. Ο μόνος ακριβής τρόπος μέτρησης θα ήταν να ελέγξουμε αν γνωρίζετε κάθε λέξη σε ένα πολύ εκτενές λεξιλόγιο, μία προς μία. Αυτό όμως δεν είναι πρακτικό. Ευτυχώς, υπάρχει μια καλύτερη προσέγγιση χάρη στη Θεωρία Απόκρισης Θέματος (IRT) — ένα σύγχρονο πλαίσιο για τον σχεδιασμό, την ανάλυση και τη βαθμολόγηση τεστ. Σύμφωνα με αυτό το πλαίσιο, υποθέτουμε ότι το λεξιλόγιό σας είναι μια λανθάνουσα ικανότητα που μπορεί να εκφραστεί με έναν αριθμό και να μετρηθεί. Η μέτρηση γίνεται μέσω μιας σειράς λέξεων διαφόρων βαθμών δυσκολίας, τις οποίες δηλώνετε αν τις γνωρίζετε ή όχι. Για παράδειγμα, η λέξη «γάτα» έχει πολύ χαμηλή δυσκολία, ενώ η λέξη «αποστάτης» έχει πολύ υψηλή. Η δυσκολία σχετίζεται άμεσα με το πόσο συχνά βλέπουμε, ακούμε ή χρησιμοποιούμε αυτές τις λέξεις. Η IRT δίνει έναν μαθηματικό τρόπο για να υπολογίσουμε αυτή την ικανότητα βάσει των απαντήσεών σας — κι αυτό ακριβώς εφαρμόζουμε.

Για να γίνει το τεστ ταυτόχρονα σύντομο και ακριβές, χρησιμοποιούμε την τεχνική του Υπολογιστικά Προσαρμοσμένου Τεστ (CAT) — ένα ακόμη πρότυπο στον χώρο των σύγχρονων τεστ. Υπολογίζουμε το λεξιλόγιό σας μετά από κάθε απάντηση και επιλέγουμε την επόμενη λέξη έτσι ώστε να μην είναι ούτε πολύ εύκολη ούτε πολύ δύσκολη. Με αυτόν τον τρόπο, κάθε ερώτηση προσφέρει τη μέγιστη δυνατή πληροφορία. Η ακρίβεια της εκτίμησης βελτιώνεται σε κάθε βήμα και το τεστ ολοκληρώνεται μόλις επιτευχθεί ένα προκαθορισμένο όριο ακρίβειας.

Λεξικό

Ως σημείο αναφοράς για το πόσες λέξεις περιλαμβάνει η σύγχρονη ελληνική γλώσσα και τι θεωρείται λέξη (σε αντίθεση με κλιτές μορφές), χρησιμοποιήσαμε το Λεξικό της Κοινής Νεοελληνικής (Λεξικό Τριανταφυλλίδη). Το λεξικό περιέχει 45.000 λήμματα, και αυτόν τον αριθμό υιοθετήσαμε. Το επιλέξαμε επειδή είναι, πρώτον, έγκυρο και ευρέως αποδεκτό ως σημείο αναφοράς, και δεύτερον, επικεντρώνεται στη γενικά χρησιμοποιούμενη γλώσσα (δεν περιλαμβάνει πολλούς εξειδικευμένους επιστημονικούς όρους, αρχαϊσμούς, ιδιωματισμούς κ.λπ.).

Δεδομένα συχνότητας

Συλλέξαμε δεδομένα συχνότητας για κάθε λήμμα του λεξικού από το Εθνικό Σώμα Κειμένων της Ελληνικής Γλώσσας (HNC).

Πόσο εύκολο είναι να ξεγελάσει κανείς το τεστ;

Υπάρχουν δύο είδη ελέγχων. Πρώτον, περιλαμβάνονται μερικές ανύπαρκτες λέξεις ανάμεσα στις ερωτήσεις. Δεύτερον, αν δηλώσετε ότι γνωρίζετε μια λέξη, ενδέχεται να σας ζητηθεί να επιλέξετε τη σωστή σημασία της ανάμεσα σε τέσσερις επιλογές. Στο τέλος, υπολογίζουμε έναν δείκτη προσοχής με τον απλό τύπο (x+y)/(ax+ay), όπου x είναι ο αριθμός των ανύπαρκτων λέξεων που δηλώθηκαν ως άγνωστες, ax το σύνολο των ανύπαρκτων λέξεων που παρουσιάστηκαν, y ο αριθμός των σωστά απαντημένων ερωτήσεων πολλαπλής επιλογής και ay το σύνολο των σχετικών ερωτήσεων. Η τελική εκτίμηση λεξιλογίου δεν επηρεάζεται από τον δείκτη προσοχής. Ο δείκτης χρησιμοποιείται μόνο για να εκτιμηθεί αν τα δεδομένα μπορούν να θεωρηθούν έγκυρα για ερευνητικούς σκοπούς.

Η ομάδα

Grigory Golovin — πλατφόρμα myVocab, προγραμματισμός, ανάλυση δεδομένων.
Alex Terekhov — επιλογή λέξεων για το τεστ.