On l'a déjà vu, l'un des gros problèmes des approches que nous avons eues jusque-là, c'est que les flexions des mots faussaient les calculs. Il est donc temps de remédier à ce problème (typiquement ne plus avoir d'un côté "est", puis "sunt", mais "esse".

# Latin

In [2]:
cato_agri_praef = open("./texts/praef_cicero.txt").read()

In [3]:
# Importons d'abord un dépôt de référence

from cltk.corpus.utils.importer import CorpusImporter
corpus_importer = CorpusImporter('latin')
corpus_importer.import_corpus('latin_models_cltk')

In [4]:
# On reprend la normalisation du latin

from cltk.stem.latin.j_v import JVReplacer
from cltk.tokenize.word import WordTokenizer

jv_replacer = JVReplacer()
cato_agri_praef = jv_replacer.replace(cato_agri_praef.lower())

word_tokenizer = WordTokenizer('latin')
cato_word_tokens = word_tokenizer.tokenize(cato_agri_praef.lower())
cato_word_tokens = [token for token in cato_word_tokens if token not in ['.', ',', ':', ';']]

In [5]:
# Et on fait notre première lemmatisation

from cltk.stem.lemma import LemmaReplacer

lemmatizer = LemmaReplacer('latin')
lemmata = lemmatizer.lemmatize(cato_word_tokens)
print(lemmata)

['edo1', 'interdum', 'praesto2', 'mercor', 'res', 'quaero', 'nitor1', 'tam', 'periculosus', 'sum1', 'et', 'ito', 'foenerari', 'si', 'tam', 'honestus', 'magnus', 'noster', 'sic', 'habeo', 'et', 'ito', 'in', 'lex', 'posiuerunt', 'fur', 'duplum', 'condemno', 'foeneratorem', 'quadruplus', 'quantus', 'malus', 'civis', 'existimo', 'foeneratorem', 'qui1', 'fur', 'hinc', 'liceo1', 'existimo', 'et', 'vir', 'bonus', 'cum', 'laudo', 'ito', 'laudo', 'bonus', 'agricola1', 'bonus', '-que', 'colonus', 'amplus', 'laudo', 'existimo', 'qui1', 'ito', 'laudo', 'mercator', 'autem', 'strenuus', 'studiosus', '-que', 'redeo', 'quaero', 'existimo', 'verus', 'ut', 'supra', 'dico2', 'periculosus', 'et', 'calamitosus', 'at', 'ex', 'agricola1', 'et', 'vir', 'fortis', 'et', 'milito', 'strenuus', 'gigno', 'magnus', '-que', 'pius', 'quaestus', 'stabilissimus', '-que', 'consequor', 'minimus', '-que', 'invidiosus', 'minimus', '-que', 'malus', 'cogito', 'sum1', 'qui1', 'in', 'eo1', 'studium', 'occupo', 'sum1', 'nunc', '

In [6]:
# Maintenant même chose mais on veut aussi voir en parallèle la forme fléchie

lemmata_orig = lemmatizer.lemmatize(cato_word_tokens, return_raw=True)
print(lemmata_orig)

['est/edo1', 'interdum/interdum', 'praestare/praesto2', 'mercaturis/mercor', 'rem/res', 'quaerere/quaero', 'nisi/nitor1', 'tam/tam', 'periculosum/periculosus', 'sit/sum1', 'et/et', 'item/ito', 'foenerari/foenerari', 'si/si', 'tam/tam', 'honestum/honestus', 'maiores/magnus', 'nostri/noster', 'sic/sic', 'habuerunt/habeo', 'et/et', 'ita/ito', 'in/in', 'legibus/lex', 'posiuerunt/posiuerunt', 'furem/fur', 'dupli/duplum', 'condemnari/condemno', 'foeneratorem/foeneratorem', 'quadrupli/quadruplus', 'quanto/quantus', 'peiorem/malus', 'ciuem/civis', 'existimarint/existimo', 'foeneratorem/foeneratorem', 'quam/qui1', 'furem/fur', 'hinc/hinc', 'licet/liceo1', 'existimare/existimo', 'et/et', 'uirum/vir', 'bonum/bonus', 'quom/cum', 'laudabant/laudo', 'ita/ito', 'laudabant/laudo', 'bonum/bonus', 'agricolam/agricola1', 'bonum/bonus', '-que/-que', 'colonum/colonus', 'amplissime/amplus', 'laudari/laudo', 'existimabatur/existimo', 'qui/qui1', 'ita/ito', 'laudabatur/laudo', 'mercatorem/mercator', 'autem/au

In [7]:
# On recompte

print(len(lemmata))

115


In [8]:
# On compte les mots uniques, et on compare avec avant

print(len(set(lemmata)))

73


In [9]:
# On mesure la diversité lexicale avec les lemmes

print(len(set(lemmata)) / len(lemmata))

0.6347826086956522


# Grec

In [10]:
athenaeus_incipit = open("./texts/incipit_athenaeus.txt").read()

In [11]:
from cltk.corpus.utils.importer import CorpusImporter
corpus_importer = CorpusImporter('greek')
corpus_importer.import_corpus('greek_models_cltk')

from cltk.tokenize.word import WordTokenizer
word_tokenizer = WordTokenizer('greek')
athenaeus_word_tokens = word_tokenizer.tokenize(athenaeus_incipit.lower())
athenaeus_word_tokens = [token for token in athenaeus_word_tokens if token not in ['.', ',', ':', ';']]

from cltk.stem.lemma import LemmaReplacer
lemmatizer = LemmaReplacer('greek')
lemmata = lemmatizer.lemmatize(athenaeus_word_tokens)

In [12]:
print(lemmata)

['ἀθήναιος', 'μὲν', 'ὁ', 'ὁ', 'βίβλος', 'πατήρ·', 'ποιέω', 'δὲ', 'τὸν', 'λόγος', 'πρὸς', 'τιμοκράτην·', 'δειπνοσοφιστὴς', 'δὲ', 'οὗτος', 'τὸ', 'ὄνομα', 'ὑπόκειμαι', 'δὲ', 'ὁ', 'λόγος', 'λαρήνσιος', 'ῥωμαῖος', 'ἀνὴρ', 'ὁ', 'τυγχάνω', 'περιφανής', 'τοὺς', 'κατὰ', 'πᾶς', 'παιδεία', 'ἔμπειρος', 'ἐν', 'ἑαυτοῦ', 'δαιτυμών', 'ποιούμενος·', 'ἐν', 'ὅς', 'οὐ', 'ἔσθ᾽', 'ὅστις', 'ὁ', 'καλός', 'οὐ', 'μνημονεύω', 'ἰχθύς', 'τε', 'γὰρ', 'ὁ', 'βίβλος', 'ἐντίθημι', 'καὶ', 'τὰς', 'οὗτος', 'χρεία', 'καὶ', 'τὰς', 'ὁ', 'ὄνομα', 'ἀναπτύσσω', 'καὶ', 'λάχανον', 'γένος', 'παντοῖος', 'καὶ', 'ζωιόω', 'παντοδαπός', 'καὶ', 'ἀνήρ', 'ἱστορία', 'συγγράφω', 'καὶ', 'ποιητὰς', 'καὶ', 'φιλόσοφος', 'καὶ', 'ὀργαίνω', 'μουσικὰ', 'καὶ', 'σκῶμμα', 'εἶδος', 'μυρίος', 'καὶ', 'ἔκπωμα', 'διαφορὰς', 'καὶ', 'πλοῦτος', 'βασιλίς', 'διηγέομαι', 'καὶ', 'ναῦς', 'μέγεθος', 'καὶ', 'ὅσος', 'ἄλλος', 'οὐδ᾽', 'ἂν', 'εὐχερής', 'ἀπομνημονεύω', 'ἢ', 'ἐπιλείπω', 'μ᾽', 'ἂν', 'ὁ', 'ἥμερος', 'κατ᾽', 'εἶδος', 'διεξέρχομαι', 'καί', 'εἰμί', 'ὁ'

In [13]:
lemmata_orig = lemmatizer.lemmatize(athenaeus_word_tokens, return_raw=True)
print(lemmata_orig)

['ἀθήναιος/ἀθήναιος', 'μὲν/μὲν', 'ὁ/ὁ', 'τῆς/ὁ', 'βίβλου/βίβλος', 'πατήρ·/πατήρ·', 'ποιεῖται/ποιέω', 'δὲ/δὲ', 'τὸν/τὸν', 'λόγον/λόγος', 'πρὸς/πρὸς', 'τιμοκράτην·/τιμοκράτην·', 'δειπνοσοφιστὴς/δειπνοσοφιστὴς', 'δὲ/δὲ', 'ταύτῃ/οὗτος', 'τὸ/τὸ', 'ὄνομα/ὄνομα', 'ὑπόκειται/ὑπόκειμαι', 'δὲ/δὲ', 'τῷ/ὁ', 'λόγῳ/λόγος', 'λαρήνσιος/λαρήνσιος', 'ῥωμαῖος/ῥωμαῖος', 'ἀνὴρ/ἀνὴρ', 'τῇ/ὁ', 'τύχῃ/τυγχάνω', 'περιφανής/περιφανής', 'τοὺς/τοὺς', 'κατὰ/κατὰ', 'πᾶσαν/πᾶς', 'παιδείαν/παιδεία', 'ἐμπειροτάτους/ἔμπειρος', 'ἐν/ἐν', 'αὑτοῦ/ἑαυτοῦ', 'δαιτυμόνας/δαιτυμών', 'ποιούμενος·/ποιούμενος·', 'ἐν/ἐν', 'οἷς/ὅς', 'οὐκ/οὐ', 'ἔσθ᾽/ἔσθ᾽', 'οὗτινος/ὅστις', 'τῶν/ὁ', 'καλλίστων/καλός', 'οὐκ/οὐ', 'ἐμνημόνευσεν/μνημονεύω', 'ἰχθῦς/ἰχθύς', 'τε/τε', 'γὰρ/γὰρ', 'τῇ/ὁ', 'βίβλῳ/βίβλος', 'ἐνέθετο/ἐντίθημι', 'καὶ/καὶ', 'τὰς/τὰς', 'τούτων/οὗτος', 'χρείας/χρεία', 'καὶ/καὶ', 'τὰς/τὰς', 'τῶν/ὁ', 'ὀνομάτων/ὄνομα', 'ἀναπτύξεις/ἀναπτύσσω', 'καὶ/καὶ', 'λαχάνων/λάχανον', 'γένη/γένος', 'παντοῖα/παντοῖος', 'καὶ/καὶ', 'ζῴων/ζωιόω', 'παν

In [14]:
print(len(lemmata))

162


In [15]:
print(len(set(lemmata)))

106


In [16]:
print(len(set(lemmata)) / len(lemmata))

0.654320987654321
