In [1]:
import nltk
from nltk import *

In [2]:
def lettura(corpus):
    file_lettura = open(corpus, "r", encoding = "utf-8")
    file_lettura = file_lettura.read()
    return file_lettura[:100000]

def lunghezzeCorpus(file):
    frasi = sent_tokenize(file) #suddivido il testo in frasi utilizzando la funzione sent_tokenize del modulo nltk
    tokens = [] 
    for frase in frasi:
        tokens += word_tokenize(frase) #suddivido ogni frase in parole, che aggiungo alla lista 'tokens'
    #conto il numero di frasi e di tokens
    numFrasi = len(frasi)
    numTokens = len(tokens)
    return numFrasi, numTokens, tokens

def lunghezzeMedie(file, numTokens):
    frasi = sent_tokenize(file)
    lungMediaFrasi = numTokens/len(frasi)
    num_caratteri = 0
    tokens = []
    punteggiatura = [",", "''", ".", ":", "?", "!", "\"", "/", ";", "-"]
    for frase in frasi:
        tokens += word_tokenize(frase)
    for token in tokens:
        if token not in punteggiatura:
            num_caratteri += len(token)
    lungMediaCaratteri = num_caratteri / len(tokens)
    return lungMediaFrasi, lungMediaCaratteri

def numeroHapax(tokens):
    incremento = [500, 1000, 3000, len(tokens)-1]
    hapax_500 = 0
    hapax_1000 = 0
    hapax_3000 = 0
    hapax_corpus = 0
    for i in range(len(incremento)):
        testo = tokens[0:incremento[i]]
        for token in testo:
            tokens_hapax = testo.count(token)
            if incremento[i] == 500 and tokens_hapax == 1:
                hapax_500 += 1
            if incremento[i] == 1000 and tokens_hapax == 1:
                hapax_1000 += 1
            if incremento[i] == 3000 and tokens_hapax == 1:
                hapax_3000 += 1
            if incremento[i] == len(tokens)-1 and tokens_hapax == 1:
                hapax_corpus += 1
    return hapax_500, hapax_1000, hapax_3000, hapax_corpus

def ttr_token(tokens):
    for i in range(0, len(tokens), 1000):
        frammento_testo = tokens[0:i+1000]
        dizionario = FreqDist(frammento_testo)
        ttr = len(dizionario) / len(frammento_testo)
        print(f'Vocabolario dopo {i+1000} tokens: {len(dizionario)}')
        print(f'TTR: {ttr}')

def lemmatizzatore(file):
    lemmatizer = WordNetLemmatizer()
    tokens = word_tokenize(file)
    lemmi = [lemmatizer.lemmatize(token.lower()) for token in tokens]
    numero_lemmi = len(set(lemmi))
    return numero_lemmi

In [3]:
file1 = "delitto_castigo.txt"
file2 = "analisi_mente.txt"

def main(corpus1, corpus2):
    lettura_file1 = lettura(corpus1)
    lettura_file2 = lettura(corpus2)
    
    #CONFRONTO I DUE CORPORA RISPETTO A TOKEN E NUMERO DI FRASI 
    
    num_frasi1, num_tokens1, tokens1 = lunghezzeCorpus(lettura_file1)
    num_frasi2, num_tokens2, tokens2 = lunghezzeCorpus(lettura_file2)
    
    print(f'Il primo file, {corpus1}, contiene {num_tokens1} tokens e {num_frasi1} frasi.')
    print()
    print(f'Il secondo file, {corpus2}, contiene {num_tokens2} tokens e {num_frasi2} frasi.')
    
    #CONFRONTO LA LUNGHEZZA MEDIA DELLE FRASI IN TOKEN E LA LUNGHEZZA MEDIA DEI TOKEN IN CARATTERI, PUNTEGGIATURA ESCLUSA
    
    lungMedia_frasi1, lungMedia_caratteri1 = lunghezzeMedie(lettura_file1, num_tokens1)
    lungMedia_frasi2, lungMedia_caratteri2 = lunghezzeMedie(lettura_file2, num_tokens2)
    print()
    
    print(f'La lunghezza media delle frasi di {corpus1} è di {lungMedia_frasi1:.3f} tokens, mentre la lunghezza media di ciascun token è di {lungMedia_caratteri1:.3f} caratteri')
    print()
    print(f'La lunghezza media delle frasi di {corpus2} è di {lungMedia_frasi2:.3f} tokens, mentre la lunghezza media di ciascun token è di {lungMedia_caratteri2:.3f} caratteri')
    
    #CONFRONTO IL NUMERO DI HAPAX DOPO 500, 1000, 3000 TOKENS E, INFINE, NELL'INTERO CORPUS
    
    print()
    hapax_500_1, hapax_1000_1, hapax_3000_1, hapax_corpus_1 = numeroHapax(tokens1)
    hapax_500_2, hapax_1000_2, hapax_3000_2, hapax_corpus_2 = numeroHapax(tokens2)
    
    print(f'{corpus1} contiene {hapax_500_1} hapax dopo 500 token,\n{hapax_1000_1} hapax dopo 1000 token,\n{hapax_3000_1} hapax dopo 3000 token\ne {hapax_corpus_1} hapax nell\'intero corpus')
    print(f'\n{corpus2} contiene {hapax_500_2} hapax dopo 500 token,\n{hapax_1000_2} hapax dopo 1000 token,\n{hapax_3000_2} hapax dopo 3000 token\ne {hapax_corpus_2} hapax nell\'intero corpus')
    
    #ANALIZZO LA CRESCITA DEL VOCABOLARIO E LA RICCHEZZA LESSICALE (TTR) OGNI 1000 TOKEN PER ENTRAMBI I CORPORA
    print()
    ttr_token(tokens1)
    print()
    ttr_token(tokens2)
    
    #CONTO IL NUMERO DI LEMMI DISTINTI PER OGNI CORPORA
    print()
    numero_lemmi1 = lemmatizzatore(lettura_file1)
    numero_lemmi2 = lemmatizzatore(lettura_file2)
    print(f'Il primo file, {file1}, ha in totale {numero_lemmi1} lemmi')
    print(f'Il secondo file, {file2}, ha in totale {numero_lemmi2} lemmi')
    
main(file1, file2)

Il primo file, delitto_castigo.txt, contiene 22053 tokens e 828 frasi.

Il secondo file, analisi_mente.txt, contiene 19783 tokens e 684 frasi.

La lunghezza media delle frasi di delitto_castigo.txt è di 26.634 tokens, mentre la lunghezza media di ciascun token è di 3.578 caratteri

La lunghezza media delle frasi di analisi_mente.txt è di 28.923 tokens, mentre la lunghezza media di ciascun token è di 4.065 caratteri

delitto_castigo.txt contiene 187 hapax dopo 500 token,
312 hapax dopo 1000 token,
580 hapax dopo 3000 token
e 1684 hapax nell'intero corpus

analisi_mente.txt contiene 159 hapax dopo 500 token,
272 hapax dopo 1000 token,
476 hapax dopo 3000 token
e 1520 hapax nell'intero corpus

Vocabolario dopo 1000 tokens: 427
TTR: 0.427
Vocabolario dopo 2000 tokens: 705
TTR: 0.3525
Vocabolario dopo 3000 tokens: 894
TTR: 0.298
Vocabolario dopo 4000 tokens: 1083
TTR: 0.27075
Vocabolario dopo 5000 tokens: 1297
TTR: 0.2594
Vocabolario dopo 6000 tokens: 1464
TTR: 0.244
Vocabolario dopo 7000 t