TextFrequencyAnalysis

Per svolgere questo esercizio sono state utilizzate le seguente librerie (che devono essere installate, prima di eseguire il codice):

pandas
matplotlib

Una volta eseguito il codice, l’utente può scegliere tra una lista di funzioni disponibili che vengono stampate a schermo, semplicemente inserendo il numero corrispondente.

Per semplicità il calcolo della distribuzione empirica e dell’indice di coincidenza e dell’entropia della distribuzione degli m-grammi è stato accorpato in un’unica funzione tra quelle che possono essere scelte dall’utente. Questo poichè per il calcolo dell’indice di coincidenza e dell’entropia è necessaria la distribuzione empirica.

1. Istogramma della Frequenza delle 26 lettere

Il programma prende in ingresso un file txt passatogli dall’utente (deve essere inserito il path) tramite la funzione Python:

def get_text_file():
	file_name = input("...")
	'''some code'''

Il testo del file viene processato e viene effettuato il conteggio delle occorrenze di ciascuna lettera dell’alfabeto.

Il dizionario creato dalle frequenze viene utilizzato per generare un’istogramma tramite le funzioni della libreria matplotlib, in cui sulle ascisse sono riportate le lettere in ordine alfabetico invece sulle ordinate è riportata la relativa frequenza.

La funzione nel codice che genera l’istogramma è:

def create_frequencies_histogram(data):
	counts = Counter(data)
	'''some code'''

In particolare nell’esercizio proposto era richiesto di mostrare i risultati ottenuti per il primo capitolo di “Moby Dick”. L’istogramma risultante è dunque il seguente:

2. Distribuzione Empirica dei m-grammi

Il programma prende in ingresso un file txt passatogli dall’utente (deve essere inserito il path) e da esso vengono generati tutti gli m-grammi tramite la seguente funzione:

def generate_grams(text, m):
	'''some code'''

Una volta trovato gli m-grammi, è possibile calcolare la distribuzione empirica dei m-grammi, definita come segue:

Nel codice la funzione che calcola tale distribuzione empirica dei m-grammi è:

def get_empirical_distribution(text, m):
	'''some code'''

3. Indice di Coincidenza ed Entropia della distribuzione dei m-grammi

Per quanto riguarda l’indice di coincidenza delle distribuzioni dei m-grammi è possibile notare che il testo analizzato è sufficientemente lungo tale da definire la formula come segue:

Nel codice la funzione che calcola tale indice di coincidenza delle distribuzioni dei m-grammi è:

def get_coincidence_index(empirical_distribution):
	'''some code'''

Invece per quanto riguarda l’entropia delle distribuzioni dei m-grammi la formula utililizzata è quella dell’entropia di Shannon:

E nel codice la funzione che calcola tale entropia delle distribuzioni dei m-grammi è:

def get_entropy(empirical_distribution):
	'''some code'''

Run

To run the project:

python3 TextFrequencyAnalysis.py

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
TextFrequencyAnalysis.py		TextFrequencyAnalysis.py
frequency_histogram.pdf		frequency_histogram.pdf
moby_dick_first_chapter.txt		moby_dick_first_chapter.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TextFrequencyAnalysis

1. Istogramma della Frequenza delle 26 lettere

2. Distribuzione Empirica dei m-grammi

3. Indice di Coincidenza ed Entropia della distribuzione dei m-grammi

Run

About

Releases

Packages

Languages

License

ocrim1996/TextFrequencyAnalysis

Folders and files

Latest commit

History

Repository files navigation

TextFrequencyAnalysis

1. Istogramma della Frequenza delle 26 lettere

2. Distribuzione Empirica dei m-grammi

3. Indice di Coincidenza ed Entropia della distribuzione dei m-grammi

Run

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages