# Analisi statistica di un testo

* Importare il testo contenuto nel file "I promessi sposi.txt"
* Elaborare il file importato per ottenere una lista di tutte le parole
* Stampare nell'ordine alcune informazioni sul testo:
    * Numero di frasi, Numero di capitoli
    * Numero di parole utilizzate in totale
    * Numero di parole univoche utilizzate
    * Parola utilizzata di piu'
    * Parola piu' lunga
    * Parola utilizzata di piu' escludendo congiunzioni e articoli
    * Lunghezza media delle parole
    * lunghezza media delle frasi
    * lunghezza media dei capitoli
* Utilizzare le espressioni regolari per rispondere alle seguenti domande:
    * Quanti caratteri di newline (\n) sono stati utilizzati nel testo
    * Quanti caratteri di spazio sono stati utilizzati
* Quale e' la lettera piu' utilizzata e quella meno utilizzata
* Visualizzare un diagramma a barre con le 10 parole piu' utilizzate escluse congiunzioni e articoli
* Visualizzare un diagramma che metta evidenza il numero di parole che hanno un determinato numero di lettere
* Salvare i risultati della ricerca su un file di tipo csv creato appositamente per il salvataggio dei dati.

Cercate online il testo di un altra opera letteraria. [Questo](https://www.liberliber.it/online/opere/libri/istruzioni/) e' un ottimo sito da cui partire per scaricarla legalmente. Ripetere l'analisi.
NB: In caso il libro non fosse disponibile in formato .txt, tentare un copia incolla da un file odt. creando la propria versione di testo semplice.


## Importare il testo contenuto nel file "I promessi sposi.txt"

In [10]:
file_name = "manzoni_i_promessi_sposi.txt"

with open(file_name, encoding = "ANSI") as my_file:
    
    entire_file = my_file.read()
    

In [11]:
entire_file[:1000]

'INTRODUZIONE\n  "L\'Historia si può veramente deffinire una guerra illustre contro il Tempo, perché togliendoli di mano gl\'anni suoi prigionieri, anzi già fatti cadaueri, li richiama in vita, li passa in rassegna, e li schiera di nuovo in battaglia. Ma gl\'illustri Campioni che in tal Arringo fanno messe di Palme e d\'Allori, rapiscono solo che le sole spoglie più sfarzose e brillanti, imbalsamando co\' loro inchiostri le Imprese de Prencipi e Potentati, e qualificati Personaggj, e trapontando coll\'ago finissimo dell\'ingegno i fili d\'oro e di seta, che formano un perpetuo ricamo di Attioni gloriose. Però alla mia debolezza non è lecito solleuarsi a tal\'argomenti, e sublimità pericolose, con aggirarsi tra Labirinti de\' Politici maneggj, et il rimbombo de\' bellici Oricalchi: solo che hauendo hauuto notitia di fatti memorabili, se ben capitorno a gente meccaniche, e di piccol affare, mi accingo di lasciarne memoria a Posteri, con far di tutto schietta e genuinamente il Racconto, o

In [12]:
entire_file[-1000:]

" – e io, – disse un giorno al suo moralista, – cosa volete che abbia imparato? Io non sono andata a cercare i guai: son loro che sono venuti a cercar me. Quando non voleste dire, – aggiunse, soavemente sorridendo, – che il mio sproposito sia stato quello di volervi bene, e di promettermi a voi.\n  Renzo, alla prima, rimase impicciato. Dopo un lungo dibattere e cercare insieme, conclusero che i guai vengono bensì spesso, perché ci si è dato cagione; ma che la condotta più cauta e più innocente non basta a tenerli lontani; e che quando vengono, o per colpa o senza colpa, la fiducia in Dio li raddolcisce, e li rende utili per una vita migliore. Questa conclusione, benché trovata da povera gente, c'è parsa così giusta, che abbiam pensato di metterla qui, come il sugo di tutta la storia.\n  La quale, se non v'è dispiaciuta affatto, vogliatene bene a chi l'ha scritta, e anche un pochino a chi l'ha raccomodata. Ma se in vece fossimo riusciti ad annoiarvi, credete che non s'è fatto apposta.\n

In [13]:
len(entire_file)

1312445

## Elaborare il file importato per ottenere una lista di tutte le parole utilizzate

In [14]:
import re
from collections import Counter

import pandas as pd
import numpy as np


In [15]:
entire_file_original = entire_file
entire_file = entire_file.lower()

def from_txt_to_list(a_big_string, min_lenght = 0):
    pattern = "[\W\d]" # ruppo che contiene tutti i caratteri non alphanumerici e tutti i numeri
    entire_file = a_big_string.lower()

    list_of_w = re.sub(pattern," ", entire_file).split()

#     print(f"numero di parole = {len(list_of_w)}")
#     print(f"numero di parole univoche = {len(set(list_of_w))}")
    
    # creo il dataframe con le parole 

    unique_words = Counter(list_of_w)
       
    chiavi = unique_words.keys()
    valori = unique_words.values()
    unique_words_df = pd.DataFrame(valori, index = chiavi, columns=["occorrenze"]).sort_index()
    
    most_common_words = unique_words_df.sort_values("occorrenze", ascending=False)
    
    # contiamo le lettere di caiscuna parola
    unique_words_df["len"] = unique_words_df.index.str.len()
    # Filtriamo le parole con meno di n lettere
    # Dataframe[condizione] --> Dataframe dove la condizione e' vera
    longer_words_df = unique_words_df[unique_words_df["len"] >= min_lenght].sort_values("occorrenze",
                                                            ascending = False)
    
    return list_of_w, longer_words_df

In [16]:
# Commento questa sezione di codice poiche iserita nella funzione.


# print(f"numero di parole = {len(list_of_w)}")
# print(f"numero di parole univoche = {len(set(list_of_w))}")

# list_of_w[:10]

# chiavi = unique_words.keys()
# valori = unique_words.values()

# unique_words = Counter(list_of_w)
# unique_words_df = pd.DataFrame(valori, index = chiavi, columns=["occorrenze"]).sort_index()

# unique_words_df.sort_values("occorrenze", ascending=False)

# unique_words_df["len"] = unique_words_df.index.str.len()

# unique_words_df[unique_words_df["len"] > 4].sort_values("occorrenze", ascending = False).head(10)

# unique_words_df.sort_values("len", ascending=False).head(10)

# unique_words_df.loc["capitolo",:]



In [17]:
my_words, my_df = from_txt_to_list(entire_file_original, min_lenght = 4)

In [18]:
my_df.sort_values("len", ascending = False).head(10)

Unnamed: 0,occorrenze,len
diligentissimamente,1,19
straordinariamente,2,18
indeterminatamente,1,18
avvantaggerebbero,1,17
pronosticargliele,1,17
involontariamente,2,17
indipendentemente,1,17
abbruciacchiavano,1,17
particolareggiati,1,17
concigliarglieli,1,16


In [27]:
my_df.sort_values("occorrenze", ascending = False).head(10)

Unnamed: 0,occorrenze,len
della,938,5
quella,766,6
anche,762,5
aveva,717,5
disse,612,5
renzo,585,5
questo,545,6
altro,535,5
tutto,520,5
qualche,468,7


### Separazione dei Capitolo.

Cerco all'interno dle testo grezzo la parola "CAPITOLO \*\*\*\n" come separatore dei gruppi di cui fare l'analisi.

In [28]:
pattern = "CAPITOLO [IVXLC]+"

chapters = re.split(pattern, entire_file_original)

In [29]:
len(chapters)

39

In [30]:
results = {}

for chapter_number, chapter in enumerate(chapters):
    
    my_words, my_df = from_txt_to_list(chapter, min_lenght = 0)
    
    chapter_name = "Capitolo " + str(chapter_number)
    
    results[chapter_name] = [my_words, my_df]
    



In [31]:
pattern = r"\n+"

back_slashes = len(re.findall(pattern, entire_file))
back_slashes

2772

In [32]:
pattern = r" +"

spaces = len(re.findall(pattern, entire_file))
spaces

219771

Salvataggio di un file csv

In [33]:
my_df.to_csv("my_df.csv")

# Sentiment Analisys
* Cercare online due liste di parole, una che identifichi un sentimento positivo ("bello", "buono", "simpatico" ecc..) una che identifichi dei sentimenti negativi ("brutto","cattivo","antipatico", ecc.. ecc..).
* Scrivere uno script che prenda in esame un testo e valuti se questo esprime pensieri positivi o negtivi andando a contare le occorrenze nei due gruppi. Testare lo script su ciascun capitolo dei promessi sposi e poi su alcuni tweet reperibili online.

In [1]:
import pandas as pd
import numpy as np

In [6]:
file_name = "ParolePositiveNegative.txt"

pos_neg_words = pd.read_csv(file_name, names = ["Positive", "Negative"])

In [7]:
pos_neg_words.head()

Unnamed: 0,Positive,Negative
0,Abile,Maldestro
1,Abitudinario,Alternativo
2,Accattivante,Insignificante
3,Accogliente,Inospitale
4,Accomodante,Scorbutico


1) LAvoriamo sulla lita pulita delle parole del testo da analizzare:

In [24]:
"casa"[:-1]

'cas'

In [25]:
my_df["depersonalizzata"] = my_df.index.str[:-1]

In [33]:
my_df.depersonalizzata

come                    com
quel                    que
della                  dell
quella                quell
anche                  anch
                   ...     
informando        informand
informaron        informaro
informarono      informaron
informarsene    informarsen
zuffi                  zuff
Name: depersonalizzata, Length: 19277, dtype: object

In [30]:
pos_neg_words["Pos_depersonalizzata"] = pos_neg_words.Positive.str[:-1].str.lower()
pos_neg_words["Neg_depersonalizzata"] = pos_neg_words.Negative.str[:-1].str.lower()

In [38]:
pos_df = my_df[my_df.depersonalizzata.isin(pos_neg_words["Pos_depersonalizzata"])]

In [39]:
neg_df = my_df[my_df.depersonalizzata.isin(pos_neg_words["Neg_depersonalizzata"])]

In [46]:
pos_df.describe()

Unnamed: 0,occorrenze,len
count,270.0,270.0
mean,7.088889,7.818519
std,15.998823,2.169497
min,1.0,4.0
25%,1.0,6.0
50%,2.0,8.0
75%,5.75,9.0
max,169.0,15.0


In [47]:
neg_df.describe()

Unnamed: 0,occorrenze,len
count,221.0,221.0
mean,5.665158,7.79638
std,13.181465,1.791187
min,1.0,5.0
25%,1.0,6.0
50%,2.0,8.0
75%,5.0,9.0
max,115.0,14.0


In [48]:
neg_df.occorrenze.sum()

1252

In [49]:
pos_df.occorrenze.sum()

1914

# Semplice filtro anti_spam
* Scarica online o dalla tua casella di posta una serie dei piu' comuni messaggi spam. Salva questi messaggi in un file di testo accessibile.
* Crea con essi una lista di 30 parole o frasi, che piu' comunemente compaiono nei messaggi di spam.
* Scrivi uno script che riceva in input dall'utente una mail proveniente dalla sua casella di posta e valuti, assegnando un "punteggio spam" generato contando le occorrenze delle parole individuate nel punto precedente, se il messaggio e' o non e' un messaggio di spam.

# Espressioni regolari
Per ciascuna delle seguenti, scrivere un testo su cui testare il proprio codice.
* 1 Scrivi una espressione regolare che individui in un testo gli indirizzi web del tipo: `http:\\www.nome_dominio.estensione` ove _estensione_ e' un gruppo di 2 o piu' lettere.
* 2 Scrivere uno script che utilizzi delle espressioni regolari per individuare in un testo alcune date, tenendo presente che potrebbero essere scritte in questi 3 modi:
    * 310180
    * 31011980
    * 31/01/1980
* 3 Scrivere uno script che permetta di validare delle password utilizzando delle espressioni regolari. Le password da validare potranno essere di due tipi:
    * passfrase formate da almeno 5 parole separate da trattini, trattini bassi, punti o virgole
    * password di almeno 8 caratteri tra i quali almeno un numero, una lettera minuscola, una lettera maiuscola e un carattere di punteggiatura

In [70]:
pattern_1 = r"http:\\(www\.\w+\.\w\w+)"
test1 = "http:\\www.repubblica.it"
re.findall(pattern_1, test1)


['www.repubblica.it']

In [71]:
test1 = "http:\\www.repubblica.i"
re.findall(pattern_1, test1)

[]

In [72]:
test1 = "http:\\www.repubblica.com"
re.findall(pattern_1, test1)

['www.repubblica.com']

In [73]:
test1 = "http:\\www.repubblica"
re.findall(pattern_1, test1)

[]

In [85]:
pattern_2 = r"[0-3]\d/?[0-1]\d/?(\d{2})?\d{2}"

test_2 = """310180
31011980
31/01/1980"""

for elem in re.finditer(pattern_2, test_2):
    print(elem.group())

31011980
31/01/1980


In [98]:
pattern_2 = r"([0-3]\d){1}(/)?[0-1]\d(/)?(\d{2})?\d{2}"

test_2 = """310180
31011980
31/01/1980"""

for elem in re.finditer(pattern_2, test_2):
    print(elem.group())

310180
31011980
31/01/1980


In [None]:
pattern_2 = r"[0-3]\d/?[0-1]\d/?(\d{2})?\d{2}"

test_2 = """310180
31011980
31/01/1980"""

for elem in re.finditer(pattern_2, test_2):
    print(elem.group())

# Analisi dei discorsi dei presidenti della repubblica
Su questo sito [del quirinale](https://www.quirinale.it/ricerca/discorsi) sono disponibili tutti i discorsi dell'attuale presidente della repubblica.<br>
 Cercate nell'archivio i discorsi relativi al messaggio di fine anno su 3 anni consecutivi a vostra scelta, copiate e incollate i testi su altrettanti file di testo e realizzate un'analisi statistica su ciascun testo, mettendo a confronto i risultati anche con diagrammi e tabelle (conteggio delle parole, lunghezza delle frasi, 10 parole piu' lunghe ecc...).<br>
 Utilizzate opportunamente il codice eventualmente gia' a vostra disposizione utilizzato nel primo degli esercizi di questa pagina.<br>
 [Qui](https://presidenti.quirinale.it) sono disponibili anche tutti i discorsi di tutti i presidenti della repubblica della storia della repubblica.<br>
 Ripetere la ricerca con un altro presidente della repubblica, sempre su 3 discorsi di fine anno consecutivi distinti.<br>
 Mettere a confronto i risultati ottenuti tra i due presidenti.