# TOPIC MODELING: LOUVAIN


Estrazione degli argomenti più rilevanti utilizzando il modello BERTopic 

In [22]:
from bertopic import BERTopic
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
import nltk



1. Caricamento dei df ed eliminazione dei duplicati

In [23]:
df = pd.read_csv('data/df_nltk.csv')
del df['Unnamed: 0']
df.shape

(17334, 27)

2. Creazione di una lista con i tweet e le date in cui sono stati scritti (feature 'date')

In [85]:
tweets_df = df.tweet_wo_stopw.astype(str).to_list()
timestamp_df = df.date.to_list()

----

4. Estrazione dei 20 argomenti più rilevanti nei 3 df utilizzando il modello BERTopic

In [86]:
topic_model = BERTopic(language="italian", nr_topics = 20) #20 argomenti più in voga
topics, probs = topic_model.fit_transform(tweets_df)

Estrazione delle info sugli argomenti 

In [87]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,12606,-1_dad_scuola_didatticaadistanza_fare
1,0,723,0_vaccinati_vaccino_dad_vaccini
2,1,586,1_scuola_domani_dad_settimana
3,2,395,2_didatticaadistanza_online_didattica_scuola
4,3,301,3_coronavirus_didatticaadistanza_covid_bonus
5,4,287,4_lezione_lezioni_dad_dariobressanini
6,5,275,5_italia_scuola_italiana_covid
7,6,254,6_insegnanti_docenti_dad_professori
8,7,242,7_scorpio_mom_sister_gemini
9,8,197,8_domani_dad_presenza_hmqueenbee


In [88]:
topic_model.get_topic(5) 

[('italia', 0.08264200349492377),
 ('scuola', 0.0314605889250126),
 ('italiana', 0.029762861312080273),
 ('covid', 0.0295113748117131),
 ('precari', 0.028264583155118702),
 ('italiano', 0.024621048452298747),
 ('dad', 0.023051890546717534),
 ('didatticaadistanza', 0.022042491932600907),
 ('italiane', 0.022018900485603694),
 ('italiani', 0.020516814262979167)]

In [89]:
topic_model.get_topic(6) 

[('insegnanti', 0.05496503749956159),
 ('docenti', 0.044364450987619916),
 ('dad', 0.03158920074785082),
 ('professori', 0.028942040240070608),
 ('studenti', 0.025466577441797537),
 ('fare', 0.01917847400428055),
 ('scuola', 0.01906124910467761),
 ('insegnante', 0.018393679249861725),
 ('solo', 0.018086811419000925),
 ('altri', 0.01707384959436607)]

In [90]:
topic_model.get_topic(7) 

[('scorpio', 0.36975219070847387),
 ('mom', 0.26523983333548806),
 ('sister', 0.22757077682445492),
 ('gemini', 0.18101789783825192),
 ('libra', 0.16430678127700232),
 ('leo', 0.16088372333373144),
 ('capricorn', 0.16039632256117814),
 ('virgo', 0.157618429329804),
 ('me', 0.1381608514547781),
 ('pisces', 0.12912721970114102)]

-1 refers to all outliers and should typically be ignored.

Visualizzazione degli argomenti estratti, tramite
- grafico che mostra la distanza e la vicinanza tra gli argomenti
- Barchart
- Heatmap 

In [91]:
topic_model.visualize_topics()

In [92]:
topic_model.visualize_barchart()


In [93]:
topic_model.visualize_heatmap()

Distribuzione degli argomenti nel tempo


In [94]:
topics_over_time = topic_model.topics_over_time(tweets_df, topics, timestamp_df, nr_bins=10)

topic_model.visualize_topics_over_time(topics_over_time, top_n_topics=10)

In [95]:
topic_model.visualize_hierarchy()

# Topics on sentiments

In [72]:
df = pd.read_csv('data/df_sentiments.csv')
del df['Unnamed: 0']
df.shape

(17334, 29)

### Negativo

In [73]:
negtweets_df = df[df['sentiments']=='negative']['tweet_wo_stopw'].astype(str).to_list()
timestamp_df = df.date.to_list()

In [74]:
topic_model = BERTopic(language="italian", nr_topics = 20) #20 argomenti più in voga
topics, probs = topic_model.fit_transform(negtweets_df)

In [75]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,9488,-1_dad_scuola_didatticaadistanza_fare
1,0,660,0_vaccinati_vaccino_dad_vaccinato
2,1,250,1_italia_precari_italiano_dad
3,2,240,2_coronavirus_didatticaadistanza_covid_anicia
4,3,192,3_dad_is_the_you
5,4,141,4_quarantena_regole_scuola_covid
6,5,140,5_insegnanti_docenti_insegnante_dad
7,6,131,6_dormire_domani_sonno_dad
8,7,124,7_domani_scuola_lunedì_dad
9,8,119,8_genitori_figli_dad_famiglie


In [76]:
topic_model.visualize_topics()

In [77]:
topic_model.visualize_barchart()

#### Lemma

In [80]:
negtweets_df = df[df['sentiments']=='negative']['lemma'].astype(str).to_list()
timestamp_df = df.date.to_list()

In [81]:
topic_model = BERTopic(language="italian", nr_topics = 20) #20 argomenti più in voga
topics, probs = topic_model.fit_transform(negtweets_df)

In [82]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,7829,-1_dad_fare_scuola_essere
1,0,1165,0_scuola_dad_fare_insegnante
2,1,813,1_vaccinare_vaccino_dad_scuola
3,2,391,2_didatticaadistanza_bonus_scuola_didattico
4,3,263,3_italia_italiano_scuola_covid
5,4,226,4_coronavirus_didatticaadistanza_covid_news
6,5,158,5_quarantena_classe_scuola_regola
7,6,155,6_domani_scuola_andare_dad
8,7,149,7_id_scorso_anno_me
9,8,143,8_domani_id_dad_presenza


In [83]:
topic_model.visualize_topics()

In [84]:
topic_model.visualize_barchart()

### Positivo

In [114]:
negtweets_df = df[df['sentiments']=='positive']['tweet_wo_stopw'].astype(str).to_list()
timestamp_df = df.date.to_list()

In [115]:
topic_model = BERTopic(language="italian", nr_topics = 30) #20 argomenti più in voga
topics, probs = topic_model.fit_transform(negtweets_df)

In [116]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,2455,-1_dad_didatticaadistanza_scuola_domani
1,0,350,0_scuola_lezione_dad_classe
2,1,234,1_dad_fatto_ho_comunque
3,2,227,2_scorpio_mom_sister_gemini
4,3,180,3_didatticaadistanza_distanza_scuola_didattica
5,4,134,4_domani_lunedì_dad_presenza
6,5,125,5_my_is_dad_your
7,6,117,6_italia_italiano_italy_covid
8,7,99,7_american_video_episodio_youtube
9,8,88,8_teresa_giudice_giacinto_gorga


In [99]:
topic_model.visualize_topics()

In [100]:
topic_model.visualize_barchart()

#### Lemma

In [108]:
postweets_df = df[df['sentiments']=='positive']['lemma'].astype(str).to_list()
timestamp_df = df.date.to_list()

In [109]:
topic_model = BERTopic(language="italian", nr_topics = 20) #20 argomenti più in voga
topics, probs = topic_model.fit_transform(postweets_df)

In [111]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name
0,-1,2980,-1_dad_fare_anno_didatticaadistanza
1,0,436,0_didatticaadistanza_scuola_studente_distanza
2,1,181,1_italiano_italia_didatticaadistanza_filosofia
3,2,156,2_id_teresa_giudice_gorgere
4,3,137,3_id_settimana_domani_prossimo
5,4,109,4_scorpio_sister_mom_leo
6,5,107,5_mom_scorpio_capricorn_and
7,6,100,6_my_dad_is_me
8,7,95,7_video_youtube_videolezione_didatticaadistanza
9,8,83,8_dad_is_the_bello


In [112]:
topic_model.visualize_topics()

In [113]:
topic_model.visualize_barchart()