## **Introduction - Sentiment Analysis Part II**
So far we have tried:
- roberta pre trained
- zero shot learning
- Vader on translated tweets

Issue: none of them works well (not good classification and very imbalanced data). Potential solutions:
1. Fine-tune a model on domain-specific data: collect an Italian political sentiment dataset, fine-tune an Italian language model like AlBERTo, UmBERTo, or BERTino on this dataset. You can manually label a subset of your tweets (even ~1,000) and use active learning to scale up.
2. Use a weak supervision framework: if labeling is too expensive, use Snorkel or Skweak to create heuristic rules (e.g., hashtags, emojis, known party slogans). Combine weak labels into a probabilistic label model. Train a classifier on this noisy but large-scale data.
3. Refine your zero-shot prompt setup - If you use a zero-shot pipeline (e.g., HuggingFace pipeline("zero-shot-classification")), try:
    - Framing labels in political terms: instead of generic "positive/negative/neutral", try "supportive", "opposing", "neutral toward the politician" or their policies.
    - Use prompt engineering to improve performance: candidate_labels = ["support", "oppose", "neutral"], hypothesis_template = "This tweet expresses a {} opinion about politics."
4. Use sentiment + emotion + toxicity hybrid: often political tweets are more emotional than classically "positive" or "negative". Use an emotion classifier (anger, joy, fear, etc.). Combine with toxicity detection (like HateBERT, ToxicBERT, or Italian-specific versions).
Fuse signals into a sentiment interpretation model.

For sure, what we will do first is to consider only a filtered subset of the data, which should be the ones that are most expressive.

In [1]:
import torch
import pandas as pd
import numpy as np


## **Load the Data**

In [2]:
politicians_cleaned = pd.read_csv('politicians_data/politicians_classified.csv')

In [3]:
politicians_cleaned.head()

Unnamed: 0.1,Unnamed: 0,Date,ID,Content,Likes,politician,party,ideology_num,classification
0,1,2022-12-29 20:55:30+00:00,1608567407500754944,Congratulations to @netanyahu on the formation...,6021,Meloni,FdI,3,1
1,6,2022-12-27 18:00:00+00:00,1607798465198710784,Vogliamo restituire a questa Nazione l’ottimis...,14890,Meloni,FdI,3,1
2,7,2022-12-27 17:05:06+00:00,1607784649056727041,Cordiale conversazione telefonica con @Zelensk...,8589,Meloni,FdI,3,1
3,9,2022-12-25 00:08:43+00:00,1606804094102155264,Franco Frattini era un uomo garbato e intellig...,3260,Meloni,FdI,3,1
4,11,2022-12-24 07:18:01+00:00,1606549741168377856,Proteggere la libertà religiosa è un obiettivo...,5901,Meloni,FdI,3,1


In [4]:
data = politicians_cleaned.drop(columns=['Unnamed: 0', 'classification'])

## **Active Learning**
Active learning is a technique used to minimize labeling effort by selectively choosing which examples a human should label next.
How it works:
- Start with a small labeled set (e.g., 200 tweets).
- Train an initial model (using transfer learning).
- Use that model to predict on the unlabeled tweets.
- Select the most uncertain predictions (e.g., low confidence margin between classes).
- Manually label these tweets (they’re the most informative).
- Retrain the model with the new labeled data.
- Repeat 
Goal: Reach high model performance with far fewer labels than random sampling would require

SET OF LABELS:
1. Neutral / Informational: Factual updates, announcements, or descriptive statements with no clear emotional tone or stance.
2. Supportive / Affirmative: Positive endorsement or praise — for allies, institutions, values, events.
3. Attacking / Critical / Angry / Outraged: Expressing indignation, moral outrage, or rhetorical escalation. Direct attack, blame, or disapproval — usually aimed at political opponents.
4. Celebratory / Triumphant: Victory tone, pride, public accomplishments, shared wins. (molto simile a 2)
6. Call to Action / Propaganda

### **Part 1 - Label 100 random tweets**

In [34]:
import pandas as pd
import ipywidgets as widgets
from IPython.display import display

# Load your tweets
df = data.sample(n=100, random_state=42).reset_index(drop=True)  # Use 50 for demo

# Define tone labels
tone_labels = [
    "Neutral / Informational",
    "Supportive / Affirmative",
    "Attacking / Critical",
    "Celebratory / Triumphant",
    "Angry / Outraged",
    "Call to Action / Propaganda",
    "Empathetic / Sad",
    "Alarmist / Urgent",]

# Store dropdowns and layout
dropdowns = []
for i, row in df.iterrows():
    tweet_display = widgets.HTML(value=f"<b>Tweet {i+1}</b>: {row['Content']}")
    dropdown = widgets.Dropdown(
        options=[""] + tone_labels,
        description='Tone:',
        layout=widgets.Layout(width='70%')
    )
    dropdowns.append(dropdown)
    display(tweet_display, dropdown)

# Save button logic
def save_labels(_):
    for i, dropdown in enumerate(dropdowns):
        df.at[i, 'tone_label'] = dropdown.value
    df.to_csv("labeled_tweets_with_tone.csv", index=False)
    print("✅ Labels saved to labeled_tweets_with_tone.csv")

save_button = widgets.Button(description="💾 Save Labels", button_style='success')
save_button.on_click(save_labels)
display(save_button)


HTML(value='<b>Tweet 1</b>: Alla fine di questa avventura a me interesserà una sola cosa: sapere che abbiamo f…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 2</b>: #Salvini: Ho ricordato all’avvocato Conte che mettere sullo stesso piano USA e Cin…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 3</b>: Dobbiamo spingere sulla ripartenza. Dobbiamo correre veloci, facendo investimenti …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 4</b>: Si mettano l’animo in pace: il #25settembre, se gli italiani lo vorranno, si volte…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 5</b>: L’#Ucraina nella #UE? Per le scelte e la storia di domani serve una Confederazione…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 6</b>: La crisi Ucraina evidenzia i limiti del bipopulismo. I 5S sono tornati ad essere q…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 7</b>: Sono intervenuto in aula per chiedere al Governo di ripristinare l’unità di missio…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 8</b>: La nomina del Generale #Figliuolo è una vittoria politica di @forza_italia. Ora se…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 9</b>: Con quale credibilità chi trentasette giorni fa ha fatto cadere il Governo Draghi …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 10</b>: Stefano, beh ti dirò da qualche parte però si. Anche perché altrimenti diventano …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 11</b>: Salute, sicurezza e lavoro per gli Italiani, taglio delle tasse, giustizia e buro…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 12</b>: I #rider sono cittadini non schiavi. È ora di restituire diritti e salari decenti…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 13</b>: #Salvini: non sono io che dal nulla chiedo le elezioni, è nei fatti che questo go…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 14</b>: ...sufficienti per azzerare simboli, storia, merito, cuore e passione. Il calcio …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 15</b>: E dal 25 settembre si cambia questa vergogna come abbiamo già dimostrato di saper…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 16</b>: Grazie @AranchaGlezLaya per il tuo impegno e la tua visione europeista. E grazie …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 17</b>: Un grande riformatore, un appassionato studioso. Una persona di valori e visione.…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 18</b>: Secondo i media francesi, l’algerino che questa mattina a Cannes ha aggredito un …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 19</b>: @GIOVANNISETTAN1 @EnricoMichetti Fascistello. Qui parliamo di storia e cultura. N…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 20</b>: @AugustoMinzolin No certo che dovrebbero votare. Sono i cittadini che non dovrebb…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 21</b>: Questa mattina a Confcommercio. Parlare all’Italia seria, che studia, lavora e pr…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 22</b>: Durante il CAE ho ribadito il nostro sostegno all'Ucraina vittima dell'aggression…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 23</b>: Dobbiamo ripartire dall’istruzione. Per questo, tra i nostri #emendamenti, vi sar…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 24</b>: #GovernoDraghi Non nascerà una maggioranza politica. Noi siamo nel centrodestra. …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 25</b>: Gli italiani sono esausti di sacrifici che non portano a nulla e non ne possono p…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 26</b>: Vittoria! Abbiamo votato al  Parlamento europeo per difendere la produzione vinic…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 27</b>: Da tempo, insieme a @Piu_Europa e liste civiche, stiamo lavorando per questo. Ma …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 28</b>: Mentre la sinistra litiga per le poltrone, @forza_italia lavora per un vero piano…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 29</b>: Cordiale e fruttuoso incontro col Primo Ministro della Repubblica ellenica @kmits…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 30</b>: .\u2066@gualtierieurope\u2069 Atac va conferita a una newco fatta con Ferrovie e …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 31</b>: Da tempo FDI sostiene che la priorità sia mettere in sicurezza il sistema produtt…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 32</b>: Ti sbagli. Un museo cura le opere che ha all’interno per metterle a disposizione …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 33</b>: E aggiungo Oscar che ciò è fattibile, mandando il paese in recessione profonda, s…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 34</b>: In molti mi chiedono cosa ne sarà del “campo largo” di Letta dopo il broncio di C…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 35</b>: La libertà vince!\nGrazie alla battaglia della Lega e grazie anche alle vostre pr…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 36</b>: Il Ponte sullo stretto fa parte di una delle grandi direttrici di traffico europe…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 37</b>: @EgidioBruno2 @F_Carpano Sono d’accordo ma vista la pressione mediatica ho deciso…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 38</b>: Ho deciso di sostenere l'iniziativa #1Euroafamiglia. Una campagna per raccogliere…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 39</b>: Da ministro ho portato in Calabria più poliziotti e vigili del fuoco, telecamere …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 40</b>: Ecco. Spiegalo a tutti gli altri grandi musei del mondo che combattono per avere …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 41</b>: L'idea di utilizzare il green pass per poter partecipare alla vita sociale è ragg…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 42</b>: Lo stesso impegno e la stessa carica ce li saremmo aspettati nelle misure per il …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 43</b>: Sono giorni di apprensione per la vicenda della famiglia Langone, rapita in Mali.…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 44</b>: Dopo le intimidazioni ai parlamentari con una lettera del Ministro Lavrov e le mi…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 45</b>: @narendramodi This meeting with @narendramodi confirms our common will to exploit…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 46</b>: Non “buon Natale” ma “buone vacanze”.\nNon “il periodo natalizio è stressanti” ma…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 47</b>: La sua colpa? Essere se stessa.\nUna legge contro #omotransfobia nel nostro Paese…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 48</b>: La drammatica notizia dei licenziamenti collettivi improvvisi della #Caterpillar …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 49</b>: Non sono io a sentire imbarazzo nella scelta di sostenere una maggioranza europei…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 50</b>: Basta paghe da 3 o 4 euro l'ora, sono una vergogna. #Alziamoisalari! https://t.co…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 51</b>: In riunione coi colleghi del @EPPGroup e il Commissario @OliverVarhelyi per discu…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 52</b>: La rigenerazione urbana ha 3 effetti. Ripartenza dell'edilizia, risparmio energet…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 53</b>: @PM_ViktorOrban Thanks @PM_ViktorOrban. Ready to cooperate to find common and eff…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 54</b>: È inaccettabile essere licenziati per un post social, in particolare come è tocca…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 55</b>: .@GiuseppeConteIT ieri mi ha attaccato spiegando la sua magnifica storia di coere…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 56</b>: Alla fine #Draghi dovrà scegliere se preservare la sua impeccabile dignitas o rim…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 57</b>: Il Governo Conte ha dimenticato di tutelare i non garantiti. Ci batteremo per un …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 58</b>: La proposta di @EnricoLetta su #tassasuccessione è buonsenso, indica la strada gi…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 59</b>: Se non si interverrà presto con un tetto al costo delle bollette elettriche e gas…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 60</b>: E infatti siete sempre lì a fare accordi per mandare i rifiuti da qualche altra p…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 61</b>: Dipende dal modo in cui si intende la politica. La ns idea era che l’alleanza con…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 62</b>: Per il PD ai clandestini tutto è concesso, mentre coi disabili bisogna usare il p…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 63</b>: Il Green pass va abolito subito! https://t.co/Y2CfmAIcPG')

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 64</b>: Picchiato, umiliato e derubato dal branco mentre stava facendo il suo lavoro.\nCh…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 65</b>: Per la legge italiana @CaroRackete aveva il dovere di sbarcare a #Lampedusa. I va…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 66</b>: Per una giustizia più giusta e garantista, proponiamo un sistema di valutazione d…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 67</b>: Oggi in Puglia presentiamo la #CartadiTaranto. Per il Sud e per le isole protagon…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 68</b>: Le stesse cose le diceva Salvini prima di andare al Governo, le stesse cose le di…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 69</b>: Ne ho parlato col bravo governatore del Piemonte @Alberto_Cirio, perché patrimoni…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 70</b>: Infinita tristezza per questa notizia, lo sport italiano è in lutto. Un pensiero …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 71</b>: #IlMostro tra Varese e Verona: bello che tanta gente voglia discutere di contenut…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 72</b>: ...giustizia e riapertura in sicurezza delle scuole. Chi volesse discutere di que…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 73</b>: @GP_ArieteRosso Ma invece il Parlamentare che abbandona gli elettori le va bene? …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 74</b>: L’assassinio di #AlikaOgorchukwu lascia sgomenti. La ferocia inaudita. L’indiffer…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 75</b>: Richiedenti asilo fuori dal territorio nazionale: bene ha fatto la #Danimarca, go…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 76</b>: Bene l'annuncio del Gen.Figliuolo sulla possibilità di fare la seconda dose di va…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 77</b>: Il Capo dipartimento per le libertà civili e l'immigrazione ha rassegnato le dimi…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 78</b>: Non vediamo l\'ora di riportare sicurezza in questo Paese.\n\nP.S. Sarà un caso c…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 79</b>: Stamani a #Milano, bello scambio, utile e intenso, con l’Assemblea degli imprendi…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 80</b>: Alla @Stampa_Estera per sottolineare l’importanza di andare avanti con Draghi anc…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 81</b>: Oggi delle piazze si riempiono per chiedere di tutelare il lavoro e altre di tute…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 82</b>: @GiannachiFranco Franco, ho solo rappresentato le mie idee cercando di sostanziar…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 83</b>: Mosca apprezza. Noi no.')

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 84</b>: @lageloni Chiara ma quel politico non è il segretario del PD e non è un membro di…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 85</b>: Giorgia Meloni: “quello alle società di serie A NON è un regalo”. Ecco i numeri: …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 86</b>: Il messaggio che esce dalla risoluzione @UN contro l’aggressione all’Ucraina è in…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 87</b>: Lo stop alla vendita di auto #Diesel, prevista entro il 2035 anche se gli ultimi …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 88</b>: Domani Torino e Milano per continuare a raccontare il Paese a cui il Governo Melo…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value="<b>Tweet 89</b>: Il 13 ottobre 2020 era stato firmato il decreto che obbligava all'utilizzo delle …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 90</b>: Ho telefonato al presidente della Repubblica, Sergio Mattarella. Gli ho assicurat…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 91</b>: E lo dice un esponente del PD... non male😉 https://t.co/rspXy07J49')

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 92</b>: Prima del #25settembre gli elettori italiani hanno diritto di sapere se qualcuno …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 93</b>: Eppure, la sinistra vuole la cittadinanza facile per tutti. Follia. La Lega farà …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 94</b>: ...parti civili contro di me... Ma vi pare normale?!? Come sempre andrò in quel T…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 95</b>: Ha ragione Porro: tutto ciò è completamente folle.\n#BastaCoprifuoco https://t.co…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 96</b>: Fa benissimo #Macron a comportarsi così. I contatti non vanno mai recisi o resi i…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 97</b>: Parliamo delle scuole aperte/chiuse senza parlare di come aprirle, e quindi finia…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 98</b>: Presentazione de “La libertà che non libera” a #Treviso.\nPerché la politica non …

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 99</b>: Busta con proiettile alla consigliera della Lega in Campania, Carmela Rescigno, i…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

HTML(value='<b>Tweet 100</b>: Partecipare alla vita pubblica è un dovere. Pericle sosteneva“un uomo che non si…

Dropdown(description='Tone:', layout=Layout(width='70%'), options=('', 'Neutral / Informational', 'Supportive …

Button(button_style='success', description='💾 Save Labels', style=ButtonStyle())

### **Part 2 - Fine Tune Model on 100 labeled tweets**

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split

# LOAD AND PREPROCESS LABELED DATA
df = pd.read_csv("labeled_tweets_with_tone.csv")
df = df.dropna(subset=["tone_label"])  # Remove unlabeled rows

# Label encoding
labels = df["tone_label"].unique().tolist()
label2id = {l: i for i, l in enumerate(labels)}
id2label = {i: l for l, i in label2id.items()}
df["label_id"] = df["tone_label"].map(label2id)

# Split
train_texts, val_texts, train_labels, val_labels = train_test_split(
    df["Content"].tolist(), df["label_id"].tolist(), test_size=0.2, random_state=42
)


In [6]:
# TOKENIZE
from transformers import AutoTokenizer

model_name = "Musixmatch/umberto-commoncrawl-cased-v1"  # You can swap for AlBERTo if preferred
tokenizer = AutoTokenizer.from_pretrained(model_name)

train_encodings = tokenizer(train_texts, truncation=True, padding=True)
val_encodings = tokenizer(val_texts, truncation=True, padding=True)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


In [7]:
import torch

# CONVERT TO PYTORCH
class TweetDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
    def __getitem__(self, idx):
        item = {k: torch.tensor(v[idx]) for k, v in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item
    def __len__(self):
        return len(self.labels)

train_dataset = TweetDataset(train_encodings, train_labels)
val_dataset = TweetDataset(val_encodings, val_labels)


In [8]:
# FINE TUNE MODEL
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    num_labels=len(label2id),
    id2label=id2label,
    label2id=label2id
)

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    save_strategy="no",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer
)

trainer.train()


Some weights of CamembertForSequenceClassification were not initialized from the model checkpoint at Musixmatch/umberto-commoncrawl-cased-v1 and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  trainer = Trainer(


Epoch,Training Loss,Validation Loss
1,No log,1.511355
2,No log,1.449944
3,No log,1.432616


TrainOutput(global_step=30, training_loss=1.5323776245117187, metrics={'train_runtime': 20.9796, 'train_samples_per_second': 11.44, 'train_steps_per_second': 1.43, 'total_flos': 10976960005920.0, 'train_loss': 1.5323776245117187, 'epoch': 3.0})

### **Phase 3**

In [9]:
all_df = data

# Exclude already labeled ones (assuming tone_label exists only for labeled rows)
unlabeled_df = all_df[~all_df["Content"].isin(df["Content"])].reset_index(drop=True)

# Take a reasonable subset if the dataset is huge
texts_to_predict = unlabeled_df["Content"].tolist()


In [10]:
from torch.nn.functional import softmax

device = torch.device("cpu")
model.to(device)

# Make sure inputs are also on CPU
predict_encodings = tokenizer(texts_to_predict, truncation=True, padding=True, return_tensors="pt")
predict_encodings = {k: v.to(device) for k, v in predict_encodings.items()}

batch_size = 32
all_probs = []

model.eval()
with torch.no_grad():
    for i in range(0, len(texts_to_predict), batch_size):
        batch_texts = texts_to_predict[i:i+batch_size]
        batch_enc = tokenizer(batch_texts, truncation=True, padding=True, return_tensors="pt")
        batch_enc = {k: v.to("cpu") for k, v in batch_enc.items()}  # or "mps" if you fix it
        outputs = model(**batch_enc)
        batch_probs = softmax(outputs.logits, dim=1).numpy()
        all_probs.append(batch_probs)

import numpy as np
probs = np.vstack(all_probs)




KeyboardInterrupt: 

In [None]:
import numpy as np

# Margin = difference between top two probabilities
sorted_probs = np.sort(probs, axis=1)
margins = sorted_probs[:, -1] - sorted_probs[:, -2]

# Lower margin = higher uncertainty
uncertainty_indices = np.argsort(margins)  # ascending = most uncertain first


In [None]:
K = 50  # or any number you want to label next
uncertain_samples = unlabeled_df.iloc[uncertainty_indices[:K]].copy()

# Save for annotation
uncertain_samples.to_csv("next_batch_to_label.csv", index=False)