
Progetto corso 10.ipynb
Progetto corso 10.ipynb_
Monitoraggio della reputazione online di un’azienda
MachineInnovators Inc. è leader nello sviluppo di applicazioni di machine learning scalabili e pronte per la produzione. Il focus principale del progetto è integrare metodologie MLOps per facilitare lo sviluppo, l'implementazione, il monitoraggio continuo e il retraining dei modelli di analisi del sentiment.

L'obiettivo è abilitare l'azienda a migliorare e monitorare la reputazione sui social media attraverso l'analisi automatica dei sentiment.

Le aziende si trovano spesso a fronteggiare la sfida di gestire e migliorare la propria reputazione sui social media in modo efficace e tempestivo. Monitorare manualmente i sentiment degli utenti può essere inefficiente e soggetto a errori umani, mentre la necessità di rispondere rapidamente ai cambiamenti nel sentiment degli utenti è cruciale per mantenere un'immagine positiva dell'azienda.

Benefici della Soluzione
Automazione dell'Analisi del sentiment: Implementando un modello di analisi del sentiment basato su FastText, MLOps Innovators Inc. automatizzerà l'elaborazione dei dati dai social media per identificare sentiment positivi, neutrali e negativi. Ciò permetterà una risposta rapida e mirata ai feedback degli utenti.

Monitoraggio Continuo della Reputazione: Utilizzando metodologie MLOps, l'azienda implementerà un sistema di monitoraggio continuo per valutare l'andamento del sentiment degli utenti nel tempo. Questo consentirà di rilevare rapidamente cambiamenti nella percezione dell'azienda e di intervenire prontamente se necessario.

Retraining del Modello: Introdurre un sistema di retraining automatico per il modello di analisi del sentiment assicurerà che l'algoritmo si adatti dinamicamente ai nuovi dati e alle variazioni nel linguaggio e nei comportamenti degli utenti sui social media. Mantenere alta l'accuratezza predittiva del modello è essenziale per una valutazione corretta del sentiment. Dettagli del Progetto

Fase 1: Implementazione del Modello di Analisi del sentiment con FastText
Modello: Utilizzare un modello pre-addestrato FastText per un’analisi del sentiment in grado di classificare testi dai social media in sentiment positivo, neutro o negativo. Servirsi di questo modello: https://huggingface.co/cardiffnlp/twitter-roberta-base-sentiment-latest
Dataset: Utilizzare dataset pubblici contenenti testi e le rispettive etichette di sentiment.
Fase 2: Creazione della Pipeline CI/CD**
Pipeline CI/CD: Sviluppare una pipeline automatizzata per il training del modello, i test di integrazione e il deploy dell'applicazione su HuggingFace.
Fase 3: Deploy e Monitoraggio Continuo
Deploy su HuggingFace (facoltativo): Implementare il modello di analisi del sentiment, inclusi dati e applicazione, su HuggingFace per facilitare l'integrazione e la scalabilità.
Sistema di Monitoraggio: Configurare un sistema di monitoraggio per valutare continuamente le performance del modello e il sentiment rilevato.
Consegna
Codice Sorgente: Repository pubblica su GitHub con codice ben documentato per la pipeline CI/CD e l'implementazione del modello.
Documentazione: Descrizione delle scelte progettuali, delle implementazioni e dei risultati ottenuti durante il progetto. Motivazione del Progetto
L'implementazione di FastText per l'analisi del sentiment consente a MLOps Innovators Inc. di migliorare significativamente la gestione della reputazione sui social media. Automatizzando l'analisi del sentiment, l'azienda potrà rispondere più rapidamente alle esigenze degli utenti, migliorando la soddisfazione e rafforzando l'immagine dell'azienda sul mercato. Con questo progetto, MLOps Innovators Inc. promuove l'innovazione nel campo delle tecnologie AI, offrendo soluzioni avanzate e scalabili per le sfide moderne di gestione della reputazione aziendale.

Prodotti Colab a pagamento - Annulla i contratti qui


In [1]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Specifica il nome del modello pre-addestrato
model_name = "cardiffnlp/twitter-roberta-base-sentiment-latest"

# Carica il tokenizer associato al modello
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Carica il modello per la classificazione delle sequenze
model = AutoModelForSequenceClassification.from_pretrained(model_name)

  from .autonotebook import tqdm as notebook_tqdm
Some weights of the model checkpoint at cardiffnlp/twitter-roberta-base-sentiment-latest were not used when initializing RobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [2]:
# Esempi di testo dai social media
texts = [
    "This company is doing an amazing job!",
    "I am so disappointed with their service.",
    "The new product looks interesting.",
    "Just another day."
]

# Tokenizza il testo
encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')

# Esegui l'inferenza del modello
with torch.no_grad():
    output = model(**encoded_input)

# Ottieni le probabilità dei sentiment
probabilities = torch.nn.functional.softmax(output.logits, dim=-1)

# Ottieni le etichette dei sentiment (positive, negative, neutral)
predicted_labels = torch.argmax(probabilities, dim=-1)

# Mappa gli indici alle etichette
labels = ['negative', 'neutral', 'positive']
predicted_sentiments = [labels[label] for label in predicted_labels.tolist()]

# Stampa i risultati
for text, sentiment in zip(texts, predicted_sentiments):
    print(f"Testo: '{text}' - Sentiment: {sentiment}")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Testo: 'This company is doing an amazing job!' - Sentiment: positive
Testo: 'I am so disappointed with their service.' - Sentiment: negative
Testo: 'The new product looks interesting.' - Sentiment: positive
Testo: 'Just another day.' - Sentiment: negative


In [3]:
from datasets import load_dataset

# Esempio di caricamento del dataset "emotion"
# Puoi esplorare altri dataset su https://huggingface.co/datasets
dataset = load_dataset("emotion")

# Visualizza alcune informazioni sul dataset
print(dataset)
print(dataset['train'][15000])

Using the latest cached version of the dataset since emotion couldn't be found on the Hugging Face Hub
Found the latest cached dataset configuration 'split' at /home/codespace/.cache/huggingface/datasets/emotion/split/0.0.0/cab853a1dbdf4c42c2b3ef2173804746df8825fe (last modified on Tue Apr 15 09:13:35 2025).


DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 16000
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
})
{'text': 'i feel my hands being weaved with yours such delicate intimacy being shared by the hands of two people who shares so much secret for the world to be mystified', 'label': 2}
