## Claudio Nuncibello
### A.A. 2023/2024
### Project for: Tecnologies for Advanced Programming

<img src="jupyterCheckpoint/copertina.jpg">

# DOCUMENTATION

### Introduction: Evaluating Video Popularity in Playlists through Sentiment Analysis

Nell'era digitale, la quantità di contenuti video disponibili online è cresciuta esponenzialmente, con YouTube che si posiziona come una delle principali piattaforme di condivisione video. Le playlist di YouTube, che raccolgono video su argomenti specifici, rappresentano una risorsa inestimabile per creatori di contenuti e spettatori. Tuttavia, valutare l'impatto e il gradimento di questi video può risultare complesso senza strumenti adeguati.

Il nostro progetto si propone di affrontare questa sfida raccogliendo e analizzando i commenti dei video all'interno di una playlist specifica di YouTube. Attraverso l'uso di tecniche di Sentiment Analysis, intendiamo valutare il tasso di gradimento dei video, fornendo una panoramica dettagliata delle reazioni degli spettatori. La Sentiment Analysis, infatti, permette di identificare automaticamente il tono emozionale dei commenti, classificandoli come positivi, negativi o neutri.

Gli obiettivi principali del progetto sono:

1. **Raccolta dei Commenti**: Utilizzare le API di YouTube per estrarre i commenti di tutti i video inclusi nella playlist selezionata.
2. **Analisi del Sentimento**: Applicare algoritmi di Sentiment Analysis per determinare il sentiment predominante nei commenti, identificando quelli positivi, negativi e neutri.
3. **Visualizzazione dei Dati**: Costruire grafici e altre rappresentazioni visive per interpretare i dati raccolti e analizzati, fornendo insights chiari e immediati sul gradimento dei video.

### THE PIPELINE

#### The CHOICE

<img src="jupyterCheckpoint/scelta.png" width=700px>

<img src="jupyterCheckpoint/pipeline.png">

La mia pipeline utilizza container Docker per integrare Logstash, Kafka, Spark, Elasticsearch e Kibana. I dati vengono raccolti tramite le API di YouTube, concentrandosi sui commenti di una specifica playlist. Ecco come funziona la pipeline:

**Logstash**:
Pre-elabora i dati raccolti dalle API di YouTube, applicando trasformazioni e arricchimenti prima di inviarli a Kafka.

**Kafka**:
Gestisce lo streaming dei dati in tempo reale, fornendo un sistema di messaggistica distribuito affidabile e scalabile.

**Spark**:
Esegue l'analisi dei sentimenti sui dati, sfruttando la potenza di calcolo in-memory per processare grandi volumi di dati con bassa latenza.

**Elasticsearch**:
Indicizza i risultati dell'analisi dei sentimenti, permettendo query rapide e analisi complesse.

**Kibana**:
Fornisce strumenti di visualizzazione interattivi per creare dashboard e monitorare le tendenze, offrendo una visione chiara dei dati elaborati.

<img src="jupyterCheckpoint/problemi2.png" width="400px">

## I miei dati

<img src="jupyterCheckpoint/schema.png">

## sentiment Analysis
Il codice utilizza la libreria NLTK (Natural Language Toolkit) per eseguire il preprocessing del testo prima di analizzarne il sentiment con l'analizzatore VADER. NLTK è utilizzato per tokenizzare il testo in parole, rimuovere stopwords (parole non significative come articoli e congiunzioni), e applicare la lemmatizzazione per ridurre le parole alla loro forma base. Questo preprocessing assicura che il testo sia pulito e ottimizzato per l'analisi del sentiment con VADER, che valuta il sentimento complessivo del testo basandosi su parole chiave e punteggi di valenza.

<img src="jupyterCheckpoint/sentiment.png">


<img src="jupyterCheckpoint/problemi.png" alt="Image 1">

<br><br><br><br><br>

## Visual Analysis: Trends and Correlations in Tracked Data Using Kibana

**Media del Sentiment per Ogni Video:**

**Grafico a Barre:** Mostra il punteggio medio del sentiment per ogni video tramite barre, consentendo di confrontare facilmente le tendenze emotive tra video diversi.

**Tabella:** Visualizza dettagliatamente i punteggi medi del sentiment per ogni video in formato tabellare, offrendo una visione strutturata dei risultati dell'analisi del sentiment.

<img src="jupyterCheckpoint/grafico1.png">

**Timeline del Punteggio del Sentiment:**

Grafico a linea che traccia il punteggio del sentiment nel tempo, descrivendo le variazioni emotive e le tendenze nel periodo analizzato.

<img src="jupyterCheckpoint/2.png">

**Heatmap dell'Arrivo dei Commenti per ID Video:**

Heatmap che illustra la frequenza di arrivo dei commenti suddivisi per ID video in diversi periodi di tempo, utilizzando l'intensità del colore per evidenziare i picchi di attività di commento.

<img src="jupyterCheckpoint/3.png">

**Timeline Generale dell'Arrivo dei Commenti:**

Grafico a barre che rappresenta l'arrivo dei commenti nel tempo, fornendo una panoramica dell'attività di commento e identificando i periodi di maggiore interazione.

<img src="jupyterCheckpoint/4.png">

**Numero di Commenti per Ogni Video:**

Grafico a barre che mostra il numero totale di commenti ricevuti per ogni video, consentendo un'analisi comparativa dell'interazione degli utenti tra video diversi.

<img src="jupyterCheckpoint/5.png">

<br><br><br><br><br>

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <style>
        .image-container {
            display: flex; /* Utilizza flexbox per allineare le immagini */
        }
        .image-container img {
            width: 50%; /* Larghezza del 50% per ciascuna immagine */
            height: auto; /* Mantieni l'aspect ratio */
            display: block; /* Rimuove il margine inferiore */
        }
    </style>
</head>
<body>

<div class="image-container">
    <img src="jupyterCheckpoint/meme_fine.png" alt="Image 1">
    <img src="jupyterCheckpoint/STUDIO.png" alt="Image 2">
</div>

</body>
</html>


<br><br><br><br><br>

 <img src="jupyterCheckpoint/FINE.png">