# Preprocessing del Testo per la Sentiment Analysis

Il preprocessing del testo è un passaggio fondamentale per migliorare la performance dei modelli di machine learning, in quanto aiuta a ridurre la variabilità e a concentrare il modello sulle caratteristiche più rilevanti del testo.

### Passaggi di Preprocessing

1. **Caricamento del Dataset**
   - Il dataset è stato caricato utilizzando la libreria `pandas`:
     Il file CSV contiene due colonne: `label` (indicante il sentiment) e `text` (contenente i testi da analizzare).

2. **Rimozione delle Stopwords**
   - Le **stopwords** (parole comuni come "the", "and", "is") sono state rimosse dal testo. Queste parole non forniscono informazioni significative per la sentiment analysis.
     - Utilizzo della libreria `nltk` per ottenere la lista di stopwords in inglese:
       ```python
       stop_words = set(stopwords.words('english'))
       ```

3. **Funzione di Preprocessing**
   - È stata definita una funzione di preprocessing per elaborare ogni testo nel dataset:
     La funzione esegue le seguenti operazioni:

     - **Conversione in minuscolo**: Tutto il testo viene convertito in minuscolo per ridurre la variabilità causata dalla maiuscola/minuscola.
     - **Gestione Numeri**: trovandoci in ambito finanziario i numeri contengono spesso informazioni rilevanti (es. importi, percentuali, date). Quindi, piuttosto che eliminarli come si fa nella maggior parte dei casi, essi sono stati normalizzati:
        - **Normalizzazione numeri (interi, decimali, separatori)**: i numeri sono stati normalizzati tramite la label NUM. 
        - **Separazione di lettere e numeri uniti**: molto spesso nel testo comparivano numeri e testo legati tra loro (es: eur131m). Per una miglior gestion e visualizzazione i testi e numeri uniti sono stati dvisi (es: eur131m -> eur 131 m)
        - **Gestione intervalli numerici**: Trovandoci in un contesto finanziario, molto spesso si presentavano intervalli temporali (es. 2009-2012). Essi sono stati normalizzati nel seguente modo -> NUM - NUM.
        - **Normalizzazione percentuali**: Il simbolo % preceduto da un numer onon è stato eliminato per via del contesto in cui ci troviamo. Questo particolare caso è stato normalizzato utilizzando la label NUM_PERCENT (es. 10%, 5.5%, 3,2% -> NUM_PERCENT)
        - **Normalizzazione valute e e simboli**: Le seguenti valute: euro|eur|dollari|dollars|usd e simboli: $€£sono state normalizzate con la label CUR.
     - **Rimozione della punteggiatura**: I caratteri di punteggiatura (come punti, virgole, ecc.) vengono eliminati, poiché non aggiungono valore al sentiment.
       ```python
       text = re.sub(r'[^\w\s]', '', text)
       ```
     - **Tokenizzazione**: Il testo viene suddiviso in parole separate utilizzando la libreria `nltk`.
       ```python
       words = nltk.word_tokenize(text)
       ```
     - **Rimozione delle stopwords**: Le parole comuni (stopwords) vengono eliminate.
     - **Stamming e Lemmatizzazione**: Ogni parola viene ridotta alla sua forma base (lemma) utilizzando il lemmatizzatore `WordNetLemmatizer` della libreria `nltk`. Questo aiuta a ridurre la variabilità delle parole (es. "running" diventa "run").
     In questo caso abbiamo utilizzato soltanto il lemmatizzaztore in quanto è meno "aggressivo" rispetto allo stamming, quindi preserva parole utili, mantenendo il significato semantico più vicino all'originale
     - **Eliminazione delle frasi con una lunghezza inferiore o uguale a 2 parole**: Frasi molto corte, come "welcome", "cloud", "thik", o singole parole, spesso non offrono un contesto sufficiente per un'analisi semantica accurata. Queste frasi non contribuiscono in modo significativo alla comprensione del sentiment e potrebbero introdurre rumore nel modello di machine learning.

4. **Applicazione del Preprocessing al Dataset**
   - La funzione di preprocessing è stata applicata a ogni riga del dataset nella colonna `text`, creando una nuova colonna `cleaned_text` che contiene il testo preprocessato.