**Módulo 13: Procesamiento de Lenguaje Natural (NLP) con Machine Learning**

**Conceptos clave:**

Fundamentos de NLP: tokenización, lematización, stop words.

Modelos de Bag of Words (BoW) y TF-IDF.

Modelos de clasificación de texto con Naive Bayes y SVM.

**Proyecto: Clasificación de sentimientos en redes sociales.**
    
Utilizar un dataset de reseñas de productos o comentarios en redes sociales para entrenar un modelo que clasifique los sentimientos (positivos/negativos).

**Proyecto en Español: Clasificación de Sentimientos en Comentarios de Redes Sociales**

**Objetivo:** Clasificar los comentarios en redes sociales en positivos y negativos utilizando técnicas de Procesamiento de Lenguaje Natural y Machine Learning.

**Paso 1: Instalación de librerías necesarias**

Primero, instalamos las librerías necesarias para el proyecto:

In [1]:
#!pip install numpy pandas scikit-learn nltk matplotlib seaborn

**Paso 2: Importar las librerías**

A continuación, importamos las librerías principales que vamos a utilizar.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import seaborn as sns
import matplotlib.pyplot as plt

**Paso 3: Descargar dataset**

Para este proyecto, usaremos un dataset público de comentarios de redes sociales. Vamos a descargar el archivo CSV directamente desde una URL:

In [30]:
#url='/home/julio/jupyter_files/Curso_ML/tweets_politica_kaggle.csv'
#url = 'tu_dataset_url_aqui'  # Reemplaza con la URL o ruta de tu dataset
#import pandas as pd

url = '/home/julio/jupyter_files/Curso_ML/tweets_politica_kaggle.csv'

# Intenta leer el archivo CSV con opciones específicas para manejar comillas y caracteres de escape
try:
    df = pd.read_csv(
        url,
        sep=',',  # Ajusta el delimitador si es diferente
        quotechar='"',
        escapechar='\\',
        on_bad_lines='warn',  # O 'skip' para omitir líneas problemáticas
        encoding='utf-8'  # Ajusta la codificación si es necesario
    )
except pd.errors.ParserError as e:
    print(f"Error al leer el archivo CSV: {e}")

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



In [31]:
df.head()
df2= df.sample(frac=0.01, random_state=42) 

In [32]:
# Dividir la única columna en múltiples columnas usando '\t' como delimitador
df2 = df['cuenta\tpartido\ttimestamp\ttweet'].str.split('\t', expand=True)

# Asignar nombres a las columnas
df2.columns = ['cuenta', 'partido', 'timestamp', 'tweet']

In [33]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109195 entries, 0 to 109194
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   cuenta     109195 non-null  object
 1   partido    109195 non-null  object
 2   timestamp  109195 non-null  object
 3   tweet      109195 non-null  object
dtypes: object(4)
memory usage: 3.3+ MB


In [34]:
df2.timestamp	

0         1363973492.0
1         1364061035.0
2         1364116804.0
3         1364152692.0
4         1364153876.0
              ...     
109190    1679569934.0
109191    1679570026.0
109192    1679570122.0
109193    1679570502.0
109194    1679571534.0
Name: timestamp, Length: 109195, dtype: object

**Instalación de Librerías**

In [36]:
#!pip install pandas spacy textblob vaderSentiment
#!python -m spacy download es_core_news_sm  # Modelo en español para spaCy
#!pip install pandas spacy transformers vaderSentiment afinn
#python -m spacy download es_core_news_sm  # Modelo en español para spaCy
#!pip install pandas spacy transformers vaderSentiment afinn matplotlib seaborn sentistrength
#!python -m spacy download es_core_news_sm  # Modelo en español para spaCy

**Cargar y Preprocesar los Datos**

In [37]:
import pandas as pd
import re
import spacy

# Cargar el modelo en español de spaCy
nlp = spacy.load('es_core_news_sm')


# Función para limpiar el texto
def clean_text(text):
    text = re.sub(r'http\S+', '', text)  # Eliminar URLs
    text = re.sub(r'@\w+', '', text)  # Eliminar menciones
    text = re.sub(r'#\w+', '', text)  # Eliminar hashtags
    text = re.sub(r'\d+', '', text)  # Eliminar números
    text = text.lower()  # Convertir a minúsculas
    text = re.sub(r'\s+', ' ', text).strip()  # Eliminar espacios extras
    return text

In [38]:
df2['tweet_cleaned'] = df2['tweet'].apply(clean_text)

**Análisis de Sentimientos y Polaridad**

**Usando TextBlob para Polaridad y Subjetividad**

In [39]:
from textblob import TextBlob

def get_polarity(tweet):
    blob = TextBlob(tweet)
    return blob.sentiment.polarity  # Polaridad (-1 a 1)

def get_subjectivity(tweet):
    blob = TextBlob(tweet)
    return blob.sentiment.subjectivity  # Subjetividad (0 a 1)

In [40]:
df2['polarity_textblob'] = df2['tweet_cleaned'].apply(get_polarity)

In [41]:
df2['subjectivity_textblob'] = df2['tweet_cleaned'].apply(get_subjectivity)

In [42]:
df2

Unnamed: 0,cuenta,partido,timestamp,tweet,tweet_cleaned,polarity_textblob,subjectivity_textblob
0,a34133350b0605cb24081843f63176ca,psoe,1363973492.0,@vesteve3 @manubenas @ccoo_rm @desobediencia_ ...,(buen ánimo para esta primavera que iniciamos).,0.000000,0.000000
1,a34133350b0605cb24081843f63176ca,psoe,1364061035.0,"""“@kirovast: @Hugo_Moran muy fan de la """"radic...","""“: muy fan de la """"radicalidad social""""” (fre...",0.033333,0.066667
2,a34133350b0605cb24081843f63176ca,psoe,1364116804.0,@ALTAS_PRESIONES Nuevos dueños para las renova...,nuevos dueños para las renovables. en ese mome...,0.000000,0.000000
3,a34133350b0605cb24081843f63176ca,psoe,1364152692.0,“@cesarnayu: https://t.co/J4OTXj1x7w … Por fav...,“: … por favor es importante difundir este men...,0.000000,0.000000
4,a34133350b0605cb24081843f63176ca,psoe,1364153876.0,“@iAgua: http://t.co/6yMSNcV1UA” (El Gobierno ...,“: (el gobierno sigue adelante con sus planes ...,-0.750000,1.000000
...,...,...,...,...,...,...,...
109190,fdce0be92377e5874e04584c4eac7461,psoe,1679569934.0,El culmen de la operación más esperpéntica de ...,el culmen de la operación más esperpéntica de ...,0.000000,0.000000
109191,42acd1f0c1c51732519ad0d533573359,pp,1679570026.0,Acontecimiento planetario:El líder mundial Ped...,acontecimiento planetario:el líder mundial ped...,0.000000,0.000000
109192,b4b003b4349b78f094d7018c2fdbb43a,vox,1679570122.0,Al Rey Es España Felipe VI lo ofende siempre q...,al rey es españa felipe vi lo ofende siempre q...,0.000000,0.000000
109193,bfeea591a6ca90cf0ddb9ccda42ec306,vox,1679570502.0,Lo verdaderamente irreversible es la mutilació...,lo verdaderamente irreversible es la mutilació...,0.000000,0.000000


**Usando VADER para Polaridad**

In [43]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

analyzer = SentimentIntensityAnalyzer()

def get_vader_sentiment(tweet):
    sentiment = analyzer.polarity_scores(tweet)
    return sentiment['compound']  # Polaridad compuesta (-1 a 1)

In [44]:
df2['polarity_vader'] = df2['tweet_cleaned'].apply(get_vader_sentiment)

**Usando Transformers para Análisis de Sentimientos**

In [46]:
from transformers import pipeline

sentiment_pipeline = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

def get_sentiment(tweet):
    result = sentiment_pipeline(tweet)
    return result[0]['label'], result[0]['score']

2024-09-17 13:41:21.502434: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-17 13:41:21.528430: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-09-17 13:41:21.535971: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-09-17 13:41:21.557538: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [None]:
df2[['sentiment_label', 'sentiment_score']] = df2['tweet_cleaned'].apply(lambda x: pd.Series(get_sentiment(x)))

In [None]:
df2

**Usando AFINN para Polaridad**

In [None]:
from afinn import Afinn

afinn = Afinn(language='es')

def get_afinn_sentiment(tweet):
    return afinn.score(tweet)  # Polaridad (positivo/negativo)

In [None]:
df2['sentiment_afinn'] = df2['tweet_cleaned'].apply(get_afinn_sentiment)

In [None]:
df2

**Usando SentiStrength para Emociones**

In [None]:
from sentistrength import PySentiStr

senti = PySentiStr()
senti.setSentiStrengthPath('/ruta/a/SentiStrengthCom/')  # Ruta a SentiStrength
senti.setSentiStrengthLanguageFolderPath('/ruta/a/SentiStrengthData/')

def get_sentistrength_emotion(tweet):
    result = senti.getSentiment(tweet, score='dual')
    return result[0], result[1]  # Devuelve el sentimiento positivo y negativo

In [None]:
df2[['positive_sentiment', 'negative_sentiment']] = df2['tweet_cleaned'].apply(lambda x: pd.Series(get_sentistrength_emotion(x)))

**Análisis de Entidades**

In [None]:
def extract_entities(tweet):
    doc = nlp(tweet)
    entities = [(ent.text, ent.label_) for ent in doc.ents]
    return entities

In [None]:
df2['entities'] = df2['tweet_cleaned'].apply(extract_entities)

**Análisis y Visualización**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Estadísticas descriptivas
print(df2[['polarity_textblob', 'subjectivity_textblob', 'polarity_vader', 'sentiment_score', 'sentiment_afinn', 'positive_sentiment', 'negative_sentiment']].describe())

In [None]:
# Visualización de polaridad con TextBlob
plt.figure(figsize=(12, 6))
sns.histplot(df2['polarity_textblob'].dropna(), bins=30, kde=True)
plt.title('Distribución de la Polaridad (TextBlob)')
plt.xlabel('Polaridad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Visualización de subjetividad con TextBlob
plt.figure(figsize=(12, 6))
sns.histplot(df2['subjectivity_textblob'].dropna(), bins=30, kde=True)
plt.title('Distribución de la Subjetividad (TextBlob)')
plt.xlabel('Subjetividad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Visualización de polaridad con VADER
plt.figure(figsize=(12, 6))
sns.histplot(df2['polarity_vader'], bins=30, kde=True)
plt.title('Distribución de la Polaridad (VADER)')
plt.xlabel('Polaridad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Visualización de emociones con SentiStrength
plt.figure(figsize=(12, 6))
sns.histplot(df2['positive_sentiment'], bins=30, kde=True, color='green', label='Positivo')
sns.histplot(df2['negative_sentiment'], bins=30, kde=True, color='red', label='Negativo')
plt.title('Distribución de Emociones (SentiStrength)')
plt.xlabel('Sentimiento')
plt.ylabel('Frecuencia')
plt.legend()
plt.show()