<a href="https://colab.research.google.com/github/Leucocitokiller/Proyecto-Fina-NLP/blob/main/Proyecto_final_NLP_Redes_Neuronales_Libenson.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# *Data Science III: NLP & Deep Learning aplicado a Ciencia de Datos*
# *Proyecto Final*
## *Alumno: Gabriel Libenson*
## *Comisi√≥n: 61730*


# **Introducci√≥n.**

En este trabajo pr√°ctico se aborda el an√°lisis y clasificaci√≥n de opiniones de usuarios mediante t√©cnicas de Procesamiento de Lenguaje Natural (NLP) y Machine Learning. Se emplean dos conjuntos de datos distintos, provenientes de plataformas reconocidas: Yelp, que contiene rese√±as de locales de comida, y Amazon, que incluye comentarios sobre productos.

# **Objetivos.**

El objetivo principal es desarrollar un modelo capaz de identificar autom√°ticamente si un comentario es positivo o negativo, independientemente de la tem√°tica o sector al que pertenezca. Para ello, se aplican diferentes herramientas y t√©cnicas propias del NLP, tales como el tokenizado, lemmatizaci√≥n, entre otras, que permiten transformar los textos en formatos adecuados para su an√°lisis computacional.

Posteriormente, se prueba una variedad de modelos de machine learning para evaluar cu√°l es el m√°s efectivo en la clasificaci√≥n de sentimientos en ambos datasets. Esto incluye desde modelos cl√°sicos hasta t√©cnicas m√°s avanzadas, buscando generalizar el aprendizaje para que el modelo pueda detectar la polaridad del comentario m√°s all√° del contexto espec√≠fico.

Este enfoque facilita no solo el entendimiento de las opiniones expresadas por los usuarios, sino que tambi√©n permite desarrollar sistemas automatizados de an√°lisis de sentimientos √∫tiles en distintas aplicaciones comerciales y de investigaci√≥n.

# **Origen de los datos.**

Los datos pertenecen a una adaptaci√≥n de los comentarios de yelp y amazon; fueron obtenidos del siguiente link de Github:

https://github.com/luisFernandoCastellanosG/Machine_learning/blob/master/2-Deep_Learning/PLN/Datasets/DataSetOpiniones.zip

Datos del autor:

https://github.com/luisFernandoCastellanosG/Machine_learning/blob/master/2-Deep_Learning/PLN/Datasets/readme.md



# **Desarrollo.**

# **Importaci√≥n de Librer√≠as.**

In [None]:
import urllib.request
import numpy as np
import pandas as pd
import os
import time
import sys
#-----librerias para trabajar NLP
!python -m spacy download es_core_news_md
import spacy
import es_core_news_md
#es_core_news_md Medium (modelo mediano):
#Es m√°s pesado y m√°s lento que el sm, pero mucho m√°s preciso. Tiene vectores de palabras, entiende mejor el significado de las palabras.

#-----instalaci√≥n d librerias para an√°lisis de sentimientos.
!pip install spacy spacy-transformers
!pip install pysentimiento
from pysentimiento import create_analyzer

#----librerias para normalizaci√≥n de textos
import re
from unicodedata import normalize
import unicodedata
from collections import Counter


#----librerias para graficar y wordcloud.
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import seaborn as sns

#----librer√≠as para trabajar con TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
#----libreria para trabajar con BoW.
from sklearn.feature_extraction.text import CountVectorizer
#----librerias para Machine learning
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score, roc_curve, precision_score, recall_score, f1_score
#----librerias de Redes Neuronales.
# Importamos el Tokenizer para procesar el texto y convertirlo en secuencias num√©ricas
from tensorflow.keras.preprocessing.text import Tokenizer
# Importamos la funci√≥n para rellenar las secuencias con ceros y asegurarnos que todas tengan la misma longitud
from tensorflow.keras.preprocessing.sequence import pad_sequences

from tensorflow.keras.models import Sequential
# Importamos el modelo secuencial de Keras, que permite apilar capas de manera lineal
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense, Bidirectional, Dropout
from tensorflow.keras.optimizers import Adam
import tensorflow as tf
!pip install keras-tuner
import keras_tuner as kt
from tensorflow.keras.regularizers import l2
# Importamos las capas necesarias:
# - Embedding: para convertir √≠ndices de palabras en vectores densos.
# - SimpleRNN: una capa recurrente que procesa secuencias de datos.
# - Dense: una capa totalmente conectada, utilizada para la salida del modelo.



# **Procesamiento de la Fuente de Datos.**

## Conexi√≥n con la fuente de datos.


Se cargan dos dataset desde Github que contienen comentarios sobre celulares (Amanzon) y servicio de restaurantes (Yelp). Ambos dataset se unifican para tener un mayor volumen de datos para analizar.

Los mismos estan compuestos por dos columnas, una con los comentarios de cada usario registrado y otra con el valor asignado a ese comentario.
Si el comentario tiene un valor 1 se lo considera positivo y si tiene valor 2 como negativo.

In [None]:
# Diccionario con las fuentes y sus URLs
filepath_dict = {
    'yelp': 'https://raw.githubusercontent.com/Leucocitokiller/Proyecto-Fina-NLP/main/yelp_comentarios.csv',
    'amazon': 'https://raw.githubusercontent.com/Leucocitokiller/Proyecto-Fina-NLP/main/amazon_cells_comentarios.csv'

}

df_list = []
for source, filepath in filepath_dict.items():
    df = pd.read_csv(filepath, names=['Comentario', 'Valor'], sep=';', encoding='latin-1')
    df['Origen'] = source  # se agrega una nueva columna para saber si los comentarios son de Yelp o Amazon.
    df_list.append(df)

df = pd.concat(df_list)
df.head(1100)

## Normalizaci√≥n de la Fuente de datos.


### Eliminaci√≥n de signos de puntuaci√≥n.

In [None]:
# Definici√≥n de funci√≥n para eliminar los signos de puntuaci√≥n utilizando re, pero considerando no borrar las vocales con acento.

def remove_punctuation(text):
    # Normaliza el texto a NFKD para separar letras y sus tildes
    text = unicodedata.normalize('NFKD', text)
    # Elimina los caracteres diacr√≠ticos (como las tildes)
    text = ''.join(c for c in text if not unicodedata.combining(c))
    # Elimina todo lo que no sea letras, n√∫meros o espacios
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
    return text


# Aplicar la funci√≥n a la columna 'review_lower'
df['Comentarios'] = df['Comentario'].apply(remove_punctuation)

In [None]:
df

### Reducir a min√∫sculas el texto.

In [None]:
# Create a new column 'Comentarios_lower' with lowercase values from 'Comentario'
df['Comentarios_lower'] = df['Comentarios'].str.lower()

In [None]:
df

### Convertir a n√∫mero la columna Valor para su postprocesamiento.

In [None]:
# Convertimos la columna rating a valor num√©rico
df['Valor'] = pd.to_numeric(df['Valor'], errors='coerce')

In [None]:
df['Valor']

# **NLP**

## Pre Procesamiento.

### Generaci√≥n del objeto de SPacy para utilizar en el procesamiento del texto en espa√±ol.

Antes de aplicar t√©cnicas de an√°lisis de sentimiento, se debe realizar un preprocesamiento del texto que prepare los datos para ser interpretados por modelos de NLP.
En este paso, se lleva a cabo la generaci√≥n del objeto de spaCy para trabajar con el idioma espa√±ol, lo cual permite aprovechar herramientas ling√º√≠sticas como la tokenizaci√≥n, lematizaci√≥n

In [None]:
nlp = es_core_news_md.load()

### Convertir texto a min√∫sculas y Tokenizaci√≥n.

Una de las primeras transformaciones aplicadas es la conversi√≥n del texto a min√∫sculas, lo que ayuda a normalizar las palabras y evitar que el modelo interprete como diferentes aquellas que solo var√≠an en el uso de may√∫sculas (por ejemplo, "Bueno" y "bueno"). A continuaci√≥n, se realiza la tokenizaci√≥n, que consiste en dividir el texto en unidades m√≠nimas llamadas tokens (como palabras, signos de puntuaci√≥n o n√∫meros), facilitando el an√°lisis posterior del lenguaje.

In [None]:
df['Comentarios_tokenizados'] = df['Comentarios_lower'].apply(lambda text: nlp(text))
df[['Comentarios_lower','Comentarios_tokenizados']].head()

### Remoci√≥n de StopWords

Durante la eliminaci√≥n de stopwords, que son palabras vac√≠as o de bajo contenido sem√°ntico (como ‚Äúel‚Äù, ‚Äúla‚Äù, ‚Äúy‚Äù, ‚Äúde‚Äù), se identific√≥ que en algunos casos su remoci√≥n pod√≠a afectar negativamente el sentido original de las frases. Esto es particularmente relevante en rese√±as donde expresiones comunes dependen de ciertas palabras funcionales para conservar su significado completo.

Por esta raz√≥n, fue necesario generar un listado personalizado de palabras que deb√≠an conservarse.

Esto permiti√≥ preservar la coherencia y contexto de los comentarios, evitando que el modelo perdiera informaci√≥n clave para la detecci√≥n del sentimiento.

In [None]:
# Lista de palabras que NO queremos eliminar (tienen carga emocional)
palabras_sentimiento = {
    # Positivas
    "bueno", "buena","si","buen√≠simo", "excelentes", "excelente", "genial", "maravilloso", "maravilla", "fant√°stico", "fabuloso", "incre√≠ble",
    "perfecto", "perfecta", "agradable", "satisfecho", "satisfecha", "contento", "contenta", "encantado", "encantada",
    "amable", "simp√°tico", "simp√°tica", "r√°pido", "r√°pida", "c√≥modo", "c√≥moda", "eficaz", "eficiente", "f√°cil",
    "recomendable", "ideal", "espectacular", "feliz", "brillante", "cumpli√≥", "cumple", "funciona", "funciona bien",
    "inmejorable", "confiable", "duradero", "cumplidor", "seguro", "preciso", "elegante", "atento", "responsable",
    "acertado", "destacado", "excepcional", "impecable", "sensacional", "√∫til", "accesible", "econ√≥mico", "funcional",
    "intuitivo", "conveniente", "hermoso", "linda", "precioso", "excelente calidad", "vale la pena",

    # Negativas
    "malo","no", "mala", "mal", "p√©simo", "p√©sima","nunca", "horrible", "fatal", "insoportable", "lento", "lenta", "inc√≥modo", "inc√≥moda",
    "decepcionante", "decepcionado", "decepcionada", "sucio", "sucia", "caro", "cara", "in√∫til", "deficiente", "desagradable",
    "complicado", "problem√°tico", "estafa", "enga√±ado", "enga√±ada", "roto", "rota", "desastroso", "error", "errores",
    "retraso", "tardanza", "fr√°gil", "inestable", "poco fiable", "nunca m√°s", "no volver√©", "no recomiendo", "no sirve",
    "no funciona", "arruinado", "fall√≥", "fallando", "demora", "p√©sima atenci√≥n", "servicio malo", "mala calidad", "molesto",
    "defecto", "problemas", "fallas", "sin sentido", "basura", "p√©rdida de dinero", "decepci√≥n"
}

# Actualizamos spaCy para que NO considere esas palabras como stopwords
for palabra in palabras_sentimiento:
    lex = nlp.vocab[palabra]
    lex.is_stop = False

def parse_and_remove_stopwords(doc):
    """
    Remueve las stopwords de un objeto spaCy Doc.
    """
    # Filtrar stopwords y obtener los tokens como texto
    tokens_filtrados = [token.text for token in doc if not token.is_stop]
    return tokens_filtrados

# Aplicar la funci√≥n al DataFrame
df['Comentarios_sin_StopWords'] = df['Comentarios_tokenizados'].apply(parse_and_remove_stopwords)

df[['Comentarios_tokenizados','Comentarios_sin_StopWords']].head()

### Lematizado.

Se procede a aplicar la lematizaci√≥n, una t√©cnica que permite reducir cada palabra a su forma base o "lema". Por ejemplo, palabras como ‚Äúcomprando‚Äù, ‚Äúcompr√©‚Äù o ‚Äúcomprar√≠an‚Äù se transforman en ‚Äúcomprar‚Äù. Esto es esencial para evitar la dispersi√≥n sem√°ntica y lograr que el modelo reconozca distintas variantes de una palabra como una misma entidad.

In [None]:
def lematizar_sin_stopwords(doc):
    """
    Devuelve una lista de lemas excluyendo las stopwords.

    Par√°metro:
    - doc: objeto spaCy Doc

    Retorna:
    - Lista de lemas (str) sin stopwords
    """
    return [token.lemma_ for token in doc if not token.is_stop and token.is_alpha]

# Aplicar la funci√≥n y guardar el resultado en una nueva columna
df['Comentarios_lema'] = df['Comentarios_tokenizados'].apply(lematizar_sin_stopwords)

df[['Comentarios_tokenizados','Comentarios_lema']].head(20)

## Procesamiento

### Conteo de Palabras mas comunes.

Como parte del an√°lisis exploratorio, se realiz√≥ un conteo de las palabras m√°s frecuentes dentro de los comentarios.
Esta etapa permite identificar los t√©rminos que predominan en el lenguaje utilizado por los usuarios y detectar patrones o temas recurrentes en las opiniones.

Para un an√°lisis m√°s detallado, el conteo se dividi√≥ entre los comentarios de Yelp y Amazon, con el fin de comparar el vocabulario caracter√≠stico de cada plataforma. Mientras Yelp tiende a centrarse en experiencias relacionadas con servicios (como restaurantes o locales comerciales), Amazon refleja opiniones sobre productos, lo cual se evidencia en las diferencias l√©xicas observadas entre ambos conjuntos de datos.

In [None]:
def graficar_palabras_comunes(df, origen, top_n=10):
    # Filtrar y aplanar los lemas
    lemas = [lema for lemas in df[df['Origen'] == origen]['Comentarios_lema'] for lema in lemas]
    conteo = Counter(lemas).most_common(top_n)

    # Separar palabras y frecuencias
    palabras, frecuencias = zip(*conteo)

    # Crear gr√°fico
    plt.figure(figsize=(10, 6))
    plt.barh(palabras, frecuencias, color='skyblue')
    plt.xlabel('Frecuencia')
    plt.title(f'Top {top_n} Palabras M√°s Comunes - {origen.capitalize()}')
    plt.gca().invert_yaxis()  # Poner la palabra m√°s com√∫n arriba
    plt.tight_layout()
    plt.show()

# Graficar para Yelp
graficar_palabras_comunes(df, 'yelp')

# Graficar para Amazon
graficar_palabras_comunes(df, 'amazon')

### Conteo de bigramas m√°s comunes.

Adem√°s del an√°lisis de palabras individuales, se llev√≥ a cabo un conteo de bigramas (pares de palabras consecutivas) con el objetivo de capturar expresiones m√°s completas y contextuales utilizadas por los usuarios en sus comentarios. A diferencia del an√°lisis unigram (una sola palabra), los bigramas permiten identificar frases frecuentes que pueden tener un valor sem√°ntico m√°s claro, como "muy bueno", "no funciona", "excelente producto", entre otros.

In [None]:
from collections import Counter
from itertools import tee
import matplotlib.pyplot as plt

def generar_bigramas(lista):
    """Devuelve bigramas como tuplas a partir de una lista de palabras"""
    a, b = tee(lista)
    next(b, None)
    return list(zip(a, b))

def graficar_bigramas_comunes(df, origen, top_n=10):
    # Filtrar solo los comentarios del origen y generar bigramas
    bigramas = [
        bigrama
        for lemas in df[df['Origen'] == origen]['Comentarios_lema']
        for bigrama in generar_bigramas(lemas)
    ]

    conteo = Counter(bigramas).most_common(top_n)

    # Convertir tuplas de bigramas a string para graficar
    etiquetas = [' '.join(b) for b, _ in conteo]
    frecuencias = [f for _, f in conteo]

    # Crear gr√°fico
    plt.figure(figsize=(10, 6))
    plt.barh(etiquetas, frecuencias, color='mediumseagreen')
    plt.xlabel('Frecuencia')
    plt.title(f'Top {top_n} Bigramas M√°s Comunes - {origen.capitalize()}')
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()

# Ejemplo de uso
graficar_bigramas_comunes(df, 'yelp')
graficar_bigramas_comunes(df, 'amazon')


### WordClouds

Para complementar el an√°lisis exploratorio, se generaron nubes de palabras que representan gr√°ficamente la frecuencia de aparici√≥n de t√©rminos en los comentarios. Este tipo de visualizaci√≥n permite identificar r√°pidamente las palabras y frases m√°s utilizadas por los usuarios, otorgando una vista intuitiva del contenido predominante en cada dataset.

Se realizaron dos tipos de word clouds:

Una para monogramas, es decir, palabras individuales.

Otra para bigramas, que agrupa las dos palabras consecutivas m√°s frecuentes.

Ambos casos compara a Yelp y Amazon.

#### WordCloud Yelp.

In [None]:
# Filtrar el DataFrame
df_yelp = df[df['Origen'] == 'yelp']

# Unir todos los lemas en un solo string (comentarios lematizados ya est√°n en listas)
texto_yelp = ' '.join([' '.join(lemas) for lemas in df_yelp['Comentarios_lema']])

# Crear la nube de palabras
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texto_yelp)

# Mostrar la nube
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Nube de Palabras - Comentarios de Yelp")
plt.show()

#### WordCloud Amazon.

In [None]:
# Filtrar el DataFrame
df_amazon = df[df['Origen'] == 'amazon']

# Unir todos los lemas en un solo string (comentarios lematizados ya est√°n en listas)
texto_amazon = ' '.join([' '.join(lemas) for lemas in df_amazon['Comentarios_lema']])

# Crear la nube de palabras
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texto_amazon)

# Mostrar la nube
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Nube de Palabras - Comentarios de Yelp")
plt.show()


#### WordCloud + Bigramas.

In [None]:
def generar_bigramas_spacy(df, origen, top_n=50):
    """
    Genera bigramas usando spaCy a partir de la columna 'Comentarios_Lema', sin stopwords.
    Luego genera una nube de palabras.
    """
    # Filtrar los comentarios por 'origen' (por ejemplo, 'yelp' o 'amazon')
    comentarios = df[df['Origen'] == origen]['Comentarios_sin_StopWords']

    # Generar bigramas
    bigramas = []
    for comentario in comentarios:
        # Crear un Doc de spaCy a partir de la lista de lemas (de la columna 'Comentarios_Lema')
        doc = nlp(' '.join(comentario))  # Unimos la lista de lemas y lo procesamos con spaCy
        # Extraer bigramas
        for i in range(len(doc) - 1):
            if not doc[i].is_stop and not doc[i+1].is_stop:  # Asegurarse de que no sean stopwords
                bigramas.append((doc[i].lemma_, doc[i+1].lemma_))

    # Contar los bigramas m√°s comunes
    conteo_bigramas = Counter(bigramas).most_common(top_n)

    # Convertir los bigramas a formato texto "palabra1 palabra2"
    bigramas_texto = {' '.join(bigrama): freq for bigrama, freq in conteo_bigramas}

    # Generar la nube de palabras de los bigramas
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(bigramas_texto)

    # Mostrar la nube
    plt.figure(figsize=(12, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis("off")
    plt.title(f"Word Cloud de Bigramas - {origen.capitalize()}")
    plt.show()

# Generar la nube de bigramas para Yelp y Amazon
generar_bigramas_spacy(df, 'yelp')
generar_bigramas_spacy(df, 'amazon')

Word Cloud YELP.

El word cloud de bigramas extra√≠do de rese√±as en Yelp permite obtener varios insights relevantes sobre la percepci√≥n de los usuarios en relaci√≥n a restaurantes o locales gastron√≥micos.
Puntos a destacar:

üü¢ Opiniones Positivas (aunque en menor proporci√≥n):
"buen comida", "comida deliciosa", "comida incre√≠ble" y "servicio r√°pido" reflejan experiencias positivas, donde el sabor y la atenci√≥n fueron bien valorados.

Tambi√©n aparecen "precio razonable", "excelente servicio", y "personal amable", lo que sugiere que algunos clientes consideran buena la relaci√≥n calidad-precio y destacan la atenci√≥n al cliente.

üî¥ Opiniones Negativas (predominantes):
El bigrama m√°s grande y repetido es "no volver", seguido por "no gustar", "no buen", "no valer", "nunca volver". Esto indica una tendencia fuerte de insatisfacci√≥n.

Frases como "servicio lento", "comida mediocre", "mal servicio", y "30 minuto" apuntan a problemas concretos en tiempos de espera y calidad del servicio o comida.

üü° Insight General:
Aunque existen opiniones positivas, el peso visual y frecuencia de las expresiones negativas sugiere una tendencia mayoritaria a la insatisfacci√≥n de los usuarios. Esto podr√≠a deberse a expectativas no cumplidas, problemas de servicio, o mala calidad en algunos platos. Frases como "simplemente no", "definitivamente no", y "no recomendar√≠a" refuerzan esta conclusi√≥n.




Word Cloud Amazon.

üî¥ Opiniones Negativas (predominan fuertemente):
Los bigramas m√°s destacados son "no funcionar", "no compre", "no recomendar√≠a", "no poder", "no comprar" y "no cargar". Esto sugiere una fuerte insatisfacci√≥n con productos que directamente no funcionaron o presentaron fallas.

Se menciona "desperdicio dinero", "producto malo", y "mant√©ngase alejado", lo que indica experiencias negativas muy marcadas.

La queja sobre "servicio cliente" tambi√©n aparece, lo que puede reflejar problemas postventa o con la atenci√≥n al consumidor.

üü¢ Opiniones Positivas (en menor medida):
Hay menciones como "buen calidad", "excelente auricular", "satisfecho compra", "producto excelente", y "valer pena", lo cual sugiere que algunos usuarios s√≠ encontraron buenos productos y experiencias satisfactorias.

Tambi√©n aparecen "tono llamado", "auricular bluetooth", "tel√©fono celular" sin una connotaci√≥n expl√≠cita negativa, lo que puede referirse simplemente a t√©rminos comunes en las rese√±as.

üü° T√©rminos neutros o a interpretar seg√∫n contexto:
Bigramas como "calidad sonido", "tono llamado", "auricular bluetooth", o "bater√≠a funcionar" pueden estar dentro de contextos tanto positivos como negativos, pero su cercan√≠a con otras frases negativas puede inclinar la interpretaci√≥n hacia quejas sobre calidad de audio o duraci√≥n de bater√≠a.

"sitio web", "manos libres", o "cargador autom√≥vil" indican categor√≠as de producto m√°s que sentimientos espec√≠ficos, pero podr√≠an estar en el contexto de reclamos.

###üöÄ An√°lisis de sentimiento en espa√±ol con pysentimiento

Una vez preprocesados los textos, se aplic√≥ un modelo de an√°lisis de sentimiento espec√≠ficamente entrenado para el idioma espa√±ol utilizando la librer√≠a pysentimiento.

pysentimiento permite detectar si un comentario es positivo, negativo o neutral, lo cual resulta fundamental para evaluar la percepci√≥n general de los usuarios sobre un producto o servicio. A diferencia de otros enfoques m√°s simples, este modelo considera la estructura gramatical y el significado global de la oraci√≥n, lo que mejora notablemente la precisi√≥n, especialmente en expresiones ambiguas o sarc√°sticas.

In [None]:
# Crear analizador de sentimientos
analyzer = create_analyzer(task="sentiment", lang="es")

# Aplicar a una columna de texto
df['Sentimiento'] = df['Comentario'].apply(lambda x: analyzer.predict(x).output)
# Sentimiento solo guarda lo predicho (POS, NEU o NEG)

df['Probabilidad'] = df['Comentario'].apply(lambda x: analyzer.predict(x).probas)
#Ese diccionario contiene la probabilidad de cada clase: positivo, neutro, negativo Ejemplo: {'POS': 0.84, 'NEU': 0.10, 'NEG': 0.06}.

#### üìä  Gr√°fico de barras de frecuencia de sentimientos

In [None]:
sns.countplot(data=df, x='Sentimiento', order=['POS', 'NEU', 'NEG'], palette='pastel')
plt.title('Distribuci√≥n de Sentimientos totales entre Yelp y Amazon')
plt.xlabel('Sentimiento')
plt.ylabel('Cantidad de Comentarios')
plt.show()


Se observa una distribuci√≥n bastante equilibrada de sentimientos entre Positivos, Negativos y Neutros.

#### Distribuci√≥n de los sentimientos.

In [None]:
df['Sentimiento'].value_counts().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    labels=['Positivo', 'Neutro', 'Negativo'],
    colors=['lightgreen', 'lightblue', 'salmon']
)
plt.title('Distribuci√≥n porcentual de Sentimientos')
plt.ylabel('')
plt.show()

#### An√°lisis de Confianza para filtrar comentarios con baja certeza

Luego de aplicar el modelo de an√°lisis de sentimiento con pysentimiento, se incorpor√≥ una etapa adicional para evaluar la confianza de las predicciones. Este an√°lisis se basa en las probabilidades asignadas a cada clase (positivo, negativo o neutral), lo que permite identificar qu√© tan seguro est√° el modelo respecto a cada clasificaci√≥n realizada.

Con esta informaci√≥n se implement√≥ un filtro de confianza, excluyendo o marcando aquellos comentarios cuya predicci√≥n tiene baja certeza (por ejemplo, menor al 60%). Esta estrategia ayuda a reducir errores en el an√°lisis general, ya que evita tomar decisiones basadas en clasificaciones inciertas o ambiguas.

Adem√°s, el an√°lisis de confianza permite estudiar qu√© tipos de comentarios generan m√°s dudas en el modelo, lo que puede ser √∫til para mejorar el preprocesamiento, ajustar umbrales, o incluso etiquetar manualmente ciertos casos en futuras iteraciones del modelo.

In [None]:
# M√°xima probabilidad (nivel de certeza del modelo)
df['Confianza'] = df['Probabilidad'].apply(lambda x: max(x.values()))  # En este caso, de la lista {'POS': 0.84, 'NEU': 0.10, 'NEG': 0.06} s√≥lo guarda 0.84 que es el valor mayor

# Filtrar comentarios cuya confianza sea menor a 0.6
comentarios_baja_confianza = df[df['Confianza'] < 0.6]
comentarios_alta_confianza = df[df['Confianza'] >= 0.6]
# Ver los primeros resultados
#comentarios_baja_confianza[['Comentarios', 'Sentimiento', 'Confianza']]

#### Distribuci√≥n de los comentarios filtrados con mayor confianza.

In [None]:
df[df['Confianza'] >= 0.6]['Sentimiento'].value_counts().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    labels=['Positivo', 'Neutro', 'Negativo'],
    colors=['lightgreen', 'lightblue', 'salmon']
)
plt.title('Distribuci√≥n porcentual de Sentimientos con alta confianza')
plt.ylabel('')
plt.show()

Podemos deducir que al reducirse los sentinmientos Negativos, al analizador le estaba costando interpretar ese tipo de sentimientos.

#### Distribuci√≥n de la Confianza de los comentarios.

In [None]:
plt.figure(figsize=(10, 5))
sns.histplot(data=df, x='Confianza', bins=20, kde=True, color='skyblue')
plt.axvline(0.6, color='red', linestyle='--', label='Umbral 0.6')
plt.title('Distribuci√≥n de Confianza del Sentimiento')
plt.xlabel('Confianza')
plt.ylabel('Cantidad de Comentarios')
plt.legend()
plt.show()

Comentarios con baja confianza.

Los comentarios con baja probabilidad en la predicci√≥n del sentimiento (cercanos a 0.6) son especialmente valiosos en un an√°lisis de opiniones por lo siguiente:

Ambig√ºedad en el lenguaje: Estos comentarios suelen contener expresiones ambiguas, mixtas o neutras, que no son claramente positivas ni negativas. Analizarlos ayuda a entender mejor los matices del lenguaje natural y las limitaciones del modelo.

Mejora del modelo: Identificar este tipo de casos permite detectar patrones ling√º√≠sticos que el modelo no logra interpretar bien. Estos ejemplos pueden ser usados para mejorar el entrenamiento futuro mediante t√©cnicas como data augmentation o fine-tuning.

Detecci√≥n de casos fronterizos: Comentarios con baja confianza son √∫tiles para encontrar rese√±as "en el l√≠mite", que podr√≠an necesitar intervenci√≥n manual o una segunda revisi√≥n, especialmente en aplicaciones cr√≠ticas como moderaci√≥n de contenido o evaluaci√≥n de satisfacci√≥n de clientes.

Toma de decisiones m√°s informadas: En un sistema automatizado, se pueden establecer umbrales de confianza. Por ejemplo, rese√±as con probabilidad entre 0.45 y 0.55 pueden marcarse para revisi√≥n humana, lo que mejora la calidad del an√°lisis sin revisar todo el contenido.

Calibraci√≥n del modelo: Observar c√≥mo se comporta el modelo en los casos donde no est√° seguro ayuda a evaluar si las probabilidades emitidas est√°n bien calibradas o si el modelo tiende a ser demasiado confiado o conservador.


In [None]:
comentarios_baja_confianza[['Comentario', 'Sentimiento', 'Confianza', 'Probabilidad']].sort_values(by='Confianza').head(20)


# **Pruebas de Modelos de Machine Learning.**

En este punto, se realizar√° un an√°lisis de texto con el objetivo de predecir una variable num√©rica que nos indica positvo (para 1) y negativo (para 0), a partir de opiniones o rese√±as escritas por usuarios.


Para convertir los textos en datos num√©ricos que puedan ser procesados por modelos de machine learning, seutilizaran dos t√©cnicas de representaci√≥n de texto:TF-IDF (Term Frequency-Inverse Document Frequency) y Bag of Words (BoW).


TF-IDF pondera la frecuencia de las palabras en cada documento ajust√°ndola seg√∫n su frecuencia inversa en todo el corpus, dando mayor peso a t√©rminos distintivos y reduciendo la influencia de palabras comunes.

Bag of Words representa cada documento como un vector que indica la frecuencia de cada palabra, sin considerar el orden ni la relevancia contextual.

Estos vectores van a ser utilizados como entrada para un modelo de regresi√≥n log√≠stica, que permitir√° predecir la variable objetivo asociada a cada texto, en este caso si los comentarios son positivos o negativos.

Adicionalmente, se incorporar√° un modelo de deep learning utilizando la biblioteca Keras, que aprvechando redes neuronales para capturar patrones m√°s complejos en los textos, incluyendo relaciones contextuales y secuenciales entre palabras que no pueden ser detectadas por las representaciones tradicionales.

Se entrenar√°n y evaluar√°n los tres modelos ‚Äîregresi√≥n lineal con Bag of Words, regresi√≥n lineal con TF-IDF y red neuronal profunda con Keras‚Äî para comparar su desempe√±o predictivo.

La evaluaci√≥n incluir√° m√©tricas adecuadas para regresi√≥n y an√°lisis de generalizaci√≥n, con el fin de identificar cu√°l enfoque es m√°s efectivo para este problema espec√≠fico.

Este an√°lisis permitir√° no solo comparar t√©cnicas cl√°sicas y modernas de procesamiento de texto, sino tambi√©n obtener insights sobre la relevancia y el impacto de las palabras y estructuras en la predicci√≥n, mejorando la comprensi√≥n del comportamiento del modelo y la calidad de las predicciones.

### Divisi√≥n de datos de entrenamiento y prueba.

In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    df['Comentario'], df['Valor'], test_size=0.2, random_state=42
)

## Regresi√≥n Log√≠stica.

### Utilizando TF-IFD.

TF-IDF (Term Frequency - Inverse Document Frequency) es una t√©cnica de procesamiento de texto utilizada para evaluar la importancia de una palabra dentro de un conjunto de documentos. Se basa en dos conceptos:

TF (Frecuencia de T√©rmino): Mide cu√°ntas veces aparece un t√©rmino en un documento espec√≠fico, comparado con el n√∫mero total de t√©rminos en ese documento. Esto ayuda a capturar cu√°n relevante es una palabra dentro de un documento en particular.

IDF (Frecuencia Inversa de Documentos): Mide la importancia de una palabra dentro de un conjunto de documentos. Si una palabra aparece en muchos documentos, tiene menos valor. La f√≥rmula es:

Esto ayuda a reducir el peso de las palabras que aparecen frecuentemente en todos los documentos (como "el", "y", "de"), ya que no agregan mucha informaci√≥n.

As√≠, la importancia de un t√©rmino en un documento depende tanto de su frecuencia en ese documento como de cu√°n com√∫n es en todo el conjunto de documentos.

#### C√°lculo de TF-IDF con TfidVetorizer y analisis de n-gramas.

In [None]:
 # TFIDF espera trabajar con strings y  no listas, por lo que se procede a crear una nueva columna con los datos tokenizados en formato str.
df['Comentarios_sin_StopWords_str'] = df['Comentarios_sin_StopWords'].apply(lambda x: ' '.join(x))

# Crear el vectorizador
tfidfvectorizer = TfidfVectorizer(ngram_range=(1,5))
#inlcuyo bigramas y trigramas para que le de contexto a los comentarios. Esto me permite ver un "No conforme" y no solamente le "No" y el "Conforme" por separado.

# Ajustar y transformar
tfidf_matrix = tfidfvectorizer.fit_transform(df['Comentarios_sin_StopWords_str'])

# Obtener los t√©rminos
features = tfidfvectorizer.get_feature_names_out()

# Convertir la matriz a DataFrame
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=features)

# Sumar TF-IDF por columna
tfidf_scores = df_tfidf.sum().sort_values(ascending=False)

# Mostrar top 10
print("üîù Top 10 n-gramas por score TF-IDF:")
print(tfidf_scores.head(10).round(3))




In [None]:
# Crear un DataFrame auxiliar con el tipo de n-grama
df_scores = pd.DataFrame({
    'ngram': tfidf_scores.index,
    'score': tfidf_scores.values,
    'tipo': tfidf_scores.index.to_series().apply(lambda x: f'{len(x.split())}-grama')
})

# Ver los 5 m√°s importantes por tipo
top_n = 5
for tipo in ['1-grama', '2-grama', '3-grama']:
    print(f"\nüîù Top {top_n} {tipo}s:")
    print(df_scores[df_scores['tipo'] == tipo].head(top_n).to_string(index=False))

El an√°lisis de los n-gramas (1, 2 y 3 palabras) revela una fuerte tendencia negativa en los comentarios analizados.

Esto se evidencia principalmente por:

La presencia dominante de la palabra "no" como unigram (1-grama) m√°s relevante, indicando una alta frecuencia de negaciones.

Los bigramas y trigramas refuerzan esta tendencia negativa, con frases como "no volveremos", "no volvere", "no funciona", "no recomendaria", "no vale pena" y "no compre producto", todas las cuales reflejan insatisfacci√≥n o malas experiencias.

Aun as√≠, hay menciones positivas como "buena comida servicio", pero estas son menos frecuentes o tienen menor peso que las negativas.

#### Ajuste de datos de Entrenamiento.

Ajustamos el vectorizador TF-IDF con los datos de entrenamiento y test  transformando esos datos en una matriz num√©rica.

In [None]:
# Ajustar y transformar los datos de entrenamiento
X_train_tfidf = tfidfvectorizer.fit_transform(X_train)
# Transformar los datos de prueba
X_test_tfidf = tfidfvectorizer.transform(X_test)

#### Generaci√≥n y prueba de modelo Regresi√≥n Log√≠stica.

In [None]:
# Crear un modelo de regresi√≥n log√≠stica
# Abajo ten√©s un c√≥digo con los par√°metros expresados de forma que puedas ir modificandolos
model_log_reg = LogisticRegression() #Instanciamos el modelo

# Entrenar el modelo
model_log_reg.fit(X_train_tfidf, y_train) # Fiteamos, es decir, el modelo aprende a partir de los datos de entrenamiento

# Hacer predicciones en el conjunto de prueba
y_pred_log_reg = model_log_reg.predict(X_test_tfidf) # Predecir

#### Evaluaci√≥n del Modelo.

Matriz de Confusi√≥n.

In [None]:
# 1. Matriz de confusi√≥n

# La Matriz de Confusi√≥n es √∫til para Muestra los aciertos y errores del modelo organizados por clase.

cm = confusion_matrix(y_test, y_pred_log_reg)
labels = ['Negativo', 'Positivo']

plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=labels, yticklabels=labels)
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusi√≥n')
plt.show()

üìä Interpretaci√≥n de los resultados:
TP (Verdaderos Positivos) = 148: Casos positivos correctamente clasificados como positivos.

TN (Verdaderos Negativos) = 181: Casos negativos correctamente clasificados como negativos.

FP (Falsos Positivos) = 28: Casos negativos mal clasificados como positivos.

FN (Falsos Negativos) = 33: Casos positivos mal clasificados como negativos.

La matriz de confusi√≥n muestra un buen desempe√±o del modelo:
- 181 verdaderos negativos y 148 verdaderos positivos indican una buena capacidad para clasificar correctamente ambas clases.
- Sin embargo, hay 28 falsos positivos y 33 falsos negativos, lo que sugiere que el modelo comete algunos errores, especialmente en la identificaci√≥n de la clase positiva.
- Estos errores podr√≠an ser relevantes dependiendo del contexto del problema (por ejemplo, si detectar positivos es cr√≠tico).

Curva ROC AUC.

El ROC AUC (Receiver Operating Characteristic - Area Under Curve) es una m√©trica que mide la capacidad del modelo para distinguir entre clases (positiva y negativa), evaluando todas las combinaciones posibles de umbrales de clasificaci√≥n.

ROC: Es una curva que grafica la tasa de verdaderos positivos (TPR) contra la tasa de falsos positivos (FPR) a distintos umbrales.

AUC (Area Under Curve): Es el √°rea bajo esa curva, y su valor va de 0 a 1:

1.0 = modelo perfecto.

0.5 = modelo sin capacidad de clasificaci√≥n (como adivinar).

< 0.5 = peor que adivinar (clasifica al rev√©s).

In [None]:
# 2. Curva ROC
fpr, tpr, _ = roc_curve(y_test, model_log_reg.decision_function(X_test_tfidf))
roc_auc = roc_auc_score(y_test, model_log_reg.decision_function(X_test_tfidf))

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'√Årea bajo la curva ROC AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()

üìà Interpretaci√≥n de tu resultado (AUC = 0.89):
El valor 0.89 indica que el modelo tiene una alta capacidad para distinguir entre clases.

En promedio, hay un 89% de probabilidad de que el modelo asigne un mayor score a una instancia positiva que a una negativa.

Este resultado sugiere que el modelo est√° haciendo un buen trabajo, incluso si a√∫n hay algunos falsos positivos o falsos negativos.

M√©tricas de Predicci√≥n.

- Accuracy:Para medir qu√© tan bien predice el modelo en datos nuevos (exactitud).
Accuracy mide el porcentaje total de predicciones correctas sobre el total de casos.
- Precision: Para medir el costo de un falso positivo es alto (por ejemplo, recomendar una pel√≠cula mala como buena).
Precision mide qu√© proporci√≥n de las predicciones positivas hechas por el modelo son realmente positivas.
- Recall: Para medir cu√°ntos de los casos positivos reales fueron capturados por el modelo.
- f1 Score: Para medir el promedio arm√≥nico entre precisi√≥n y recall. Un buen balance si ambas cosas son importantes.

In [None]:
# 3. M√©tricas
# Accuracy:Para medir qu√© tan bien predice el modelo en datos nuevos (exactitud).
# Accuracy mide el porcentaje total de predicciones correctas sobre el total de casos.
accuracy = accuracy_score(y_test, y_pred_log_reg)
# Precision: Para medir el costo de un falso positivo es alto (por ejemplo, recomendar una pel√≠cula mala como buena).
# Precision mide qu√© proporci√≥n de las predicciones positivas hechas por el modelo son realmente positivas.
precision = precision_score(y_test, y_pred_log_reg)
# Recall: Para medir cu√°ntos de los casos positivos reales fueron capturados por el modelo.
recall = recall_score(y_test, y_pred_log_reg)
#
f1 = f1_score(y_test, y_pred_log_reg)

print("M√©tricas de desempe√±o del modelo:")
print(f"Accuracy : {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall   : {recall:.2f}")
print(f"F1 Score : {f1:.2f}")

Resultados:

- Accuracy = 0.82
El 82% de todas las predicciones (positivas y negativas) fueron correctas. Es una medida general del rendimiento.
Sin embargo, puede ser enga√±osa si las clases est√°n desbalanceadas.

- Precision = 0.80
De todas las predicciones positivas que hizo el modelo, el 80% fueron realmente positivas.
Es importante si queremos minimizar falsos positivos (por ejemplo, evitar alarmas innecesarias).

- Recall = 0.82
El modelo identific√≥ correctamente el 82% de todos los casos realmente positivos.
Es importante si queremos minimizar falsos negativos (por ejemplo, no dejar pasar casos positivos importantes).

- F1 Score = 0.81
Es el promedio arm√≥nico entre precision y recall. Resume el equilibrio entre ambos.
 Un F1 de 0.81 indica un buen balance entre identificar positivos y no equivocarse al predecirlos.


*Validaci√≥n Cruzada.*

La validaci√≥n cruzada es una t√©cnica para evaluar la capacidad de generalizaci√≥n de un modelo. Consiste en:

Dividir los datos en k partes (folds).

Entrenar el modelo con k-1 partes y validar con la parte restante.

Repetir esto k veces, cambiando el fold de validaci√≥n en cada iteraci√≥n.

Calcular el promedio de las m√©tricas obtenidas en cada iteraci√≥n.

Esto reduce el riesgo de que el modelo est√© sobreajustado (overfitting) a una √∫nica partici√≥n de los datos.

In [None]:
# Pipeline que junta vectorizador y modelo
pipeline = make_pipeline(
    TfidfVectorizer(max_features=5000),
    LogisticRegression()
)

# Validaci√≥n cruzada con 5 particiones (k-fold = 5)
scores = cross_val_score(pipeline, df['Comentario'], df['Valor'], cv=5, scoring='accuracy')

# Resultados
print(f"Precisi√≥n media con validaci√≥n cruzada: {scores.mean():.3f}")
print(f"Desviaci√≥n est√°ndar: {scores.std():.3f}")

Resultados de la validaci√≥n cruzada:

La precisi√≥n media del modelo es 0.807, lo que indica que, en promedio, el modelo acierta con un 80.7% de efectividad
en los distintos subconjuntos del conjunto de datos evaluados.

La desviaci√≥n est√°ndar es 0.018, lo que significa que el desempe√±o del modelo es bastante consistente entre los diferentes folds.
Es decir, no hay una gran variaci√≥n en la precisi√≥n dependiendo del conjunto de entrenamiento/validaci√≥n utilizado.
Estos resultados sugieren que el modelo tiene un buen rendimiento general y una buena capacidad de generalizaci√≥n.

Visualizaci√≥n de palabras asociadas a rese√±as positivas y negativas.

Esta visualizaci√≥n permite identificar las palabras m√°s frecuentes o relevantes en cada grupo de rese√±as, separando aquellas asociadas con opiniones positivas de las relacionadas con opiniones negativas.

Al analizar estas palabras clave, podemos entender mejor qu√© aspectos del producto o servicio generan satisfacci√≥n o insatisfacci√≥n en los usuarios.

Este tipo de an√°lisis ayuda a extraer insights cualitativos que complementan las m√©tricas cuantitativas, y es muy √∫til para mejorar la experiencia del cliente y orientar acciones espec√≠ficas de mejora.

In [None]:
# Obtenemos las palabras del vocabulario
palabras = tfidfvectorizer.get_feature_names_out()

# Coeficientes del modelo (uno por palabra)
coeficientes = model_log_reg.coef_[0]

# Creamos un DataFrame para visualizarlo
df_coef = pd.DataFrame({'palabra': palabras, 'coeficiente': coeficientes})

# Ordenamos por importancia
df_coef = df_coef.sort_values(by='coeficiente', ascending=False)

# En la primera columna veremos el n√∫mero "√≠ndice" de cada palabra seg√∫n el √≥rden en que fueron procesadas en el modelo.

# Mostramos las 10 palabras m√°s asociadas a valoraci√≥n positiva y negativa
print("üîº Palabras m√°s asociadas a rese√±as positivas:")
print(df_coef.head(10))

print("\nüîΩ Palabras m√°s asociadas a rese√±as negativas:")
print(df_coef.tail(10))

Las palabras con coeficientes positivos m√°s altos, como "gran", "buen", "excelente", "funciona" y "incre√≠ble", est√°n fuertemente asociadas con rese√±as positivas, reflejando satisfacci√≥n, calidad y buen desempe√±o del producto o servicio.

En contraste, las palabras con coeficientes negativos m√°s fuertes, como "no", "mala", "decepcionado", "horrible" y "terrible", se asocian claramente con rese√±as negativas, indicando insatisfacci√≥n, problemas y decepci√≥n por parte de los usuarios.

Esto muestra que el modelo ha identificado correctamente los t√©rminos que expresan opiniones positivas y negativas, lo que facilita la interpretaci√≥n y el an√°lisis cualitativo del sentimiento en los textos.

Graficar las 10 palabras m√°s positivas y m√°s negativas

In [None]:
# Colores pastel suaves (m√°s apagados)
color_positivas = '#388e3c'  # verde claro apagado
color_negativas = '#e65100'  # rojo claro apagado

# Top 10 positivas y negativas
top_positivas = df_coef.head(10)
top_negativas = df_coef.tail(10).sort_values(by='coeficiente')

# Crear la figura y los ejes
fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico de palabras positivas
bars1 = ax[0].barh(top_positivas['palabra'], top_positivas['coeficiente'], color=color_positivas)
ax[0].set_title('üîº Palabras asociadas a rese√±as positivas', fontsize=14)
ax[0].invert_yaxis()
ax[0].set_xlabel('Coeficiente', fontsize=12)

# Agregar valores al final de las barras (positivas)
for bar in bars1:
    width = bar.get_width()
    ax[0].text(width + 0.01, bar.get_y() + bar.get_height() / 2,
               f'{width:.2f}', va='center', fontsize=10)

# Gr√°fico de palabras negativas
bars2 = ax[1].barh(top_negativas['palabra'], top_negativas['coeficiente'], color=color_negativas)
ax[1].set_title('üîΩ Palabras asociadas a rese√±as negativas', fontsize=14)
ax[1].invert_yaxis()
ax[1].set_xlabel('Coeficiente', fontsize=12)

# Agregar valores al final de las barras (negativas)
for bar in bars2:
    width = bar.get_width()
    ax[1].text(width - 0.01, bar.get_y() + bar.get_height() / 2,
               f'{width:.2f}', va='center', ha='right', fontsize=10)

plt.tight_layout()
plt.show()


In [None]:
# Filtrar bigramas y trigramas
# Cambiar 'ngrama' a 'palabra' para acceder a la columna correcta
df_bi_tri = df_coef[df_coef['palabra'].str.count(' ') >= 2]

top_pos_bi_tri = df_bi_tri.sort_values('coeficiente', ascending=False).head(10)
top_neg_bi_tri = df_bi_tri.sort_values('coeficiente', ascending=True).head(10)

color_positivas = '#388e3c'  # verde oscuro
color_negativas = '#e65100'  # naranja oscuro

fig, axes = plt.subplots(1, 2, figsize=(16,6))

axes[0].barh(top_pos_bi_tri['palabra'], top_pos_bi_tri['coeficiente'], color=color_positivas) # Cambiar 'ngrama' a 'palabra'
axes[0].invert_yaxis()
axes[0].set_title('üîº Bigrams y Trigrams positivos')
axes[0].set_xlabel('Coeficiente')

axes[1].barh(top_neg_bi_tri['palabra'], top_neg_bi_tri['coeficiente'], color=color_negativas) # Cambiar 'ngrama' a 'palabra'
axes[1].invert_yaxis()
axes[1].set_title('üîΩ Bigrams y Trigrams negativos')
axes[1].set_xlabel('Coeficiente')

plt.tight_layout()
plt.show()


üß† ¬øQu√© muestran los gr√°ficos?
Las palabras con coeficientes positivos son las que m√°s contribuyen a que el modelo prediga una rese√±a positiva.

Las palabras con coeficientes negativos son las que m√°s empujan al modelo hacia una predicci√≥n negativa.

Prueba del modelo.

Se genera un c√≥digo para probar distintas frases con comentarios genericos con el motivo de evaluar la funcionalidad del modelo de predicci√≥n.

In [None]:
nueva_rese√±a = "no lo recominedo"  # Reemplaza con la rese√±a que deseas probar
nueva_rese√±a_tfidf = tfidfvectorizer.transform([nueva_rese√±a])
prediccion = model_log_reg.predict(nueva_rese√±a_tfidf)
# Obtener la probabilidad de la predicci√≥n
probabilidadpositiva = model_log_reg.predict_proba(nueva_rese√±a_tfidf)

# Obtener la probabilidad en la clase predicha (0 o 1)
probabilidad = probabilidadpositiva[0][1]  # Probabilidad de la clase "positivo"

print(f"Se predice que la cr√≠tica es de caracter {prediccion[0]}")
print(f" con una probabilidad de que sea positiva de {probabilidad:.2f}")

### Utilizando Bag of Words.

BoW convierte un conjunto de documentos en una matriz de ocurrencias de palabras. A diferencia de TF-IDF, que pondera las palabras seg√∫n su frecuencia e importancia en relaci√≥n con todo el corpus, BoW solo cuenta cu√°ntas veces aparece una palabra en un documento sin considerar la frecuencia global de la palabra.

#### Ajuste de datos de entrenamiento para BoW.

In [None]:
# Instanciamos el vectorizador BoW
vectorizer_bow = CountVectorizer()

# Aplicamos el vectorizador a los comentarios lematizados (ahora en formato string)
vector_bow = vectorizer_bow.fit_transform(df['Comentarios_sin_StopWords_str'])

# Convertimos la matriz de caracter√≠sticas en un DataFrame para visualizar
bow_df = pd.DataFrame(vector_bow.toarray(), columns=vectorizer_bow.get_feature_names_out())

# Obtener los nombres de las caracter√≠sticas (palabras)
features_bow = vectorizer_bow.get_feature_names_out()


# Crear un DataFrame con las frecuencias de las palabras
df_bow = pd.DataFrame(vector_bow.toarray(), columns=features_bow)

In [None]:
# Ajustar y transformar los datos de entrenamiento
X_train_bow = vectorizer_bow.fit_transform(X_train)
# Transformar los datos de prueba
X_test_bow  = X_test_bow  = vectorizer_bow.transform(X_test)

Generaci√≥n y prueba del Modelo con BoW.

In [None]:
# Crear un modelo de regresi√≥n log√≠stica
# Abajo ten√©s un c√≥digo con los par√°metros expresados de forma que puedas ir modificandolos
model_log_reg_Bow = LogisticRegression() #Instanciamos el modelo

# Entrenar el modelo
model_log_reg_Bow.fit(X_train_bow, y_train) # Fiteamos, es decir, el modelo aprende a partir de los datos de entrenamiento

# Hacer predicciones en el conjunto de prueba
y_pred_log_reg_Bow = model_log_reg_Bow.predict(X_test_bow) # Predecir

#### Evaluaci√≥n del Modelo.


Matriz de Confusi√≥n.

In [None]:
# 1. Matriz de confusi√≥n

# La Matriz de Confusi√≥n es √∫til para Muestra los aciertos y errores del modelo organizados por clase.

cm1 = confusion_matrix(y_test, y_pred_log_reg_Bow)
labels = ['Negativo', 'Positivo']

plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=labels, yticklabels=labels)
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusi√≥nc con BoW')
plt.show()

No hubo cambios respecto a la evaluaci√≥n realiza en el modelo usando TF-IDF

Curva ROC AUC.

In [None]:
# 2. Curva ROC
# ROC AUC SCORE eval√∫a qu√© tan bien el modelo separa las clases.
fpr1, tpr1, _ = roc_curve(y_test, model_log_reg_Bow.decision_function(X_test_bow))
roc_auc1 = roc_auc_score(y_test, model_log_reg_Bow.decision_function(X_test_bow))

plt.figure(figsize=(8, 6))
plt.plot(fpr1, tpr1, color='darkorange', lw=2, label=f'√Årea bajo la curva ROC AUC = {roc_auc1:.2f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()

No hubo cambios respecto a la evaluaci√≥n realiza en el modelo usando TF-IDF

M√©tricas de Predicci√≥n.

In [None]:
# 3. M√©tricas
# Accuracy:Para medir qu√© tan bien predice el modelo en datos nuevos (exactitud).
# Accuracy mide el porcentaje total de predicciones correctas sobre el total de casos.
accuracy = accuracy_score(y_test, y_pred_log_reg)
# Precision: Para medir el costo de un falso positivo es alto (por ejemplo, recomendar una pel√≠cula mala como buena).
# Precision mide qu√© proporci√≥n de las predicciones positivas hechas por el modelo son realmente positivas.
precision = precision_score(y_test, y_pred_log_reg)
# Recall: Para medir cu√°ntos de los casos positivos reales fueron capturados por el modelo.
recall = recall_score(y_test, y_pred_log_reg)
# f1 Score: Para medir el promedio arm√≥nico entre precisi√≥n y recall. Un buen balance si ambas cosas son importantes.
f1 = f1_score(y_test, y_pred_log_reg)

print("M√©tricas de desempe√±o del modelo:")
print(f"Accuracy : {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall   : {recall:.2f}")
print(f"F1 Score : {f1:.2f}")

Validaci√≥n Cruzada con BoW.

In [None]:
# Pipeline con Bag of Words y Regresi√≥n Log√≠stica
pipeline1 = make_pipeline(
    CountVectorizer(max_features=5000),  # Bag of Words
    LogisticRegression()
)

# Validaci√≥n cruzada con 5 particiones
scores = cross_val_score(pipeline1, df['Comentario'], df['Valor'], cv=5, scoring='accuracy')

# Resultados
print(f"Precisi√≥n media con validaci√≥n cruzada (BoW): {scores.mean():.3f}")
print(f"Desviaci√≥n est√°ndar: {scores.std():.3f}")

Se observa una mejora m√≠nima de la precisi√≥n y la desviaci√≥n est√°ndar.

Los valores obtenidos usando TF-IDF fueron:

Precisi√≥n = 0,807

Desviaci√≥n est√°ndar = 0,018

## Redes Neuronales.

### Prueba de Modelo con Keras.

Vectorizar los textos

Se convierten los comentarios en una matriz num√©rica de hasta 10.000 caracter√≠sticas, considerando unigramas y bigramas.

Esto captura no solo palabras individuales, sino tambi√©n combinaciones frecuentes de dos palabras, lo cual mejora la capacidad del modelo para captar expresiones √∫tiles como ‚Äúmuy bueno‚Äù o ‚Äúno sirve‚Äù.

In [None]:
# Vectorizar los textos
vectorizer_Neuro = TfidfVectorizer(ngram_range=(1, 2), max_features=10000)
X = vectorizer_Neuro.fit_transform(df['Comentarios_sin_StopWords_str']).toarray()

Variable objetivo

Se extrae la variable objetivo desde la columna 'Valor' del DataFrame df, y se convierte en un array de NumPy para usarlo en el modelo de Machine Learning.

In [None]:
# Variable objetivo
y = df['Valor'].values

Separaci√≥n del dataset en 80% entrenamiento y 20% validaci√≥n, estratificando por clase para mantener la proporci√≥n de etiquetas (positivo/negativo).

In [None]:
# Dividir en train y test (estratificado)
X_train1, X_val, y_train1, y_val = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

Modelo de red neuronal secuencial:

Capa 1: 128 neuronas con ReLU + Dropout (50%)

Capa 2: 64 neuronas con ReLU + Dropout (30%)

Capa de salida: 1 neurona con sigmoide, ideal para clasificaci√≥n binaria.

Compilaci√≥n:

Se usa binary_crossentropy como funci√≥n de p√©rdida.

M√©trica: precisi√≥n (accuracy).

Optimizador: Adam con learning_rate=0.001

In [None]:
model = Sequential()
model.add(Dense(128, activation='relu', input_shape=(X_train1.shape[1],)))
model.add(Dropout(0.5))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))  # 1 neurona y activaci√≥n sigmoid para binario

model.compile(optimizer=Adam(learning_rate=0.001),
              loss='binary_crossentropy',   # funci√≥n para binaria
              metrics=['accuracy'])

Resumen del modelo:

Resumen estructurado del modelo de red neuronal que acab√°s de construir con Keras. Esta salida es muy √∫til para entender la arquitectura y verificar que el modelo est√© correctamente configurado.

In [None]:
# Mostramos el resumen del modelo: esto nos dar√° detalles sobre cada capa y el n√∫mero de par√°metros entrenables en el modelo.
model.summary()

EarlyStopping para evitar sobreentrenamiento

El bloque implementa una t√©cnica de regularizaci√≥n llamada Early Stopping, que detiene autom√°ticamente el entrenamiento del modelo cuando la p√©rdida en el conjunto de validaci√≥n (val_loss) deja de mejorar durante un n√∫mero determinado de √©pocas.

Esto ayuda a prevenir el sobreajuste, es decir, que el modelo aprenda demasiado los datos de entrenamiento y pierda capacidad de generalizaci√≥n.

In [None]:
from tensorflow.keras.callbacks import EarlyStopping

early_stop = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

# Use X_train1 and y_train1 which were specifically prepared for the neural network
history = model.fit(X_train1, y_train1,
                    validation_data=(X_val, y_val),
                    epochs=100,
                    batch_size=10,
                    callbacks=[early_stop])

Matriz de Confusi√≥n.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

y_pred = (model.predict(X_val) > 0.5).astype("int32")

print(confusion_matrix(y_val, y_pred))
print(classification_report(y_val, y_pred))

Precisi√≥n para clase 1 (0.84): cuando el modelo predice "positivo", acierta el 84% de las veces.

Recall para clase 1 (0.69): de todos los comentarios realmente positivos, el modelo detecta correctamente el 69%. Esto indica que se le escapan varios positivos.

Recall para clase 0 (0.86): el modelo detecta muy bien los negativos.

F1-score m√°s bajo en clase 1 (0.75): el modelo tiene m√°s dificultades en predecir correctamente los positivos.



üìä Gr√°fico de Accuracy y Loss por √âpoca

Si las curvas de entrenamiento y validaci√≥n est√°n muy separadas, puede haber overfitting.

Si ambas curvas bajan y se estabilizan juntas, el modelo generaliza bien.

EarlyStopping puede cortar las √©pocas antes de 100, por eso es clave ver hasta d√≥nde lleg√≥ realmente.


In [None]:
# Accuracy
plt.figure(figsize=(12,5))

plt.subplot(1, 2, 1)
plt.plot(history.history['accuracy'], label='Entrenamiento', color='#4caf50')
plt.plot(history.history['val_accuracy'], label='Validaci√≥n', color='#2196f3')
plt.title('Precisi√≥n (Accuracy) por √âpoca')
plt.xlabel('√âpoca')
plt.ylabel('Precisi√≥n')
plt.legend()
plt.grid(True)

# Loss
plt.subplot(1, 2, 2)
plt.plot(history.history['loss'], label='Entrenamiento', color='#f57c00')
plt.plot(history.history['val_loss'], label='Validaci√≥n', color='#e53935')
plt.title('P√©rdida (Loss) por √âpoca')
plt.xlabel('√âpoca')
plt.ylabel('P√©rdida')
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()

üìà An√°lisis del gr√°fico de Precisi√≥n (Accuracy)
La precisi√≥n de entrenamiento sube r√°pidamente y alcanza casi el 100% en pocas √©pocas.

En cambio, la precisi√≥n de validaci√≥n se estabiliza alrededor del 77%‚Äì79%, sin seguir la mejora del entrenamiento.

üìå Conclusi√≥n: Esto indica que el modelo est√° sobreajustando (overfitting): aprende muy bien los datos de entrenamiento, pero pierde capacidad de generalizaci√≥n.

üìâ An√°lisis del gr√°fico de P√©rdida (Loss)
La p√©rdida en entrenamiento cae bruscamente y casi llega a cero.

La p√©rdida de validaci√≥n baja al principio pero luego empieza a subir desde la √©poca 2‚Äì3.

üìå Conclusi√≥n: Otro signo claro de overfitting. El modelo memoriza los datos de entrenamiento y comienza a equivocarse m√°s en datos nuevos (validaci√≥n).

‚úÖ ¬øQu√© se prodr√≠a hacer para mejorar?
Aumentar regularizaci√≥n:

Aumentar el Dropout (actualmente se tiene 0.5 y 0.3).

Agregar L2 regularization (penalizaci√≥n en los pesos).

Reducir complejidad del modelo:

Menos neuronas o capas.

El modelo podr√≠a ser demasiado complejo para el tama√±o de tu dataset.

M√°s datos o data augmentation: ayuda a reducir el overfitting.

EarlyStopping est√° funcionando bien: cort√≥ el entrenamiento antes de que empeore m√°s.

Probar un modelo cl√°sico (Logistic Regression, SVM) como comparaci√≥n. A veces rinden igual o mejor con TF-IDF.



In [None]:
loss, accuracy = model.evaluate(X_train1, y_train1, verbose=False)
print("Precisi√≥n Entrenamiento: {:.4f}".format(accuracy))
loss, accuracy = model.evaluate(X_val, y_val, verbose=False)
print("Precisi√≥n Prueba:  {:.4f}".format(accuracy))


Evaluaci√≥n del modelo.

Evaluaci√≥n del modelo con una rese√±a real del conjunto de datos.

Se muestra c√≥mo el modelo clasifica una rese√±a individual y compara su predicci√≥n con la realidad

In [None]:
# Paso 1: Seleccionar una rese√±a real del DataFrame
indice = 1000  # Cambiar este n√∫mero si se quiere ver otra rese√±a

oracion_real = df['Comentario'].iloc[indice]
valoracion_real = df['Valor'].iloc[indice]

nueva_rese√±a_vectorizada = vectorizer_Neuro.transform([oracion_real])

# Paso 2: Predecir con el modelo

nueva_rese√±a_vectorizada_dense = nueva_rese√±a_vectorizada.toarray()

prediccion = model.predict(nueva_rese√±a_vectorizada_dense)

# Paso 3: Convertir la probabilidad a clase 0 o 1
valoracion_predicha = 1 if prediccion[0][0] >= 0.5 else 0

# Paso 6: Mostrar resultados
print(f"Rese√±a: {oracion_real}")
print(f"Valoraci√≥n real: {valoracion_real}")
print(f"Valoraci√≥n predicha: {valoracion_predicha}")
print(f"Probabilidad predicha: {prediccion[0][0]:.4f}")

Test del modelo con frases nuevas.

In [None]:
# Testeamos con nuevas oraciones

# Definir una nueva oraci√≥n para predecir.
nueva_oracion = ["si es fatal"]

nueva_secuencia_vectorizada = vectorizer_Neuro.transform(nueva_oracion)

# Convertir a array denso si el modelo lo espera
nueva_secuencia_vectorizada_dense = nueva_secuencia_vectorizada.toarray()


# Usar el modelo para predecir la valoraci√≥n (0 o 1)

prediccion = model.predict(nueva_secuencia_vectorizada_dense)

print(f"Predicci√≥n: {prediccion[0][0]}")
valoracion = 1 if prediccion[0][0] >= 0.5 else 0
print(f"Valoraci√≥n predicha: {valoracion}")

In [None]:
# X ahora contiene un array de secuencias num√©ricas (en formato tensor o matriz), en las que cada n√∫mero representa un √≠ndice de palabra del vocabulario.
# Estas secuencias est√°n ajustadas para tener la misma longitud (max_len=100), con las m√°s largas recortadas y las m√°s cortas rellenadas con ceros.
# Visualizamos el tipo de dato que es X
print(type(X))

print(X)

# **Conclusiones.**

A lo largo del trabajo se probaron distintos m√©todos de preprocesamiento para textos, aplicados a un an√°lisis de sentimientos.
Dentro del an√°lizsis de sentimiento se evaluaron los comentarios con baja probabilidad de predicci√≥n. Esto nos va a permitir visualizar la sintaxis de estos y tomar decisiones a la hora de mejorar el modelo.
Como futuras lineas, se puede re entrenar el modelo evaluando estas oraciones para que interprete mejor los sentiminetos.

Se trabaj√≥ con t√©cnicas como Bag of Words y TF-IDF, y tambi√©n se explor√≥ un modelo m√°s avanzado basado en Deep Learning usando Keras.

Se entrenaron tres modelos de machine learning con estas representaciones, y el que mejor funcion√≥ fue el que utiliz√≥ TF-IDF, mostrando buenos resultados en la clasificaci√≥n de sentimientos. En cambio, el modelo de Deep Learning no tuvo el rendimiento esperado, probablemente porque falt√≥ ajustar mejor los par√°metros y tambi√©n porque el volumen de datos no era muy grande.

Como posible l√≠nea futura, se puede seguir probando con el modelo de Deep Learning, ajustando hiperpar√°metros (como incluir regularizaci√≥n L2, capas LSTM, etc.) y entrenando con una mayor cantidad de datos, lo cual podr√≠a mejorar bastante los resultados.