# <font size=35 color=lightgreen>** Sentiment API **<font>ü•≤
---

### <font size=12 color=lightgreen>Configuraci√≥n Inicial (Librer√≠as)</font>

#### 1. Procesamiento y Manipulaci√≥n de Datos
* **`pandas`**
    * Nos ayuda con la manipulaci√≥n y an√°lisis de datos estructurados.
    * Carga el dataset (CSV), gestiona el DataFrame y permite filtrar o limpiar registros.
* **`numpy`**
    * Realiza las operaciones matem√°ticas y manejo de arrays eficientes.
    * Soporte num√©rico fundamental para las transformaciones vectoriales de los textos.

#### 2. Visualizaci√≥n y An√°lisis Exploratorio

* **`matplotlib.pyplot`**
    * Generaci√≥n de gr√°ficos est√°ticos.
    * Visualizaci√≥n b√°sica de la distribuci√≥n de clases (Positivo vs. Negativo).
* **`seaborn`**
    * Visualizaci√≥n de datos estad√≠sticos avanzada.
    * Generaci√≥n de matrices de confusi√≥n y gr√°ficos de distribuci√≥n est√©ticos para la presentaci√≥n.

#### 3. Procesamiento de Lenguaje Natural (NLP) y Limpieza

* **`re`** (Regular Expressions)
    * Manejo de expresiones regulares.
    * Eliminaci√≥n de ruido en el texto: URLs, menciones (@usuario), hashtags (#) y caracteres especiales no alfanum√©ricos.
* **`string`**
    * Constantes de cadenas comunes.
    * Provee listas est√°ndar de signos de puntuaci√≥n para su eliminaci√≥n eficiente.

#### 4. Modelado y Machine Learning (Core)

* **`scikit-learn`**
    * Biblioteca principal de Machine Learning.
    * **`TfidfVectorizer`**: Transforma el texto limpio en vectores num√©ricos.
    * **`LogisticRegression`**: Algoritmo de clasificaci√≥n supervisada.
    * **`metrics`**: C√°lculo de precisi√≥n, recall y F1-score.
    * **`Pipeline`**: Encapsulamiento de los pasos de transformaci√≥n y predicci√≥n.

#### 5. Persistencia e Integraci√≥n
Herramientas para conectar el modelo con el Backend.

* **`joblib`**
    * Serializaci√≥n eficiente de objetos Python.
    * Exportar (`dump`) el pipeline entrenado a un archivo `.joblib` y cargarlo (`load`) en la API para realizar predicciones.
* **`fastapi` & `uvicorn`**
    * Framework web moderno de alto rendimiento.
    * Exponer el modelo entrenado como un microservicio REST (endpoint `/predict`) para ser consumido por el Backend en Java.




---



### <font size=16  color=lightgreen> Importando librer√≠as <font>



In [2]:

import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import re
import string
import chardet
import sklearn
import fastapi
import joblib
import nltk
import unicodedata
import urllib.request
from io import StringIO
import urllib.response
import os
from pathlib import Path
from datetime import datetime
import warnings






### <font size = 8 color="lightgreen">Importaci√≥n de los datasets<font>

#### **Funci√≥n importaci√≥n dataset**

In [3]:
warnings.filterwarnings("ignore")
def importar_dataset(url, separator=';'):
    """
    Importa dataset desde URL detectando encoding autom√°ticamente.
    """
    try:
        # 1. Descargar contenido una sola vez
        with urllib.request.urlopen(url) as response:
            content = response.read()

        # 2. Detectar encoding
        result = chardet.detect(content)
        encoding = result['encoding']
        print(f"üîç Encoding detectado: {encoding} (confianza: {result['confidence']:.2%})")

        # 3. Decodificar y cargar en DataFrame
        decoded_content = content.decode(encoding, errors='replace')
        data = pd.read_csv(StringIO(decoded_content), sep=separator)

        print("‚úÖ Archivo cargado correctamente")
        print(f"üìä Tama√±o del dataset: {data.shape}")
        print("\nüîç Muestra aleatoria (3 registros):")
        print(data.sample(3))

        return data

    except urllib.error.URLError as e:
        print(f"‚ùå Error de URL: {e}")
        return None
    except pd.errors.ParserError as e:
        print(f"‚ùå Error al parsear CSV: {e}")
        return None
    except Exception as e:
        print(f"‚ùå Error inesperado: {type(e).__name__}: {e}")
        return None

#### **Dataset1: sentimentdataset_es.csv**

In [4]:
df1_raw = importar_dataset("https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/datasets/datasets-origin/sentimentdataset_es.csv")


üîç Encoding detectado: Windows-1252 (confianza: 72.97%)
‚úÖ Archivo cargado correctamente
üìä Tama√±o del dataset: (731, 15)

üîç Muestra aleatoria (3 registros):
     Unnamed: 0.1  Unnamed: 0  \
648           650         654   
173           174         176   
623           625         629   

                                                  Text   Sentiment  \
648  Intentando dominar el kickflip perfecto en mi ...  Excitaci√≥n   
173  La envidia me devora cuando veo la prosperidad...     Envidia   
623  Comenz√≥ un jard√≠n comunitario, cultivando no s...     Alegr√≠a   

            Timestamp                User   Platform  \
648  08-08-2023 16:00  SkateProHighSchool    Twitter   
173  07-11-2018 11:30        CovetousMind  Instagram   
623  03-07-2023 12:45    GreenThumbSenior    Twitter   

                             Hashtags  Retweets  Likes Country  Year  Month  \
648     #SkaterLife #HighSchoolSkater        30     60  Canad√°  2023      8   
173                   #Envidia 

#### **Dataset2: sentiment_analysis_dataset.csv**

In [5]:
df2_raw = importar_dataset("https://raw.githubusercontent.com/ml-punto-tech/sentiment-api/refs/heads/feature/data-science-marely/data-science/datasets/datasets-origin/sentiment_analysis_dataset.csv")

üîç Encoding detectado: Windows-1252 (confianza: 73.00%)
‚úÖ Archivo cargado correctamente
üìä Tama√±o del dataset: (2540, 3)

üîç Muestra aleatoria (3 registros):
                                                  texto  label sentimiento
2274  En 'Existir√≠amos el mar', B. Gopegui propone "...      2    positivo
2468  mira que te voy a patear deja de hacerte el lo...      2    positivo
1764  Una mujer observa su cuerpo intranquila, como ...      2    positivo


In [6]:
df3_raw = importar_dataset("https://github.com/eduardotec05/datasets/raw/refs/heads/main/twitter_training_esp_convertido%20(2).csv", separator=',')

üîç Encoding detectado: UTF-8-SIG (confianza: 100.00%)
‚úÖ Archivo cargado correctamente
üìä Tama√±o del dataset: (74682, 4)

üîç Muestra aleatoria (3 registros):
          id            plataforma sentimiento  \
70537  10884  TomClancysGhostRecon    Negativo   
14790   2934                 Dota2    Positivo   
70137  10817  TomClancysGhostRecon    Negativo   

                                                   texto  
70537  @GhostRecon tendr√°s que banear a los jugadores...  
14790             Bonita actualizaci√≥n gaben, muy bonita  
70137  @GhostRecon sigue siendo expulsado con un erro...  


#### **Dataset3: Twitter_training.csv**

In [7]:
df3_raw.head()

Unnamed: 0,id,plataforma,sentimiento,texto
0,2401,Borderlands,Positivo,Estoy llegando a Borderlands y los asesinar√© a...
1,2401,Borderlands,Positivo,"Voy a llegar a las fronteras y os matar√© a todos,"
2,2401,Borderlands,Positivo,Voy a llegar a Borderlands y los matar√© a todos.
3,2401,Borderlands,Positivo,Voy a llegar a Borderlands y los asesinar√© a t...
4,2401,Borderlands,Positivo,Me estoy metiendo en Borderlands 2 y os voy a ...


In [8]:
def verificar_calidad_importacion(df, nombre_dataset):
    """
    Verifica que no se haya perdido informaci√≥n durante la importaci√≥n.
    """
    print(f"\nüîç VERIFICACI√ìN DE CALIDAD: {nombre_dataset}")
    print("=" * 60)

    if df is None:
        print("‚ùå Dataset es None")
        return False

    # 1. Informaci√≥n b√°sica
    print(f"üìä Forma: {df.shape}")
    print(f"üìù Columnas: {list(df.columns)}")

    # 2. Buscar columnas de texto
    columnas_texto = [col for col in df.columns if df[col].dtype == 'object']
    print(f"üî§ Columnas de texto: {columnas_texto}")

    if not columnas_texto:
        print("‚ö†Ô∏è  No se encontraron columnas de texto")
        return True

    # 3. Analizar una columna de texto (usar la primera)
    col_texto = columnas_texto[0]
    print(f"\nüìù Analizando columna: '{col_texto}'")

    # Muestra de textos
    textos = df[col_texto].dropna().head(5).tolist()

    problemas = []

    for i, texto in enumerate(textos):
        if isinstance(texto, str):
            # Buscar caracteres de reemplazo (ÔøΩ) que indican problemas
            caracteres_problema = texto.count('ÔøΩ')
            if caracteres_problema > 0:
                problemas.append(f"Texto {i+1} tiene {caracteres_problema} caracteres de reemplazo (ÔøΩ)")

            # Buscar emojis
            emojis = [c for c in texto if unicodedata.category(c)[0] in ['S', 'So']]
            if emojis:
                print(f"  Texto {i+1}: ‚úÖ Tiene {len(emojis)} emoji(s): {''.join(emojis[:3])}")
            else:
                print(f"  Texto {i+1}: üìÑ Sin emojis")

            # Mostrar fragmento
            preview = texto[:80] + "..." if len(texto) > 80 else texto
            print(f"     '{preview}'")

    # 4. Resumen
    if problemas:
        print(f"\n‚ö†Ô∏è  PROBLEMAS ENCONTRADOS:")
        for problema in problemas:
            print(f"   ‚Ä¢ {problema}")
        return False
    else:
        print(f"\n‚úÖ CALIDAD OK: No se detectaron caracteres perdidos")
        return True

verificar_calidad_importacion(df1_raw, "Dataset 1")
verificar_calidad_importacion(df2_raw, "Dataset 2")
verificar_calidad_importacion(df3_raw, "Dataset 3")


üîç VERIFICACI√ìN DE CALIDAD: Dataset 1
üìä Forma: (731, 15)
üìù Columnas: ['Unnamed: 0.1', 'Unnamed: 0', 'Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Retweets', 'Likes', 'Country', 'Year', 'Month', 'Day', 'Hour']
üî§ Columnas de texto: ['Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Country']

üìù Analizando columna: 'Text'
  Texto 1: üìÑ Sin emojis
     '¬°Disfrutando de un hermoso d√≠a en el parque!'
  Texto 2: üìÑ Sin emojis
     'Esta ma√±ana el tr√°fico era terrible.'
  Texto 3: üìÑ Sin emojis
     '¬°Acabo de terminar un entrenamiento incre√≠ble!??'
  Texto 4: üìÑ Sin emojis
     '¬°Emocionado por la escapada de fin de semana que viene!'
  Texto 5: üìÑ Sin emojis
     'Probando una nueva receta para cenar esta noche.'

‚úÖ CALIDAD OK: No se detectaron caracteres perdidos

üîç VERIFICACI√ìN DE CALIDAD: Dataset 2
üìä Forma: (2540, 3)
üìù Columnas: ['texto', 'label', 'sentimiento']
üî§ Columnas de texto: ['texto', 'sentimient

True

<font color='lightgreen' size=12>Filtrar datasets</font>

In [9]:
# Funci√≥n filtrar dataset
def filtrar_dataset(data):
    data_filtro = data[['texto', 'sentimiento']]
    data_filtro = data_filtro[data_filtro['texto'].str.strip() != ""]
    print(data_filtro.sample(5))
    return data_filtro

# Reemplazar nombre columnas Text por texto, Sentiment por sentimiento
df1_raw.rename({'Text':'texto', 'Sentiment':'sentimiento'}, axis=1, inplace=True)
df1_filtrado = filtrar_dataset(df1_raw)
df2_filtrado = filtrar_dataset(df2_raw)
df3_filtrado = filtrar_dataset(df3_raw)

                                                 texto sentimiento
105  Emoci√≥n por un viaje por carretera de fin de s...  Excitaci√≥n
366  Orgullo de lograr un hito personal en la progr...     Orgullo
245  Impulsado por la curiosidad, se aventura en re...  Curiosidad
363  Una sensaci√≥n de logro despu√©s de completar un...       Logro
407  Emb√°rcate en una odisea culinaria, saboreando ...     Neutral
                                                  texto sentimiento
1870                                      senti firmeza     neutral
2436  Como v√≠ en tiktok que hay que ocuparse en vez ...    positivo
2154  La mejor venganza es no buscar venganza, mej√≥r...     neutral
1745                               Trabajo asegurado ??    positivo
64                                Dios estoy desbordado    negativo
                                                   texto  sentimiento
5894   Siento que Amazon siempre me cobra cantidades ...     Negativo
72836  En Pretty nos complace colaborar con

### <font size= 12 color="lightgreen" >Explorando los datasets<font>

In [10]:
# Crear funci√≥n para explorar datasets
def explorar_dataset(data):
    print('Filas: ' + str(data.shape[0]))
    print('Columnas: ' + str(data.shape[1]))
    print('\nColumnas: \n' + str(data.columns.tolist()))
    print('\nTipo de datos: \n' + str(data.dtypes))
    print('\nValores nulos: \n' + str(data.isnull().sum()))
    print('\nMuestra aleatoria (5 registros): \n' + str(data.sample(5)))

#### **Explorando Data1**

In [11]:
explorar_dataset(df1_filtrado)

Filas: 731
Columnas: 2

Columnas: 
['texto', 'sentimiento']

Tipo de datos: 
texto          object
sentimiento    object
dtype: object

Valores nulos: 
texto          0
sentimiento    0
dtype: int64

Muestra aleatoria (5 registros): 
                                                 texto    sentimiento
481  Rodeado de los colores de la alegr√≠a, un lienz...        Alegr√≠a
558  En medio de un partido de f√∫tbol, ??un gol en ...  Desesperaci√≥n
426  Tormenta emocional, un torbellino detristeza e...        Emoci√≥n
627  Inici√≥ un club de lectura para personas mayore...        Alegr√≠a
193  El resentimiento se pudre, una herida que se n...  Resentimiento


#### **Explorando data2**

In [12]:
explorar_dataset(df1_filtrado)

Filas: 731
Columnas: 2

Columnas: 
['texto', 'sentimiento']

Tipo de datos: 
texto          object
sentimiento    object
dtype: object

Valores nulos: 
texto          0
sentimiento    0
dtype: int64

Muestra aleatoria (5 registros): 
                                                 texto    sentimiento
507  Al bajar esquiando por las laderas de los Alpe...        Neutral
430  Decepci√≥n desgarradora, esperanzas destrozadas...      Decepci√≥n
204  Enfrentar los desaf√≠os de frente, una determin...  Determinaci√≥n
189  Hundi√©ndome en la desesperaci√≥n, cada d√≠a m√°s ...  Desesperaci√≥n
267  Una escapada l√∫dica al carnaval de la vida, ri...       Positivo


In [13]:
explorar_dataset(df3_filtrado)

Filas: 74682
Columnas: 2

Columnas: 
['texto', 'sentimiento']

Tipo de datos: 
texto          object
sentimiento    object
dtype: object

Valores nulos: 
texto          41
sentimiento     0
dtype: int64

Muestra aleatoria (5 registros): 
                                                   texto  sentimiento
46319  <unk>, @Verizon! @thecoronadophx es mi incre√≠b...      Neutral
39178  Hoy se transmitir√° el Hearthstone de Nice. La ...     Positivo
47501  @GovMurphy Denle algo a Nueva Jersey... Los pa...     Negativo
66897  Johnson Memorial Johnson detuvo los ensayos de...      Neutral
15124                          Antiguos tiempos romanos.  Irrelevante


### <font size=12 color=lightgreen>Limpiar textos</font>

#### **Funci√≥n para limpieza de textos**

In [14]:
def limpiar_texto_sentimientos(texto):
    """
    Normaliza texto espa√±ol preservando √± y eliminando tildes.
    NO convierte a min√∫sculas para preservar intensidad emocional.
    """
    # Verifica si la entrada no es una cadena. Si no lo es, devuelve una cadena vac√≠a.
    if not isinstance(texto, str):
        return ""

    # 1. Normaliza el texto para separar los caracteres base de sus diacr√≠ticos (ej., tildes).
    texto = unicodedata.normalize('NFD', texto)

    # 2. Reemplaza temporalmente las '√±' y '√ë' con marcadores especiales para preservarlas
    # durante la eliminaci√≥n de diacr√≠ticos.
    texto = texto.replace('n\u0303', '@@@N_TILDE@@@')
    texto = texto.replace('√±', '@@@N_TILDE@@@')
    texto = texto.replace('N\u0303', '@@@N_TILDE_MAYUS@@@')
    texto = texto.replace('√ë', '@@@N_TILDE_MAYUS@@@')

    # 3. Elimina los caracteres diacr√≠ticos (como las tildes) del texto.
    texto = ''.join(
        char for char in texto
        if not unicodedata.combining(char)
    )

    # Restaura las '√±' y '√ë' utilizando los marcadores temporales.
    texto = texto.replace('@@@N_TILDE@@@', '√±')
    texto = texto.replace('@@@N_TILDE_MAYUS@@@', '√ë')

    # Variable para almacenar el resultado de la limpieza.
    resultado = texto
    chars = []

    # Itera sobre cada caracter en el resultado y a√±ade solo los caracteres imprimibles a una lista.
    # Los caracteres no imprimibles (como los de control) son reemplazados por un espacio.
    for char in resultado:
        if char.isprintable():
            chars.append(char)
        else:
            chars.append(' ')
    resultado = ''.join(chars)

    # Elimina URLs que terminan en "..." (posibles URLs rotas).
    resultado = re.sub(r'https?://[^\s]*\.\.\.', '[URL_ROTA]', resultado)
    resultado = re.sub(r'www\.[^\s]*\\.\\.\\.', '[URL_ROTA]', resultado)

    # Normaliza los espacios m√∫ltiples a uno solo y elimina espacios al inicio y final.
    resultado = ' '.join(resultado.split())
    resultado = resultado.strip()

    # Mostrar resultados estad√≠sticos de la limpieza.




    # Devuelve el texto preprocesado.
    return resultado


#### **An√°lisis proceso de limpieza de textos**

In [15]:
def analizar_limpieza_sentimientos(df_antes, df_despues, nombre):
    """
    An√°lisis espec√≠fico para tu funci√≥n limpiar_texto_para_sentimientos
    """
    print(f"\nüîç AN√ÅLISIS ESPEC√çFICO: {nombre}")
    print("="*60)

    # 1. Cambios en caracteres espec√≠ficos del espa√±ol
    cambios_especificos = {
        'tildes_eliminadas': 0,
        '√±_preservadas': 0,
        'urls_eliminadas': 0,
        'mayusculas_preservadas': 0
    }

    # Muestra de 50 textos para an√°lisis detallado
    muestra = min(50, len(df_antes))

    for i in range(muestra):
        if i < len(df_despues):
            texto_antes = str(df_antes.iloc[i]['texto'])
            texto_despues = str(df_despues.iloc[i]['texto'])

            # Contar √± preservadas
            if '√±' in texto_antes.lower() and '√±' in texto_despues.lower():
                cambios_especificos['√±_preservadas'] += 1

            # Contar URLs eliminadas
            import re
            urls_antes = len(re.findall(r'https?://\S+', texto_antes))
            urls_despues = len(re.findall(r'https?://\S+', texto_despues))
            if urls_antes > urls_despues:
                cambios_especificos['urls_eliminadas'] += (urls_antes - urls_despues)

            # Verificar may√∫sculas preservadas
            mayus_antes = sum(1 for c in texto_antes if c.isupper())
            mayus_despues = sum(1 for c in texto_despues if c.isupper())
            if mayus_antes > 0 and mayus_despues > 0:
                cambios_especificos['mayusculas_preservadas'] += 1

    print("üìä Cambios espec√≠ficos de tu limpiador:")
    for cambio, cantidad in cambios_especificos.items():
        print(f"   ‚Ä¢ {cambio.replace('_', ' ').title()}: {cantidad} de {muestra} textos")



    print("="*60)

In [16]:
# Lista de dataframes para procesar
dataframes = [
    (df1_filtrado, "Dataset 1"),
    (df2_filtrado, "Dataset 2"),
    (df3_filtrado, "Dataset 3")
]

resultados = {}

for df, nombre in dataframes:
    # Aplicar limpieza
    df['Texto_Limpio'] = df['texto'].apply(limpiar_texto_sentimientos)

    # Guardar copia limpia
    resultados[nombre] = df.copy()

    # Mostrar info
    print(f"\nüìÅ {nombre}")
    print(f"   Registros: {len(df):,}")
    print(f"   Muestra (3 textos):")
    print(df[['texto', 'Texto_Limpio']].sample(3))

# Asignar a variables originales
df1_clean = resultados["Dataset 1"]
df2_clean = resultados["Dataset 2"]
df3_clean = resultados["Dataset 3"]

analizar_limpieza_sentimientos(df1_filtrado, df1_clean, "Dataset 1")
analizar_limpieza_sentimientos(df2_filtrado, df2_clean, "Dataset 2")
analizar_limpieza_sentimientos(df3_filtrado, df3_clean, "Dataset 3")


üìÅ Dataset 1
   Registros: 731
   Muestra (3 textos):
                                                 texto  \
246  Envuelto en el manto del entumecimiento emocio...   
437  La oscuridad desciende y envuelve el alma en l...   
649  Vincul√°ndose con amigos a trav√©s de la √∫ltima ...   

                                          Texto_Limpio  
246  Envuelto en el manto del entumecimiento emocio...  
437  La oscuridad desciende y envuelve el alma en l...  
649  Vinculandose con amigos a traves de la ultima ...  

üìÅ Dataset 2
   Registros: 2,540
   Muestra (3 textos):
                                                  texto  \
513   Lo hermoso que es el RE4 me hab√≠a olvidado tot...   
1350  Envidia ?? Envidia les tengo a todos los que s...   
2302  Qu√© cosa la junta de lindos con lindos y linda...   

                                           Texto_Limpio  
513   Lo hermoso que es el RE4 me habia olvidado tot...  
1350  Envidia ?? Envidia les tengo a todos los que s...  
2302  Q

In [17]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
114,"Esperanza de un ma√±ana mejor, a pesar de los d...",Esperanza,"Esperanza de un ma√±ana mejor, a pesar de los d..."
194,"La frustraci√≥n aumenta, una tormenta de emocio...",Frustraci√≥n,"La frustracion aumenta, una tormenta de emocio..."
465,Vagando por el cementerio de los sue√±os perdid...,Soledad,Vagando por el cementerio de los sue√±os perdid...


In [18]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
1384,Hey me sorprende de verdad que vean como refer...,positivo,Hey me sorprende de verdad que vean como refer...
967,"Cuando el hombre cayere, no quedar√° postrado,P...",negativo,"Cuando el hombre cayere, no quedara postrado,P..."
1209,Tenemos muchos mensajes represados y un inconv...,positivo,Tenemos muchos mensajes represados y un inconv...


In [19]:
df3_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
55415,@Activision necesita reiniciar estos servidore...,Negativo,@Activision necesita reiniciar estos servidore...
62824,¬øQu√© clase de mierda de GTA V es esta? pic.twi...,Negativo,¬øQue clase de mierda de GTA V es esta? pic.twi...
55815,"¬øNo tienes MP? La campa√±a fue incre√≠ble, pero ...",Neutral,"¬øNo tienes MP? La campa√±a fue increible, pero ..."


### <font size=12 color=lightgreen>Categorizar de sentimientos </font>

#### **Limpieza de Sentimientos**

In [20]:
# Funci√≥n simple para limpiar (igual que usar√°s despu√©s)
def limpiar_sentimiento_simple(sentimiento):
    """Convierte a min√∫sculas y quita espacios extras."""
    return ' '.join(str(sentimiento).lower().strip().split())

# 1. Obtener sentimientos √∫nicos de ambos datasets
sentimientos_unicos = sorted(list(df1_clean['sentimiento'].unique()) + list(df2_clean['sentimiento'].unique()) + list(df3_clean['sentimiento'].unique()))

print(f"üìä Sentimientos √∫nicos (sin limpiar): {len(sentimientos_unicos)}")
print(f"Muestra (primeros 10): {sentimientos_unicos[:10]}")

# 2. Limpiar la lista de sentimientos √∫nicos
sentimientos_unicos_limpios = [limpiar_sentimiento_simple(s) for s in sentimientos_unicos]

# 3. Eliminar duplicados que aparezcan despu√©s de limpiar
sentimientos_unicos_limpios = sorted(set(sentimientos_unicos_limpios))

print(f"\nüìä Sentimientos √∫nicos (limpios): {len(sentimientos_unicos_limpios)}")
print(f"Muestra (primeros 10): {sentimientos_unicos_limpios[:10]}")


üìä Sentimientos √∫nicos (sin limpiar): 111
Muestra (primeros 10): ['Abrumado', 'Aburrimiento', 'Aceptaci√≥n', 'Admiraci√≥n', 'Adoraci√≥n', 'Agradecido', 'Aislamiento', 'Alegr√≠a', 'Amabilidad', 'Amargura']

üìä Sentimientos √∫nicos (limpios): 105
Muestra (primeros 10): ['abrumado', 'aburrimiento', 'aceptaci√≥n', 'admiraci√≥n', 'adoraci√≥n', 'agradecido', 'aislamiento', 'alegr√≠a', 'amabilidad', 'amargura']


#### **Categor√≠as Sentimientos**

In [21]:
# 1. Definimos las listas de sentimientos seg√∫n su categor√≠a
print(f"Total de sentimientos √∫nicos: {len(sentimientos_unicos_limpios)}")
print(sentimientos_unicos_limpios)

# 2. SENTIMIENTOS POSITIVOS COMPLETOS (Bienestar, √©xito, alegr√≠a, admiraci√≥n)
positivos = [
    'aceptaci√≥n', 'admiraci√≥n', 'adoraci√≥n', 'agradecido', 'alegr√≠a', 'amabilidad', 'amor', 'amistad', 'apreciaci√≥n', 'armon√≠a', 'asombro', 'cautivaci√≥n', 'celebraci√≥n', 'colorido', 'confiado','confianza', 'contentamiento', 'creatividad', 'cumplimiento', 'descubrimiento', 'deslumbrar', 'determinaci√≥n', 'disfrute','diversi√≥n', 'elegancia', 'emoci√≥n', 'emp√°tico', 'empoderamiento',
    'encantamiento', 'energ√≠a', 'entusiasmo', 'esperanza', 'euforia', 'excitaci√≥n', 'felicidad', 'grandeza', 'gratitud', 'inspiraci√≥n', 'inspirado', 'intimidaci√≥n', 'juguet√≥n', 'logro','maravilla', 'mel√≥dico', 'motivaci√≥n', 'optimismo', 'orgullo',
    'positividad', 'positivo', 'reconfortante', 'resiliencia', 'resplandor', 'reverencia', 'romance', 'satisfacci√≥n', 'serenidad','ternura', 'triunfo', '√°nimo', '√©xito']

print(f'Sentimientos positivos: {len(positivos)}'),

# 3. SENTIMIENTOS NEGATIVOS COMPLETOS (Dolor, ira, miedo, estr√©s, p√©rdida)
negativos = ['abrumado', 'aburrimiento', 'aislamiento', 'amargura', 'angustia', 'anhelo', 'ansiedad', 'aprensivo', 'arrepentimiento', 'asco',  'decepci√≥n', 'desamor', 'desesperaci√≥n', 'despectivo', 'devastado',
    'dolor', 'enojo', 'entumecimiento', 'envidia', 'envidioso', 'frustraci√≥n', 'frustrado', 'l√°stima', 'obst√°culo', 'malo', 'melancol√≠a', 'miedo', 'negativo', 'odiar', 'pena', 'p√©rdida', 'reflexi√≥n', 'resentimiento', 'soledad', 'sufrimiento', 'temeroso', 'traici√≥n' , 	'tristeza' , 	'verguenza']

print(f'Sentimientos negativos: {len(negativos)}')

# 4. SENTIMIENTOS NEUTRALES (Estados ambiguos o contemplativos)
neutros =  ['ambivalencia', 'curiosidad', 'neutral','sorpresa','anticipaci√≥n']
print(f'Sentimientos neutros: {len(neutros)}')

categorias = [positivos, negativos, neutros]

# Verificaci√≥n del total
total_clasificados = len(positivos) + len(negativos) + len(neutros)
print(f'\n‚úÖ Total clasificado: {total_clasificados}/{len(sentimientos_unicos_limpios)}')
print(f'   - Positivos: {len(positivos)} ({len(positivos)/106*100:.1f}%)')
print(f'   - Negativos: {len(negativos)} ({len(negativos)/106*100:.1f}%)')
print(f'   - Neutros: {len(neutros)} ({len(neutros)/106*100:.1f}%)')
print(f'Total: {len(positivos) + len(negativos) + len(neutros)}')
print()

# Verificar si existen elementos en las listas que no se encuentran en la lista sentimientos_unicos
for sentimiento in negativos + positivos + neutros:
    if sentimiento not in sentimientos_unicos_limpios:
        print(f"‚ùå Sentimiento no encontrado en el dataset: {sentimiento}")

# for sentimiento in negativos + positivos + neutros:
#     if sentimiento not in sentimientos_2:
#         print(f"‚ùå Sentimiento no encontrado en el dataset: {sentimiento}")
# Verificar si todos los sentimientos del dataset est√°n clasificados
for sentimiento in sentimientos_unicos_limpios:
    if sentimiento not in positivos + negativos + neutros:
        print(f"‚ùå Sentimiento no clasificado: {sentimiento}")
# else:
#     print("‚úÖ Todos los sentimientos del dataset est√°n clasificados.")


Total de sentimientos √∫nicos: 105
['abrumado', 'aburrimiento', 'aceptaci√≥n', 'admiraci√≥n', 'adoraci√≥n', 'agradecido', 'aislamiento', 'alegr√≠a', 'amabilidad', 'amargura', 'ambivalencia', 'amistad', 'amor', 'angustia', 'anhelo', 'ansiedad', 'anticipaci√≥n', 'apreciaci√≥n', 'aprensivo', 'armon√≠a', 'arrepentimiento', 'asco', 'asombro', 'cautivaci√≥n', 'celebraci√≥n', 'colorido', 'confiado', 'confianza', 'contentamiento', 'creatividad', 'cumplimiento', 'curiosidad', 'decepci√≥n', 'desamor', 'descubrimiento', 'desesperaci√≥n', 'deslumbrar', 'despectivo', 'determinaci√≥n', 'devastado', 'disfrute', 'diversi√≥n', 'dolor', 'elegancia', 'emoci√≥n', 'empoderamiento', 'emp√°tico', 'encantamiento', 'energ√≠a', 'enojo', 'entumecimiento', 'entusiasmo', 'envidia', 'envidioso', 'esperanza', 'euforia', 'excitaci√≥n', 'felicidad', 'frustraci√≥n', 'frustrado', 'grandeza', 'gratitud', 'inspiraci√≥n', 'inspirado', 'intimidaci√≥n', 'irrelevante', 'juguet√≥n', 'logro', 'l√°stima', 'malo', 'maravilla', 'm

#### **Funci√≥n para categorizar sentimientos**

In [22]:
def categorizar_sentimiento(sentimiento, categorias):
    """
    Categoriza sentimientos solo si est√°n en las listas definidas.
    Devuelve None para sentimientos no clasificados.
    """
    sent = str(sentimiento).strip().lower()

    if sent in positivos:
        return 'positivo'
    elif sent in negativos:
        return 'negativo'
    elif sent in neutros:
        return 'neutral'
    else:
        # Devolvemos None para posterior filtrado
        return None


In [23]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
76,Furioso de ira despu√©s de una acalorada discus...,Enojo,Furioso de ira despues de una acalorada discus...
78,Sentida tristeza tras despedirnos de un querid...,Negativo,Sentida tristeza tras despedirnos de un querid...
555,Al experimentar una serie de derrotas en la te...,Neutral,Al experimentar una serie de derrotas en la te...


In [24]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
63,estoy desbordado,negativo,estoy desbordado
1894,Creo que lo m√°s afectivamente positivo cuando ...,neutral,Creo que lo mas afectivamente positivo cuando ...
1987,"Hola buenos d√≠as, siempre somos y seremos inve...",neutral,"Hola buenos dias, siempre somos y seremos inve..."


In [25]:
df3_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
20690,Pens√© que les ahorrar√≠a una decepci√≥n. Entonce...,Irrelevante,Pense que les ahorraria una decepcion. Entonce...
46018,Las pol√≠ticas de construcci√≥n de tiendas de @V...,Negativo,Las politicas de construccion de tiendas de @V...
34289,I,Neutral,I


#### **Categorizar sentimientos**

In [26]:
df1_clean['Sentimiento_Final'] = df1_clean['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias)
)

df1_categorized = df1_clean[df1_clean['Sentimiento_Final'].notna()].copy()

df2_clean['Sentimiento_Final'] = df2_clean['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias)
)

df2_categorized = df2_clean[df2_clean['Sentimiento_Final'].notna()].copy()

df3_clean['Sentimiento_Final'] = df3_clean['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias)
)

df3_categorized = df3_clean[df3_clean['Sentimiento_Final'].notna()].copy()

print(f"‚úÖ df1: {len(df1_categorized)} registros categorizados")
print(f"‚úÖ df2: {len(df2_categorized)} registros categorizados")
print(f"‚úÖ df3: {len(df3_categorized)} registros categorizados")

‚úÖ df1: 731 registros categorizados
‚úÖ df2: 2540 registros categorizados
‚úÖ df3: 61692 registros categorizados


In [27]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
10,Acabo de publicar una nueva entrada en el blog...,Positivo,Acabo de publicar una nueva entrada en el blog...,positivo
332,Impresionado por el impresionante amanecer sob...,Positivo,Impresionado por el impresionante amanecer sob...,positivo
224,Una determinaci√≥n ardiente arde en su interior...,Positivo,Una determinacion ardiente arde en su interior...,positivo


In [28]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
1485,"Adem√°s de su visi√≥n como empresario, la genero...",positivo,"Ademas de su vision como empresario, la genero...",positivo
1191,Que r√°pido volviste a buscar su consuelo,positivo,Que rapido volviste a buscar su consuelo,positivo
2526,"A los de JxC, y ""Periodistas"" que estan defend...",positivo,"A los de JxC, y ""Periodistas"" que estan defend...",positivo


In [29]:
df3_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
57117,"Me encanta meterme en problemas, pero tener un...",Negativo,"Me encanta meterme en problemas, pero tener un...",negativo
47075,"Oh Dios m√≠o, esta es la mejor comparaci√≥n que ...",Irrelevante,"Oh Dios mio, esta es la mejor comparacion que ...",
59952,PREMIOS PYD 2020. El Gran Premio no es el √∫nic...,Neutral,PREMIOS PYD 2020. El Gran Premio no es el unic...,neutral


### <font color=lightgreen size=12>Limpiar dataset unificado</font>

#### **Funci√≥n limpieza dataset unificado**

In [30]:
def limpiar_dataset_unificado(data, verbose=True):
    """
    Limpia dataset unificado para an√°lisis de sentimientos.

    Proceso:
    1. Identifica y elimina CONTRADICCIONES (textos con diferentes sentimientos)
    2. Elimina DUPLICADOS exactos (mismo texto, mismo sentimiento)
    3. Limpieza final (espacios vac√≠os, NaN)

    Args:
        data: DataFrame con 'Texto_Limpio' y 'Sentimiento_Final'
        verbose: Si True, muestra an√°lisis detallado

    Returns:
        DataFrame limpio, sin duplicados ni contradicciones
    """

    if verbose:
        print("üßπ LIMPIANDO DATASET UNIFICADO")
        print("-" * 50)
        print(f"Registros iniciales: {len(data):,}")
        print(f"Textos √∫nicos iniciales: {data['Texto_Limpio'].nunique():,}")

    # Hacer copia para no modificar original
    df = data.copy()

    # ===== 1. ELIMINAR CONTRADICCIONES (PRIMERO) =====
    if verbose:
        print(f"\n1. üîç BUSCANDO CONTRADICCIONES...")

    # Textos con m√°s de un sentimiento diferente
    conteo_sentimientos = df.groupby('Texto_Limpio')['Sentimiento_Final'].nunique()
    textos_con_contradiccion = conteo_sentimientos[conteo_sentimientos > 1].index.tolist()

    if textos_con_contradiccion:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontradas: {len(textos_con_contradiccion):,} contradicciones")

            # Mostrar algunos ejemplos
            print(f"   ‚Ä¢ Ejemplos (primeros 2):")
            for texto in textos_con_contradiccion[:2]:
                sentimientos = df[df['Texto_Limpio'] == texto]['Sentimiento_Final'].unique()
                texto_corto = texto[:60] + "..." if len(texto) > 60 else texto
                print(f"     - '{texto_corto}'")
                print(f"       ‚Üí Sentimientos: {', '.join(sentimientos)}")

        # Eliminar TODOS los registros de textos contradictorios
        df_sin_contradicciones = df[~df['Texto_Limpio'].isin(textos_con_contradiccion)].copy()

        if verbose:
            eliminados = len(df) - len(df_sin_contradicciones)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros por contradicciones")
    else:
        if verbose:
            print(f"   ‚úÖ No hay contradicciones")
        df_sin_contradicciones = df.copy()

    # ===== 2. ELIMINAR DUPLICADOS EXACTOS =====
    if verbose:
        print(f"\n2. üîç BUSCANDO DUPLICADOS EXACTOS...")

    # Contar duplicados exactos (mismo texto, mismo sentimiento)
    conteo_duplicados = df_sin_contradicciones['Texto_Limpio'].value_counts()
    textos_duplicados = conteo_duplicados[conteo_duplicados > 1].index.tolist()

    if textos_duplicados:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontrados: {len(textos_duplicados):,} textos duplicados")

            # Calcular cu√°ntos registros se eliminar√°n
            total_a_eliminar = sum([conteo_duplicados[t] - 1 for t in textos_duplicados])
            print(f"   ‚Ä¢ Registros a eliminar: {total_a_eliminar:,}")

        # Eliminar duplicados (mantener primera aparici√≥n)
        df_sin_duplicados = df_sin_contradicciones.drop_duplicates(
            subset=['Texto_Limpio'],
            keep='first'
        )

        if verbose:
            eliminados = len(df_sin_contradicciones) - len(df_sin_duplicados)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros duplicados")
    else:
        if verbose:
            print(f"   ‚úÖ No hay duplicados exactos")
        df_sin_duplicados = df_sin_contradicciones.copy()

    # ===== 3. LIMPIEZA FINAL =====
    if verbose:
        print(f"\n3. üßπ LIMPIEZA FINAL...")

    df_final = df_sin_duplicados.copy()

    # Filtrar solo columnas necesarias
    df_final = df_final[['Texto_Limpio', 'Sentimiento_Final']]

    # Eliminar textos vac√≠os o solo espacios
    textos_vacios_antes = len(df_final)
    df_final = df_final[df_final['Texto_Limpio'].str.strip() != ""]
    textos_vacios_eliminados = textos_vacios_antes - len(df_final)

    if verbose and textos_vacios_eliminados > 0:
        print(f"   ‚Ä¢ Textos vac√≠os eliminados: {textos_vacios_eliminados}")

    # Eliminar sentimientos NaN
    sentimientos_nan_antes = len(df_final)
    df_final = df_final[df_final['Sentimiento_Final'].notna()]
    sentimientos_nan_eliminados = sentimientos_nan_antes - len(df_final)

    if verbose and sentimientos_nan_eliminados > 0:
        print(f"   ‚Ä¢ Sentimientos NaN eliminados: {sentimientos_nan_eliminados}")

    # ===== 4. VERIFICACI√ìN Y RESUMEN =====
    if verbose:
        print(f"\n4. ‚úÖ VERIFICACI√ìN FINAL")
        print(f"   ‚Ä¢ Registros finales: {len(df_final):,}")
        print(f"   ‚Ä¢ Textos √∫nicos finales: {df_final['Texto_Limpio'].nunique():,}")

        # Verificar que cada texto aparece solo una vez
        if len(df_final) == df_final['Texto_Limpio'].nunique():
            print(f"   üéØ ¬°Dataset 100% limpio! Cada texto aparece solo una vez")
        else:
            diferencia = len(df_final) - df_final['Texto_Limpio'].nunique()
            print(f"   ‚ö†Ô∏è  ¬°Problema! Hay {diferencia} duplicados")

        # Resumen
        print(f"\n" + "=" * 50)
        print("üìä RESUMEN DE LIMPIEZA")
        print("=" * 50)

        total_eliminados = (len(data) - len(df_final))
        porcentaje_eliminado = (total_eliminados / len(data)) * 100

        print(f"Registros iniciales: {len(data):,}")
        print(f"Registros finales: {len(df_final):,}")
        print(f"Total eliminados: {total_eliminados:,} ({porcentaje_eliminado:.1f}%)")

        # Distribuci√≥n de sentimientos
        print(f"\nüìà DISTRIBUCI√ìN FINAL DE SENTIMIENTOS:")
        distribucion = df_final['Sentimiento_Final'].value_counts()
        for sentimiento, count in distribucion.items():
            porcentaje = (count / len(df_final)) * 100
            print(f"   ‚Ä¢ {sentimiento}: {count:,} ({porcentaje:.1f}%)")

    return df_final


In [31]:
df1_categorized.sample(3)
df2_categorized.sample(3)
df3_categorized.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
39123,Extra√É¬±o cuando Hearthstone era√¢‚Ç¨¬¶,Negativo,ExtraA¬±o cuando Hearthstone eraa‚Ç¨¬¶,negativo
11957,Que los jugadores de @NBA2K representan una ra...,Negativo,Que los jugadores de @NBA2K representan una ra...,negativo
70236,@GhostRecon 5 veces al intentar acceder a la t...,Negativo,@GhostRecon 5 veces al intentar acceder a la t...,negativo


#### **Unificar datataset y limpieza**

In [32]:
print("=" * 70)
print("üîó UNIFICANDO DATASETS CATEGORIZADOS")
print("=" * 70)

# Unificar los datasets categorizados
df_unificado = pd.concat([df1_categorized[['Texto_Limpio', 'Sentimiento_Final']], df2_categorized[['Texto_Limpio', 'Sentimiento_Final']], df3_categorized[['Texto_Limpio','Sentimiento_Final']]], ignore_index=True)

print(f"üì¶ Dataset unificado: {df_unificado.shape}")
print(f"   ‚Ä¢ Registros: {len(df_unificado):,}")
print(f"   ‚Ä¢ Textos √∫nicos: {df_unificado['Texto_Limpio'].nunique():,}")


# %%
print("\n" + "=" * 70)
print("üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO")
print("=" * 70)

# Aplicar limpieza
df_final = limpiar_dataset_unificado(df_unificado, verbose=True)

üîó UNIFICANDO DATASETS CATEGORIZADOS
üì¶ Dataset unificado: (64963, 2)
   ‚Ä¢ Registros: 64,963
   ‚Ä¢ Textos √∫nicos: 57,744

üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO
üßπ LIMPIANDO DATASET UNIFICADO
--------------------------------------------------
Registros iniciales: 64,963
Textos √∫nicos iniciales: 57,744

1. üîç BUSCANDO CONTRADICCIONES...
   ‚ö†Ô∏è  Encontradas: 209 contradicciones
   ‚Ä¢ Ejemplos (primeros 2):
     - ''
       ‚Üí Sentimientos: neutral, positivo, negativo
     - '!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!...'
       ‚Üí Sentimientos: negativo, neutral
   üóëÔ∏è  Eliminados: 2,633 registros por contradicciones

2. üîç BUSCANDO DUPLICADOS EXACTOS...
   ‚ö†Ô∏è  Encontrados: 3,377 textos duplicados
   ‚Ä¢ Registros a eliminar: 4,795
   üóëÔ∏è  Eliminados: 4,795 registros duplicados

3. üßπ LIMPIEZA FINAL...

4. ‚úÖ VERIFICACI√ìN FINAL
   ‚Ä¢ Registros finales: 57,535
   ‚Ä¢ Textos √∫nicos finales: 57,535
   üéØ ¬°Dataset 100% limpio!

In [33]:
df_unificado.sample(3)

Unnamed: 0,Texto_Limpio,Sentimiento_Final
49011,"@ Rainbow6Game Por favor, haz una serie de Rai...",positivo
24584,Odio la mierda moderna de asesinos.,negativo
55202,"@EAMaddenNFL arregla tus servidores, los desaf...",negativo


 ### <font size=12 color=lightgreen>An√°lisis de Distribuci√≥n y Visualizaci√≥n</font>

#### **An√°lisis de distribuci√≥n de sentimientos**

In [34]:
#üìä AN√ÅLISIS DE DISTRIBUCI√ìN DEL DATASET FINAL

print("=" * 60)
print("üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL")
print("=" * 60)

# 1. Calcular conteos y porcentajes
conteos = df_final['Sentimiento_Final'].value_counts()
total_registros = len(df_final)
porcentajes = (conteos / total_registros * 100).round(2)

# 2. Mostrar tabla detallada
print(f"{'SENTIMIENTO':<12} | {'CANTIDAD':>8} | {'PORCENTAJE':>10} | {'PROPORCI√ìN'}")
print("-" * 50)

for sentimiento in ['positivo', 'negativo', 'neutral']:
    if sentimiento in conteos:
        count = conteos[sentimiento]
        porcentaje = porcentajes[sentimiento]
        # Crear barra visual
        barra = '‚ñà' * int(count / total_registros * 40)  # Escala a 40 caracteres
        print(f"{sentimiento.capitalize():<12} | {count:>8} | {porcentaje:>9}% | {barra}")

print("-" * 50)
print(f"{'TOTAL':<12} | {total_registros:>8} | {'100.00':>9}% | {'‚ñà' * 40}")
print("-" * 58)


üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL
SENTIMIENTO  | CANTIDAD | PORCENTAJE | PROPORCI√ìN
--------------------------------------------------
Positivo     |    19219 |      33.4% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Negativo     |    21326 |     37.07% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Neutral      |    16990 |     29.53% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
--------------------------------------------------
TOTAL        |    57535 |    100.00% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
----------------------------------------------------------


#### **Visualizaci√≥n de la distribuci√≥n de Sentimientos**

In [35]:
# Grafica de pastel con Plotly

valores = df_final['Sentimiento_Final'].value_counts().reset_index()
valores.columns = ['sentimientos', 'Cantidad']
fig1 = px.pie(
    names = valores.sentimientos,
    values = valores.Cantidad,
)

fig1.update_traces(textposition='inside', textinfo='label+percent',  insidetextfont=dict(color = 'white', size=14)
)

fig1.update_layout(
    title_text=f'<b>Distribuci√≥n de Sentimientos</b><br><span style="font-size:14px">Dataset Final: {total_registros} registros</span>',
    title_x=0.5,
    width=500,
    height=500,
    showlegend=False,
)

fig1.show()

### <font size=12 color=lightgreen> Exportar dataset </font>

#### **Definir ruta de exportaci√≥n**

In [36]:
# Ruta actual
ruta_actual = Path.cwd()

# Buscar data-science
if ruta_actual.name == 'notebooks':
    # Si estamos en notebooks/, ir a ../datasets
    carpeta_datasets = ruta_actual.parent / 'datasets'
else:
    # Buscar data-science en directorios padres
    for directorio_padre in ruta_actual.parents:
        if (directorio_padre / 'data-science').exists():
            carpeta_datasets = directorio_padre / 'data-science' / 'datasets'
            break
    else:
        # Si no encuentra, usar directorio actual/datasets
        carpeta_datasets = ruta_actual / 'datasets'

# Crear carpeta si no existe
carpeta_datasets.mkdir(parents=True, exist_ok=True)

# Ruta completa del archivo
archivo_final = carpeta_datasets / 'dataset.csv'


#### **Exportar dataset**

In [37]:
# Renombrar columnas para formato final
df_exportar = df_final.rename({
    'Texto_Limpio': 'texto',
    'Sentimiento_Final': 'sentimiento'
}, axis=1)


metadata = {
    "total_registros": len(df_exportar),
    "distribucion": dict(df_exportar['sentimiento'].value_counts()),
    "fecha_creacion": datetime.now().isoformat(),
    "version": "2.0.0",
    "fuentes": [
        "sentimentdataset_es.csv",
        "sentiment_analysis_dataset.csv",
        "twitter_trainnig.csv"    ]
}

# Exportar
df_exportar.to_csv(archivo_final, index=False, encoding='utf-8-sig')
print(f"‚úÖ Dataset exportado: {archivo_final}")
print(f"üìä Registros: {len(df_exportar):,}")

# Crear copia para trabajo posterior
df = df_exportar.copy()

‚úÖ Dataset exportado: c:\Users\marely\OneDrive\Documentos\Oracle_ONE\Hackaton\SentimentAPI-Project\sentiment-api\data-science\datasets\dataset.csv
üìä Registros: 57,535


#### **Verificar exportaci√≥n**

In [38]:
def verificar_csv_simple(ruta_archivo, mostrar_muestra=True):
    """
    Verificaci√≥n simplificada con detecci√≥n de encoding
    Y verificaci√≥n de integridad mejorada
    """
    ruta = Path(ruta_archivo)

    if not ruta.exists():
        print(f"‚ùå Archivo no encontrado: {ruta}")
        return None

    # Detectar encoding
    encodings = ['utf-8-sig', 'utf-8', 'latin1', 'cp1252']

    for enc in encodings:
        try:
            # Probar con 5 filas primero
            df_test = pd.read_csv(ruta, encoding=enc, nrows=5)

            # Si llegamos aqu√≠, el encoding funciona
            try:
                # Ahora cargar completo
                df = pd.read_csv(ruta, encoding=enc)
                print(f"‚úÖ CSV cargado: {len(df):,} registros (encoding: {enc})")

                # üîç VERIFICACI√ìN DE INTEGRIDAD MEJORADA
                print("üîç Verificaci√≥n de integridad:")
                print(f"   ‚Ä¢ Valores nulos totales: {df.isnull().sum().sum()}")
                print(f"   ‚Ä¢ Textos vac√≠os: {(df['texto'].str.strip() == '').sum()}")

                # Verificar que todos los sentimientos sean v√°lidos
                sentimientos_validos = ['positivo', 'negativo', 'neutral']
                sentimientos_invalidos = df[~df['sentimiento'].isin(sentimientos_validos)]

                if len(sentimientos_invalidos) > 0:
                    print(f"   ‚ö†Ô∏è  Sentimientos inv√°lidos: {len(sentimientos_invalidos)}")
                    print(f"      Valores √∫nicos inv√°lidos: {sentimientos_invalidos['sentimiento'].unique()}")
                else:
                    print(f"   ‚úÖ Todos los sentimientos son v√°lidos")

                # Verificar unicidad
                textos_unicos = df['texto'].nunique()
                if len(df) == textos_unicos:
                    print(f"   ‚úÖ 100% textos √∫nicos: {textos_unicos:,} textos √∫nicos")
                else:
                    print(f"   ‚ö†Ô∏è  Duplicados: {len(df) - textos_unicos:,} textos duplicados")

                if mostrar_muestra:
                    print(f"üìù Columnas: {list(df.columns)}")
                    print(f"üìä Muestra (2 filas):")
                    print(df.head(2).to_string(index=False))

                return df

            except Exception as e:
                print(f"‚ùå Error cargando con encoding {enc}: {type(e).__name__}")
                continue

        except UnicodeDecodeError:
            continue

    print("‚ùå No se pudo cargar con ning√∫n encoding com√∫n")
    return None

In [39]:
# Uso simple - as√≠ deber√≠a funcionar
df_check = verificar_csv_simple(archivo_final, mostrar_muestra=True)

‚úÖ CSV cargado: 57,535 registros (encoding: utf-8-sig)
üîç Verificaci√≥n de integridad:
   ‚Ä¢ Valores nulos totales: 0
   ‚Ä¢ Textos vac√≠os: 0
   ‚úÖ Todos los sentimientos son v√°lidos
   ‚úÖ 100% textos √∫nicos: 57,535 textos √∫nicos
üìù Columnas: ['texto', 'sentimiento']
üìä Muestra (2 filas):
                                       texto sentimiento
¬°Disfrutando de un hermoso dia en el parque!    positivo
        Esta ma√±ana el trafico era terrible.    negativo


In [40]:
# Verificar que el archivo se pueda leer
def verificar_csv_simple(ruta_archivo, mostrar_muestra=True):
    """
    Verificaci√≥n simplificada con detecci√≥n de encoding
    """
    ruta = Path(ruta_archivo)

    if not ruta.exists():
        print(f"‚ùå Archivo no encontrado: {ruta}")
        return None

    # Detectar encoding
    encodings = ['utf-8-sig', 'utf-8', 'latin1', 'cp1252']

    for enc in encodings:
        try:
            df = pd.read_csv(ruta, encoding=enc, nrows=5)  # Probar con 5 filas
            # Si llegamos aqu√≠, el encoding funciona
            try:
                # Ahora cargar completo
                df = pd.read_csv(ruta, encoding=enc)
                print(f"‚úÖ CSV cargado: {len(df):,} registros (encoding: {enc})")

                if mostrar_muestra:
                    print(f"üìù Columnas: {list(df.columns)}")
                    print(f"üìä Muestra (2 filas):")
                    print(df.head(2).to_string(index=False))

                return df
            except Exception as e:
                print(f"‚ùå Error cargando con encoding {enc}: {type(e).__name__}")
                continue

        except UnicodeDecodeError:
            continue

    print("‚ùå No se pudo cargar con ning√∫n encoding com√∫n")
    return None

# Uso simple
df_check = verificar_csv_simple(archivo_final, mostrar_muestra=True)

‚úÖ CSV cargado: 57,535 registros (encoding: utf-8-sig)
üìù Columnas: ['texto', 'sentimiento']
üìä Muestra (2 filas):
                                       texto sentimiento
¬°Disfrutando de un hermoso dia en el parque!    positivo
        Esta ma√±ana el trafico era terrible.    negativo


 ### <font size=12 color=lightgreen> Resumen ejecutivo </font>

In [41]:
print("=" * 70)
print("üìã RESUMEN EJECUTIVO - HACKATHON SENTIMENT API")
print("=" * 70)
print(f"‚úÖ Dataset final: {len(df_exportar):,} registros")
print(f"‚úÖ Distribuci√≥n balanceada: {porcentajes['positivo']}% üëç | {porcentajes['negativo']}% üëé | {porcentajes['neutral']}% üòê")
print(f"‚úÖ Calidad del dataset:")
print(f"   ‚Ä¢ 0 contradicciones (cada texto tiene √∫nico sentimiento)")
print(f"   ‚Ä¢ 0 duplicados (100% textos √∫nicos)")
print(f"   ‚Ä¢ 0 valores nulos")

üìã RESUMEN EJECUTIVO - HACKATHON SENTIMENT API
‚úÖ Dataset final: 57,535 registros
‚úÖ Distribuci√≥n balanceada: 33.4% üëç | 37.07% üëé | 29.53% üòê
‚úÖ Calidad del dataset:
   ‚Ä¢ 0 contradicciones (cada texto tiene √∫nico sentimiento)
   ‚Ä¢ 0 duplicados (100% textos √∫nicos)
   ‚Ä¢ 0 valores nulos


---
### <font size=12 color=lightgreen>Observaciones</font>


### 1. **<font color='lightgreen'>Origen de los datos</font>**

Con el objetivo de mejorar la capacidad de generalizaci√≥n del modelo, se trabaj√≥ con dos datasets independientes obtenidos desde Kaggle.
Si bien ambos conjuntos de datos abordan el an√°lisis de sentimiento en espa√±ol, presentan diferencias en estructura, calidad ling√º√≠stica y formato de origen. Su integraci√≥n permiti√≥ ampliar la diversidad de expresiones textuales, reduciendo el sesgo hacia un √∫nico estilo de redacci√≥n y fortaleciendo la robustez del pipeline de preparaci√≥n de datos en escenarios similares a producci√≥n.

#### **Fuentes de datos (Kaggle):**

- https://www.kaggle.com/datasets/engineercolsoquas/spanish-sentiment-analysis-dataset

- https://www.kaggle.com/datasets/kashishparmar02/social-media-sentiments-analysis-dataset

- https://www.kaggle.com/datasets/jp797498e/twitter-entity-sentiment-analysis


---
### 2. **<font color='lightgreen'> Informe de Desaf√≠os T√©cnicos y Soluciones</font>**

#### **Dataset** 1 ‚Äì Inconsistencias en el idioma

- Problema: El dataset original presentaba traducciones incompletas, combinando registros en espa√±ol con fragmentos en su idioma original, adem√°s de traducciones literales de baja calidad. Esta situaci√≥n afectaba la coherencia sem√°ntica del texto y pod√≠a introducir ruido en el an√°lisis de sentimiento.

- Soluci√≥n aplicada: Se utiliz√≥ la herramienta de Traducci√≥n de Microsoft Excel como apoyo para identificar registros no traducidos. No obstante, la correcci√≥n se realiz√≥ de forma manual y supervisada, revisando y ajustando cada registro individualmente con el fin de preservar el significado original del texto y evitar distorsiones sem√°nticas. Posteriormente, se realiz√≥ una revisi√≥n manual (sanity check) para asegurar la consistencia ling√º√≠stica del dataset completo.

- Impacto en el an√°lisis: La normalizaci√≥n del idioma permiti√≥ obtener un corpus coherente en espa√±ol, reduciendo ambig√ºedades y mejorando la calidad de los datos de entrada para la etapa de clasificaci√≥n de sentimiento.


**Dataset 2 ‚Äì Problemas de codificaci√≥n de caracteres (encoding)**

- Problema:
El segundo dataset se encontraba en formato Excel y presentaba errores de codificaci√≥n al ser abierto, evidenciados por la aparici√≥n de caracteres especiales incorrectos (mojibake), lo que imped√≠a un procesamiento adecuado del texto.

- Soluci√≥n aplicada:
Como primer paso, el archivo fue exportado a formato CSV. Posteriormente, se realiz√≥ la ingesta mediante Power Query, donde se configur√≥ expl√≠citamente la codificaci√≥n Unicode (UTF-8), corrigiendo la estructura de caracteres antes de su integraci√≥n al pipeline de preparaci√≥n de datos.

- Impacto en el an√°lisis:
La correcci√≥n del encoding asegur√≥ la correcta interpretaci√≥n de caracteres propios del idioma espa√±ol, evitando p√©rdidas de informaci√≥n y mejorando la calidad del texto procesado.
---


### 3. **<font color='lightgreen'>Normalizaci√≥n y Limpieza de Texto</font>**
- Se aplic√≥ una funci√≥n de preprocesamiento (limpiar_texto_sentimiento) que incluy√≥:

- Preservaci√≥n de may√∫sculas/min√∫sculas (para mantener intensidad emocional).

- Eliminaci√≥n de tildes (pero conservaci√≥n de √±/√ë).

- Limpieza de URLs, menciones y caracteres no imprimibles.

- Normalizaci√≥n de espacios y saltos de l√≠nea.

**Nota: Se decidi√≥ no convertir todo a min√∫sculas para conservar pistas contextuales (ej. ‚Äú¬°GENIAL!‚Äù vs. ‚Äúgenial‚Äù), relevantes para modelos basados en intensidad emocional.**

---

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 57535 entries, 0 to 64962
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   texto        57535 non-null  object
 1   sentimiento  57535 non-null  object
dtypes: object(2)
memory usage: 1.3+ MB


 ### <font size=12 color=lightgreen> Machine Learning</font>

In [43]:
df.sample()

Unnamed: 0,texto,sentimiento
61877,Terminado... @GhostRecon,positivo


In [44]:
# Descargar stopwords
from nltk.corpus import stopwords
nltk.download('stopwords')
from nltk.corpus import stopwords

def limpiar_texto_mejorado(texto):
    """
    Limpieza de texto m√°s conservadora que preserva palabras  de negaci√≥n
    y modificadores de intensidad.
    """
    texto = texto.lower()

    # Eliminar caracteres especiales PERO preservar puntuaci√≥n emocional
    texto = re.sub(r'[^a-z√°√©√≠√≥√∫√±0-9\s!?.,\-]', '', texto)

    # Stopwords espa√±olas
    stop_words = set(stopwords.words('spanish'))

    # PALABRAS CR√çTICAS A MANTENER (expandida vs. original)
    palabras_criticas = {
        # Negaciones
        'no', 'ni', 'sin', 'nunca', 'jamas', 'tampoco', 'nada', 'nadie',
        # Intensificadores
        'muy', 'mucho', 'poco', 'mas', 'menos', 'demasiado', 'bastante',
        # Modales
        'pero', 'aunque', 'sino', 'si',
        # Adjetivos de sentimiento
        'malo', 'mala', 'mal', 'bien', 'bueno', 'buena', 'mejor', 'peor',
        'horrible', 'terrible', 'excelente', 'pesimo', 'p√©simo',
        # Verbos de sentimiento
        'odio', 'amo', 'encanta', 'disgusta', 'molesta',
        # Otros
        'contra', 'hacia'
    }

    # Remover stopwords EXCEPTO las cr√≠ticas
    stop_words = stop_words - palabras_criticas

    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra not in stop_words]

    return ' '.join(palabras_filtradas)

# Aplicar limpieza mejorada
df['texto'] = df['texto'].apply(limpiar_texto_mejorado)

print("‚úÖ Limpieza de texto mejorada aplicada")
print(f"\nMuestra de textos limpios:")
print(df[['texto', 'sentimiento']].sample(5))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\marely\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


‚úÖ Limpieza de texto mejorada aplicada

Muestra de textos limpios:
                                                   texto sentimiento
42042                  home depot cayo 5 - invst.lyqgfit     neutral
6686   molesta gente? solo cuestion accesibilidad. si...     neutral
55995  deshaun watson 86? malditos negros irrespetuos...    negativo
39249  cajas llenas tabletas llenan biblioteca escuel...     neutral
41284  navegando sitio web office depot vaya, hoy una...    positivo


In [45]:
df.sample(5)

Unnamed: 0,texto,sentimiento
56437,"guau! extra√±o blitz, pero llego tiempo navidad...",positivo
15403,dota2 acaso importa base jugadores? tener punt...,negativo
52036,facebook vuelto completamente estupido adoptar...,negativo
28816,encantan incentivos prounk,positivo
2318,bendecido cigarros sabor naranja.,positivo


 ### <font size=12 color=lightgreen> Balanceo del Dataset, TF-IDF, Modelo, M√©tricas y Serializaci√≥n </font>

### Instalaci√≥n de `imblearn`

Primero, necesitamos instalar la librer√≠a `imblearn`, que proporciona herramientas para manejar datasets desbalanceados, incluyendo la t√©cnica SMOTE para sobremuestreo.

In [46]:
get_ipython().system('pip install imblearn') # type: ignore
print("Librer√≠a 'imblearn' instalada exitosamente.")

Librer√≠a 'imblearn' instalada exitosamente.


### Separaci√≥n de Caracter√≠sticas y Target

Ahora, separaremos las caracter√≠sticas (el texto limpio) y la variable objetivo (el sentimiento) de nuestro DataFrame `df`. Tambi√©n mostraremos la distribuci√≥n inicial de las clases para ver el desbalanceo.

In [47]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import joblib
import json
import pandas as pd
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

In [48]:
# Separar X e y
X = df['texto']
y = df['sentimiento']

print("Distribuci√≥n de clases:")
print(y.value_counts())

# Divisi√≥n train/test
X_train_unbalanced, X_test, y_train_unbalanced, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nTrain: {len(X_train_unbalanced)} | Test: {len(X_test)}")

# üÜï TF-IDF MEJORADO
vectorizer = TfidfVectorizer(
    max_features=10000,      # ‚¨Ü Aumentado de 5000
    ngram_range=(1, 3),      # ‚¨Ü Trigramas (antes solo bigramas)
    min_df=2,                # üÜï Nuevo
    max_df=0.95,             # üÜï Nuevo
    sublinear_tf=True        # üÜï Nuevo
)

X_train_tfidf_unbalanced = vectorizer.fit_transform(X_train_unbalanced)
X_test_tfidf = vectorizer.transform(X_test)

print(f"\n‚úÖ Vectorizaci√≥n completada")
print(f"   Dimensiones: {X_train_tfidf_unbalanced.shape}")
print(f"   Vocabulario: {len(vectorizer.get_feature_names_out())} t√©rminos")

Distribuci√≥n de clases:
sentimiento
negativo    21326
positivo    19219
neutral     16990
Name: count, dtype: int64

Train: 46028 | Test: 11507

‚úÖ Vectorizaci√≥n completada
   Dimensiones: (46028, 10000)
   Vocabulario: 10000 t√©rminos


### <font size=12 color=lightgreen>Divisi√≥n de Datos (Entrenamiento y Prueba) y Vectorizaci√≥n TF-IDF</font>



Es crucial dividir el dataset en conjuntos de entrenamiento y prueba *antes* de aplicar SMOTE para evitar la fuga de datos (data leakage). Luego, transformaremos los textos en vectores num√©ricos usando `TfidfVectorizer`.

In [49]:
# Dividir el dataset en conjuntos de entrenamiento y prueba ANTES de aplicar SMOTE
X_train_unbalanced, X_test, y_train_unbalanced, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"\nTama√±o del conjunto de entrenamiento (desbalanceado): {len(X_train_unbalanced)} muestras")
print(f"Tama√±o del conjunto de prueba: {len(X_test)} muestras")
print(f"Distribuci√≥n de clases en el conjunto de entrenamiento (desbalanceado):\n{y_train_unbalanced.value_counts()}")
print(f"Distribuci√≥n de clases en el conjunto de prueba:\n{y_test.value_counts()}")

# Inicializar TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=5000,ngram_range=(1,2)) # Limitando las caracter√≠sticas para eficiencia

# Ajustar y transformar X_train_unbalanced, y transformar X_test
X_train_tfidf_unbalanced = tfidf_vectorizer.fit_transform(X_train_unbalanced)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

print("\nVectorizaci√≥n TF-IDF completada en la divisi√≥n desbalanceada.")
print(f"Forma de X_train_tfidf_unbalanced: {X_train_tfidf_unbalanced.shape}")
print(f"Forma de X_test_tfidf: {X_test_tfidf.shape}")


Tama√±o del conjunto de entrenamiento (desbalanceado): 46028 muestras
Tama√±o del conjunto de prueba: 11507 muestras
Distribuci√≥n de clases en el conjunto de entrenamiento (desbalanceado):
sentimiento
negativo    17061
positivo    15375
neutral     13592
Name: count, dtype: int64
Distribuci√≥n de clases en el conjunto de prueba:
sentimiento
negativo    4265
positivo    3844
neutral     3398
Name: count, dtype: int64

Vectorizaci√≥n TF-IDF completada en la divisi√≥n desbalanceada.
Forma de X_train_tfidf_unbalanced: (46028, 5000)
Forma de X_test_tfidf: (11507, 5000)


### <font size=12 color=lightgreen> Balanceo del Conjunto de Entrenamiento con SMOTE</font>

Ahora aplicaremos SMOTE solo al conjunto de entrenamiento vectorizado (`X_train_tfidf_unbalanced`) para balancear las clases, generando muestras sint√©ticas para las clases minoritarias.

In [50]:
smote = SMOTE(random_state=42)
X_train_tfidf, y_train = smote.fit_resample(X_train_tfidf_unbalanced, y_train_unbalanced)

print("‚úÖ SMOTE aplicado")
print(f"\nDistribuci√≥n despu√©s de SMOTE:")
print(pd.Series(y_train).value_counts())
print(f"\nNuevas dimensiones: {X_train_tfidf.shape}")

‚úÖ SMOTE aplicado

Distribuci√≥n despu√©s de SMOTE:
sentimiento
neutral     17061
positivo    17061
negativo    17061
Name: count, dtype: int64

Nuevas dimensiones: (51183, 5000)


### <font size=12 color=lightgreen> Entrenamiento del Modelo</font>


# Entrenamiento de M√∫ltiples Modelos

Entrenaremos 3 modelos y compararemos:
1. **Logistic Regression** (baseline mejorado)
2. **SVM** (Support Vector Machine)
3. **Random Forest**

In [51]:
# 1. Logistic Regression (mejorado)
print("[1/3] Entrenando Logistic Regression...")
model_lr = LogisticRegression(
    max_iter=2000,
    random_state=42,
    C=1.0,
    solver='lbfgs',
    multi_class='multinomial'
)
model_lr.fit(X_train_tfidf, y_train)
print("‚úÖ Logistic Regression entrenado")

# 2. SVM
print("\n[2/3] Entrenando SVM...")
model_svm = SVC(
    kernel='linear',
    C=1.0,
    probability=True,
    random_state=42,
    class_weight='balanced'
)
model_svm.fit(X_train_tfidf, y_train)
print("‚úÖ SVM entrenado")

# 3. Random Forest
print("\n[3/3] Entrenando Random Forest...")
model_rf = RandomForestClassifier(
    n_estimators=200,
    max_depth=None,
    min_samples_split=5,
    min_samples_leaf=2,
    random_state=42,
    n_jobs=-1,
    class_weight='balanced'
)
model_rf.fit(X_train_tfidf, y_train)
print("‚úÖ Random Forest entrenado")

print("\n" + "="*60)
print("‚úÖ TODOS LOS MODELOS ENTRENADOS")
print("="*60)

[1/3] Entrenando Logistic Regression...
‚úÖ Logistic Regression entrenado

[2/3] Entrenando SVM...
‚úÖ SVM entrenado

[3/3] Entrenando Random Forest...
‚úÖ Random Forest entrenado

‚úÖ TODOS LOS MODELOS ENTRENADOS


### <font size=12 color=lightgreen>Evaluaci√≥n de Modelos:</font>

Evaluaremos el rendimiento del modelo en el conjunto de prueba utilizando m√©tricas clave como accuracy, precision, recall y F1-score.

In [52]:
def evaluar_modelo(model, X_test, y_test, nombre):
    """Evaluaci√≥n detallada de un modelo"""
    print(f"\n{'='*60}")
    print(f"EVALUACI√ìN: {nombre}")
    print(f"{'='*60}")

    y_pred = model.predict(X_test)
    y_pred_proba = model.predict_proba(X_test)

    accuracy = accuracy_score(y_test, y_pred)
    print(f"\nüìä Accuracy: {accuracy:.4f} ({accuracy*100:.2f}%)")

    print(f"\nüìã Reporte de Clasificaci√≥n:")
    print(classification_report(y_test, y_pred, digits=4))

    print(f"\nüî¢ Matriz de Confusi√≥n:")
    cm = confusion_matrix(y_test, y_pred)
    print(cm)

    # Probabilidad promedio
    predicciones_correctas = y_pred == y_test
    probabilidades_correctas = []

    for i, correcto in enumerate(predicciones_correctas):
        if correcto:
            clase_predicha = y_pred[i]
            clase_idx = list(model.classes_).index(clase_predicha)
            probabilidades_correctas.append(y_pred_proba[i][clase_idx])

    if probabilidades_correctas:
        prob_promedio = np.mean(probabilidades_correctas)
        print(f"\nüíØ Probabilidad promedio (correctas): {prob_promedio:.4f} ({prob_promedio*100:.2f}%)")

    return accuracy

# Evaluar todos los modelos
acc_lr = evaluar_modelo(model_lr, X_test_tfidf, y_test, "Logistic Regression (Mejorado)")
acc_svm = evaluar_modelo(model_svm, X_test_tfidf, y_test, "SVM")
acc_rf = evaluar_modelo(model_rf, X_test_tfidf, y_test, "Random Forest")


EVALUACI√ìN: Logistic Regression (Mejorado)

üìä Accuracy: 0.7230 (72.30%)

üìã Reporte de Clasificaci√≥n:
              precision    recall  f1-score   support

    negativo     0.7726    0.7615    0.7670      4265
     neutral     0.6653    0.6886    0.6768      3398
    positivo     0.7213    0.7105    0.7159      3844

    accuracy                         0.7230     11507
   macro avg     0.7198    0.7202    0.7199     11507
weighted avg     0.7238    0.7230    0.7233     11507


üî¢ Matriz de Confusi√≥n:
[[3248  545  472]
 [ 475 2340  583]
 [ 481  632 2731]]

üíØ Probabilidad promedio (correctas): 0.7273 (72.73%)

EVALUACI√ìN: SVM

üìä Accuracy: 0.7306 (73.06%)

üìã Reporte de Clasificaci√≥n:
              precision    recall  f1-score   support

    negativo     0.7713    0.7672    0.7692      4265
     neutral     0.6787    0.6951    0.6868      3398
    positivo     0.7326    0.7214    0.7270      3844

    accuracy                         0.7306     11507
   macro avg  

### <font size=12 color=lightgreen> Serializaci√≥n del Modelo y Vectorizadors</font>



Guardaremos el modelo entrenado y el objeto `TfidfVectorizer` utilizando `joblib` para poder reutilizarlos m√°s tarde en la API de predicci√≥n.

In [53]:
# Based on evaluation, SVM was the best model, so we'll use it for serialization.
mejor_modelo = model_svm

# Serializar el Modelo y el Vectorizador
joblib.dump(mejor_modelo, '/content/modelo_sentimientos.pkl')
joblib.dump(tfidf_vectorizer, '/content/vectorizador.pkl')

print("\nModelo y vectorizador guardados exitosamente en '/content/modelo_sentimientos.pkl' y '/content/vectorizador.pkl'.")

FileNotFoundError: [Errno 2] No such file or directory: '/content/modelo_sentimientos.pkl'

In [None]:
# Tabla comparativa
comparacion = pd.DataFrame({
    'Modelo': ['Logistic Regression', 'SVM', 'Random Forest'],
    'Accuracy': [acc_lr, acc_svm, acc_rf]
})

comparacion['Accuracy %'] = comparacion['Accuracy'].apply(lambda x: f"{x*100:.2f}%")
comparacion['Mejora vs. Original'] = comparacion['Accuracy'].apply(lambda x: f"+{(x - 0.79)*100:.2f}%")
comparacion = comparacion.sort_values('Accuracy', ascending=False)

print("\n" + "="*70)
print("üìä COMPARACI√ìN DE MODELOS")
print("="*70)
print(comparacion.to_string(index=False))
print("\nüî∏ Modelo original (baseline): 79.00%")
print("="*70)

mejor_accuracy = comparacion['Accuracy'].max()
if mejor_accuracy >= 0.83:
    print("\n‚úÖ META DE FASE 1 ALCANZADA (83-85%)")
else:
    print(f"\n‚ö†Ô∏è Casi alcanzado (falta {(0.83 - mejor_accuracy)*100:.2f}%)")

comparacion

### <font size=12 color=lightgreen>Pruebas con Casos Espec√≠ficos</font>

Validar que ahora clasifica correctamente los casos problem√°ticos

In [None]:
# Seleccionar el mejor modelo
modelos_dict = {
    'Logistic Regression': model_lr,
    'SVM': model_svm,
    'Random Forest': model_rf
}

nombre_mejor = comparacion.iloc[0]['Modelo']
mejor_modelo = modelos_dict[nombre_mejor]

print(f"üèÜ Mejor modelo: {nombre_mejor}")
print(f"üìä Accuracy: {comparacion.iloc[0]['Accuracy %']}")

# Casos de prueba
casos_prueba = [
    ("mala atenci√≥n", "negativo"),
    ("mal comportamiento de los empleado", "negativo"),
    ("la empresa esta perdida en lo que hace", "negativo"),
    ("p√©simo servicio", "negativo"),
    ("nunca vuelvo", "negativo"),
    ("excelente servicio", "positivo"),
    ("me encant√≥", "positivo"),
    ("muy buena atenci√≥n", "positivo"),
    ("es normal, nada especial", "neutral"),
    ("est√° bien", "neutral"),
]

print("\n" + "="*70)
print("PRUEBAS CON CASOS ESPEC√çFICOS")
print("="*70)

aciertos = 0

for texto, esperado in casos_prueba:
    # Preprocesar
    texto_limpio = limpiar_texto_mejorado(texto)

    # Vectorizar y predecir
    texto_vectorizado = tfidf_vectorizer.transform([texto_limpio])
    prediccion = mejor_modelo.predict(texto_vectorizado)[0]
    probabilidades = mejor_modelo.predict_proba(texto_vectorizado)[0]

    clase_idx = list(mejor_modelo.classes_).index(prediccion)
    prob_prediccion = probabilidades[clase_idx]

    es_correcto = prediccion == esperado
    if es_correcto:
        aciertos += 1
        emoji = "‚úÖ"
    else:
        emoji = "‚ùå"

    print(f"\n{emoji} '{texto}'")
    print(f"   Esperado: {esperado} | Predicho: {prediccion} | Confianza: {prob_prediccion*100:.2f}%")

print("\n" + "="*70)
print(f"RESULTADO: {aciertos}/{len(casos_prueba)} correctos ({aciertos/len(casos_prueba)*100:.1f}%")
print("="*70)

### <font size=12 color=lightgreen>Exportaci√≥n del modelo</font>

In [None]:
from pyexpat import model
from sklearn.pipeline import Pipeline
import joblib

# Creamos un Pipeline manual uniendo las dos piezas
pipeline_para_produccion = Pipeline([
    ('vectorizer', tfidf_vectorizer), # Primero transforma el texto a n√∫meros
    ('classifier', model)             # Luego predice con esos n√∫meros
])

# Probamos que funcione antes de exportar
test_text = ["Este es un ejemplo de prueba para ver si funciona el pipeline"]
prediccion = pipeline_para_produccion.predict(test_text)
print(f"Prueba del pipeline: {prediccion}")

# EXPORTAR EL ARCHIVO FINAL
# Este es el archivo que debes subir a la carpeta de tu microservicio
joblib.dump(pipeline_para_produccion, 'modelo_entrenado.joblib')

print("‚úÖ Archivo 'modelo_entrenado.joblib' creado exitosamente.")

********************************************************************************************************************************************************************************************************************