# <font size=35 color=lightgreen>** Sentiment API **<font>ü•≤
---

### <font size=12 color=lightgreen>Configuraci√≥n Inicial (Librer√≠as)</font>

#### 1. Procesamiento y Manipulaci√≥n de Datos
* **`pandas`**
    * Nos ayuda con la manipulaci√≥n y an√°lisis de datos estructurados.
    * Carga el dataset (CSV), gestiona el DataFrame y permite filtrar o limpiar registros.
* **`numpy`**
    * Realiza las operaciones matem√°ticas y manejo de arrays eficientes.
    * Soporte num√©rico fundamental para las transformaciones vectoriales de los textos.

#### 2. Visualizaci√≥n y An√°lisis Exploratorio

* **`matplotlib.pyplot`**
    * Generaci√≥n de gr√°ficos est√°ticos.
    * Visualizaci√≥n b√°sica de la distribuci√≥n de clases (Positivo vs. Negativo).
* **`seaborn`**
    * Visualizaci√≥n de datos estad√≠sticos avanzada.
    * Generaci√≥n de matrices de confusi√≥n y gr√°ficos de distribuci√≥n est√©ticos para la presentaci√≥n.

#### 3. Procesamiento de Lenguaje Natural (NLP) y Limpieza

* **`re`** (Regular Expressions)
    * Manejo de expresiones regulares.
    * Eliminaci√≥n de ruido en el texto: URLs, menciones (@usuario), hashtags (#) y caracteres especiales no alfanum√©ricos.
* **`string`**
    * Constantes de cadenas comunes.
    * Provee listas est√°ndar de signos de puntuaci√≥n para su eliminaci√≥n eficiente.

#### 4. Modelado y Machine Learning (Core)

* **`scikit-learn`**
    * Biblioteca principal de Machine Learning.
    * **`TfidfVectorizer`**: Transforma el texto limpio en vectores num√©ricos.
    * **`LogisticRegression`**: Algoritmo de clasificaci√≥n supervisada.
    * **`metrics`**: C√°lculo de precisi√≥n, recall y F1-score.
    * **`Pipeline`**: Encapsulamiento de los pasos de transformaci√≥n y predicci√≥n.

#### 5. Persistencia e Integraci√≥n
Herramientas para conectar el modelo con el Backend.

* **`joblib`**
    * Serializaci√≥n eficiente de objetos Python.
    * Exportar (`dump`) el pipeline entrenado a un archivo `.joblib` y cargarlo (`load`) en la API para realizar predicciones.
* **`fastapi` & `uvicorn`**
    * Framework web moderno de alto rendimiento.
    * Exponer el modelo entrenado como un microservicio REST (endpoint `/predict`) para ser consumido por el Backend en Java.




---



### <font size=16  color=lightgreen> Importando librer√≠as <font>



In [120]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import re
import string
import chardet
import uvicorn
import sklearn
import fastapi
import joblib
import nltk
import unicodedata
import urllib.request
from io import StringIO
import urllib.response
import os
from pathlib import Path
from datetime import datetime
import warnings


### <font size = 8 color="lightgreen">Importaci√≥n de los datasets<font>

#### **Funci√≥n importaci√≥n dataset**

In [121]:
def importar_dataset(url):
    """
    Importa dataset desde URL detectando encoding autom√°ticamente.
    """
    try:
        # 1. Descargar contenido una sola vez
        with urllib.request.urlopen(url) as response:
            content = response.read()

        # 2. Detectar encoding
        result = chardet.detect(content)
        encoding = result['encoding']
        print(f"üîç Encoding detectado: {encoding} (confianza: {result['confidence']:.2%})")

        # 3. Decodificar y cargar en DataFrame
        decoded_content = content.decode(encoding, errors='replace')
        data = pd.read_csv(StringIO(decoded_content), sep=';')

        print("‚úÖ Archivo cargado correctamente")
        print(f"üìä Tama√±o del dataset: {data.shape}")
        print("\nüîç Muestra aleatoria (3 registros):")
        print(data.sample(3))

        return data

    except urllib.error.URLError as e:
        print(f"‚ùå Error de URL: {e}")
        return None
    except pd.errors.ParserError as e:
        print(f"‚ùå Error al parsear CSV: {e}")
        return None
    except Exception as e:
        print(f"‚ùå Error inesperado: {type(e).__name__}: {e}")
        return None

#### **Dataset1: sentimentdataset_es.csv**

In [122]:
df1_raw = importar_dataset("https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/datasets/datasets-origin/sentimentdataset_es.csv")


üîç Encoding detectado: Windows-1252 (confianza: 72.97%)
‚úÖ Archivo cargado correctamente
üìä Tama√±o del dataset: (732, 15)

üîç Muestra aleatoria (3 registros):
     Unnamed: 0.1  Unnamed: 0  \
103           721         725   
642           697         701   
553           642         646   

                                                  Text   Sentiment  \
103  Asistir a un show de talentos escolar para apo...   Felicidad   
642  Sentir una sensaci√≥n de vac√≠o despu√©s de que u...    Tristeza   
553  Particip√≥ en una carrera ben√©fica, lo que demu...  Excitaci√≥n   

            Timestamp                         User   Platform  \
103  18-10-2023 16:45  TalentShowSupportHighSchool   Facebook   
642  24-09-2023 17:30   FriendMovingAwayHighSchool  Instagram   
553  20-07-2023 17:00          SeniorCharityRunner    Twitter   

                                    Hashtags  Retweets  Likes Country  Year  \
103     #TalentShow #HighSchoolEntertainment        19     38  Canad√°  2

#### **Dataset2: sentiment_analysis_dataset.csv**

In [123]:
df2_raw = importar_dataset("https://raw.githubusercontent.com/ml-punto-tech/sentiment-api/refs/heads/feature/data-science-marely/data-science/datasets/datasets-origin/sentiment_analysis_dataset.csv")

üîç Encoding detectado: Windows-1252 (confianza: 73.00%)
‚úÖ Archivo cargado correctamente
üìä Tama√±o del dataset: (2540, 3)

üîç Muestra aleatoria (3 registros):
                                                  texto  label sentimiento
1240  ?Para entender el mundo, lee.  ?Para entendert...      2    positivo
1491  paso de tristeza a euforia dsp a felicidad dsp...      2    positivo
642   El Ayuntamiento de Madrid reprueba a Ortega Sm...      0    negativo


In [124]:
def verificar_calidad_importacion(df, nombre_dataset):
    """
    Verifica que no se haya perdido informaci√≥n durante la importaci√≥n.
    """
    print(f"\nüîç VERIFICACI√ìN DE CALIDAD: {nombre_dataset}")
    print("=" * 60)
    
    if df is None:
        print("‚ùå Dataset es None")
        return False
    
    # 1. Informaci√≥n b√°sica
    print(f"üìä Forma: {df.shape}")
    print(f"üìù Columnas: {list(df.columns)}")
    
    # 2. Buscar columnas de texto
    columnas_texto = [col for col in df.columns if df[col].dtype == 'object']
    print(f"üî§ Columnas de texto: {columnas_texto}")
    
    if not columnas_texto:
        print("‚ö†Ô∏è  No se encontraron columnas de texto")
        return True
    
    # 3. Analizar una columna de texto (usar la primera)
    col_texto = columnas_texto[0]
    print(f"\nüìù Analizando columna: '{col_texto}'")
    
    # Muestra de textos
    textos = df[col_texto].dropna().head(5).tolist()
    
    problemas = []
    
    for i, texto in enumerate(textos):
        if isinstance(texto, str):
            # Buscar caracteres de reemplazo (ÔøΩ) que indican problemas
            caracteres_problema = texto.count('ÔøΩ')
            if caracteres_problema > 0:
                problemas.append(f"Texto {i+1} tiene {caracteres_problema} caracteres de reemplazo (ÔøΩ)")
            
            # Buscar emojis
            emojis = [c for c in texto if unicodedata.category(c)[0] in ['S', 'So']]
            if emojis:
                print(f"  Texto {i+1}: ‚úÖ Tiene {len(emojis)} emoji(s): {''.join(emojis[:3])}")
            else:
                print(f"  Texto {i+1}: üìÑ Sin emojis")
            
            # Mostrar fragmento
            preview = texto[:80] + "..." if len(texto) > 80 else texto
            print(f"     '{preview}'")
    
    # 4. Resumen
    if problemas:
        print(f"\n‚ö†Ô∏è  PROBLEMAS ENCONTRADOS:")
        for problema in problemas:
            print(f"   ‚Ä¢ {problema}")
        return False
    else:
        print(f"\n‚úÖ CALIDAD OK: No se detectaron caracteres perdidos")
        return True

verificar_calidad_importacion(df1_raw, "Dataset 1")
verificar_calidad_importacion(df2_raw, "Dataset 2")


üîç VERIFICACI√ìN DE CALIDAD: Dataset 1
üìä Forma: (732, 15)
üìù Columnas: ['Unnamed: 0.1', 'Unnamed: 0', 'Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Retweets', 'Likes', 'Country', 'Year', 'Month', 'Day', 'Hour']
üî§ Columnas de texto: ['Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Country']

üìù Analizando columna: 'Text'
  Texto 1: üìÑ Sin emojis
     '¬°Acabo de adoptar a un lindo amigo peludo!??'
  Texto 2: üìÑ Sin emojis
     '¬°Acabo de terminar un entrenamiento incre√≠ble!??'
  Texto 3: üìÑ Sin emojis
     '¬°Adoraci√≥n desbordante por un lindo cachorro rescatado!??'
  Texto 4: üìÑ Sin emojis
     '¬°A√±o nuevo, nuevos objetivos de fitness!??'
  Texto 5: üìÑ Sin emojis
     '¬°Celebrando el cumplea√±os de un amigo esta noche!??'

‚úÖ CALIDAD OK: No se detectaron caracteres perdidos

üîç VERIFICACI√ìN DE CALIDAD: Dataset 2
üìä Forma: (2540, 3)
üìù Columnas: ['texto', 'label', 'sentimiento']
üî§ Columnas de texto: ['texto'

True

<font color='lightgreen' size=12>Filtrar datasets</font>

In [125]:
# Funci√≥n filtrar dataset
def filtrar_dataset(data):
    data_filtro = data[['texto', 'sentimiento']]
    data_filtro = data_filtro[data_filtro['texto'].str.strip() != ""]
    print(data_filtro.sample(5))
    return data_filtro

# Reemplazar nombre columnas Text por texto, Sentiment por sentimiento
df1_raw.rename({'Text':'texto', 'Sentiment':'sentimiento'}, axis=1, inplace=True)
df1_filtrado = filtrar_dataset(df1_raw)
df2_filtrado = filtrar_dataset(df2_raw)

                                                 texto sentimiento
337  Estoy emocionado por el pr√≥ximo torneo de vide...    Positivo
153  Compasi√≥n en acci√≥n: apoyar un evento ben√©fico...     Neutral
530  Nostalgia, un baile agridulce en el sal√≥n de b...     Neutral
506  Me puse al d√≠a con las √∫ltimas tendencias de l...  Excitaci√≥n
1     ¬°Acabo de terminar un entrenamiento incre√≠ble!??    Positivo
                                                  texto sentimiento
129   45 minutos llevan juanjo y martin en las ducha...    negativo
1039  Mi borde interno se encuentra completamente fa...    negativo
2139                       Trincado de haka e incr√©dulo     neutral
2457  Ese Anthony es osado oeeee quiere hacer su pro...    positivo
1289  Es una d√≠a fantastico hoy, todo fluye constant...    positivo


### <font size= 12 color="lightgreen" >Explorando los datasets<font>

In [126]:
# Crear funci√≥n para explorar datasets
def explorar_dataset(data):
    print('Filas: ' + str(data.shape[0]))
    print('Columnas: ' + str(data.shape[1]))
    print('\nColumnas: \n' + str(data.columns.tolist()))
    print('\nTipo de datos: \n' + str(data.dtypes))
    print('\nValores nulos: \n' + str(data.isnull().sum()))
    print('\nMuestra aleatoria (5 registros): \n' + str(data.sample(5)))

#### **Explorando Data1**

In [127]:
explorar_dataset(df1_filtrado)

Filas: 732
Columnas: 2

Columnas: 
['texto', 'sentimiento']

Tipo de datos: 
texto          object
sentimiento    object
dtype: object

Valores nulos: 
texto          0
sentimiento    0
dtype: int64

Muestra aleatoria (5 registros): 
                                                 texto sentimiento
529  Nostalgia, un baile agridulce en el sal√≥n de b...     Orgullo
656  Serenidad que se encuentra en la belleza de un...     Neutral
154  Compasi√≥n hacia los necesitados durante las va...     Neutral
126  Ba√±ado por los tonos dorados del agradecimient...  Agradecido
631  Se qued√≥ sin bocadillos durante una marat√≥n de...     Neutral


#### **Explorando data2**

In [128]:
explorar_dataset(df1_filtrado)

Filas: 732
Columnas: 2

Columnas: 
['texto', 'sentimiento']

Tipo de datos: 
texto          object
sentimiento    object
dtype: object

Valores nulos: 
texto          0
sentimiento    0
dtype: int64

Muestra aleatoria (5 registros): 
                                                 texto sentimiento
227  El estado del medio ambiente mundial es simple...        Asco
99   Asisti√≥ a un festival de jazz local y toc√≥ con...     Alegr√≠a
433  La calma prevalece mientras practico la atenci...     Neutral
679  Tener una racha de mala suerte con constantes ...        Malo
720  Una sinfon√≠a melanc√≥lica sonando de fondo, la ...  Melancol√≠a


### <font size=12 color=lightgreen>Limpiar textos</font>

#### **Funci√≥n para limpieza de textos**

In [129]:
def limpiar_texto_sentimientos(texto):
    """
    Normaliza texto espa√±ol preservando √± y eliminando tildes.
    NO convierte a min√∫sculas para preservar intensidad emocional.
    """
    # Verifica si la entrada no es una cadena. Si no lo es, devuelve una cadena vac√≠a.
    if not isinstance(texto, str):
        return ""

    # 1. Normaliza el texto para separar los caracteres base de sus diacr√≠ticos (ej., tildes).
    texto = unicodedata.normalize('NFD', texto)

    # 2. Reemplaza temporalmente las '√±' y '√ë' con marcadores especiales para preservarlas
    # durante la eliminaci√≥n de diacr√≠ticos.
    texto = texto.replace('n\u0303', '@@@N_TILDE@@@')
    texto = texto.replace('√±', '@@@N_TILDE@@@')
    texto = texto.replace('N\u0303', '@@@N_TILDE_MAYUS@@@')
    texto = texto.replace('√ë', '@@@N_TILDE_MAYUS@@@')

    # 3. Elimina los caracteres diacr√≠ticos (como las tildes) del texto.
    texto = ''.join(
        char for char in texto
        if not unicodedata.combining(char)
    )

    # Restaura las '√±' y '√ë' utilizando los marcadores temporales.
    texto = texto.replace('@@@N_TILDE@@@', '√±')
    texto = texto.replace('@@@N_TILDE_MAYUS@@@', '√ë')

    # Variable para almacenar el resultado de la limpieza.
    resultado = texto
    chars = []

    # Itera sobre cada caracter en el resultado y a√±ade solo los caracteres imprimibles a una lista.
    # Los caracteres no imprimibles (como los de control) son reemplazados por un espacio.
    for char in resultado:
        if char.isprintable():
            chars.append(char)
        else:
            chars.append(' ')
    resultado = ''.join(chars)

    # Elimina URLs que terminan en "..." (posibles URLs rotas).
    resultado = re.sub(r'https?://[^\s]*\.\.\.', '[URL_ROTA]', resultado)
    resultado = re.sub(r'www\.[^\s]*\\.\\.\\.', '[URL_ROTA]', resultado)

    # Normaliza los espacios m√∫ltiples a uno solo y elimina espacios al inicio y final.
    resultado = ' '.join(resultado.split())
    resultado = resultado.strip()

    # Mostrar resultados estad√≠sticos de la limpieza.




    # Devuelve el texto preprocesado.
    return resultado


#### **An√°lisis proceso de limpieza de textos**

In [130]:
def analizar_limpieza_sentimientos(df_antes, df_despues, nombre):
    """
    An√°lisis espec√≠fico para tu funci√≥n limpiar_texto_para_sentimientos
    """
    print(f"\nüîç AN√ÅLISIS ESPEC√çFICO: {nombre}")
    print("="*60)

    # 1. Cambios en caracteres espec√≠ficos del espa√±ol
    cambios_especificos = {
        'tildes_eliminadas': 0,
        '√±_preservadas': 0,
        'urls_eliminadas': 0,
        'mayusculas_preservadas': 0
    }

    # Muestra de 50 textos para an√°lisis detallado
    muestra = min(50, len(df_antes))

    for i in range(muestra):
        if i < len(df_despues):
            texto_antes = str(df_antes.iloc[i]['texto'])
            texto_despues = str(df_despues.iloc[i]['texto'])

            # Contar √± preservadas
            if '√±' in texto_antes.lower() and '√±' in texto_despues.lower():
                cambios_especificos['√±_preservadas'] += 1

            # Contar URLs eliminadas
            import re
            urls_antes = len(re.findall(r'https?://\S+', texto_antes))
            urls_despues = len(re.findall(r'https?://\S+', texto_despues))
            if urls_antes > urls_despues:
                cambios_especificos['urls_eliminadas'] += (urls_antes - urls_despues)

            # Verificar may√∫sculas preservadas
            mayus_antes = sum(1 for c in texto_antes if c.isupper())
            mayus_despues = sum(1 for c in texto_despues if c.isupper())
            if mayus_antes > 0 and mayus_despues > 0:
                cambios_especificos['mayusculas_preservadas'] += 1

    print("üìä Cambios espec√≠ficos de tu limpiador:")
    for cambio, cantidad in cambios_especificos.items():
        print(f"   ‚Ä¢ {cambio.replace('_', ' ').title()}: {cantidad} de {muestra} textos")



    print("="*60)

In [131]:
# Lista de dataframes para procesar
dataframes = [
    (df1_filtrado, "Dataset 1"),
    (df2_filtrado, "Dataset 2")
]

resultados = {}

for df, nombre in dataframes:
    # Aplicar limpieza
    df['Texto_Limpio'] = df['texto'].apply(limpiar_texto_sentimientos)

    # Guardar copia limpia
    resultados[nombre] = df.copy()

    # Mostrar info
    print(f"\nüìÅ {nombre}")
    print(f"   Registros: {len(df):,}")
    print(f"   Muestra (3 textos):")
    print(df[['texto', 'Texto_Limpio']].sample(3))

# Asignar a variables originales
df1_clean = resultados["Dataset 1"]
df2_clean = resultados["Dataset 2"]

analizar_limpieza_sentimientos(df1_filtrado, df1_clean, "Dataset 1")
analizar_limpieza_sentimientos(df2_filtrado, df2_clean, "Dataset 2")


üìÅ Dataset 1
   Registros: 732
   Muestra (3 textos):
                                                 texto  \
250  Empoderamiento a trav√©s del aprendizaje y el c...   
581  Pintura derramada accidentalmente en clase de ...   
547  Orgullo de lograr un hito personal en la progr...   

                                          Texto_Limpio  
250  Empoderamiento a traves del aprendizaje y el c...  
581  Pintura derramada accidentalmente en clase de ...  
547  Orgullo de lograr un hito personal en la progr...  

üìÅ Dataset 2
   Registros: 2,540
   Muestra (3 textos):
                                                  texto  \
1744  16 d pity para xiao, sin asegurado y con 32 pr...   
1481  ‚Äò‚Äô     ¬øSe ha perdido, @MONARCHENTITY?      ‚Äò‚Äô...   
2349  Lo positivo? La labor de Bryan P√©rez, deja bue...   

                                           Texto_Limpio  
1744  16 d pity para xiao, sin asegurado y con 32 pr...  
1481  ‚Äò‚Äô ¬øSe ha perdido, @MONARCHENTITY? ‚Äò‚Äô Pregun

In [132]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
110,Asombrado por la belleza del cielo nocturno.,Positivo,Asombrado por la belleza del cielo nocturno.
552,Participar en una feria de ciencias para mostr...,Neutral,Participar en una feria de ciencias para mostr...
522,Navegando a trav√©s de los desaf√≠os con determi...,Neutral,Navegando a traves de los desafios con determi...


In [133]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
379,Oye esta √∫ltima muela del juicio que me sacaro...,negativo,Oye esta ultima muela del juicio que me sacaro...
2335,Mi presidente petro y mi presidente Eduardo M√©...,positivo,Mi presidente petro y mi presidente Eduardo Me...
1941,Ay cada quien tiene en la vida su cuarto de ho...,neutral,Ay cada quien tiene en la vida su cuarto de ho...


### <font size=12 color=lightgreen>Categorizar de sentimientos </font>

#### **Categor√≠as Sentimientos**

In [134]:
# 1. Definimos las listas de sentimientos seg√∫n su categor√≠a
# Ver todos los sentimientos √∫nicos para saber qu√© agrupar y ordenar alfabetizamente
sentimientos_unicos = sorted(df1_clean['sentimiento'].unique())
print(f"Total de sentimientos √∫nicos: {len(sentimientos_unicos)}")
print(sentimientos_unicos)

# 2. SENTIMIENTOS POSITIVOS COMPLETOS (Bienestar, √©xito, alegr√≠a, admiraci√≥n)
positivos = [
    'Aceptaci√≥n', 'Admiraci√≥n', 'Adoraci√≥n', 'Agradecido', 'Alegr√≠a', 'Amabilidad', 'Amor', 'Amistad', 'Apreciaci√≥n', 'Armon√≠a', 'Asombro', 'Cautivaci√≥n', 'Celebraci√≥n', 'Colorido', 'Confiado','Confianza', 'Contentamiento', 'Creatividad', 'Cumplimiento', 'Descubrimiento', 'Deslumbrar', 'Determinaci√≥n', 'Disfrute','Diversi√≥n', 'Elegancia', 'Emoci√≥n', 'Emp√°tico', 'Empoderamiento',
    'Encantamiento', 'Energ√≠a', 'Entusiasmo', 'Esperanza', 'Euforia', 'Excitaci√≥n', 'Felicidad', 'Grandeza', 'Gratitud', 'Inspiraci√≥n', 'Inspirado', 'Intimidaci√≥n', 'Juguet√≥n', 'Logro','Maravilla', 'Mel√≥dico', 'Motivaci√≥n', 'Optimismo', 'Orgullo',
    'Positividad', 'Positivo', 'Reconfortante', 'Resiliencia', 'Resplandor', 'Reverencia', 'Romance', 'Satisfacci√≥n', 'Serenidad','Ternura', 'Triunfo', '√Ånimo', '√âxito','Elaci√≥n','√âxtasis']
print(f'Sentimientos positivos: {len(positivos)}'),

# 3. SENTIMIENTOS NEGATIVOS COMPLETOS (Dolor, ira, miedo, estr√©s, p√©rdida)
negativos = [
    'Abrumado', 'Aburrimiento', 'Aislamiento', 'Amargura', 'Angustia', 'Anhelo', 'Ansiedad', 'Aprensivo', 'Arrepentimiento', 'Asco',  'Decepci√≥n', 'Desamor', 'Desesperaci√≥n', 'Despectivo', 'Devastado',
    'Dolor', 'Enojo', 'Entumecimiento', 'Envidia', 'Envidioso', 'Frustraci√≥n', 'Frustrado', 'L√°stima', 'Obst√°culo', 'Malo', 'Melancol√≠a', 'Miedo', 'Negativo', 'Odiar', 'Pena', 'P√©rdida', 'Reflexi√≥n', 'Resentimiento', 'Soledad', 'Sufrimiento', 'Temeroso', 'Traici√≥n', 'Tristeza', 'Verguenza']
print(f'Sentimientos negativos: {len(negativos)}')

# 4. SENTIMIENTOS NEUTRALES (Estados ambiguos o contemplativos)
neutros = ['Ambivalencia', 'Curiosidad', 'Neutral','Sorpresa','Anticipaci√≥n']
print(f'Sentimientos neutros: {len(neutros)}')

categorias = [positivos, negativos, neutros]

# Verificaci√≥n del total
total_clasificados = len(positivos) + len(negativos) + len(neutros)
print(f'\n‚úÖ Total clasificado: {total_clasificados}/106 sentimientos')
print(f'   - Positivos: {len(positivos)} ({len(positivos)/106*100:.1f}%)')
print(f'   - Negativos: {len(negativos)} ({len(negativos)/106*100:.1f}%)')
print(f'   - Neutros: {len(neutros)} ({len(neutros)/106*100:.1f}%)')
print(f'Total: {len(positivos) + len(negativos) + len(neutros)}')
print()

# Verificar si existen elementos en las listas que no se encuentran en la lista sentimientos_unicos
for sentimiento in negativos + positivos + neutros:
    if sentimiento not in sentimientos_unicos:
        print(f"‚ùå Sentimiento no encontrado en el dataset: {sentimiento}")

# Verificar si todos los sentimientos del dataset est√°n clasificados
for sentimiento in sentimientos_unicos:
    if sentimiento not in positivos + negativos + neutros:
        print(f"‚ùå Sentimiento no clasificado: {sentimiento}")
else:
    print("‚úÖ Todos los sentimientos del dataset est√°n clasificados.")


Total de sentimientos √∫nicos: 106
['Abrumado', 'Aburrimiento', 'Aceptaci√≥n', 'Admiraci√≥n', 'Adoraci√≥n', 'Agradecido', 'Aislamiento', 'Alegr√≠a', 'Amabilidad', 'Amargura', 'Ambivalencia', 'Amistad', 'Amor', 'Angustia', 'Anhelo', 'Ansiedad', 'Anticipaci√≥n', 'Apreciaci√≥n', 'Aprensivo', 'Armon√≠a', 'Arrepentimiento', 'Asco', 'Asombro', 'Cautivaci√≥n', 'Celebraci√≥n', 'Colorido', 'Confiado', 'Confianza', 'Contentamiento', 'Creatividad', 'Cumplimiento', 'Curiosidad', 'Decepci√≥n', 'Desamor', 'Descubrimiento', 'Desesperaci√≥n', 'Deslumbrar', 'Despectivo', 'Determinaci√≥n', 'Devastado', 'Disfrute', 'Diversi√≥n', 'Dolor', 'Elaci√≥n', 'Elegancia', 'Emoci√≥n', 'Empoderamiento', 'Emp√°tico', 'Encantamiento', 'Energ√≠a', 'Enojo', 'Entumecimiento', 'Entusiasmo', 'Envidia', 'Envidioso', 'Esperanza', 'Euforia', 'Excitaci√≥n', 'Felicidad', 'Frustraci√≥n', 'Frustrado', 'Grandeza', 'Gratitud', 'Inspiraci√≥n', 'Inspirado', 'Intimidaci√≥n', 'Juguet√≥n', 'Logro', 'L√°stima', 'Malo', 'Maravilla', 'Mela

#### **Funci√≥n para categorizar sentimientos**

In [135]:
def categorizar_sentimiento(sentimiento, categorias):
    """
    Categoriza sentimientos solo si est√°n en las listas definidas.
    Devuelve None para sentimientos no clasificados.
    """
    sent = str(sentimiento).strip().title()

    if sent in positivos:
        return 'positivo'
    elif sent in negativos:
        return 'negativo'
    elif sent in neutros:
        return 'neutral'
    else:
        # Devolvemos None para posterior filtrado
        return None


In [136]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
613,Reverencia por la belleza de un monumento hist...,Reverencia,Reverencia por la belleza de un monumento hist...
484,L√°stima por no ser fiel a mis valores en una s...,L√°stima,Lastima por no ser fiel a mis valores en una s...
131,Calma encontrada en el ritmo de las gotas de l...,Neutral,Calma encontrada en el ritmo de las gotas de l...


In [137]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio
253,queria ser menos autoconsciente,negativo,queria ser menos autoconsciente
1271,¬øpod√≠a llegar a ser tan delicado? por qu√© toma...,positivo,¬øpodia llegar a ser tan delicado? por que toma...
1045,Pensamiento de izquierda: No puede ser que mi...,negativo,Pensamiento de izquierda: No puede ser que mis...


#### **Categorizar sentimientos**

In [138]:
df1_clean['Sentimiento_Final'] = df1_clean['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias)
)

df1_categorized = df1_clean[df1_clean['Sentimiento_Final'].notna()].copy()

df2_clean['Sentimiento_Final'] = df2_clean['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias)
)

df2_categorized = df2_clean[df2_clean['Sentimiento_Final'].notna()].copy()

print(f"‚úÖ df1: {len(df1_categorized)} registros categorizados")
print(f"‚úÖ df2: {len(df2_categorized)} registros categorizados")

‚úÖ df1: 732 registros categorizados
‚úÖ df2: 2540 registros categorizados


In [139]:
df1_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
367,Explorar una nueva oportunidad laboral a tiemp...,Neutral,Explorar una nueva oportunidad laboral a tiemp...,neutral
141,Codificando un nuevo proyecto con entusiasmo.,Positivo,Codificando un nuevo proyecto con entusiasmo.,positivo
649,Sentirse realizado despu√©s de un d√≠a productivo.,Positivo,Sentirse realizado despues de un dia productivo.,positivo


In [140]:
df2_clean.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
540,"Preocupa el gesto de Rafa. Parece contrariado,...",negativo,"Preocupa el gesto de Rafa. Parece contrariado,...",negativo
1616,"no tener ig es plenamente gratificante, fuck m...",positivo,"no tener ig es plenamente gratificante, fuck m...",positivo
39,"??? No entiendo lo que dices, pero debes deten...",negativo,"??? No entiendo lo que dices, pero debes deten...",negativo


### <font color=lightgreen size=12>Limpiar dataset unificado</font>

#### **Funci√≥n limpieza dataset unificado**

In [141]:
def limpiar_dataset_unificado(data, verbose=True):
    """
    Limpia dataset unificado para an√°lisis de sentimientos.

    Proceso:
    1. Identifica y elimina CONTRADICCIONES (textos con diferentes sentimientos)
    2. Elimina DUPLICADOS exactos (mismo texto, mismo sentimiento)
    3. Limpieza final (espacios vac√≠os, NaN)

    Args:
        data: DataFrame con 'Texto_Limpio' y 'Sentimiento_Final'
        verbose: Si True, muestra an√°lisis detallado

    Returns:
        DataFrame limpio, sin duplicados ni contradicciones
    """

    if verbose:
        print("üßπ LIMPIANDO DATASET UNIFICADO")
        print("-" * 50)
        print(f"Registros iniciales: {len(data):,}")
        print(f"Textos √∫nicos iniciales: {data['Texto_Limpio'].nunique():,}")

    # Hacer copia para no modificar original
    df = data.copy()

    # ===== 1. ELIMINAR CONTRADICCIONES (PRIMERO) =====
    if verbose:
        print(f"\n1. üîç BUSCANDO CONTRADICCIONES...")

    # Textos con m√°s de un sentimiento diferente
    conteo_sentimientos = df.groupby('Texto_Limpio')['Sentimiento_Final'].nunique()
    textos_con_contradiccion = conteo_sentimientos[conteo_sentimientos > 1].index.tolist()

    if textos_con_contradiccion:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontradas: {len(textos_con_contradiccion):,} contradicciones")

            # Mostrar algunos ejemplos
            print(f"   ‚Ä¢ Ejemplos (primeros 2):")
            for texto in textos_con_contradiccion[:2]:
                sentimientos = df[df['Texto_Limpio'] == texto]['Sentimiento_Final'].unique()
                texto_corto = texto[:60] + "..." if len(texto) > 60 else texto
                print(f"     - '{texto_corto}'")
                print(f"       ‚Üí Sentimientos: {', '.join(sentimientos)}")

        # Eliminar TODOS los registros de textos contradictorios
        df_sin_contradicciones = df[~df['Texto_Limpio'].isin(textos_con_contradiccion)].copy()

        if verbose:
            eliminados = len(df) - len(df_sin_contradicciones)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros por contradicciones")
    else:
        if verbose:
            print(f"   ‚úÖ No hay contradicciones")
        df_sin_contradicciones = df.copy()

    # ===== 2. ELIMINAR DUPLICADOS EXACTOS =====
    if verbose:
        print(f"\n2. üîç BUSCANDO DUPLICADOS EXACTOS...")

    # Contar duplicados exactos (mismo texto, mismo sentimiento)
    conteo_duplicados = df_sin_contradicciones['Texto_Limpio'].value_counts()
    textos_duplicados = conteo_duplicados[conteo_duplicados > 1].index.tolist()

    if textos_duplicados:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontrados: {len(textos_duplicados):,} textos duplicados")

            # Calcular cu√°ntos registros se eliminar√°n
            total_a_eliminar = sum([conteo_duplicados[t] - 1 for t in textos_duplicados])
            print(f"   ‚Ä¢ Registros a eliminar: {total_a_eliminar:,}")

        # Eliminar duplicados (mantener primera aparici√≥n)
        df_sin_duplicados = df_sin_contradicciones.drop_duplicates(
            subset=['Texto_Limpio'],
            keep='first'
        )

        if verbose:
            eliminados = len(df_sin_contradicciones) - len(df_sin_duplicados)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros duplicados")
    else:
        if verbose:
            print(f"   ‚úÖ No hay duplicados exactos")
        df_sin_duplicados = df_sin_contradicciones.copy()

    # ===== 3. LIMPIEZA FINAL =====
    if verbose:
        print(f"\n3. üßπ LIMPIEZA FINAL...")

    df_final = df_sin_duplicados.copy()

    # Filtrar solo columnas necesarias
    df_final = df_final[['Texto_Limpio', 'Sentimiento_Final']]

    # Eliminar textos vac√≠os o solo espacios
    textos_vacios_antes = len(df_final)
    df_final = df_final[df_final['Texto_Limpio'].str.strip() != ""]
    textos_vacios_eliminados = textos_vacios_antes - len(df_final)

    if verbose and textos_vacios_eliminados > 0:
        print(f"   ‚Ä¢ Textos vac√≠os eliminados: {textos_vacios_eliminados}")

    # Eliminar sentimientos NaN
    sentimientos_nan_antes = len(df_final)
    df_final = df_final[df_final['Sentimiento_Final'].notna()]
    sentimientos_nan_eliminados = sentimientos_nan_antes - len(df_final)

    if verbose and sentimientos_nan_eliminados > 0:
        print(f"   ‚Ä¢ Sentimientos NaN eliminados: {sentimientos_nan_eliminados}")

    # ===== 4. VERIFICACI√ìN Y RESUMEN =====
    if verbose:
        print(f"\n4. ‚úÖ VERIFICACI√ìN FINAL")
        print(f"   ‚Ä¢ Registros finales: {len(df_final):,}")
        print(f"   ‚Ä¢ Textos √∫nicos finales: {df_final['Texto_Limpio'].nunique():,}")

        # Verificar que cada texto aparece solo una vez
        if len(df_final) == df_final['Texto_Limpio'].nunique():
            print(f"   üéØ ¬°Dataset 100% limpio! Cada texto aparece solo una vez")
        else:
            diferencia = len(df_final) - df_final['Texto_Limpio'].nunique()
            print(f"   ‚ö†Ô∏è  ¬°Problema! Hay {diferencia} duplicados")

        # Resumen
        print(f"\n" + "=" * 50)
        print("üìä RESUMEN DE LIMPIEZA")
        print("=" * 50)

        total_eliminados = (len(data) - len(df_final))
        porcentaje_eliminado = (total_eliminados / len(data)) * 100

        print(f"Registros iniciales: {len(data):,}")
        print(f"Registros finales: {len(df_final):,}")
        print(f"Total eliminados: {total_eliminados:,} ({porcentaje_eliminado:.1f}%)")

        # Distribuci√≥n de sentimientos
        print(f"\nüìà DISTRIBUCI√ìN FINAL DE SENTIMIENTOS:")
        distribucion = df_final['Sentimiento_Final'].value_counts()
        for sentimiento, count in distribucion.items():
            porcentaje = (count / len(df_final)) * 100
            print(f"   ‚Ä¢ {sentimiento}: {count:,} ({porcentaje:.1f}%)")

    return df_final


In [142]:
df1_categorized.sample(3)
df2_categorized.sample(3)

Unnamed: 0,texto,sentimiento,Texto_Limpio,Sentimiento_Final
988,Justo lo que necesitaba gracias x hacerme sent...,negativo,Justo lo que necesitaba gracias x hacerme sent...,negativo
2008,Muchospinches buenos prop√≥sitos de a√±o nuevo i...,neutral,Muchospinches buenos propositos de a√±o nuevo i...,neutral
163,"Ins√≥lito, la oposici√≥n est√° mortificada porque...",negativo,"Insolito, la oposicion esta mortificada porque...",negativo


#### **Unificar datataset y limpieza**

In [143]:
print("=" * 70)
print("üîó UNIFICANDO DATASETS CATEGORIZADOS")
print("=" * 70)

# Unificar los datasets categorizados
df_unificado = pd.concat([df1_categorized[['Texto_Limpio', 'Sentimiento_Final']], df2_categorized[['Texto_Limpio', 'Sentimiento_Final']]], ignore_index=True)

print(f"üì¶ Dataset unificado: {df_unificado.shape}")
print(f"   ‚Ä¢ Registros: {len(df_unificado):,}")
print(f"   ‚Ä¢ Textos √∫nicos: {df_unificado['Texto_Limpio'].nunique():,}")


# %%
print("\n" + "=" * 70)
print("üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO")
print("=" * 70)

# Aplicar limpieza
df_final = limpiar_dataset_unificado(df_unificado, verbose=True)

üîó UNIFICANDO DATASETS CATEGORIZADOS
üì¶ Dataset unificado: (3272, 2)
   ‚Ä¢ Registros: 3,272
   ‚Ä¢ Textos √∫nicos: 2,849

üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO
üßπ LIMPIANDO DATASET UNIFICADO
--------------------------------------------------
Registros iniciales: 3,272
Textos √∫nicos iniciales: 2,849

1. üîç BUSCANDO CONTRADICCIONES...
   ‚ö†Ô∏è  Encontradas: 90 contradicciones
   ‚Ä¢ Ejemplos (primeros 2):
     - '"De manera apacible, se puede sacudir el mundo" MG'
       ‚Üí Sentimientos: negativo, positivo
     - '"He aprendido que el valor no es la ausencia de miedo, sino ...'
       ‚Üí Sentimientos: neutral, positivo
   üóëÔ∏è  Eliminados: 212 registros por contradicciones

2. üîç BUSCANDO DUPLICADOS EXACTOS...
   ‚ö†Ô∏è  Encontrados: 252 textos duplicados
   ‚Ä¢ Registros a eliminar: 301
   üóëÔ∏è  Eliminados: 301 registros duplicados

3. üßπ LIMPIEZA FINAL...

4. ‚úÖ VERIFICACI√ìN FINAL
   ‚Ä¢ Registros finales: 2,759
   ‚Ä¢ Textos √∫nicos finales: 2,759
   ü

In [144]:
df_unificado.sample(3)

Unnamed: 0,Texto_Limpio,Sentimiento_Final
2912,Se habla de racismo pero no de Transfobia. El ...,neutral
1183,"Me quisieron cortar dos con fierro, pero justo...",negativo
2878,"?? Observar, esperar y ganar: el presidente Do...",neutral


 ### <font size=12 color=lightgreen>An√°lisis de Distribuci√≥n y Visualizaci√≥n</font>

#### **An√°lisis de distribuci√≥n de sentimientos**

In [145]:
#üìä AN√ÅLISIS DE DISTRIBUCI√ìN DEL DATASET FINAL

print("=" * 60)
print("üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL")
print("=" * 60)

# 1. Calcular conteos y porcentajes
conteos = df_final['Sentimiento_Final'].value_counts()
total_registros = len(df_final)
porcentajes = (conteos / total_registros * 100).round(2)

# 2. Mostrar tabla detallada
print(f"{'SENTIMIENTO':<12} | {'CANTIDAD':>8} | {'PORCENTAJE':>10} | {'PROPORCI√ìN'}")
print("-" * 50)

for sentimiento in ['positivo', 'negativo', 'neutral']:
    if sentimiento in conteos:
        count = conteos[sentimiento]
        porcentaje = porcentajes[sentimiento]
        # Crear barra visual
        barra = '‚ñà' * int(count / total_registros * 40)  # Escala a 40 caracteres
        print(f"{sentimiento.capitalize():<12} | {count:>8} | {porcentaje:>9}% | {barra}")

print("-" * 50)
print(f"{'TOTAL':<12} | {total_registros:>8} | {'100.00':>9}% | {'‚ñà' * 40}")
print("-" * 58)


üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL
SENTIMIENTO  | CANTIDAD | PORCENTAJE | PROPORCI√ìN
--------------------------------------------------
Positivo     |     1177 |     42.66% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Negativo     |     1091 |     39.54% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Neutral      |      491 |      17.8% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
--------------------------------------------------
TOTAL        |     2759 |    100.00% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
----------------------------------------------------------


#### **Visualizaci√≥n de la distribuci√≥n de Sentimientos**

In [146]:
# Grafica de pastel con Plotly

valores = df_final['Sentimiento_Final'].value_counts().reset_index()
valores.columns = ['sentimientos', 'Cantidad']
fig1 = px.pie(
    names = valores.sentimientos,
    values = valores.Cantidad,
)

fig1.update_traces(textposition='inside', textinfo='label+percent',  insidetextfont=dict(color = 'white', size=14)
)

fig1.update_layout(
    title_text=f'<b>Distribuci√≥n de Sentimientos</b><br><span style="font-size:14px">Dataset Final: {total_registros} registros</span>',
    title_x=0.5,
    width=500,
    height=500,
    showlegend=False,
)

fig1.show()

### <font size=12 color=lightgreen> Exportar dataset </font>

#### **Definir ruta de exportaci√≥n**

In [147]:
# Ruta actual
ruta_actual = Path.cwd()

# Buscar data-science
if ruta_actual.name == 'notebooks':
    # Si estamos en notebooks/, ir a ../datasets
    carpeta_datasets = ruta_actual.parent / 'datasets'
else:
    # Buscar data-science en directorios padres
    for directorio_padre in ruta_actual.parents:
        if (directorio_padre / 'data-science').exists():
            carpeta_datasets = directorio_padre / 'data-science' / 'datasets'
            break
    else:
        # Si no encuentra, usar directorio actual/datasets
        carpeta_datasets = ruta_actual / 'datasets'

# Crear carpeta si no existe
carpeta_datasets.mkdir(parents=True, exist_ok=True)

# Ruta completa del archivo
archivo_final = carpeta_datasets / 'dataset.csv'


#### **Exportar dataset**

In [148]:
# Renombrar columnas para formato final
df_exportar = df_final.rename({
    'Texto_Limpio': 'texto',
    'Sentimiento_Final': 'sentimiento'
}, axis=1)


metadata = {
    "total_registros": len(df_exportar),
    "distribucion": dict(df_exportar['sentimiento'].value_counts()),
    "fecha_creacion": datetime.now().isoformat(),
    "version": "1.0.0",
    "fuentes": [
        "sentimentdataset_es.csv",
        "sentiment_analysis_dataset.csv"
    ]
}

# Exportar
df_exportar.to_csv(archivo_final, index=False, encoding='utf-8-sig')
print(f"‚úÖ Dataset exportado: {archivo_final}")
print(f"üìä Registros: {len(df_exportar):,}")

# Crear copia para trabajo posterior
df = df_exportar.copy()

‚úÖ Dataset exportado: c:\Users\marely\OneDrive\Documentos\Oracle_ONE\Hackaton\SentimentAPI-Project\sentiment-api\data-science\datasets\dataset.csv
üìä Registros: 2,759


#### **Verificar exportaci√≥n**

In [149]:
def verificar_csv_simple(ruta_archivo, mostrar_muestra=True):
    """
    Verificaci√≥n simplificada con detecci√≥n de encoding
    Y verificaci√≥n de integridad mejorada
    """
    ruta = Path(ruta_archivo)

    if not ruta.exists():
        print(f"‚ùå Archivo no encontrado: {ruta}")
        return None

    # Detectar encoding
    encodings = ['utf-8-sig', 'utf-8', 'latin1', 'cp1252']

    for enc in encodings:
        try:
            # Probar con 5 filas primero
            df_test = pd.read_csv(ruta, encoding=enc, nrows=5)

            # Si llegamos aqu√≠, el encoding funciona
            try:
                # Ahora cargar completo
                df = pd.read_csv(ruta, encoding=enc)
                print(f"‚úÖ CSV cargado: {len(df):,} registros (encoding: {enc})")

                # üîç VERIFICACI√ìN DE INTEGRIDAD MEJORADA
                print("üîç Verificaci√≥n de integridad:")
                print(f"   ‚Ä¢ Valores nulos totales: {df.isnull().sum().sum()}")
                print(f"   ‚Ä¢ Textos vac√≠os: {(df['texto'].str.strip() == '').sum()}")

                # Verificar que todos los sentimientos sean v√°lidos
                sentimientos_validos = ['positivo', 'negativo', 'neutral']
                sentimientos_invalidos = df[~df['sentimiento'].isin(sentimientos_validos)]

                if len(sentimientos_invalidos) > 0:
                    print(f"   ‚ö†Ô∏è  Sentimientos inv√°lidos: {len(sentimientos_invalidos)}")
                    print(f"      Valores √∫nicos inv√°lidos: {sentimientos_invalidos['sentimiento'].unique()}")
                else:
                    print(f"   ‚úÖ Todos los sentimientos son v√°lidos")

                # Verificar unicidad
                textos_unicos = df['texto'].nunique()
                if len(df) == textos_unicos:
                    print(f"   ‚úÖ 100% textos √∫nicos: {textos_unicos:,} textos √∫nicos")
                else:
                    print(f"   ‚ö†Ô∏è  Duplicados: {len(df) - textos_unicos:,} textos duplicados")

                if mostrar_muestra:
                    print(f"üìù Columnas: {list(df.columns)}")
                    print(f"üìä Muestra (2 filas):")
                    print(df.head(2).to_string(index=False))

                return df

            except Exception as e:
                print(f"‚ùå Error cargando con encoding {enc}: {type(e).__name__}")
                continue

        except UnicodeDecodeError:
            continue

    print("‚ùå No se pudo cargar con ning√∫n encoding com√∫n")
    return None

In [150]:
# Uso simple - as√≠ deber√≠a funcionar
df_check = verificar_csv_simple(archivo_final, mostrar_muestra=True)

‚úÖ CSV cargado: 2,759 registros (encoding: utf-8-sig)
üîç Verificaci√≥n de integridad:
   ‚Ä¢ Valores nulos totales: 0
   ‚Ä¢ Textos vac√≠os: 0
   ‚úÖ Todos los sentimientos son v√°lidos
   ‚úÖ 100% textos √∫nicos: 2,759 textos √∫nicos
üìù Columnas: ['texto', 'sentimiento']
üìä Muestra (2 filas):
                                           texto sentimiento
    ¬°Acabo de adoptar a un lindo amigo peludo!??    positivo
¬°Acabo de terminar un entrenamiento increible!??    positivo


In [151]:
# Verificar que el archivo se pueda leer
def verificar_csv_simple(ruta_archivo, mostrar_muestra=True):
    """
    Verificaci√≥n simplificada con detecci√≥n de encoding
    """
    ruta = Path(ruta_archivo)

    if not ruta.exists():
        print(f"‚ùå Archivo no encontrado: {ruta}")
        return None

    # Detectar encoding
    encodings = ['utf-8-sig', 'utf-8', 'latin1', 'cp1252']

    for enc in encodings:
        try:
            df = pd.read_csv(ruta, encoding=enc, nrows=5)  # Probar con 5 filas
            # Si llegamos aqu√≠, el encoding funciona
            try:
                # Ahora cargar completo
                df = pd.read_csv(ruta, encoding=enc)
                print(f"‚úÖ CSV cargado: {len(df):,} registros (encoding: {enc})")

                if mostrar_muestra:
                    print(f"üìù Columnas: {list(df.columns)}")
                    print(f"üìä Muestra (2 filas):")
                    print(df.head(2).to_string(index=False))

                return df
            except Exception as e:
                print(f"‚ùå Error cargando con encoding {enc}: {type(e).__name__}")
                continue

        except UnicodeDecodeError:
            continue

    print("‚ùå No se pudo cargar con ning√∫n encoding com√∫n")
    return None

# Uso simple
df_check = verificar_csv_simple(archivo_final, mostrar_muestra=True)

‚úÖ CSV cargado: 2,759 registros (encoding: utf-8-sig)
üìù Columnas: ['texto', 'sentimiento']
üìä Muestra (2 filas):
                                           texto sentimiento
    ¬°Acabo de adoptar a un lindo amigo peludo!??    positivo
¬°Acabo de terminar un entrenamiento increible!??    positivo


 ### <font size=12 color=lightgreen> Resumen ejecutivo </font>

In [152]:
print("=" * 60)
print("üìã RESUMEN EJECUTIVO - PREPROCESAMIENTO COMPLETADO")
print("=" * 60)
print(f"‚úÖ Dataset final: {len(df_exportar)} registros")
print(f"‚úÖ Distribuci√≥n balanceada: Positivo {porcentajes['positivo']}%, Negativo {porcentajes['negativo']}%, Neutral {porcentajes['neutral']}%")
print(f"‚úÖ Archivo exportado: {archivo_final}")
print(f"‚úÖ Calidad: 0 textos vac√≠os, 0 valores nulos")
print("=" * 60)

üìã RESUMEN EJECUTIVO - PREPROCESAMIENTO COMPLETADO
‚úÖ Dataset final: 2759 registros
‚úÖ Distribuci√≥n balanceada: Positivo 42.66%, Negativo 39.54%, Neutral 17.8%
‚úÖ Archivo exportado: c:\Users\marely\OneDrive\Documentos\Oracle_ONE\Hackaton\SentimentAPI-Project\sentiment-api\data-science\datasets\dataset.csv
‚úÖ Calidad: 0 textos vac√≠os, 0 valores nulos


---
### <font size=12 color=lightgreen>Observaciones</font>


### 1. **<font color='lightgreen'>Origen de los datos</font>**

Con el objetivo de mejorar la capacidad de generalizaci√≥n del modelo, se trabaj√≥ con dos datasets independientes obtenidos desde Kaggle.
Si bien ambos conjuntos de datos abordan el an√°lisis de sentimiento en espa√±ol, presentan diferencias en estructura, calidad ling√º√≠stica y formato de origen. Su integraci√≥n permiti√≥ ampliar la diversidad de expresiones textuales, reduciendo el sesgo hacia un √∫nico estilo de redacci√≥n y fortaleciendo la robustez del pipeline de preparaci√≥n de datos en escenarios similares a producci√≥n.

#### **Fuentes de datos (Kaggle):**

https://www.kaggle.com/datasets/engineercolsoquas/spanish-sentiment-analysis-dataset

https://www.kaggle.com/datasets/kashishparmar02/social-media-sentiments-analysis-dataset


---
### 2. **<font color='lightgreen'> Informe de Desaf√≠os T√©cnicos y Soluciones</font>**

#### **Dataset** 1 ‚Äì Inconsistencias en el idioma

- Problema: El dataset original presentaba traducciones incompletas, combinando registros en espa√±ol con fragmentos en su idioma original, adem√°s de traducciones literales de baja calidad. Esta situaci√≥n afectaba la coherencia sem√°ntica del texto y pod√≠a introducir ruido en el an√°lisis de sentimiento.

- Soluci√≥n aplicada: Se utiliz√≥ la herramienta de Traducci√≥n de Microsoft Excel como apoyo para identificar registros no traducidos. No obstante, la correcci√≥n se realiz√≥ de forma manual y supervisada, revisando y ajustando cada registro individualmente con el fin de preservar el significado original del texto y evitar distorsiones sem√°nticas. Posteriormente, se realiz√≥ una revisi√≥n manual (sanity check) para asegurar la consistencia ling√º√≠stica del dataset completo.

- Impacto en el an√°lisis: La normalizaci√≥n del idioma permiti√≥ obtener un corpus coherente en espa√±ol, reduciendo ambig√ºedades y mejorando la calidad de los datos de entrada para la etapa de clasificaci√≥n de sentimiento.


**Dataset 2 ‚Äì Problemas de codificaci√≥n de caracteres (encoding)**

- Problema:
El segundo dataset se encontraba en formato Excel y presentaba errores de codificaci√≥n al ser abierto, evidenciados por la aparici√≥n de caracteres especiales incorrectos (mojibake), lo que imped√≠a un procesamiento adecuado del texto.

- Soluci√≥n aplicada:
Como primer paso, el archivo fue exportado a formato CSV. Posteriormente, se realiz√≥ la ingesta mediante Power Query, donde se configur√≥ expl√≠citamente la codificaci√≥n Unicode (UTF-8), corrigiendo la estructura de caracteres antes de su integraci√≥n al pipeline de preparaci√≥n de datos.

- Impacto en el an√°lisis:
La correcci√≥n del encoding asegur√≥ la correcta interpretaci√≥n de caracteres propios del idioma espa√±ol, evitando p√©rdidas de informaci√≥n y mejorando la calidad del texto procesado.
---


### 3. **<font color='lightgreen'>Normalizaci√≥n y Limpieza de Texto</font>**
- Se aplic√≥ una funci√≥n de preprocesamiento (limpiar_texto_sentimiento) que incluy√≥:

- Preservaci√≥n de may√∫sculas/min√∫sculas (para mantener intensidad emocional).

- Eliminaci√≥n de tildes (pero conservaci√≥n de √±/√ë).

- Limpieza de URLs, menciones y caracteres no imprimibles.

- Normalizaci√≥n de espacios y saltos de l√≠nea.

**Nota: Se decidi√≥ no convertir todo a min√∫sculas para conservar pistas contextuales (ej. ‚Äú¬°GENIAL!‚Äù vs. ‚Äúgenial‚Äù), relevantes para modelos basados en intensidad emocional.**

---

### 4. <font color='lightgreen'>**Categorizaci√≥n de Sentimientos**</font>
Dado que el Dataset 1 conten√≠a 106 sentimientos diferentes, se defini√≥ un esquema de agrupaci√≥n en tres categor√≠as:

Categor√≠a	Ejemplos de Sentimientos Incluidos

La funci√≥n categorizar_sentimiento() asign√≥ cada etiqueta original a una de estas tres clases, priorizando neutral para casos ambiguos o no clasificables.



###  4. <font color='lightgreen'>**Limpieza Rigurosa del Dataset Unificado**</font>

**Problemas Identificados Post-Fusi√≥n**:
- **90 casos de contradicciones**: Textos id√©nticos con sentimientos diferentes (ej: "me siento bien" ‚Üí positivo Y negativo)
- **252 casos de duplicados exactos**: Textos id√©nticos con mismo sentimiento (ej: "qu√© bonito d√≠a" ‚Üí positivo, repetido)
- **Inconsistencia cr√≠tica** para entrenamiento de ML: Un texto no puede tener m√∫ltiples sentimientos

**Pipeline de 3 Etapas de Depuraci√≥n**:

1. **Eliminaci√≥n de Contradicciones** (prioridad m√°xima):
   - **90 textos problem√°ticos** identificados
   - **212 registros eliminados** (todos los registros de textos contradictorios)
   - **Ejemplo**: Texto "La vida es bella" aparec√≠a 3 veces: 2√ópositivo, 1√ónegativo ‚Üí se eliminaron LAS 3 apariciones

2. **Eliminaci√≥n de Duplicados Exactos**:
   - **252 textos duplicados** identificados  
   - **301 registros eliminados** (se mantuvo solo la primera aparici√≥n de cada texto)
   - **Ejemplo**: "Hoy es mi cumplea√±os" aparec√≠a 4 veces como positivo ‚Üí se mantuvo 1, se eliminaron 3

3. **Verificaci√≥n Final de Consistencia**:
   - **2,759 textos √∫nicos** (0% duplicados)
   - **0 contradicciones** (cada texto con un √∫nico sentimiento)
   - **2,759 registros finales** (cada texto aparece exactamente una vez)

**M√©tricas de Depuraci√≥n**:
| Concepto | Cantidad | Explicaci√≥n |
|----------|----------|-------------|
| **Textos iniciales** | 3,272 registros | Combinaci√≥n cruda de ambos datasets |
| **Casos de contradicci√≥n** | 90 textos | Mismo texto, sentimientos diferentes |
| **Registros por contradicciones** | 212 eliminados | Todos los registros de textos contradictorios |
| **Casos de duplicaci√≥n** | 252 textos | Mismo texto, mismo sentimiento |
| **Registros por duplicados** | 301 eliminados | Registros repetidos (manteniendo primero) |
| **Textos finales √∫nicos** | 2,759 textos | 0 duplicados, 0 contradicciones |
| **Registros finales** | 2,759 registros | Un registro por texto √∫nico |
| **Tasa de retenci√≥n** | 84.3% | 2,759/3,272 registros v√°lidos |
| **Tasa de depuraci√≥n** | 15.7% | 513/3,272 registros eliminados |

**Impacto en Calidad del Dataset**:
- ‚úÖ **Consistencia absoluta**: Cada texto ‚Üí un √∫nico sentimiento
- ‚úÖ **Unicidad garantizada**: Sin repeticiones que inflen m√©tricas
- ‚úÖ **Preparado para ML**: Estructura √≥ptima para entrenamiento y validaci√≥n

---
### 5. **<font color='lightgreen'>Estructura final de Dataset Unificado</font>**

El dataset exportado ``dataset_listo_para_ML.csv`` contiene:

**Columnas:** texto, sentimiento

**Estad√≠sticas finales**

Registros totales: 3,272

Distribuci√≥n:

- Negativo: 1,300 (39.7%)

- Positivo: 1,231 (37.6%)

- Neutral: 741 (22.7%)`
---
---

In [153]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2759 entries, 0 to 3270
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   texto        2759 non-null   object
 1   sentimiento  2759 non-null   object
dtypes: object(2)
memory usage: 64.7+ KB


 ### <font size=12 color=lightgreen> Machine Learning</font>

In [154]:
df

Unnamed: 0,texto,sentimiento
0,¬°Acabo de adoptar a un lindo amigo peludo!??,positivo
1,¬°Acabo de terminar un entrenamiento increible!??,positivo
2,¬°Adoracion desbordante por un lindo cachorro r...,positivo
3,"¬°A√±o nuevo, nuevos objetivos de fitness!??",positivo
4,¬°Celebrando el cumplea√±os de un amigo esta noc...,positivo
...,...,...
3266,Debes amar sin miedo a ser traicionado,positivo
3267,No podemos vivir con miedo: ¬°Manejen borrachos...,positivo
3268,"La vida es un constante, SIN MIEDO AL EXITO ????",positivo
3269,Esquizofrenia = mente dividida: Miedo a las re...,positivo


In [155]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords

# Descargar palabras vac√≠as
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

def limpiar_texto(texto):
    texto = " ".join([word for word in texto.split() if word not in stop_words]) # Quitar stopwords
    return texto

# Aplicar a tu dataset
df['texto'] = df['texto'].apply(limpiar_texto)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\marely\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [156]:
df

Unnamed: 0,texto,sentimiento
0,¬°Acabo adoptar lindo amigo peludo!??,positivo
1,¬°Acabo terminar entrenamiento increible!??,positivo
2,¬°Adoracion desbordante lindo cachorro rescatad...,positivo
3,"¬°A√±o nuevo, nuevos objetivos fitness!??",positivo
4,¬°Celebrando cumplea√±os amigo noche!??,positivo
...,...,...
3266,Debes amar miedo ser traicionado,positivo
3267,"No podemos vivir miedo: ¬°Manejen borrachos, de...",positivo
3268,"La vida constante, SIN MIEDO AL EXITO ????",positivo
3269,Esquizofrenia = mente dividida: Miedo realidad...,positivo


 ### <font size=12 color=lightgreen> Balanceo del Dataset, TF-IDF, Modelo, M√©tricas y Serializaci√≥n </font>

### Instalaci√≥n de `imblearn`

Primero, necesitamos instalar la librer√≠a `imblearn`, que proporciona herramientas para manejar datasets desbalanceados, incluyendo la t√©cnica SMOTE para sobremuestreo.

In [157]:
get_ipython().system('pip install imblearn')
print("Librer√≠a 'imblearn' instalada exitosamente.")




### Separaci√≥n de Caracter√≠sticas y Target

Ahora, separaremos las caracter√≠sticas (el texto limpio) y la variable objetivo (el sentimiento) de nuestro DataFrame `df`. Tambi√©n mostraremos la distribuci√≥n inicial de las clases para ver el desbalanceo.

In [158]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score
import joblib
import json
import pandas as pd

# Separar caracter√≠sticas (X) y variable objetivo (y)
X = df['texto']
y = df['sentimiento']

# Verificar la distribuci√≥n inicial de las clases
print("Distribuci√≥n inicial de las clases:")
print(y.value_counts())

Distribuci√≥n inicial de las clases:
sentimiento
positivo    1177
negativo    1091
neutral      491
Name: count, dtype: int64


### <font size=12 color=lightgreen>Divisi√≥n de Datos (Entrenamiento y Prueba) y Vectorizaci√≥n TF-IDF</font>



Es crucial dividir el dataset en conjuntos de entrenamiento y prueba *antes* de aplicar SMOTE para evitar la fuga de datos (data leakage). Luego, transformaremos los textos en vectores num√©ricos usando `TfidfVectorizer`.

In [159]:
# Dividir el dataset en conjuntos de entrenamiento y prueba ANTES de aplicar SMOTE
X_train_unbalanced, X_test, y_train_unbalanced, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"\nTama√±o del conjunto de entrenamiento (desbalanceado): {len(X_train_unbalanced)} muestras")
print(f"Tama√±o del conjunto de prueba: {len(X_test)} muestras")
print(f"Distribuci√≥n de clases en el conjunto de entrenamiento (desbalanceado):\n{y_train_unbalanced.value_counts()}")
print(f"Distribuci√≥n de clases en el conjunto de prueba:\n{y_test.value_counts()}")

# Inicializar TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=5000,ngram_range=(1,2)) # Limitando las caracter√≠sticas para eficiencia

# Ajustar y transformar X_train_unbalanced, y transformar X_test
X_train_tfidf_unbalanced = tfidf_vectorizer.fit_transform(X_train_unbalanced)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

print("\nVectorizaci√≥n TF-IDF completada en la divisi√≥n desbalanceada.")
print(f"Forma de X_train_tfidf_unbalanced: {X_train_tfidf_unbalanced.shape}")
print(f"Forma de X_test_tfidf: {X_test_tfidf.shape}")


Tama√±o del conjunto de entrenamiento (desbalanceado): 2207 muestras
Tama√±o del conjunto de prueba: 552 muestras
Distribuci√≥n de clases en el conjunto de entrenamiento (desbalanceado):
sentimiento
positivo    941
negativo    873
neutral     393
Name: count, dtype: int64
Distribuci√≥n de clases en el conjunto de prueba:
sentimiento
positivo    236
negativo    218
neutral      98
Name: count, dtype: int64

Vectorizaci√≥n TF-IDF completada en la divisi√≥n desbalanceada.
Forma de X_train_tfidf_unbalanced: (2207, 5000)
Forma de X_test_tfidf: (552, 5000)


### <font size=12 color=lightgreen> Balanceo del Conjunto de Entrenamiento con SMOTE</font>

Ahora aplicaremos SMOTE solo al conjunto de entrenamiento vectorizado (`X_train_tfidf_unbalanced`) para balancear las clases, generando muestras sint√©ticas para las clases minoritarias.

In [160]:
# Inicializar SMOTE para balancear el conjunto de datos de ENTRENAMIENTO
smote = SMOTE(random_state=42)
X_train_tfidf, y_train = smote.fit_resample(X_train_tfidf_unbalanced, y_train_unbalanced)

print("\nDistribuci√≥n de clases despu√©s de SMOTE en los datos de entrenamiento:")
print(y_train.value_counts())

print(f"Forma de X_train_tfidf despu√©s de SMOTE: {X_train_tfidf.shape}")


Distribuci√≥n de clases despu√©s de SMOTE en los datos de entrenamiento:
sentimiento
negativo    941
positivo    941
neutral     941
Name: count, dtype: int64
Forma de X_train_tfidf despu√©s de SMOTE: (2823, 5000)


### <font size=12 color=lightgreen> Entrenamiento del Modelo de Regresi√≥n Log√≠stica</font>



Entrenaremos un modelo de Regresi√≥n Log√≠stica utilizando los datos de entrenamiento balanceados y vectorizados.

In [161]:
# Entrenar el Modelo de Regresi√≥n Log√≠stica
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train_tfidf, y_train)

print("\nModelo de Regresi√≥n Log√≠stica entrenado.")


Modelo de Regresi√≥n Log√≠stica entrenado.


### <font size=12 color=lightgreen>Evaluaci√≥n del Modelo</font>

Evaluaremos el rendimiento del modelo en el conjunto de prueba utilizando m√©tricas clave como accuracy, precision, recall y F1-score.

In [162]:
# Evaluar el Modelo
y_pred = model.predict(X_test_tfidf)
y_pred_proba = model.predict_proba(X_test_tfidf)

print("\nEvaluaci√≥n del Modelo:")
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")
print(f"Precision (ponderada): {precision_score(y_test, y_pred, average='weighted'):.2f}")
print(f"Recall (ponderado): {recall_score(y_test, y_pred, average='weighted'):.2f}")
print(f"F1-Score (ponderado): {f1_score(y_test, y_pred, average='weighted'):.2f}")
print("\nReporte de Clasificaci√≥n:\n", classification_report(y_test, y_pred))


Evaluaci√≥n del Modelo:
Accuracy: 0.78
Precision (ponderada): 0.78
Recall (ponderado): 0.78
F1-Score (ponderado): 0.78

Reporte de Clasificaci√≥n:
               precision    recall  f1-score   support

    negativo       0.82      0.84      0.83       218
     neutral       0.66      0.66      0.66        98
    positivo       0.80      0.78      0.79       236

    accuracy                           0.78       552
   macro avg       0.76      0.76      0.76       552
weighted avg       0.78      0.78      0.78       552



### <font size=12 color=lightgreen> Serializaci√≥n del Modelo y Vectorizadors</font>



Guardaremos el modelo entrenado y el objeto `TfidfVectorizer` utilizando `joblib` para poder reutilizarlos m√°s tarde en la API de predicci√≥n.

In [163]:
# Serializar el Modelo y el Vectorizador
joblib.dump(model, '/content/modelo_sentimientos.pkl')
joblib.dump(tfidf_vectorizer, '/content/vectorizador.pkl')

print("\nModelo y vectorizador guardados exitosamente en '/content/modelo_sentimientos.pkl' y '/content/vectorizador.pkl'.")

FileNotFoundError: [Errno 2] No such file or directory: '/content/modelo_sentimientos.pkl'

### Prueba del Modelo con Salida JSON

Crearemos una funci√≥n para probar el modelo con nuevas rese√±as de texto. Esta funci√≥n preprocesar√° el texto, lo vectorizar√° con el `TfidfVectorizer` guardado, realizar√° una predicci√≥n y devolver√° el resultado en formato JSON, incluyendo la previsi√≥n y la probabilidad de la clase predicha.

In [None]:
# Recargar el modelo y el vectorizador para probar (como si fuera una nueva sesi√≥n/API)
loaded_model = joblib.load('/content/modelo_sentimientos.pkl')
loaded_vectorizer = joblib.load('/content/vectorizador.pkl')

def predict_sentiment_json(text_review):
    # Preprocesamiento (igual que para los datos de entrenamiento)
    # Asumiendo que `pre_proccess_text` y `limpiar_texto` est√°n definidos en celdas anteriores
    cleaned_text = limpiar_texto(text_review)
    cleaned_text = limpiar_texto(cleaned_text)

    # Vectorizar el texto limpio
    text_vectorized = loaded_vectorizer.transform([cleaned_text])

    # Predecir el sentimiento
    prediction = loaded_model.predict(text_vectorized)[0]

    # Predecir las probabilidades
    probabilities = loaded_model.predict_proba(text_vectorized)[0]
    class_labels = loaded_model.classes_
    # Asegurar el mapeo correcto de probabilidades a etiquetas
    prob_dict = {label: round(prob * 100, 2) for label, prob in zip(class_labels, probabilities)}

    # Obtener la probabilidad de la clase predicha
    predicted_prob = prob_dict[prediction]

    result = {
        "prevision": prediction,
        "probabilidad": predicted_prob
    }
    return json.dumps(result, indent=4)

# Ejemplos de uso de la funci√≥n de predicci√≥n
new_review1 = "Tengo hambre"
new_review2 = "mala actitud del personal"
new_review3 = "La situaci√≥n es complicada, no s√© qu√© pensar."

print(f"\nPredicci√≥n para '{new_review1}':")
print(predict_sentiment_json(new_review1))

print(f"\nPredicci√≥n para '{new_review2}':")
print(predict_sentiment_json(new_review2))

print(f"\nPredicci√≥n para '{new_review3}':")
print(predict_sentiment_json(new_review3))


Predicci√≥n para 'Tengo hambre':
{
    "prevision": "negativo",
    "probabilidad": 34.5
}

Predicci√≥n para 'mala actitud del personal':
{
    "prevision": "positivo",
    "probabilidad": 55.58
}

Predicci√≥n para 'La situaci√≥n es complicada, no s√© qu√© pensar.':
{
    "prevision": "neutral",
    "probabilidad": 42.59
}


### <font size=12 color=lightgreen>Exportaci√≥n del modelo</font>

In [None]:
from sklearn.pipeline import Pipeline
import joblib

# Creamos un Pipeline manual uniendo las dos piezas
pipeline_para_produccion = Pipeline([
    ('vectorizer', tfidf_vectorizer), # Primero transforma el texto a n√∫meros
    ('classifier', model)             # Luego predice con esos n√∫meros
])

# Probamos que funcione antes de exportar
test_text = ["Este es un ejemplo de prueba para ver si funciona el pipeline"]
prediccion = pipeline_para_produccion.predict(test_text)
print(f"Prueba del pipeline: {prediccion}")

# EXPORTAR EL ARCHIVO FINAL
# Este es el archivo que debes subir a la carpeta de tu microservicio
joblib.dump(pipeline_para_produccion, 'modelo_entrenado.joblib')

print("‚úÖ Archivo 'modelo_entrenado.joblib' creado exitosamente.")

Prueba del pipeline: ['negativo']
‚úÖ Archivo 'modelo_entrenado.joblib' creado exitosamente.
