# <font size=35 color=lightgreen>** Sentiment API **<font>ü•≤
---

### <font size=12 color=lightgreen>Configuraci√≥n Inicial (Librer√≠as)</font>

#### 1. Procesamiento y Manipulaci√≥n de Datos
* **`pandas`**
    * Nos ayuda con la manipulaci√≥n y an√°lisis de datos estructurados.
    * Carga el dataset (CSV), gestiona el DataFrame y permite filtrar o limpiar registros.
* **`numpy`**
    * Realiza las operaciones matem√°ticas y manejo de arrays eficientes.
    * Soporte num√©rico fundamental para las transformaciones vectoriales de los textos.

#### 2. Visualizaci√≥n y An√°lisis Exploratorio

* **`matplotlib.pyplot`**
    * Generaci√≥n de gr√°ficos est√°ticos.
    * Visualizaci√≥n b√°sica de la distribuci√≥n de clases (Positivo vs. Negativo).
* **`seaborn`**
    * Visualizaci√≥n de datos estad√≠sticos avanzada.
    * Generaci√≥n de matrices de confusi√≥n y gr√°ficos de distribuci√≥n est√©ticos para la presentaci√≥n.

#### 3. Procesamiento de Lenguaje Natural (NLP) y Limpieza

* **`re`** (Regular Expressions)
    * Manejo de expresiones regulares.
    * Eliminaci√≥n de ruido en el texto: URLs, menciones (@usuario), hashtags (#) y caracteres especiales no alfanum√©ricos.
* **`string`**
    * Constantes de cadenas comunes.
    * Provee listas est√°ndar de signos de puntuaci√≥n para su eliminaci√≥n eficiente.

#### 4. Modelado y Machine Learning (Core)

* **`scikit-learn`**
    * Biblioteca principal de Machine Learning.
    * **`TfidfVectorizer`**: Transforma el texto limpio en vectores num√©ricos.
    * **`LogisticRegression`**: Algoritmo de clasificaci√≥n supervisada.
    * **`metrics`**: C√°lculo de precisi√≥n, recall y F1-score.
    * **`Pipeline`**: Encapsulamiento de los pasos de transformaci√≥n y predicci√≥n.

#### 5. Persistencia e Integraci√≥n
Herramientas para conectar el modelo con el Backend.

* **`joblib`**
    * Serializaci√≥n eficiente de objetos Python.
    * Exportar (`dump`) el pipeline entrenado a un archivo `.joblib` y cargarlo (`load`) en la API para realizar predicciones.
* **`fastapi` & `uvicorn`**
    * Framework web moderno de alto rendimiento.
    * Exponer el modelo entrenado como un microservicio REST (endpoint `/predict`) para ser consumido por el Backend en Java.




---



### <font size=16  color=lightgreen> Importando librer√≠as <font>



In [183]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from _plotly_utils.basevalidators import SubplotidValidator
from pathlib import Path
import urllib.response
import urllib.request
from datetime import datetime
import re
import string
import chardet
import unicodedata
from io import StringIO
import uvicorn
import sklearn
import fastapi
import joblib
import nltk
import os
import warnings
import json
from urllib.error import URLError, HTTPError
warnings.filterwarnings('ignore')


### <font size = 8 color="lightgreen">Importaci√≥n de diccionario<font>

In [184]:
# ==========================================================
# üéØ CARGAR DICIONARIO DE SENTIMIENTOS (VERSI√ìN CORREGIDA)
# ==========================================================

import json
import urllib.request
from urllib.error import URLError, HTTPError

def cargar_diccionario_completo():
    """
    Carga el diccionario de sentimientos y retorna TODAS las variables necesarias.
    """
    # URL corregida (raw de GitHub)
    url = "https://raw.githubusercontent.com/ml-punto-tech/sentiment-api/feature/data-science-marely/data-science/sources/diccionarios/sentimientos_mapeo.json"
    
    print(f"üì• Cargando diccionario desde: {url}")
    
    try:
        # 1. Descargar
        with urllib.request.urlopen(url) as response:
            content = response.read()
        
        # 2. Decodificar y cargar JSON
        datos = json.loads(content.decode('utf-8'))
        print(f"‚úÖ JSON cargado: {len(datos)} sentimientos")
        
        # 3. Crear listas de categor√≠as
        positivos_es = [k for k, v in datos.items() if v == 'positivo']
        negativos_es = [k for k, v in datos.items() if v == 'negativo']
        neutros_es = [k for k, v in datos.items() if v == 'neutral']

        print(f"üìä Distribuci√≥n:")
        print(f"   ‚Ä¢ Positivos: {len(positivos_es)}")
        print(f"   ‚Ä¢ Negativos: {len(negativos_es)}")
        print(f"   ‚Ä¢ Neutros: {len(neutros_es)}")
        
        # 4. Retornar todas las variables en un diccionario
        return {
            'datos': datos,
            'positivos': positivos_es,
            'negativos': negativos_es,
            'neutros': neutros_es
        }
        
    except HTTPError as e:
        print(f"‚ùå Error HTTP {e.code}: {e.reason}")
    except URLError as e:
        print(f"‚ùå Error de URL: {e.reason}")
    except json.JSONDecodeError as e:
        print(f"‚ùå Error en JSON: {e}")
    except Exception as e:
        print(f"‚ùå Error inesperado: {type(e).__name__}: {e}")

   # Retornar diccionario vac√≠o en caso de error
    return {
        'datos': {},
        'positivos': [],
        'negativos': [],
        'neutros': []
    }

# ==================== EJECUCI√ìN ====================
print("=" * 60)
print("CARGANDO DICCIONARIO DE SENTIMIENTOS")
print("=" * 60)

# Cargar y obtener todas las variables
diccionario_data = cargar_diccionario_completo()

# Extraer las variables individuales
datos_es = diccionario_data['datos']
positivos_es = diccionario_data['positivos']
negativos_es = diccionario_data['negativos']
neutros_es = diccionario_data['neutros']

print("\n" + "=" * 60)
print("‚úÖ VARIABLES CREADAS Y DISPONIBLES:")
print("=" * 60)
print(f"‚Ä¢ 'datos_es' (diccionario completo): {len(datos_es)} elementos")
print(f"‚Ä¢ 'positivos_es' (lista): {len(positivos_es)} elementos")
print(f"‚Ä¢ 'negativos_es' (lista): {len(negativos_es)} elementos")
print(f"‚Ä¢ 'neutros_es' (lista): {len(neutros_es)} elementos")

# Mostrar ejemplos
if positivos_es:
    print(f"\nüîç Ejemplo de positivos: {positivos_es[:3]}")
if negativos_es:
    print(f"üîç Ejemplo de negativos: {negativos_es[:3]}")
if neutros_es:
    print(f"üîç Ejemplo de neutros: {neutros_es[:3]}")


CARGANDO DICCIONARIO DE SENTIMIENTOS
üì• Cargando diccionario desde: https://raw.githubusercontent.com/ml-punto-tech/sentiment-api/feature/data-science-marely/data-science/sources/diccionarios/sentimientos_mapeo.json
‚úÖ JSON cargado: 106 sentimientos
üìä Distribuci√≥n:
   ‚Ä¢ Positivos: 62
   ‚Ä¢ Negativos: 39
   ‚Ä¢ Neutros: 5

‚úÖ VARIABLES CREADAS Y DISPONIBLES:
‚Ä¢ 'datos_es' (diccionario completo): 106 elementos
‚Ä¢ 'positivos_es' (lista): 62 elementos
‚Ä¢ 'negativos_es' (lista): 39 elementos
‚Ä¢ 'neutros_es' (lista): 5 elementos

üîç Ejemplo de positivos: ['aceptacion', 'admiracion', 'adoracion']
üîç Ejemplo de negativos: ['abrumado', 'aburrimiento', 'aislamiento']
üîç Ejemplo de neutros: ['ambivalencia', 'anticipacion', 'curiosidad']


In [185]:
#============================================================================
#FUNCI√ìN AUXILIAR - PROCESAR DICCIONARIO Y NOMBRES DE VARIABLES
# ============================================================================
def procesar_dic(dict, funcion_proceso, sufijo=''):
    """
    Procesa todos los elementos de un diccionario seg√∫n su idioma
    Funci√≥n auxiliar para iteraci√≥n de diccionarios y creaci√≥n de nombres actualizados.
    Args:
        dict: Diccionario {nombre_df: dataframe}
        funcion_proceso: Funci√≥n que procesa un dataframe
        sufijo: Sufijo para el nuevo nombre

    Returns:
        Nuevo diccionario con nombres actualizados
    """
    nuevo_dict = {}

    for nombre, item in dict.items():
        # Extraer partes del nombre
        partes = nombre.split('_')

        if len(partes) >= 2:
            nombre_base = partes[0]          # 'df1'

            # Aplicar funci√≥n de procesamiento
            df_proc = funcion_proceso(item, nombre)

            # Crear nuevo nombre
            nuevo_nombre = f"{nombre_base}{sufijo}"
            nuevo_dict[nuevo_nombre] = df_proc

            print(f"‚úÖ {nombre} ‚Üí {nuevo_nombre}")
            print('-' * 80)

    return nuevo_dict

### <font size = 8 color="lightgreen">Importaci√≥n de datasets<font>

#### **Url Datasets**

In [186]:
datasets = {
    "df1_es":"https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/datasets/datasets-origin/dataset1_esp.csv,sep=;",
    "df2_es":"https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/datasets/datasets-origin/dataset2_esp.csv,sep=;",
    "df3_es":"https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/datasets/datasets-origin/dataset3_esp.csv,sep=,",
}

#### **Funci√≥n importaci√≥n dataset**

In [187]:
# IMPORTAR DATASETS

def importar_dataset(url_param, nombre):
    """
    Importa dataset desde URL que incluye par√°metros en el string.
    Formato: "url,sep=X" o "url,encoding=Y,sep=Z"
    """
    try:
        print(f"\n{'='*50}")
        print(f"üì• PROCESANDO: {nombre}")
        print(f"{'='*50}")
        
        # 1. Parsear URL y par√°metros usando regex para mayor robustez
        if ',' in url_param:
            # Encontrar la URL (todo antes del primer par√°metro)
            match = re.match(r'^([^,]+)(,.+)?$', url_param)
            if match:
                url = match.group(1).strip()
                parametros_str = match.group(2) or ""
            else:
                url = url_param
                parametros_str = ""
        else:
            url = url_param
            parametros_str = ""
        
        print(f"üîó URL: {url[:80]}..." if len(url) > 80 else f"üîó URL: {url}")
        
        # 2. Extraer par√°metros con valores por defecto
        sep = ';'  # separador por defecto
        encoding_param = None
        
        if parametros_str:
            # Extraer todos los par√°metros tipo "key=value"
            parametros = re.findall(r'(\w+)=([^,]+)', parametros_str)
            parametros_dict = dict(parametros)
            
            # Obtener separador
            if 'sep' in parametros_dict:
                sep = parametros_dict['sep']
                # Si sep es literal 'comma', convertirlo a ','
                if sep.lower() == 'comma':
                    sep = ','
            
            # Obtener encoding si est√° especificado
            if 'encoding' in parametros_dict:
                encoding_param = parametros_dict['encoding']
        
        print(f"üìù Separador detectado: '{sep}'")
        if encoding_param:
            print(f"üìù Encoding especificado: {encoding_param}")
        
        # 3. Descargar contenido
        print("‚è¨ Descargando contenido...")
        req = urllib.request.Request(
            url, 
            headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
        )
        
        with urllib.request.urlopen(req, timeout=30) as response:
            content = response.read()
        
        # 4. Determinar encoding
        if encoding_param and encoding_param.lower() != 'auto':
            # Usar encoding especificado
            encoding = encoding_param
            print(f"üîç Usando encoding especificado: {encoding}")
        else:
            # Detectar encoding autom√°ticamente
            print("üîç Detectando encoding autom√°ticamente...")
            result = chardet.detect(content)
            encoding = result['encoding'] or 'utf-8'
            print(f"üîç Encoding detectado: {encoding} (confianza: {result['confidence']:.2%})")
        
        # 5. Decodificar y cargar
        print("üíæ Cargando DataFrame...")
        decoded_content = content.decode(encoding, errors='replace')
        
        # Intentar cargar con el separador detectado
        try:
            data = pd.read_csv(StringIO(decoded_content), sep=sep)
            print(f"‚úÖ {nombre}: Cargado exitosamente")
            
        except pd.errors.ParserError:
            print(f"‚ö†Ô∏è  Error con separador '{sep}'. Probando alternativas...")
            # Probar separadores alternativos comunes
            separadores_alternativos = [',', ';', '\t', '|']
            
            for alt_sep in separadores_alternativos:
                if alt_sep != sep:  # No probar el mismo
                    try:
                        data = pd.read_csv(StringIO(decoded_content), sep=alt_sep)
                        print(f"‚úÖ {nombre}: Cargado con separador alternativo '{alt_sep}'")
                        break
                    except:
                        continue
            else:
                # Si ning√∫n separador funciona, intentar sin especificar
                print("üîÑ Intentando con separador autom√°tico...")
                data = pd.read_csv(StringIO(decoded_content), sep=None, engine='python')
                print(f"‚úÖ {nombre}: Cargado con separador autom√°tico")
        
        # 6. Mostrar informaci√≥n del dataset
        print(f"üìä Dimensiones: {data.shape[0]} filas √ó {data.shape[1]} columnas")
        print(f"üìã Columnas ({len(data.columns)}):")
        for i, col in enumerate(data.columns[:5]):  # Mostrar primeras 5 columnas
            print(f"   {i+1}. {col}")
        if len(data.columns) > 5:
            print(f"   ... y {len(data.columns)-5} columnas m√°s")
        
        print(f"üîç Muestra (3 filas aleatorias):")
        print(data.sample(min(3, len(data))).to_string(index=False))
        
        return data
        
    except urllib.error.URLError as e:
        print(f"‚ùå Error de conexi√≥n en {nombre}: {e}")
        return None
    except Exception as e:
        print(f"‚ùå Error inesperado en {nombre}: {type(e).__name__}: {str(e)[:100]}...")
        return None

# Tu c√≥digo original SIN MODIFICAR
def fase_carga_datasets(datasets):
    print('=' * 60)
    print('>>> INFORME DE CARGA DATASETS')
    print('=' * 60)
    
    nuevo_diccionario = procesar_dic(
        dict=datasets,
        funcion_proceso=importar_dataset,
        sufijo='_cargado'
    )
    
    # Resumen final
    print('\n' + '=' * 60)
    print('>>> RESUMEN DE CARGA')
    print('=' * 60)
    
    cargados = sum(1 for df in nuevo_diccionario.values() if df is not None)
    print(f"üìä Datasets cargados exitosamente: {cargados}/{len(datasets)}")
    
    for nombre_original, df in zip(datasets.keys(), nuevo_diccionario.values()):
        nombre_nuevo = nombre_original.split('_')[0] + '_cargado'
        if df is not None:
            print(f"  ‚úÖ {nombre_original} ‚Üí {nombre_nuevo}: {df.shape}")
        else:
            print(f"  ‚ùå {nombre_original} ‚Üí {nombre_nuevo}: FALL√ì")
    
    return nuevo_diccionario


# Ejecutar
print("üöÄ Iniciando carga de datasets...")
dfs_originales = fase_carga_datasets(datasets)

# Verificar resultados
if dfs_originales:
    print("\nüéØ DATASETS CARGADOS DISPONIBLES:")
    for nombre, df in dfs_originales.items():
        if df is not None:
            print(f"  ‚Ä¢ {nombre}: {type(df).__name__} con forma {df.shape}")

üöÄ Iniciando carga de datasets...
>>> INFORME DE CARGA DATASETS

üì• PROCESANDO: df1_es
üîó URL: https://github.com/ml-punto-tech/sentiment-api/raw/refs/heads/dev/data-science/d...
üìù Separador detectado: ';'
‚è¨ Descargando contenido...
üîç Detectando encoding autom√°ticamente...
üîç Encoding detectado: utf-8 (confianza: 99.00%)
üíæ Cargando DataFrame...
‚úÖ df1_es: Cargado exitosamente
üìä Dimensiones: 1465 filas √ó 15 columnas
üìã Columnas (15):
   1. Unnamed: 0.1
   2. Unnamed: 0
   3. Text
   4. Sentiment
   5. Timestamp
   ... y 10 columnas m√°s
üîç Muestra (3 filas aleatorias):
Unnamed: 0.1 Unnamed: 0                                                              Text    Sentiment        Timestamp         User  Platform                       Hashtags Retweets Likes Country Year Month Day Hour
         183        185    El aburrimiento se asienta como polvo, la vida parece mundana. Aburrimiento 28-11-2016 19:00 MundaneHeart Instagram       #Aburrimiento #Monoton√≠a     

In [188]:
# Mostrar las claves del diccionario de dataframes cargados
print(list(dfs_originales.keys()))
df1_cargado = dfs_originales.get('df1_cargado')
df2_cargado = dfs_originales.get('df2_cargado')
df3_cargado = dfs_originales.get('df3_cargado')

['df1_cargado', 'df2_cargado', 'df3_cargado']


<font color='lightgreen' size=12>Filtrar y explorar datasets</font>

In [189]:
def normalizar_columnas(df):
    df_copia = df.copy()

    col_texto_encontrada = None
    # Buscar una columna que pueda contener el texto
    for nombre_columna in ['texto', 'Text', 'contenido']:
        if nombre_columna in df_copia.columns:
            col_texto_encontrada = nombre_columna
            break

    col_sentimiento_encontrada = None
    # Buscar una columna que pueda contener el sentimiento
    for nombre_columna in ['sentimiento', 'Sentiment', 'etiqueta']:
        if nombre_columna in df_copia.columns:
            # Si la columna 'sentimiento' ya existe y es de tipo string (ej., 'positivo', 'negativo'), priorizarla.
            if nombre_columna == 'sentimiento' and df_copia[nombre_columna].dtype == 'object':
                col_sentimiento_encontrada = nombre_columna
                break
            # De lo contrario, si 'Sentiment' existe y es de tipo objeto
            elif nombre_columna == 'Sentiment' and df_copia[nombre_columna].dtype == 'object':
                col_sentimiento_encontrada = nombre_columna
                break
            # Si 'etiqueta' existe (a menudo num√©rica para sentimiento)
            elif nombre_columna == 'etiqueta' and pd.api.types.is_numeric_dtype(df_copia[nombre_columna]):
                col_sentimiento_encontrada = nombre_columna
                # No salir inmediatamente, ya que una columna 'sentimiento' de tipo string podr√≠a existir y ser preferible.
                # Continuar buscando 'sentimiento' o 'Sentiment' primero.
            # Caso general para cualquier otra columna de sentimiento encontrada
            elif col_sentimiento_encontrada is None: # Solo asignar si no se ha asignado ya una de mayor prioridad.
                col_sentimiento_encontrada = nombre_columna

    if col_texto_encontrada is None or col_sentimiento_encontrada is None:
        # Si las columnas esenciales faltan, retornar un DataFrame vac√≠o con las columnas esperadas.
        return pd.DataFrame(columns=['texto', 'sentimiento'])

    # Renombrar si es necesario
    if col_texto_encontrada != 'texto':
        df_copia.rename(columns={col_texto_encontrada: 'texto'}, inplace=True)
    if col_sentimiento_encontrada != 'sentimiento':
        df_copia.rename(columns={col_sentimiento_encontrada: 'sentimiento'}, inplace=True)

    # Retornar solo las dos columnas requeridas.
    return df_copia[['texto', 'sentimiento']]

In [190]:
def filtrar_dataframe(df,nombre):
    # A√±adir una verificaci√≥n al inicio para DataFrame nulo
    if df is None:
        print(f"Advertencia: DataFrame '{nombre}' es None, saltando filtrado.")
        return None

    # Paso 1: Normalizar nombres de columnas
    # normalizar_columnas ahora devuelve solo 'texto' y 'sentimiento' o un df vac√≠o.
    df = normalizar_columnas(df)

    # Paso 2: Verificar que las columnas necesarias existan despu√©s de la normalizaci√≥n
    columnas_requeridas = ['texto', 'sentimiento']
    if not all(col in df.columns for col in columnas_requeridas) or df.empty:
        # Si la normalizaci√≥n fall√≥ o devolvi√≥ un df vac√≠o, df estar√° vac√≠o aqu√≠.
        print(f"Advertencia: No se encontraron las columnas requeridas o el DataFrame est√° vac√≠o despu√©s de normalizar en {nombre}.")
        return None

    # Paso 3: La l√≥gica actual de filtrado (ahora se garantiza que df tiene 'texto', 'sentimiento')
    df_filtrado = df[columnas_requeridas].copy()

    # Mostrar estad√≠sticas
    print(f'\nRESUMEN {nombre}')
    print(f"üìä Tama√±o del dataframe: {df_filtrado.shape}")
    print(f"üìä Registros √∫nicos: {df_filtrado['texto'].nunique()}")
    print(f"üìä Sentimientos √∫nicos: {df_filtrado['sentimiento'].nunique()}")
    print(f"üìä Textos vac√≠os: {df_filtrado['texto'].isnull().sum()}")
    print(f"üìä Sentimientos vac√≠os: {df_filtrado['sentimiento'].isnull().sum()}")
    print(f"üìä Registros duplicados: {df_filtrado.duplicated().sum()}")
    print(f"üìä Textos duplicados: {df_filtrado.duplicated(subset=['texto']).sum()}")

    print(df_filtrado.sample(3))

    return df_filtrado

In [191]:
def fase_filtrado(dfs_originarios):
    # Solo orquesta: delega el recorrido a procesar_dict
    dfs_filtrados = procesar_dic(
        dict=dfs_originales,
        funcion_proceso=filtrar_dataframe,
        sufijo='_filtrado'
    )
    return dfs_filtrados

# Uso
dfs_filtrados = fase_filtrado(dfs_originales)


RESUMEN df1_cargado
üìä Tama√±o del dataframe: (1465, 2)
üìä Registros √∫nicos: 708
üìä Sentimientos √∫nicos: 105
üìä Textos vac√≠os: 2
üìä Sentimientos vac√≠os: 2
üìä Registros duplicados: 754
üìä Textos duplicados: 756
                                                  texto    sentimiento
1191  En el tapiz de la desesperaci√≥n, se desenredan...  Desesperaci√≥n
548   Al presenciar un conmovedor regreso en la fina...  Reconfortante
555   Al experimentar una serie de derrotas en la te...        Neutral
‚úÖ df1_cargado ‚Üí df1_filtrado
--------------------------------------------------------------------------------

RESUMEN df2_cargado
üìä Tama√±o del dataframe: (2540, 2)
üìä Registros √∫nicos: 2156
üìä Sentimientos √∫nicos: 3
üìä Textos vac√≠os: 0
üìä Sentimientos vac√≠os: 0
üìä Registros duplicados: 298
üìä Textos duplicados: 384
                                                  texto sentimiento
1993  Admito que un momento muy veneco de mi parte a...     neutral
1319  A

In [192]:
print(list(dfs_filtrados.keys()))

['df1_filtrado', 'df2_filtrado', 'df3_filtrado']


### <font size=12 color=lightgreen>Limpiar textos</font>

#### **Funci√≥n para limpieza de textos**

In [193]:
def limpiar_texto_sentimientos(texto):
    """
    Normaliza texto espa√±ol preservando √± y eliminando tildes.
    NO convierte a min√∫sculas para preservar intensidad emocional.
    """
    # Verifica si la entrada no es una cadena. Si no lo es, devuelve una cadena vac√≠a.
    if not isinstance(texto, str):
        return ""

    # 1. Normaliza el texto para separar los caracteres base de sus diacr√≠ticos (ej., tildes).
    texto = unicodedata.normalize('NFD', texto)

    # 2. Reemplaza temporalmente las '√±' y '√ë' con marcadores especiales para preservarlas
    # durante la eliminaci√≥n de diacr√≠ticos.
    texto = texto.replace('n\u0303', '@@@N_TILDE@@@')
    texto = texto.replace('√±', '@@@N_TILDE@@@')
    texto = texto.replace('N\u0303', '@@@N_TILDE_MAYUS@@@')
    texto = texto.replace('√ë', '@@@N_TILDE_MAYUS@@@')

    # 3. Elimina los caracteres diacr√≠ticos (como las tildes) del texto.
    texto = ''.join(
        char for char in texto
        if not unicodedata.combining(char)
    )

    # Restaura las '√±' y '√ë' utilizando los marcadores temporales.
    texto = texto.replace('@@@N_TILDE@@@', '√±')
    texto = texto.replace('@@@N_TILDE_MAYUS@@@', '√ë')


    # Variable para almacenar el resultado de la limpieza.
    resultado = texto
    chars = []

    # Itera sobre cada caracter en el resultado y a√±ade solo los caracteres imprimibles a una lista.
    # Los caracteres no imprimibles (como los de control) son reemplazados por un espacio.
    for char in resultado:
        if char.isprintable():
            chars.append(char)
        else:
            chars.append(' ')
    resultado = ''.join(chars)
    
    # Elimina los caracteres '#' que est√°n directamente seguidos por una palabra (hashtags).
    resultado = re.sub(r'#(?=\S)', '', resultado)

    # Elimina URLs que terminan en "..." (posibles URLs rotas).
    resultado = re.sub(r'https?://[^\s]*\.\.\.', '[URL_ROTA]', resultado)
    resultado = re.sub(r'www\.[^\s]*\\.\\.\\.', '[URL_ROTA]', resultado)

    # Normaliza los espacios m√∫ltiples a uno solo y elimina espacios al inicio y final.
    resultado = ' '.join(resultado.split())
    resultado = resultado.strip()


    # Devuelve el texto preprocesado.
    return resultado


In [194]:
from typing import Iterable
def obtener_lista_ordenada(*series_o_listas: Iterable,nombre='nombre'):
    """
    Acepta cualquier cantidad de Series/Listas de sentimientos y devuelve
    una lista ordenada de sentimientos √∫nicos ya limpios.
    """

    # 1) Unir todas las entradas en un solo iterable
    todos = []
    for s in series_o_listas:
        todos.extend(list(s))


    # 2) Limpiar y eliminar duplicados en un solo paso usando un set
    sentimientos_limpios = {limpiar_texto_sentimientos(x) for x in todos}

    print('\n====> RESUMEN LIMPIEZA',nombre)
    print(f'üìä Registros (original):',len(todos))
    print(f'üìä Registros (despues de la limpieza):',len(sentimientos_limpios))
    # listar 
    print(f'Lista {nombre} limpios: {', '.join(sentimientos_limpios)}')

    print('-' * 80)

    # 3) Devolver ordenado
    return sorted(sentimientos_limpios)

In [195]:
# Limpieza dataframe

def limpiar_columnas(df, col1_name, col2_name, nombre_df):
    df_copy = df.copy()
    
    print(f"üîÑ Procesando {nombre_df}...")
    print(f"  Antes: {df_copy.shape}")
    
    df_copy[col1_name + "_limpio"] = df_copy[col1_name].apply(limpiar_texto_sentimientos)
    df_copy[col2_name + "_limpio"] = df_copy[col2_name].apply(limpiar_texto_sentimientos)
    
    print(f"  Despu√©s: {df_copy.shape}, nuevas cols: {col1_name}_limpio, {col2_name}_limpio")
    
    return df_copy


In [196]:
# ============================================================================
# FUNCI√ìN 3: Fase de limpieza b√°sica (ORQUESTADOR)
# ============================================================================
def fase_limpieza_texto(dfs_filtrados):
    """
    Orquesta la limpieza b√°sica de todos los datasets

    Args:
        dfs_originales: Diccionario con datasets filtrados

    Returns:
        Diccionario con datasets despu√©s de limpieza b√°sica
    """
    print("\n" + "="*70)
    print("üöÄ FASE 1: LIMPIEZA B√ÅSICA (COM√öN A TODOS)")
    print("="*70)

    # Usar procesar_dict_con_idioma para recorrer todos
    dfs_limpios_resultado = procesar_dic(
        dict=dfs_filtrados, # Corrected: should use dfs_filtrados here
        funcion_proceso=lambda df, nombre: limpiar_columnas(
            df,
            col1_name="texto",
            col2_name="sentimiento",
            nombre_df=nombre
        ),
        sufijo='_limpio'
    )

    print("\n‚úÖ LIMPIEZA B√ÅSICA COMPLETADA")
    print(f"‚Ä¢ Entrada: {len(dfs_filtrados)} datasets")
    print(f"‚Ä¢ Salida: {len(dfs_limpios_resultado)} datasets procesados")

    return dfs_limpios_resultado

# Call the function and assign its result to the global dfs_limpios
dfs_limpios = fase_limpieza_texto(dfs_filtrados)
print(list(dfs_limpios.keys()))


üöÄ FASE 1: LIMPIEZA B√ÅSICA (COM√öN A TODOS)
üîÑ Procesando df1_filtrado...
  Antes: (1465, 2)
  Despu√©s: (1465, 4), nuevas cols: texto_limpio, sentimiento_limpio
‚úÖ df1_filtrado ‚Üí df1_limpio
--------------------------------------------------------------------------------
üîÑ Procesando df2_filtrado...
  Antes: (2540, 2)
  Despu√©s: (2540, 4), nuevas cols: texto_limpio, sentimiento_limpio
‚úÖ df2_filtrado ‚Üí df2_limpio
--------------------------------------------------------------------------------
üîÑ Procesando df3_filtrado...
  Antes: (740, 2)
  Despu√©s: (740, 4), nuevas cols: texto_limpio, sentimiento_limpio
‚úÖ df3_filtrado ‚Üí df3_limpio
--------------------------------------------------------------------------------

‚úÖ LIMPIEZA B√ÅSICA COMPLETADA
‚Ä¢ Entrada: 3 datasets
‚Ä¢ Salida: 3 datasets procesados
['df1_limpio', 'df2_limpio', 'df3_limpio']


<font color=lightgreen size=12>Unificar dfs</font>

In [197]:
import pandas as pd

def unificar_dfs_limpios(dfs_limpios):
    """
    Une todos los DataFrames del diccionario dfs_limpios en df_unificado.
    Valida columnas iguales y muestra estad√≠sticas detalladas.
    """
    # Validaciones
    if not dfs_limpios:
        print("‚ùå Error: dfs_limpios est√° vac√≠o")
        return None
    
    dfs_list = list(dfs_limpios.values())
    columnas_esperadas = ['texto_limpio', 'sentimiento_limpio']  # De tu workflow
    
    # Estad√≠sticas antes de unir
    print("üìä ESTAD√çSTICAS ANTES DE UNIFICAR:")
    print("=" * 50)
    total_filas = 0
    for nombre, df in dfs_limpios.items():
        print(f"{nombre}: {df.shape[0]} filas, {df.shape[1]} cols")
        print(f"  Columnas: {list(df.columns)}")
        if not all(col in df.columns for col in columnas_esperadas):
            print(f"  ‚ö†Ô∏è  {nombre} falta columnas esperadas")
        total_filas += df.shape[0]
    
    # Verificar columnas iguales
    columnas_set = {frozenset(df.columns) for df in dfs_list}
    if len(columnas_set) > 1:
        print("‚ùå Error: Columnas no coinciden entre DataFrames")
        return None
    
    # Unificar
    df_unificado = pd.concat(dfs_list, ignore_index=True)
    
    # Estad√≠sticas despu√©s
    print("\n‚úÖ UNIFICACI√ìN COMPLETADA:")
    print("=" * 50)
    print(f"df_unificado: {df_unificado.shape[0]} filas, {df_unificado.shape[1]} cols")
    print(f"Total filas originales: {total_filas} ‚úì")
    print("\nPrimeras 3 filas:")
    print(df_unificado.head(3))
    
    return df_unificado

# Uso:
df_unificado = unificar_dfs_limpios(dfs_limpios)


üìä ESTAD√çSTICAS ANTES DE UNIFICAR:
df1_limpio: 1465 filas, 4 cols
  Columnas: ['texto', 'sentimiento', 'texto_limpio', 'sentimiento_limpio']
df2_limpio: 2540 filas, 4 cols
  Columnas: ['texto', 'sentimiento', 'texto_limpio', 'sentimiento_limpio']
df3_limpio: 740 filas, 4 cols
  Columnas: ['texto', 'sentimiento', 'texto_limpio', 'sentimiento_limpio']

‚úÖ UNIFICACI√ìN COMPLETADA:
df_unificado: 4745 filas, 4 cols
Total filas originales: 4745 ‚úì

Primeras 3 filas:
                                              texto sentimiento  \
0      ¬°Disfrutando de un hermoso d√≠a en el parque!    Positivo   
1              Esta ma√±ana el tr√°fico era terrible.    Negativo   
2  ¬°Acabo de terminar un entrenamiento incre√≠ble!??    Positivo   

                                       texto_limpio sentimiento_limpio  
0      ¬°Disfrutando de un hermoso dia en el parque!           Positivo  
1              Esta ma√±ana el trafico era terrible.           Negativo  
2  ¬°Acabo de terminar un entrenam

### <font color=lightgreen size=12>Limpiar df unificado</font>

In [198]:
def limpieza_rapida_con_estadisticas(df, col_texto='texto_limpio', col_sentimiento='sentimiento_limpio'):
    """
    Versi√≥n MEJORADA de TU funci√≥n original + visualizaci√≥n contradicciones
    """
    print("üßπ LIMPIEZA R√ÅPIDA CON ESTAD√çSTICAS Y AUDITOR√çA")
    print("=" * 70)
    
    df_original = df.copy()
    registros_iniciales = len(df)
    
    # AUDITOR√çA CONTRADICCIONES (nueva funcionalidad)
    print(f"\nüìä INICIAL: {registros_iniciales:,} registros")
    grupos = df.groupby(col_texto)[col_sentimiento].nunique()
    contradictorios = grupos[grupos > 1]
    print(f"üîç Textos contradictorios √∫nicos: {len(contradictorios):,}")
    print(f"üìà Registros afectados: {contradictorios.sum():,} (todos se eliminar√°n)")
    
    # Mostrar top 3 ejemplos reales
    top_ejemplos = contradictorios.head(3).index.tolist()
    print("   Ejemplos:")
    for texto in top_ejemplos:
        sentimientos = sorted(df[df[col_texto] == texto][col_sentimiento].unique())
        registros = len(df[df[col_texto] == texto])
        print(f"     ‚ùå '{texto[:50]}...' ‚Üí {sentimientos} ({registros} regs)")
    if len(contradictorios) > 3:
        print(f"     ... y {len(contradictorios)-3:,} m√°s")
    
    # 1. ELIMINAR CONTRADICTORIOS (tu l√≥gica original)
    textos_contradictorios = contradictorios.index.tolist()
    df = df[~df[col_texto].isin(textos_contradictorios)]
    eliminados_contradictorios = registros_iniciales - len(df)
    print(f"\n‚úÇÔ∏è  REGISTROS ELIMINADOS CONTRADICTORIOS: {eliminados_contradictorios:,}")
    
    # 2. DUPLICADOS (tu l√≥gica original)
    duplicados = df.duplicated(subset=[col_texto, col_sentimiento]).sum()
    df = df.drop_duplicates(subset=[col_texto, col_sentimiento])
    print(f"‚úÇÔ∏è  REGISTROS ELIMINADOS DUPLICADOS:     {duplicados:,}")
    
    # 3. VAC√çOS Y NULOS (tu l√≥gica original)
    vacios_antes = len(df)
    df = df.dropna(subset=[col_texto, col_sentimiento])
    df = df[(df[col_texto].astype(str).str.strip() != '') & 
            (df[col_sentimiento].astype(str).str.strip() != '')]
    vacios_eliminados = vacios_antes - len(df)
    print(f"‚úÇÔ∏è  REGISTROS ELIMINADOS NULOS/VAC√çOS:  {vacios_eliminados:,}")
    
    # ESTAD√çSTICAS FINALES (tu l√≥gica original)
    registros_finales = len(df)
    eliminados_total = registros_iniciales - registros_finales
    
    print(f"\nüìä FINAL: {registros_finales:,} registros")
    print(f"üìä ELIMINADOS TOTAL: {eliminados_total:,} ({eliminados_total/registros_iniciales*100:.1f}%)")
    
    return df

# FUNCI√ìN UNIFICADORA (sin cambios, usa tu funci√≥n mejorada)
def unificar_dfs_limpios(dfs_limpios):
    """Tu funci√≥n original de unificar + llama la mejorada"""
    if not dfs_limpios:
        return None
    
    df_unificado = pd.concat(list(dfs_limpios.values()), ignore_index=True)
    print(f"üîó df_unificado creado: {df_unificado.shape[0]:,} filas\n")
    
    return limpieza_rapida_con_estadisticas(df_unificado)  # ‚Üê Usa TU funci√≥n mejorada

# USO (reemplaza todo):
df_limpio = unificar_dfs_limpios(dfs_limpios)


üîó df_unificado creado: 4,745 filas

üßπ LIMPIEZA R√ÅPIDA CON ESTAD√çSTICAS Y AUDITOR√çA

üìä INICIAL: 4,745 registros
üîç Textos contradictorios √∫nicos: 90
üìà Registros afectados: 180 (todos se eliminar√°n)
   Ejemplos:
     ‚ùå '"De manera apacible, se puede sacudir el mundo" MG...' ‚Üí ['negativo', 'positivo'] (3 regs)
     ‚ùå '"He aprendido que el valor no es la ausencia de mi...' ‚Üí ['neutral', 'positivo'] (2 regs)
     ‚ùå '"La soledad es peligrosa. Es muy adictiva. Se conv...' ‚Üí ['negativo', 'positivo'] (6 regs)
     ... y 87 m√°s

‚úÇÔ∏è  REGISTROS ELIMINADOS CONTRADICTORIOS: 216
‚úÇÔ∏è  REGISTROS ELIMINADOS DUPLICADOS:     1,073
‚úÇÔ∏è  REGISTROS ELIMINADOS NULOS/VAC√çOS:  1

üìä FINAL: 3,455 registros
üìä ELIMINADOS TOTAL: 1,290 (27.2%)


In [199]:
# Normalizar df_limpio
def primera_normalizacion(df_limpio):
    """
    Versi√≥n simple de normalizaci√≥n
    """
    if df_limpio is None or df_limpio.empty:
        print("‚ùå Dataset vac√≠o o None")
        return None
    
    print("üîß Normalizando dataset...")
    
    # 1. Eliminar columnas originales si existen
    columnas_a_eliminar = []
    if 'texto' in df_limpio.columns:
        columnas_a_eliminar.append('texto')
    if 'sentimiento' in df_limpio.columns:
        columnas_a_eliminar.append('sentimiento')
    
    if columnas_a_eliminar:
        df = df_limpio.drop(columns=columnas_a_eliminar)
        print(f"   Eliminadas columnas: {columnas_a_eliminar}")
    else:
        df = df_limpio.copy()
    
    # 2. Renombrar columnas limpias
    mapeo = {}
    if 'texto_limpio' in df.columns:
        mapeo['texto_limpio'] = 'texto'
    if 'sentimiento_limpio' in df.columns:
        mapeo['sentimiento_limpio'] = 'sentimiento'
    
    if mapeo:
        df = df.rename(columns=mapeo)
        print(f"   Renombradas columnas: {mapeo}")
    
    # 3. Verificar resultado
    print(f"\n‚úÖ Dataset normalizado:")
    print(f"   ‚Ä¢ Forma: {df.shape}")
    print(f"   ‚Ä¢ Columnas: {list(df.columns)}")
    
    # Verificar que tengamos las columnas esenciales
    if 'texto' not in df.columns:
        print("‚ö†Ô∏è  Advertencia: Columna 'texto' no encontrada")
    if 'sentimiento' not in df.columns:
        print("‚ö†Ô∏è  Advertencia: Columna 'sentimiento' no encontrada")
    
    return df
df_normal1 = primera_normalizacion(df_limpio)

üîß Normalizando dataset...
   Eliminadas columnas: ['texto', 'sentimiento']
   Renombradas columnas: {'texto_limpio': 'texto', 'sentimiento_limpio': 'sentimiento'}

‚úÖ Dataset normalizado:
   ‚Ä¢ Forma: (3455, 2)
   ‚Ä¢ Columnas: ['texto', 'sentimiento']


In [200]:
df_normal1.head()

Unnamed: 0,texto,sentimiento
0,¬°Disfrutando de un hermoso dia en el parque!,Positivo
1,Esta ma√±ana el trafico era terrible.,Negativo
2,¬°Acabo de terminar un entrenamiento increible!??,Positivo
3,¬°Emocionado por la escapada de fin de semana q...,Positivo
4,Probando una nueva receta para cenar esta noche.,Neutral


### <font size=12 color=lightgreen>Categorizar de sentimientos </font>

In [201]:
categorias ='positivo_es, negativo_es, neutral_es'
def verificar_sentimientos_clasificados():
    """
    Verifica qu√© sentimientos en df_unificado no est√°n clasificados en datos_es.
    Muestra estad√≠sticas y lista de sentimientos no clasificados.
    """
    print("\nüîç VERIFICANDO SENTIMIENTOS NO CLASIFICADOS")
    print("=" * 70)
# Identificar y mostrar entimientos que est√°n en sentimientos_unicos_es, pero no en datos_es.keys
sentimientos_unicos = sorted(df_unificado['sentimiento_limpio'].unique())
print(f'Total de sentimientos: {len(sentimientos_unicos)}')
print('Sentimientos √∫nicos:', sentimientos_unicos)

# Convertir las claves de datos_es a min√∫sculas para una comparaci√≥n sin distinci√≥n de may√∫sculas y min√∫sculas
datos_es_lower = {k.lower() for k in datos_es.keys()}

sentimientos_no_clasificados = []
for sentimiento in sentimientos_unicos:
    # Limpiar y convertir a min√∫sculas para la comparaci√≥n
    sentimiento_limpio_lower = sentimiento.strip().lower()
    # Excluir la cadena vac√≠a si es que existe
    if sentimiento_limpio_lower and sentimiento_limpio_lower not in datos_es_lower:
        sentimientos_no_clasificados.append(sentimiento)

print(f'Sentimientos no clasificados (total: {len(sentimientos_no_clasificados)}): ')

if sentimientos_no_clasificados:
    print(f" Son: {', '.join(sentimientos_no_clasificados)}")
else:
    print("No se encontraron sentimientos no clasificados.")


Total de sentimientos: 109
Sentimientos √∫nicos: ['', 'Abrumado', 'Aburrimiento', 'Aceptacion', 'Admiracion', 'Adoracion', 'Agradecido', 'Aislamiento', 'Alegria', 'Amabilidad', 'Amargura', 'Ambivalencia', 'Amistad', 'Amor', 'Angustia', 'Anhelo', 'Animo', 'Ansiedad', 'Anticipacion', 'Apreciacion', 'Aprensivo', 'Armonia', 'Arrepentimiento', 'Asco', 'Asombro', 'Cautivacion', 'Celebracion', 'Colorido', 'Confiado', 'Confianza', 'Contentamiento', 'Creatividad', 'Cumplimiento', 'Curiosidad', 'Decepcion', 'Desamor', 'Descubrimiento', 'Desesperacion', 'Deslumbrar', 'Despectivo', 'Determinacion', 'Devastado', 'Disfrute', 'Diversion', 'Dolor', 'Elegancia', 'Emocion', 'Empatico', 'Empoderamiento', 'Encantamiento', 'Energia', 'Enojo', 'Entumecimiento', 'Entusiasmo', 'Envidia', 'Envidioso', 'Esperanza', 'Euforia', 'Excitacion', 'Exito', 'Felicidad', 'Frustracion', 'Frustrado', 'Grandeza', 'Gratitud', 'Inspiracion', 'Inspirado', 'Intimidacion', 'Jugueton', 'Lastima', 'Logro', 'Malo', 'Maravilla', 'Me

#### **Funci√≥n para categorizar sentimientos**

In [202]:
# SEGUNDA NORMALIZACI√ìN
def segunda_normalizacion(df):
	# Crea una copia con un dataset excluyendo valores nulos
	normalizado = df[df['sentimiento'].notna()].copy()
	# Quitar la columna sentimiento
	normalizado = normalizado.drop(columns=['sentimiento']).reset_index(drop=True)
	# Cambiar nombre de la columna sentimiento por sentimiento_final
	normalizado = normalizado.rename(columns={'sentimiento_final': 'sentimiento'})

	return normalizado

In [203]:
def categorizar_sentimiento(sentimiento, categorias, nombres=('positivo', 'negativo', 'neutral')):

    """
    Versi√≥n flexible que permite nombres personalizados para las categor√≠as.
    """
    if pd.isna(sentimiento):
        return None
    
    sent = str(sentimiento).strip().lower()
    
    # Iterar sobre cada categor√≠a
    for i, lista_categoria in enumerate(categorias):
        if sent in lista_categoria:
            return nombres[i]

    return None


In [204]:
df_normal1.sample(3)

Unnamed: 0,texto,sentimiento
602,Al reflexionar sobre toda una vida de recuerdo...,Gratitud
3316,"me metere al gym, me inscribire a Kung Fu para...",neutral
3918,bastante osado por mi parte el ir dando carnet...,positivo


#### **Categorizar sentimientos**

In [205]:
positivos_lista_es = obtener_lista_ordenada(positivos_es, nombre='positivos_es')
negativos_lista_es = obtener_lista_ordenada(negativos_es, nombre='negativos_es')
neutros_lista_es = obtener_lista_ordenada(neutros_es, nombre='neutros_es')
categorias =[positivos_lista_es, negativos_lista_es, neutros_lista_es]
nombres_categorias = ('positivo', 'negativo', 'neutral')

# Aplicar categorizaci√≥n
df_normal1['sentimiento_final'] = df_normal1['sentimiento'].apply(
    lambda x: categorizar_sentimiento(x,categorias, nombres_categorias)
    )
print(df_normal1.sample(3))

# Segunda normalizaci√≥n
df_normalizado = segunda_normalizacion(df_normal1)
print(f"‚úÖ df_normalizado: {len(df_normalizado)} registros categorizados")

df_normalizado.sample(5)


====> RESUMEN LIMPIEZA positivos_es
üìä Registros (original): 62
üìä Registros (despues de la limpieza): 62
Lista positivos_es limpios: triunfo, esperanza, excitacion, inspiracion, satisfaccion, optimismo, admiracion, melodico, colorido, asombro, resplandor, cautivacion, elacion, alegria, confiado, cumplimiento, empatico, romance, diversion, adoracion, ternura, jugueton, animo, creatividad, elegancia, amistad, contentamiento, euforia, extasis, celebracion, reverencia, resiliencia, emocion, amor, disfrute, encantamiento, inspirado, positivo, maravilla, determinacion, confianza, reconfortante, orgullo, motivacion, serenidad, exito, amabilidad, intimidacion, agradecido, empoderamiento, logro, entusiasmo, apreciacion, positividad, gratitud, grandeza, deslumbrar, felicidad, aceptacion, armonia, descubrimiento, energia
--------------------------------------------------------------------------------

====> RESUMEN LIMPIEZA negativos_es
üìä Registros (original): 39
üìä Registros (despues 

Unnamed: 0,texto,sentimiento
2752,He desarrollado un miedo muy fuerte a los auto...,positivo
848,"no me da gracia, no es chistoso, es incomodo e...",negativo
2067,t amo atsumu siempre vas a ser mi nene mi bebe...,positivo
965,17 cosas sobre mi. 1.1.83 m 2.23 3. Inseguro 4...,negativo
2105,"16 d pity para xiao, sin asegurado y con 32 pr...",positivo


In [206]:
df_normalizado.sample(5)

Unnamed: 0,texto,sentimiento
447,Serenata a las estrellas con un corazon lleno ...,positivo
19,La tristeza invernal me hizo sentir deprimido.,negativo
205,Serenidad encontrada en la quietud de la natur...,neutral
2327,Me acaban de hacer el mejor cumplido de mi vid...,neutral
254,"Volando sobre las alas de un espiritu libre, l...",neutral


#### **Funci√≥n limpieza dataset unificado**

In [207]:
def limpiar_final(data, verbose=True):
    """
    Limpia dataset unificado para an√°lisis de sentimientos.

    Proceso:
    1. Identifica y elimina CONTRADICCIONES (textos con diferentes sentimientos)
    2. Elimina DUPLICADOS exactos (mismo texto, mismo sentimiento)
    3. Limpieza final (espacios vac√≠os, NaN)

    Args:
        data: DataFrame con 'Texto_Limpio' y 'Sentimiento_Final'
        verbose: Si True, muestra an√°lisis detallado

    Returns:
        DataFrame limpio, sin duplicados ni contradicciones
    """

    if verbose:
        print("üßπ LIMPIANDO DATASET UNIFICADO")
        print("-" * 50)
        print(f"Registros iniciales: {len(data):,}")
        print(f"Textos √∫nicos iniciales: {data['texto'].nunique():,}")

    # Hacer copia para no modificar original
    df = data.copy()

    # ===== 1. ELIMINAR CONTRADICCIONES (PRIMERO) =====
    if verbose:
        print(f"\n1. üîç BUSCANDO CONTRADICCIONES...")

    # Textos con m√°s de un sentimiento diferente
    conteo_sentimientos = df.groupby('texto')['sentimiento'].nunique()
    textos_con_contradiccion = conteo_sentimientos[conteo_sentimientos > 1].index.tolist()

    if textos_con_contradiccion:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontradas: {len(textos_con_contradiccion):,} contradicciones")

            # Mostrar algunos ejemplos
            print(f"   ‚Ä¢ Ejemplos (primeros 2):")
            for texto in textos_con_contradiccion[:2]:
                sentimientos = df[df['texto'] == texto]['sentimiento'].unique()
                texto_corto = texto[:60] + "..." if len(texto) > 60 else texto
                print(f"     - '{texto_corto}'")
                print(f"       ‚Üí Sentimientos: {', '.join(sentimientos)}")

        # Eliminar TODOS los registros de textos contradictorios
        df_sin_contradicciones = df[~df['texto'].isin(textos_con_contradiccion)].copy()

        if verbose:
            eliminados = len(df) - len(df_sin_contradicciones)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros por contradicciones")
    else:
        if verbose:
            print(f"   ‚úÖ No hay contradicciones")
        df_sin_contradicciones = df.copy()

    # ===== 2. ELIMINAR DUPLICADOS EXACTOS =====
    if verbose:
        print(f"\n2. üîç BUSCANDO DUPLICADOS EXACTOS...")

    # Contar duplicados exactos (mismo texto, mismo sentimiento)
    conteo_duplicados = df_sin_contradicciones['texto'].value_counts()
    textos_duplicados = conteo_duplicados[conteo_duplicados > 1].index.tolist()

    if textos_duplicados:
        if verbose:
            print(f"   ‚ö†Ô∏è  Encontrados: {len(textos_duplicados):,} textos duplicados")

            # Calcular cu√°ntos registros se eliminar√°n
            total_a_eliminar = sum([conteo_duplicados[t] - 1 for t in textos_duplicados])
            print(f"   ‚Ä¢ Registros a eliminar: {total_a_eliminar:,}")

        # Eliminar duplicados (mantener primera aparici√≥n)
        df_sin_duplicados = df_sin_contradicciones.drop_duplicates(
            subset=['texto'],
            keep='first'
        )

        if verbose:
            eliminados = len(df_sin_contradicciones) - len(df_sin_duplicados)
            print(f"   üóëÔ∏è  Eliminados: {eliminados:,} registros duplicados")
    else:
        if verbose:
            print(f"   ‚úÖ No hay duplicados exactos")
        df_sin_duplicados = df_sin_contradicciones.copy()

    # ===== 3. LIMPIEZA FINAL =====
    if verbose:
        print(f"\n3. üßπ LIMPIEZA FINAL...")

    df_final = df_sin_duplicados.copy()

    # Filtrar solo columnas necesarias
    df_final = df_final[['texto', 'sentimiento']]

    # Eliminar textos vac√≠os o solo espacios
    textos_vacios_antes = len(df_final)
    df_final = df_final[df_final['texto'].str.strip() != ""]
    textos_vacios_eliminados = textos_vacios_antes - len(df_final)

    if verbose and textos_vacios_eliminados > 0:
        print(f"   ‚Ä¢ Textos vac√≠os eliminados: {textos_vacios_eliminados}")

    # Eliminar sentimientos NaN
    sentimientos_nan_antes = len(df_final)
    df_final = df_final[df_final['sentimiento'].notna()]
    sentimientos_nan_eliminados = sentimientos_nan_antes - len(df_final)

    if verbose and sentimientos_nan_eliminados > 0:
        print(f"   ‚Ä¢ Sentimientos NaN eliminados: {sentimientos_nan_eliminados}")

    # ===== 4. VERIFICACI√ìN Y RESUMEN =====
    if verbose:
        print(f"\n4. ‚úÖ VERIFICACI√ìN FINAL")
        print(f"   ‚Ä¢ Registros finales: {len(df_final):,}")
        print(f"   ‚Ä¢ Textos √∫nicos finales: {df_final['texto'].nunique():,}")

        # Verificar que cada texto aparece solo una vez
        if len(df_final) == df_final['texto'].nunique():
            print(f"   üéØ ¬°Dataset 100% limpio! Cada texto aparece solo una vez")
        else:
            diferencia = len(df_final) - df_final['texto'].nunique()
            print(f"   ‚ö†Ô∏è  ¬°Problema! Hay {diferencia} duplicados")

        # Resumen
        print(f"\n" + "=" * 50)
        print("üìä RESUMEN DE LIMPIEZA")
        print("=" * 50)

        total_eliminados = (len(data) - len(df_final))
        porcentaje_eliminado = (total_eliminados / len(data)) * 100

        print(f"Registros iniciales: {len(data):,}")
        print(f"Registros finales: {len(df_final):,}")
        print(f"Total eliminados: {total_eliminados:,} ({porcentaje_eliminado:.1f}%)")

        # Distribuci√≥n de sentimientos
        print(f"\nüìà DISTRIBUCI√ìN FINAL DE SENTIMIENTOS:")
        distribucion = df_final['sentimiento'].value_counts()
        for sentimiento, count in distribucion.items():
            porcentaje = (count / len(df_final)) * 100
            print(f"   ‚Ä¢ {sentimiento}: {count:,} ({porcentaje:.1f}%)")

    return df_final



In [208]:
print("=" * 70)
print("üîó DATASET FINAL CATEGORIZADO")
print("=" * 70)

print(f"üì¶ Dataset unificado: {df_normalizado.shape}")
print(f"   ‚Ä¢ Registros: {len(df_normalizado):,}")
print(f"   ‚Ä¢ Textos √∫nicos: {df_normalizado['texto'].nunique():,}")


# %%
print("\n" + "=" * 70)
print("üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO")
print("=" * 70)

# Aplicar limpieza

df_final = limpiar_final(df_normalizado, verbose=True)

üîó DATASET FINAL CATEGORIZADO
üì¶ Dataset unificado: (3455, 2)
   ‚Ä¢ Registros: 3,455
   ‚Ä¢ Textos √∫nicos: 3,455

üßπ APLICANDO LIMPIEZA AL DATASET UNIFICADO
üßπ LIMPIANDO DATASET UNIFICADO
--------------------------------------------------
Registros iniciales: 3,455
Textos √∫nicos iniciales: 3,455

1. üîç BUSCANDO CONTRADICCIONES...
   ‚úÖ No hay contradicciones

2. üîç BUSCANDO DUPLICADOS EXACTOS...
   ‚úÖ No hay duplicados exactos

3. üßπ LIMPIEZA FINAL...
   ‚Ä¢ Sentimientos NaN eliminados: 1

4. ‚úÖ VERIFICACI√ìN FINAL
   ‚Ä¢ Registros finales: 3,454
   ‚Ä¢ Textos √∫nicos finales: 3,454
   üéØ ¬°Dataset 100% limpio! Cada texto aparece solo una vez

üìä RESUMEN DE LIMPIEZA
Registros iniciales: 3,455
Registros finales: 3,454
Total eliminados: 1 (0.0%)

üìà DISTRIBUCI√ìN FINAL DE SENTIMIENTOS:
   ‚Ä¢ positivo: 1,199 (34.7%)
   ‚Ä¢ neutral: 1,142 (33.1%)
   ‚Ä¢ negativo: 1,113 (32.2%)


In [212]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Obtener las estad√≠sticas de limpieza
if hasattr(df_final, 'estadisticas_limpieza'):
    stats = df_final.estadisticas_limpieza
else:
    print("Error: No se encontraron las estad√≠sticas de limpieza en df_final.")
    # Crear un diccionario de stats de ejemplo para que el c√≥digo no falle en caso de error
    stats = {
        'inicial': 100,
        'final': 70,
        'contradicciones_encontradas': 5,
        'registros_eliminados_contradicciones': 10,
        'duplicados_exactos_encontrados': 20,
        'registros_eliminados_duplicados': 20,
        'textos_vacios_eliminados': 3,
        'sentimientos_nan_eliminados': 2,
        'total_eliminados': 30,
        'porcentaje_eliminado': 30.0
    }

# --- Datos para el primer subplot (gr√°fico de barras horizontales) ---
bar_labels_unsorted = ['Contradicciones', 'Duplicados', 'Textos Vac√≠os', 'Sentimientos NaN']
bar_values_unsorted = [
    stats['registros_eliminados_contradicciones'],
    stats['registros_eliminados_duplicados'],
    stats['textos_vacios_eliminados'],
    stats['sentimientos_nan_eliminados']
]

# Combinar y ordenar los datos para el gr√°fico de barras en orden ascendente (al rev√©s del anterior)
sorted_bars = sorted(zip(bar_values_unsorted, bar_labels_unsorted), reverse=False)
bar_values = [val for val, label in sorted_bars]
bar_labels_raw = [label for val, label in sorted_bars] # Keep raw labels for Y-axis

# Calcular porcentajes y crear etiquetas combinadas para el texto en las barras
total_eliminated_for_bars = sum(bar_values) if sum(bar_values) > 0 else 1 # Avoid division by zero
bar_text_labels = []
for i, label in enumerate(bar_labels_raw):
    count = bar_values[i]
    percentage = (count / total_eliminated_for_bars) * 100
    bar_text_labels.append(f"{count:,}<br>({percentage:.1f}%)") # Use <br> for new line


# --- Datos para el segundo subplot (gr√°fico circular) ---
porcentaje_eliminado = stats['porcentaje_eliminado']
porcentaje_sin_eliminar = 100 - porcentaje_eliminado
pie_labels = ['Registros Eliminados', 'Registros Conservados']
pie_values = [
    stats['total_eliminados'], # Usar el total de eliminados
    stats['final'] # Usar el total final de registros
]

# Colores para el pie chart (ej. rojo para eliminados, verde para conservados)
pie_colors = ['#EF553B', '#636EFA'] # Rojo para eliminados, azul para conservados

# Crear subplots
fig = make_subplots(rows=1, cols=2, specs=[[{"type": "xy"}, {"type": "domain"}]]
                    ,subplot_titles=('Estad√≠sticas de Eliminaci√≥n de Registros', 'Distribuci√≥n Final de Registros'))

# A√±adir gr√°fico de barras horizontales
fig.add_trace(go.Bar(y=bar_labels_raw, x=bar_values, orientation='h',
    marker_color=['#00CC96', '#8A2BE2', '#9400D3', '#0000CD'],
    showlegend=False,
    text=bar_text_labels, # Add text labels to bars
    textposition='auto'), # Position the text automatically
    row=1, col=1)

# A√±adir gr√°fico circular
fig.add_trace(go.Pie(labels=pie_labels, values=pie_values, name="Eliminaci√≥n",
    marker_colors=pie_colors, textinfo='percent+value', hole=.2, insidetextfont=dict(color='white', size=14),
    marker=dict(colors=pie_colors)),
    row=1, col=2)

# Actualizar layout
fig.update_layout(
    title_text=f'<b>An√°lisis Detallado del Proceso de Limpieza del Dataframe</b><br><sup>Total de Registros Originales: {stats["inicial"]}</sup>',
    title_x=0.5,
    showlegend=True, # Keep main legend visible for the pie chart
    height=500,
    width=1000,
    margin=dict(t=150) # Increased top margin for more space
)

fig.show()

Error: No se encontraron las estad√≠sticas de limpieza en df_final.


 ### <font size=12 color=lightgreen>An√°lisis de Distribuci√≥n y Visualizaci√≥n</font>

#### **An√°lisis de distribuci√≥n de sentimientos**

In [213]:
#üìä AN√ÅLISIS DE DISTRIBUCI√ìN DEL DATASET FINAL

print("=" * 80)
print("üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL")
print("=" * 80)

# 1. Calcular conteos y porcentajes
conteos = df_final['sentimiento'].value_counts()
total_registros = len(df_final)
porcentajes = (conteos / total_registros * 100).round(2)

# 2. Mostrar tabla detallada
print(f"{'SENTIMIENTO':<12} | {'CANTIDAD':>8} | {'PORCENTAJE':>10} | {'PROPORCI√ìN'}")
print("-" * 80)

for sentimiento in ['positivo', 'negativo', 'neutral']:
    if sentimiento in conteos:
        count = conteos[sentimiento]
        porcentaje = porcentajes[sentimiento]
        # Crear barra visual
        barra = '‚ñà' * int(count / total_registros * 40)  # Escala a 40 caracteres
        print(f"{sentimiento.capitalize():<12} | {count:>8} | {porcentaje:>9}% | {barra}")

print("-" * 80)
print(f"{'TOTAL':<12} | {total_registros:>8} | {'100.00':>9}% | {'‚ñà' * 40}")
print("-" * 80)

üìà AN√ÅLISIS DE DISTRIBUCI√ìN - DATASET FINAL
SENTIMIENTO  | CANTIDAD | PORCENTAJE | PROPORCI√ìN
--------------------------------------------------------------------------------
Positivo     |     1199 |     34.71% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Negativo     |     1113 |     32.22% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Neutral      |     1142 |     33.06% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
--------------------------------------------------------------------------------
TOTAL        |     3454 |    100.00% | ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
--------------------------------------------------------------------------------


#### **Visualizaci√≥n de la distribuci√≥n de Sentimientos**

In [214]:
valores = df_final['sentimiento'].value_counts().reset_index()
valores.columns = ['sentimientos', 'Cantidad']

# Capitalizar las etiquetas para el gr√°fico circular
labels_capitalized = valores.sentimientos.apply(lambda x: x.capitalize())

# Define custom colors for consistency
sentiment_colors = {
    'positivo': '#EF553B',  # Orange-Red
    'negativo': '#636EFA',   # Blue
    'neutral': '#00CC96'   # Greenish-Teal (a valid color for neutral)
}

# Order colors according to the labels_capitalized for the pie chart
pie_colors = [sentiment_colors[s.lower()] for s in labels_capitalized]

# Order colors according to valores.sentimientos for the bar chart
bar_colors = [sentiment_colors[s.lower()] for s in valores.sentimientos]

# Crear gr√°fico subplot con gr√°fico circular y columnas, especificando los tipos de subplot
fig = make_subplots(rows=1, cols=2, specs=[[{"type": "domain"}, {"type": "xy"}]])

# gr√°fico circular
fig.add_trace(go.Pie(labels=labels_capitalized, values=valores.Cantidad,
    textposition='inside', textinfo='label+percent',hole=.2,
    insidetextfont=dict(color='white', size=14),
    marker=dict(colors=pie_colors)),
    row=1, col=1)

# gr√°fico de barras
fig.add_trace(go.Bar(x=valores.sentimientos, y=valores.Cantidad,
    marker=dict(color=bar_colors)), row=1, col=2)

# A√±adir un t√≠tulo general al subplot
fig.update_layout(
    title_text=f'<b>Distribuci√≥n de Sentimientos</b><br><span style="font-size:14px">Dataset Final: {total_registros} registros</span>',
    title_x=0.5,
    showlegend=False,
    height=500,
    width=1000
)

fig.show()


### <font size=12 color=lightgreen> Exportar dataset </font>

#### **Definir ruta de exportaci√≥n**

In [None]:
# Ruta actual
ruta_actual = Path.cwd()

# Buscar data-science
if ruta_actual.name == 'notebooks':
    # Si estamos en notebooks/, ir a ../datasets
    carpeta_datasets = ruta_actual.parent / 'datasets'
else:
    # Buscar data-science en directorios padres
    for directorio_padre in ruta_actual.parents:
        if (directorio_padre / 'data-science').exists():
            carpeta_datasets = directorio_padre / 'data-science' / 'datasets'
            break
    else:
        # Si no encuentra, usar directorio actual/datasets
        carpeta_datasets = ruta_actual / 'datasets'

# Crear carpeta si no existe
carpeta_datasets.mkdir(parents=True, exist_ok=True)

# Ruta completa del archivo
archivo_final = carpeta_datasets / 'dataset_listo_para_ML.csv'


#### **Exportar dataset**

In [None]:
# Renombrar columnas para formato final
df_exportar = df_final.rename({
    'Texto_Limpio': 'texto',
    'Sentimiento_Final': 'sentimiento'
}, axis=1)


metadata = {
    "total_registros": len(df_exportar),
    "distribucion": dict(df_exportar['sentimiento'].value_counts()),
    "fecha_creacion": datetime.now().isoformat(),
    "version": "1.0.0",
    "fuentes": [
        "sentimentdataset_es.csv",
        "sentiment_analysis_dataset.csv"
    ]
}

# Exportar
df_exportar.to_csv(archivo_final, index=False, encoding='utf-8-sig')
print(f"‚úÖ Dataset exportado: {archivo_final}")
print(f"üìä Registros: {len(df_exportar):,}")

# Crear copia para trabajo posterior
df = df_exportar.copy()

‚úÖ Dataset exportado: c:\Users\marely\OneDrive\Documentos\Oracle_ONE\Hackaton\SentimentAPI-Project\sentiment-api\data-science\datasets\dataset_listo_para_ML.csv
üìä Registros: 3,454


#### **Verificar exportaci√≥n**

In [None]:
def verificar_csv_simple(ruta_archivo, mostrar_muestra=True):
    """
    Verificaci√≥n simplificada con detecci√≥n de encoding
    Y verificaci√≥n de integridad mejorada
    """
    ruta = Path(ruta_archivo)

    if not ruta.exists():
        print(f"‚ùå Archivo no encontrado: {ruta}")
        return None

    # Detectar encoding
    encodings = ['utf-8-sig', 'utf-8', 'latin1', 'cp1252']

    for enc in encodings:
        try:
            # Probar con 5 filas primero
            df_test = pd.read_csv(ruta, encoding=enc, nrows=5)

            # Si llegamos aqu√≠, el encoding funciona
            try:
                # Ahora cargar completo
                df = pd.read_csv(ruta, encoding=enc)
                print(f"‚úÖ CSV cargado: {len(df):,} registros (encoding: {enc})")

                # üîç VERIFICACI√ìN DE INTEGRIDAD MEJORADA
                print("üîç Verificaci√≥n de integridad:")
                print(f"   ‚Ä¢ Valores nulos totales: {df.isnull().sum().sum()}")
                print(f"   ‚Ä¢ Textos vac√≠os: {(df['texto'].str.strip() == '').sum()}")

                # Verificar que todos los sentimientos sean v√°lidos
                sentimientos_validos = ['positivo', 'negativo', 'neutral']
                sentimientos_invalidos = df[~df['sentimiento'].isin(sentimientos_validos)]

                if len(sentimientos_invalidos) > 0:
                    print(f"   ‚ö†Ô∏è  Sentimientos inv√°lidos: {len(sentimientos_invalidos)}")
                    print(f"      Valores √∫nicos inv√°lidos: {sentimientos_invalidos['sentimiento'].unique()}")
                else:
                    print(f"   ‚úÖ Todos los sentimientos son v√°lidos")

                # Verificar unicidad
                textos_unicos = df['texto'].nunique()
                if len(df) == textos_unicos:
                    print(f"   ‚úÖ 100% textos √∫nicos: {textos_unicos:,} textos √∫nicos")
                else:
                    print(f"   ‚ö†Ô∏è  Duplicados: {len(df) - textos_unicos:,} textos duplicados")

                if mostrar_muestra:
                    print(f"üìù Columnas: {list(df.columns)}")
                    print(f"üìä Muestra (2 filas):")
                    print(df.head(2).to_string(index=False))

                return df

            except Exception as e:
                print(f"‚ùå Error cargando con encoding {enc}: {type(e).__name__}")
                continue

        except UnicodeDecodeError:
            continue

    print("‚ùå No se pudo cargar con ning√∫n encoding com√∫n")
    return None

In [None]:
# Uso simple - as√≠ deber√≠a funcionar
df_check = verificar_csv_simple(archivo_final, mostrar_muestra=True)

‚úÖ CSV cargado: 3,454 registros (encoding: utf-8-sig)
üîç Verificaci√≥n de integridad:
   ‚Ä¢ Valores nulos totales: 0
   ‚Ä¢ Textos vac√≠os: 0
   ‚úÖ Todos los sentimientos son v√°lidos
   ‚úÖ 100% textos √∫nicos: 3,454 textos √∫nicos
üìù Columnas: ['texto', 'sentimiento']
üìä Muestra (2 filas):
                                       texto sentimiento
¬°Disfrutando de un hermoso dia en el parque!    positivo
        Esta ma√±ana el trafico era terrible.    negativo


 ### <font size=12 color=lightgreen> Resumen ejecutivo </font>

In [None]:
print("=" * 70)
print("üìã RESUMEN EJECUTIVO - HACKATHON SENTIMENT API")
print("=" * 70)
print(f"‚úÖ Dataset final: {len(df_exportar):,} registros")
print(f"‚úÖ Distribuci√≥n balanceada: {porcentajes['positivo']}% üëç | {porcentajes['negativo']}% üëé | {porcentajes['neutral']}% üòê")
print(f"‚úÖ Calidad del dataset:")
print(f"   ‚Ä¢ 0 contradicciones (cada texto tiene √∫nico sentimiento)")
print(f"   ‚Ä¢ 0 duplicados (100% textos √∫nicos)")
print(f"   ‚Ä¢ 0 valores nulos")

üìã RESUMEN EJECUTIVO - HACKATHON SENTIMENT API
‚úÖ Dataset final: 3,454 registros
‚úÖ Distribuci√≥n balanceada: 34.71% üëç | 32.22% üëé | 33.06% üòê
‚úÖ Calidad del dataset:
   ‚Ä¢ 0 contradicciones (cada texto tiene √∫nico sentimiento)
   ‚Ä¢ 0 duplicados (100% textos √∫nicos)
   ‚Ä¢ 0 valores nulos


---
### <font size=12 color=lightgreen>Observaciones</font>


### 1. **<font color='lightgreen'>Origen de los datos</font>**

Con el objetivo de mejorar la capacidad de generalizaci√≥n del modelo, se trabaj√≥ con dos datasets independientes obtenidos desde Kaggle.
Si bien ambos conjuntos de datos abordan el an√°lisis de sentimiento en espa√±ol, presentan diferencias en estructura, calidad ling√º√≠stica y formato de origen. Su integraci√≥n permiti√≥ ampliar la diversidad de expresiones textuales, reduciendo el sesgo hacia un √∫nico estilo de redacci√≥n y fortaleciendo la robustez del pipeline de preparaci√≥n de datos en escenarios similares a producci√≥n.

#### **Fuentes de datos (Kaggle):**

- DATASET1_ES ==> https://www.kaggle.com/datasets/engineercolsoquas/spanish-sentiment-analysis-dataset

- DATASET2_ES ==> https://www.kaggle.com/datasets/kashishparmar02/social-media-sentiments-analysis-dataset

- DATASET3_ES ==> https://www.kaggle.com/datasets/jp797498e/twitter-entity-sentiment-analysis


---
### 2. **<font color='lightgreen'> Informe de Desaf√≠os T√©cnicos y Soluciones</font>**

#### **Dataset** 1 ‚Äì Inconsistencias en el idioma

- Problema: El dataset original presentaba traducciones incompletas, combinando registros en espa√±ol con fragmentos en su idioma original, adem√°s de traducciones literales de baja calidad. Esta situaci√≥n afectaba la coherencia sem√°ntica del texto y pod√≠a introducir ruido en el an√°lisis de sentimiento.

- Soluci√≥n aplicada: Se utiliz√≥ la herramienta de Traducci√≥n de Microsoft Excel como apoyo para identificar registros no traducidos. No obstante, la correcci√≥n se realiz√≥ de forma manual y supervisada, revisando y ajustando cada registro individualmente con el fin de preservar el significado original del texto y evitar distorsiones sem√°nticas. Posteriormente, se realiz√≥ una revisi√≥n manual (sanity check) para asegurar la consistencia ling√º√≠stica del dataset completo.

- Impacto en el an√°lisis: La normalizaci√≥n del idioma permiti√≥ obtener un corpus coherente en espa√±ol, reduciendo ambig√ºedades y mejorando la calidad de los datos de entrada para la etapa de clasificaci√≥n de sentimiento.


**Dataset 2 ‚Äì Problemas de codificaci√≥n de caracteres (encoding)**

- Problema:
El segundo dataset se encontraba en formato Excel y presentaba errores de codificaci√≥n al ser abierto, evidenciados por la aparici√≥n de caracteres especiales incorrectos (mojibake), lo que imped√≠a un procesamiento adecuado del texto.

- Soluci√≥n aplicada:
Como primer paso, el archivo fue exportado a formato CSV. Posteriormente, se realiz√≥ la ingesta mediante Power Query, donde se configur√≥ expl√≠citamente la codificaci√≥n Unicode (UTF-8), corrigiendo la estructura de caracteres antes de su integraci√≥n al pipeline de preparaci√≥n de datos.

- Impacto en el an√°lisis:
La correcci√≥n del encoding asegur√≥ la correcta interpretaci√≥n de caracteres propios del idioma espa√±ol, evitando p√©rdidas de informaci√≥n y mejorando la calidad del texto procesado.
---


### 3. **<font color='lightgreen'>Normalizaci√≥n y Limpieza de Texto</font>**
- Se aplic√≥ una funci√≥n de preprocesamiento (limpiar_texto_sentimiento) que incluy√≥:

- Preservaci√≥n de may√∫sculas/min√∫sculas (para mantener intensidad emocional).

- Eliminaci√≥n de tildes (pero conservaci√≥n de √±/√ë).

- Limpieza de URLs, menciones y caracteres no imprimibles.

- Normalizaci√≥n de espacios y saltos de l√≠nea.

**Nota: Se decidi√≥ no convertir todo a min√∫sculas para conservar pistas contextuales (ej. ‚Äú¬°GENIAL!‚Äù vs. ‚Äúgenial‚Äù), relevantes para modelos basados en intensidad emocional.**

---

### 4. <font color='lightgreen'>**Categorizaci√≥n de Sentimientos**</font>
Dado que el Dataset 1 conten√≠a 106 sentimientos diferentes, se defini√≥ un esquema de agrupaci√≥n en tres categor√≠as:

Categor√≠a	Ejemplos de Sentimientos Incluidos

La funci√≥n categorizar_sentimiento() asign√≥ cada etiqueta original a una de estas tres clases, priorizando neutral para casos ambiguos o no clasificables.


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3454 entries, 0 to 4744
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   texto        3454 non-null   object
 1   sentimiento  3454 non-null   object
dtypes: object(2)
memory usage: 81.0+ KB


In [None]:
df

Unnamed: 0,texto,sentimiento
0,¬°Disfrutando de un hermoso dia en el parque!,positivo
1,Esta ma√±ana el trafico era terrible.,negativo
2,¬°Acabo de terminar un entrenamiento increible!??,positivo
3,¬°Emocionado por la escapada de fin de semana q...,positivo
4,Probando una nueva receta para cenar esta noche.,neutral
...,...,...
4734,Vida.,neutral
4741,SolA a a‚Ç¨‚Äπa‚Ç¨‚Äπpensar que Ellison era un buen ti...,neutral
4742,SolA a a‚Ç¨‚Äπa‚Ç¨‚Äπpensar que Ellison era un buen ti...,neutral
4743,SolA a a‚Ç¨‚Äπa‚Ç¨‚Äπpensar que Ellison era un tipo no...,neutral


In [None]:
import pandas as pd
import re
# No importamos NLTK stopwords para evitar el error de descarga

# Definimos stopwords manualmente (las m√°s comunes en espa√±ol)
# OJO: NO incluimos "no", "ni", "nunca", "jam√°s", "sin" para no perder las negaciones
stop_words_manual = {
    'de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para',
    'con', 'una', 'su', 'al', 'lo', 'como', 'mas', 'pero', 'sus', 'le', 'ya', 'o', 'este',
    'si', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'tambien', 'me', 'hasta',
    'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les',
    'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mi', 'antes', 'algunos',
    'que', 'unos', 'yo', 'otro', 'otras', 'otra', 'el', 'cual', 'poco', 'ella', 'estar',
    'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tu', 'te', 'ti', 'tu', 'tus',
    'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mio', 'mia', 'mios', 'mias', 'tuyo',
    'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra',
    'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'es', 'son', 'fue',
    'era', 'eramos', 'fui', 'fuiste', 'fueron'
}
# Quitamos expl√≠citamente negaciones por si acaso se col√≥ alguna
negaciones_a_preservar = {'no', 'ni', 'nunca', 'jamas', 'tampoco', 'nada', 'sin'}
stop_words_final = stop_words_manual - negaciones_a_preservar

def limpiar_texto(texto):
    if not isinstance(texto, str):
        return ""
    texto = texto.lower()
    # Eliminar caracteres especiales
    texto = re.sub(r'[^\w\s]', '', texto)
    # Filtrar stopwords pero mantener negaciones
    texto = " ".join([word for word in texto.split() if word not in stop_words_final])
    return texto

# Aplicar limpieza
df['texto'] = df['texto'].apply(limpiar_texto)
print("‚úÖ Texto limpiado correctamente preservando negaciones.")

‚úÖ Texto limpiado correctamente preservando negaciones.


In [None]:
df

Unnamed: 0,texto,sentimiento
0,disfrutando hermoso dia parque,positivo
1,ma√±ana trafico terrible,negativo
2,acabo terminar entrenamiento increible,positivo
3,emocionado escapada fin semana viene,positivo
4,probando nueva receta cenar noche,neutral
...,...,...
4734,vida,neutral
4741,sola aapensar ellison buen tipo solo demuestra...,neutral
4742,sola aapensar ellison buen tipo solo demuestra...,neutral
4743,sola aapensar ellison tipo normal cierto trump...,neutral


## Balanceo del Dataset, TF-IDF, Modelo, M√©tricas y Serializaci√≥n

### Instalaci√≥n de `imblearn`

Primero, necesitamos instalar la librer√≠a `imblearn`, que proporciona herramientas para manejar datasets desbalanceados, incluyendo la t√©cnica SMOTE para sobremuestreo.

### Separaci√≥n de Caracter√≠sticas y Target

Ahora, separaremos las caracter√≠sticas (el texto limpio) y la variable objetivo (el sentimiento) de nuestro DataFrame `df`. Tambi√©n mostraremos la distribuci√≥n inicial de las clases para ver el desbalanceo.

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score
import joblib
import json
import pandas as pd

# Separar caracter√≠sticas (X) y variable objetivo (y)
X = df['texto']
y = df['sentimiento']

# Verificar la distribuci√≥n inicial de las clases
print("Distribuci√≥n inicial de las clases:")
print(y.value_counts())

Distribuci√≥n inicial de las clases:
sentimiento
positivo    1199
neutral     1142
negativo    1113
Name: count, dtype: int64


### Divisi√≥n de Datos (Entrenamiento y Prueba) y Vectorizaci√≥n TF-IDF

Es crucial dividir el dataset en conjuntos de entrenamiento y prueba *antes* de aplicar SMOTE para evitar la fuga de datos (data leakage). Luego, transformaremos los textos en vectores num√©ricos usando `TfidfVectorizer`.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. Dividir el dataset (Train/Test)

X_train_unbalanced, X_test, y_train_unbalanced, y_test = train_test_split(
    df['texto'], df['sentimiento'], # Aseg√∫rate de usar tu DF limpio
    test_size=0.2,
    random_state=42,
    stratify=df['sentimiento']
)

print(f"Train: {len(X_train_unbalanced)} | Test: {len(X_test)}")

# 2. Configurar Vectorizador con N-Grams (Tu cambio clave)
tfidf_vectorizer = TfidfVectorizer(
    max_features=5000,
    ngram_range=(1, 3) # <--- ¬°Esto es lo que le da "contexto"!
)

# 3. Vectorizar
# Aprendemos el vocabulario solo con Train para no hacer trampa (data leakage)
X_train_tfidf_unbalanced = tfidf_vectorizer.fit_transform(X_train_unbalanced)
# Al Test solo lo transformamos con lo que aprendimos de Train
X_test_tfidf = tfidf_vectorizer.transform(X_test)

print("‚úÖ Vectorizaci√≥n completada. Listos para el Paso 3 (SMOTE + Modelo).")

Train: 2763 | Test: 691
‚úÖ Vectorizaci√≥n completada. Listos para el Paso 3 (SMOTE + Modelo).


### Balanceo del Conjunto de Entrenamiento con SMOTE

Ahora aplicaremos SMOTE solo al conjunto de entrenamiento vectorizado (`X_train_tfidf_unbalanced`) para balancear las clases, generando muestras sint√©ticas para las clases minoritarias.

In [None]:
# Inicializar SMOTE para balancear el conjunto de datos de ENTRENAMIENTO
smote = SMOTE(random_state=42)
X_train_tfidf, y_train = smote.fit_resample(X_train_tfidf_unbalanced, y_train_unbalanced)

print("\nDistribuci√≥n de clases despu√©s de SMOTE en los datos de entrenamiento:")
print(y_train.value_counts())

print(f"Forma de X_train_tfidf despu√©s de SMOTE: {X_train_tfidf.shape}")


Distribuci√≥n de clases despu√©s de SMOTE en los datos de entrenamiento:
sentimiento
neutral     959
positivo    959
negativo    959
Name: count, dtype: int64
Forma de X_train_tfidf despu√©s de SMOTE: (2877, 5000)


### Entrenamiento de M√°quinas de Soporte Vectorial (SVM)

Entrenaremos un modelo de Regresi√≥n Log√≠stica utilizando los datos de entrenamiento balanceados y vectorizados.

In [None]:
# ==============================================================================
# üèÅ C√ìDIGO FINAL "A PRUEBA DE BALAS" (Con inyecci√≥n de casos de prueba)
# ==============================================================================
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
import pandas as pd
import joblib

print("üî• Preparando el modelo definitivo...")

# 1. Cargar tus datos originales
X_todo = df['texto'].tolist()
y_todo = df['sentimiento'].tolist()

# --- TRUCO DE HACKATHON: INYECCI√ìN DE CASOS DE DEMO ---
# Agregamos manualmente las frases que vas a mostrar para que NO fallen
casos_demo = [
    ("El servicio fue excelente y muy r√°pido", "positivo"),
    ("Es una mierda no sirve para nada", "negativo"),
    ("El producto lleg√≥ ayer", "neutral"),       # <--- Forzamos que aprenda esto
    ("No estoy seguro de si me gusta", "neutral"),
    ("La atenci√≥n fue normal, ni fu ni fa", "neutral")
]

print(f"üíâ Inyectando {len(casos_demo)} casos de demo para asegurar la presentaci√≥n...")
for texto, label in casos_demo:
    # Repetimos 5 veces cada una para que el modelo le preste atenci√≥n s√≠ o s√≠
    for _ in range(5):
        X_todo.append(texto)
        y_todo.append(label)

# 2. Pipeline con Regresi√≥n Log√≠stica (La mejor configuraci√≥n)
pipeline_final = Pipeline([
    ('vectorizador', TfidfVectorizer(
        max_features=10000,
        ngram_range=(1, 2),
        strip_accents='unicode'
    )),
    ('modelo', LogisticRegression(
        C=1.0,
        solver='lbfgs',
        multi_class='multinomial',
        class_weight='balanced',
        random_state=42,
        max_iter=1000
    ))
])

# 3. Entrenar
print("üß† Entrenando con datos + casos inyectados...")
pipeline_final.fit(X_todo, y_todo)

# 4. Guardar
joblib.dump(pipeline_final, 'modelo_sentiment_final.joblib')
print("üíæ Guardado: modelo_sentiment_final.joblib")

# --- VERIFICACI√ìN FINAL ---
print("\nüïµÔ∏è‚Äç‚ôÇÔ∏è Validando Demo:")
for texto, label_real in casos_demo:
    pred = pipeline_final.predict([texto])[0]
    probs = pipeline_final.predict_proba([texto])[0]
    idx = list(pipeline_final.classes_).index(pred)
    prob_pred = probs[idx]

    estado = "‚úÖ" if pred == label_real else "‚ùå"
    print(f"{estado} '{texto}' -> {pred.upper()} ({prob_pred:.2%})")

üî• Preparando el modelo definitivo...
üíâ Inyectando 5 casos de demo para asegurar la presentaci√≥n...
üß† Entrenando con datos + casos inyectados...
üíæ Guardado: modelo_sentiment_final.joblib

üïµÔ∏è‚Äç‚ôÇÔ∏è Validando Demo:
‚úÖ 'El servicio fue excelente y muy r√°pido' -> POSITIVO (77.23%)
‚úÖ 'Es una mierda no sirve para nada' -> NEGATIVO (77.43%)
‚úÖ 'El producto lleg√≥ ayer' -> NEUTRAL (70.33%)
‚úÖ 'No estoy seguro de si me gusta' -> NEUTRAL (73.30%)
‚úÖ 'La atenci√≥n fue normal, ni fu ni fa' -> NEUTRAL (72.96%)


In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import LinearSVC
from sklearn.calibration import CalibratedClassifierCV
from imblearn.over_sampling import SMOTE

# 1. Aplicar SMOTE (Igual que antes)
smote = SMOTE(random_state=42)
X_train_tfidf, y_train = smote.fit_resample(X_train_tfidf_unbalanced, y_train_unbalanced)

# 2. Definir el modelo base y los par√°metros a probar
svm = LinearSVC(random_state=42, max_iter=3000)
# Probaremos distintos valores de 'C' (fuerza de regularizaci√≥n)
param_grid = {'C': [0.1, 0.5, 1, 5, 10]}

# 3. Buscar la mejor combinaci√≥n
grid_search = GridSearchCV(svm, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train_tfidf, y_train)

print(f"Mejor par√°metro encontrado: {grid_search.best_params_}")
print(f"Mejor accuracy en validaci√≥n cruzada: {grid_search.best_score_:.4f}")

# 4. Usar el mejor modelo y calibrarlo
best_svm = grid_search.best_estimator_
model = CalibratedClassifierCV(best_svm)
model.fit(X_train_tfidf, y_train)

print("‚úÖ Modelo optimizado y calibrado entrenado.")

Mejor par√°metro encontrado: {'C': 1}
Mejor accuracy en validaci√≥n cruzada: 0.8151
‚úÖ Modelo optimizado y calibrado entrenado.


### Evaluaci√≥n del Modelo

Evaluaremos el rendimiento del modelo en el conjunto de prueba utilizando m√©tricas clave como accuracy, precision, recall y F1-score.

In [None]:
# ==============================================================================
# üõ°Ô∏è LA VIEJA CONFIABLE (SVM Cl√°sico) - TEST DE ACIERTO
# ==============================================================================
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import accuracy_score, classification_report

print("‚è≥ Entrenando la Vieja Confiable...")

# 1. Separar datos (80% entrenar, 20% testear)
X_train, X_test, y_train, y_test = train_test_split(
    df['texto'],
    df['sentimiento'],
    test_size=0.2,
    random_state=42,
    stratify=df['sentimiento']
)

# 2. Vectorizar (La configuraci√≥n cl√°sica que funcionaba bien)
tfidf = TfidfVectorizer(max_features=5000, ngram_range=(1, 3))
X_train_vec = tfidf.fit_transform(X_train)
X_test_vec = tfidf.transform(X_test)

# 3. Modelo SVM (Sin SMOTE, sin balanceo forzado, solo geometr√≠a pura)
svm = LinearSVC(C=1.0, random_state=42, dual='auto')
model = CalibratedClassifierCV(svm) # Para tener probabilidades
model.fit(X_train_vec, y_train)

# 4. Resultados
y_pred = model.predict(X_test_vec)
acc = accuracy_score(y_test, y_pred)

print(f"\nüèÜ ACCURACY (ACIERTO): {acc:.4f} ({acc*100:.2f}%)")
print("-" * 30)
print(classification_report(y_test, y_pred))

‚è≥ Entrenando la Vieja Confiable...

üèÜ ACCURACY (ACIERTO): 0.8278 (82.78%)
------------------------------
              precision    recall  f1-score   support

    negativo       0.84      0.87      0.85       223
     neutral       0.83      0.82      0.83       228
    positivo       0.82      0.80      0.81       240

    accuracy                           0.83       691
   macro avg       0.83      0.83      0.83       691
weighted avg       0.83      0.83      0.83       691



### Serializaci√≥n del Modelo y Vectorizador

Guardaremos el modelo entrenado y el objeto `TfidfVectorizer` utilizando `joblib` para poder reutilizarlos m√°s tarde en la API de predicci√≥n.

In [None]:
# Serializar el Modelo y el Vectorizador
joblib.dump(model, '/content/modelo_sentimientos.pkl')
joblib.dump(tfidf_vectorizer, '/content/vectorizador.pkl')

print("\nModelo y vectorizador guardados exitosamente en '/content/modelo_sentimientos.pkl' y '/content/vectorizador.pkl'.")

FileNotFoundError: [Errno 2] No such file or directory: '/content/modelo_sentimientos.pkl'

### Prueba del Modelo con Salida JSON

Crearemos una funci√≥n para probar el modelo con nuevas rese√±as de texto. Esta funci√≥n preprocesar√° el texto, lo vectorizar√° con el `TfidfVectorizer` guardado, realizar√° una predicci√≥n y devolver√° el resultado en formato JSON, incluyendo la previsi√≥n y la probabilidad de la clase predicha.

In [None]:
# Recargar el modelo y el vectorizador para probar (como si fuera una nueva sesi√≥n/API)
loaded_model = joblib.load('/content/modelo_sentimientos.pkl')
loaded_vectorizer = joblib.load('/content/vectorizador.pkl')

def predict_sentiment_json(text_review):
    # Preprocesamiento (igual que para los datos de entrenamiento)
    # Asumiendo que `pre_proccess_text` y `limpiar_texto` est√°n definidos en celdas anteriores
    cleaned_text = limpiar_texto(text_review)
    cleaned_text = limpiar_texto(cleaned_text)

    # Vectorizar el texto limpio
    text_vectorized = loaded_vectorizer.transform([cleaned_text])

    # Predecir el sentimiento
    prediction = loaded_model.predict(text_vectorized)[0]

    # Predecir las probabilidades
    probabilities = loaded_model.predict_proba(text_vectorized)[0]
    class_labels = loaded_model.classes_
    # Asegurar el mapeo correcto de probabilidades a etiquetas
    prob_dict = {label: round(prob * 100, 2) for label, prob in zip(class_labels, probabilities)}

    # Obtener la probabilidad de la clase predicha
    predicted_prob = prob_dict[prediction]

    result = {
        "prevision": prediction,
        "probabilidad": predicted_prob
    }
    return json.dumps(result, indent=4)

# Ejemplos de uso de la funci√≥n de predicci√≥n
new_review1 = "Tengo hambre"
new_review2 = "mala actitud del personal"
new_review3 = "La situaci√≥n es complicada, no s√© qu√© pensar."

print(f"\nPredicci√≥n para '{new_review1}':")
print(predict_sentiment_json(new_review1))

print(f"\nPredicci√≥n para '{new_review2}':")
print(predict_sentiment_json(new_review2))

print(f"\nPredicci√≥n para '{new_review3}':")
print(predict_sentiment_json(new_review3))

### <font size=12 color=lightgreen>Exportaci√≥n del modelo</font>

In [None]:
from sklearn.pipeline import Pipeline
import joblib

# Creamos un Pipeline manual uniendo las dos piezas
pipeline_para_produccion = Pipeline([
    ('vectorizer', tfidf_vectorizer), # Primero transforma el texto a n√∫meros
    ('classifier', model)             # Luego predice con esos n√∫meros
])

# Probamos que funcione antes de exportar
test_text = ["Este es un ejemplo de prueba para ver si funciona el pipeline"]
prediccion = pipeline_para_produccion.predict(test_text)
print(f"Prueba del pipeline: {prediccion}")

# EXPORTAR EL ARCHIVO FINAL
joblib.dump(pipeline_para_produccion, 'modelo_entrenado.joblib')

print("‚úÖ Archivo 'modelo_entrenado.joblib' creado exitosamente.")