# üåü Enriquecimiento de Datos con IA

Este notebook muestra c√≥mo podemos utilizar la IA generativa para enriquecer nuestros datos, generar nuevas caracter√≠sticas y obtener insights adicionales.

## ¬øQu√© aprender√°s?
- üîç Enriquecer datasets existentes con descripciones generadas por IA
- üè∑Ô∏è Clasificar autom√°ticamente textos y categor√≠as
- üß™ Generar datos sint√©ticos para pruebas o entrenamiento
- üí° Extraer insights autom√°ticamente a partir de datos

## üìö Importamos las bibliotecas necesarias

In [None]:
# Instalamos las bibliotecas necesarias (descomenta si es necesario)
# !pip install openai python-dotenv pandas seaborn matplotlib

In [None]:
# Importamos las bibliotecas
import openai
import os
import json
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from dotenv import load_dotenv
import time  # Para a√±adir pausas entre llamadas a la API

# Configuraci√≥n para visualizaci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.2)
%matplotlib inline

## üîë Configuraci√≥n de la API de OpenAI

In [None]:
# Cargamos la API key desde el archivo .env
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")

# Verificamos y configuramos la API
if api_key is None or api_key == "tu_api_key_aqui":
    print("‚ö†Ô∏è ERROR: API key no configurada correctamente.")
    print("Por favor, crea un archivo .env con tu OPENAI_API_KEY.")
else:
    print("‚úÖ API key cargada correctamente.")
    # Configuramos la biblioteca con la API key
    openai.api_key = api_key

In [None]:
# Funci√≥n para hacer peticiones a la API de OpenAI
def consultar_openai(prompt, modelo="gpt-3.5-turbo", temperatura=0.7, max_tokens=150, formato_salida=None):
    """Realiza una consulta a la API de OpenAI
    
    Args:
        prompt (str): El texto de entrada para el modelo
        modelo (str): El modelo a utilizar
        temperatura (float): Controla la creatividad (0.0 a 1.0)
        max_tokens (int): Longitud m√°xima de la respuesta
        formato_salida (str): Si se requiere un formato espec√≠fico (json, lista, etc.)
        
    Returns:
        str o dict: El texto generado o un objeto JSON si se solicit√≥
    """
    try:
        # A√±adimos instrucciones de formato si es necesario
        if formato_salida == "json":
            prompt += "\n\nDevuelve la respuesta en formato JSON v√°lido."
            response_format = {"type": "json_object"}
        else:
            response_format = None
            
        # Creamos la petici√≥n al API
        response = openai.chat.completions.create(
            model=modelo,
            messages=[{"role": "user", "content": prompt}],
            temperature=temperatura,
            max_tokens=max_tokens,
            response_format=response_format
        )
        
        # Extraemos el texto generado
        respuesta = response.choices[0].message.content
        
        # Si se solicit√≥ JSON, convertimos la respuesta a un diccionario
        if formato_salida == "json":
            try:
                return json.loads(respuesta)
            except json.JSONDecodeError:
                print("‚ö†Ô∏è Advertencia: No se pudo decodificar el JSON. Devolviendo texto plano.")
                return respuesta
        else:
            return respuesta
            
    except Exception as e:
        print(f"‚ùå Error: {str(e)}")
        return None

## üêß Cargamos el Dataset de Ping√ºinos

Vamos a utilizar el dataset de ping√ºinos de Seaborn, que contiene informaci√≥n sobre diferentes especies de ping√ºinos en la Ant√°rtida.

In [None]:
# Cargamos el dataset de ping√ºinos
penguins = sns.load_dataset("penguins")

# Mostramos las primeras filas
penguins.head()

In [None]:
# Exploramos informaci√≥n b√°sica del dataset
print(f"N√∫mero de filas: {penguins.shape[0]}")
print(f"N√∫mero de columnas: {penguins.shape[1]}")
print(f"Especies de ping√ºinos: {penguins['species'].unique()}")
print(f"Islas: {penguins['island'].unique()}")

# Verificamos valores nulos
print("\nValores nulos por columna:")
print(penguins.isnull().sum())

In [None]:
# Eliminamos filas con valores nulos para este ejemplo
penguins_clean = penguins.dropna().reset_index(drop=True)
print(f"Dataset limpio: {penguins_clean.shape[0]} filas")

## üîç Enriquecimiento 1: Generar Descripciones Detalladas

Vamos a usar la IA para generar descripciones detalladas para cada especie de ping√ºino.

In [None]:
# Obtenemos las especies √∫nicas
especies = penguins_clean['species'].unique()
print(f"Especies a describir: {especies}")

In [None]:
# Funci√≥n para generar descripci√≥n de una especie
def generar_descripcion_especie(especie):
    prompt = f"""
    Genera una descripci√≥n detallada del ping√ºino {especie} que incluya:
    1. Caracter√≠sticas f√≠sicas principales
    2. H√°bitat y distribuci√≥n geogr√°fica
    3. Comportamiento y alimentaci√≥n
    4. Estado de conservaci√≥n
    
    Formato: p√°rrafo conciso de 100-150 palabras.
    """
    
    # Llamamos a la API
    return consultar_openai(prompt, temperatura=0.7, max_tokens=200)

In [None]:
# Generamos descripciones para cada especie
descripciones = {}

for especie in especies:
    print(f"Generando descripci√≥n para: {especie}...")
    descripciones[especie] = generar_descripcion_especie(especie)
    print(f"‚úÖ Descripci√≥n generada")
    # Pausa para evitar l√≠mites de tasa en la API
    time.sleep(1)

# Mostramos las descripciones
for especie, descripcion in descripciones.items():
    print(f"\nüêß {especie.upper()}:\n")
    print(descripcion)

## üè∑Ô∏è Enriquecimiento 2: Clasificaci√≥n Autom√°tica

Vamos a usar la IA para clasificar a los ping√ºinos en categor√≠as de tama√±o basadas en sus medidas.

In [None]:
# Seleccionamos una muestra para trabajar (10 ping√ºinos)
muestra_ping√ºinos = penguins_clean.sample(10, random_state=42).reset_index(drop=True)
muestra_ping√ºinos.head()

In [None]:
# Funci√≥n para clasificar el tama√±o del ping√ºino basado en sus medidas
def clasificar_tama√±o(fila):
    prompt = f"""
    Basado en las siguientes medidas de un ping√ºino {fila['species']}, clasif√≠calo en una categor√≠a de tama√±o (Peque√±o, Mediano, Grande):
    - Longitud del pico: {fila['bill_length_mm']} mm
    - Profundidad del pico: {fila['bill_depth_mm']} mm
    - Longitud de la aleta: {fila['flipper_length_mm']} mm
    - Masa corporal: {fila['body_mass_g']} g
    
    Devuelve solo una palabra: Peque√±o, Mediano o Grande.
    """
    
    # Llamamos a la API con baja temperatura para respuestas consistentes
    return consultar_openai(prompt, temperatura=0.1, max_tokens=10)

In [None]:
# Clasificamos cada ping√ºino en la muestra
categorias_tama√±o = []

for idx, fila in muestra_ping√ºinos.iterrows():
    print(f"Clasificando ping√ºino {idx+1}/10...")
    categoria = clasificar_tama√±o(fila)
    categorias_tama√±o.append(categoria.strip())
    # Pausa para evitar l√≠mites de tasa en la API
    time.sleep(1)

# A√±adimos la categor√≠a al dataframe
muestra_ping√ºinos['categoria_tama√±o'] = categorias_tama√±o

# Mostramos el resultado
muestra_ping√ºinos[['species', 'body_mass_g', 'flipper_length_mm', 'categoria_tama√±o']]

In [None]:
# Visualizamos la distribuci√≥n de categor√≠as
plt.figure(figsize=(10, 6))
sns.countplot(x='categoria_tama√±o', hue='species', data=muestra_ping√ºinos, palette='viridis')
plt.title('Categor√≠as de Tama√±o por Especie', fontsize=15)
plt.xlabel('Categor√≠a de Tama√±o', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.tight_layout()
plt.show()

## üß™ Enriquecimiento 3: Generaci√≥n de Datos Sint√©ticos

Vamos a utilizar la IA para generar datos de ping√ºinos sint√©ticos basados en los patrones del dataset original.

In [None]:
# Primero, obtenemos un resumen estad√≠stico del dataset
resumen = penguins_clean.groupby('species').agg({
    'bill_length_mm': ['mean', 'min', 'max'],
    'bill_depth_mm': ['mean', 'min', 'max'],
    'flipper_length_mm': ['mean', 'min', 'max'],
    'body_mass_g': ['mean', 'min', 'max']
}).round(2)

# Mostramos el resumen
resumen

In [None]:
# Funci√≥n para generar ping√ºinos sint√©ticos
def generar_ping√ºinos_sinteticos(n=5):
    # Convertimos el resumen a formato de texto para el prompt
    resumen_texto = ""
    for especie in especies:
        resumen_texto += f"\n{especie}:\n"
        for medida in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']:
            media = resumen.loc[especie, (medida, 'mean')]
            minimo = resumen.loc[especie, (medida, 'min')]
            maximo = resumen.loc[especie, (medida, 'max')]
            resumen_texto += f"- {medida}: media={media}, rango=[{minimo}-{maximo}]\n"
    
    prompt = f"""
    Genera {n} ping√ºinos sint√©ticos basados en las siguientes estad√≠sticas de ping√ºinos reales.
    Aseg√∫rate de que los valores sean realistas y dentro de los rangos t√≠picos para cada especie.
    
    Estad√≠sticas por especie:
    {resumen_texto}
    
    Para cada ping√ºino, genera:
    1. species: Adelie, Chinstrap, o Gentoo
    2. island: Biscoe, Dream, o Torgersen
    3. bill_length_mm: longitud del pico en mm
    4. bill_depth_mm: profundidad del pico en mm
    5. flipper_length_mm: longitud de la aleta en mm
    6. body_mass_g: masa corporal en gramos
    7. sex: male o female
    
    Devuelve un array de {n} objetos JSON, uno por cada ping√ºino generado.
    """
    
    # Llamamos a la API solicitando formato JSON
    resultado = consultar_openai(prompt, temperatura=0.8, max_tokens=500, formato_salida="json")
    
    # Si recibimos un diccionario, extraemos la lista de ping√ºinos
    if isinstance(resultado, dict) and 'ping√ºinos' in resultado:
        return resultado['ping√ºinos']
    elif isinstance(resultado, list):
        return resultado
    else:
        # Intentamos extraer manualmente el JSON si no se devolvi√≥ correctamente
        try:
            texto = str(resultado)
            # Buscamos el primer [ y el √∫ltimo ]
            inicio = texto.find('[')
            fin = texto.rfind(']') + 1
            if inicio >= 0 and fin > inicio:
                json_text = texto[inicio:fin]
                return json.loads(json_text)
            else:
                print("‚ùå No se pudo extraer JSON de la respuesta.")
                return []
        except Exception as e:
            print(f"‚ùå Error al procesar JSON: {e}")
            return []

In [None]:
# Generamos 5 ping√ºinos sint√©ticos
print("Generando ping√ºinos sint√©ticos...")
ping√ºinos_sinteticos = generar_ping√ºinos_sinteticos(n=5)

# Convertimos a DataFrame
if ping√ºinos_sinteticos:
    df_sinteticos = pd.DataFrame(ping√ºinos_sinteticos)
    print("\n‚úÖ Ping√ºinos sint√©ticos generados:")
    display(df_sinteticos)
else:
    print("‚ùå No se pudieron generar ping√ºinos sint√©ticos.")

## üí° Enriquecimiento 4: Extracci√≥n de Insights

Vamos a pedirle a la IA que analice nuestros datos y extraiga insights interesantes.

In [None]:
# Generamos un resumen de los datos para el prompt
correlaciones = penguins_clean.corr().round(2)
conteo_especies = penguins_clean['species'].value_counts()
conteo_islas = penguins_clean.groupby(['island', 'species']).size().unstack(fill_value=0)

# Calculamos medias por especie para cada medida
medias_por_especie = penguins_clean.groupby('species').mean().round(2)

# Resumen de datos en formato texto
resumen_datos = f"""
RESUMEN DEL DATASET DE PING√úINOS:

1. Distribuci√≥n de especies:
{conteo_especies.to_string()}

2. Distribuci√≥n por isla y especie:
{conteo_islas.to_string()}

3. Medias por especie:
{medias_por_especie.to_string()}

4. Matriz de correlaci√≥n:
{correlaciones.to_string()}
"""

In [None]:
# Funci√≥n para extraer insights
def extraer_insights(resumen_datos):
    prompt = f"""
    Analiza el siguiente resumen de un dataset de ping√ºinos y extrae 5 insights relevantes y √∫tiles.
    Para cada insight, proporciona:
    1. Una descripci√≥n clara del hallazgo
    2. Una posible explicaci√≥n biol√≥gica o ecol√≥gica
    3. Una sugerencia de visualizaci√≥n que podr√≠a ilustrar mejor este insight
    
    {resumen_datos}
    
    Formato de respuesta: Devuelve un objeto JSON con una lista de 5 insights, cada uno con las propiedades 'hallazgo', 'explicacion' y 'visualizacion_sugerida'.
    """
    
    # Llamamos a la API solicitando formato JSON
    return consultar_openai(prompt, temperatura=0.7, max_tokens=800, formato_salida="json")

In [None]:
# Extraemos insights de los datos
print("Extrayendo insights de los datos...")
insights = extraer_insights(resumen_datos)

# Mostramos los insights
if insights and 'insights' in insights:
    for i, insight in enumerate(insights['insights'], 1):
        print(f"\n‚ú® INSIGHT {i}:")
        print(f"üîç Hallazgo: {insight['hallazgo']}")
        print(f"üß† Explicaci√≥n: {insight['explicacion']}")
        print(f"üìä Visualizaci√≥n sugerida: {insight['visualizacion_sugerida']}")
else:
    print("‚ùå No se pudieron extraer insights.")

## üé® Implementemos una de las visualizaciones sugeridas

In [None]:
# Ejemplo de visualizaci√≥n basada en uno de los insights
plt.figure(figsize=(12, 8))

# Gr√°fico de dispersi√≥n con todas las medidas
sns.scatterplot(x='flipper_length_mm', y='body_mass_g', 
                hue='species', size='bill_length_mm',
                sizes=(20, 200), alpha=0.8, palette='viridis',
                data=penguins_clean)

plt.title('Relaci√≥n entre Longitud de Aleta, Masa Corporal y Longitud del Pico por Especie', fontsize=16)
plt.xlabel('Longitud de Aleta (mm)', fontsize=14)
plt.ylabel('Masa Corporal (g)', fontsize=14)
plt.legend(title='Especie', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## üå± C√≥mo la IA apoya en enriquecer flujos de datos

La IA puede enriquecer tus flujos de datos de m√∫ltiples formas:

### 1Ô∏è‚É£ Clasificaci√≥n de texto
- üè∑Ô∏è Categorizaci√≥n autom√°tica de comentarios, rese√±as o documentos
- üìä An√°lisis de sentimiento para entender la opini√≥n de clientes
- üîç Extracci√≥n de temas y conceptos clave de grandes vol√∫menes de texto

### 2Ô∏è‚É£ Generaci√≥n de datos
- üß™ Creaci√≥n de datos sint√©ticos para pruebas o entrenamiento
- üìù Generaci√≥n de descripciones, t√≠tulos o res√∫menes
- üîÑ Aumento de datos para equilibrar clases subrepresentadas

### 3Ô∏è‚É£ Limpieza de datos
- üßπ Detecci√≥n y correcci√≥n de errores o valores at√≠picos
- üîÑ Normalizaci√≥n de texto (nombres, direcciones, etc.)
- üìã Completar valores faltantes con datos realistas

### 4Ô∏è‚É£ Extracci√≥n de insights
- üí° Descubrimiento autom√°tico de patrones y relaciones
- üìà Generaci√≥n de hip√≥tesis para investigaci√≥n adicional
- üìä Sugerencias de visualizaciones relevantes

## üöÄ Ideas "wow" para demostraciones

### 1Ô∏è‚É£ Clasificaci√≥n de rese√±as en vivo
- Crear un peque√±o dashboard donde se puedan pegar rese√±as de productos
- La IA analiza en tiempo real y clasifica por sentimiento, temas principales y problemas detectados
- Muestra un resumen visual con gr√°ficos de temas y sentimientos

### 2Ô∏è‚É£ Generaci√≥n de insights a partir de descripciones cortas
- Permitir al usuario describir brevemente un negocio o producto
- La IA genera autom√°ticamente:
  - Posibles segmentos de clientes
  - Indicadores clave de rendimiento (KPIs) relevantes
  - Ideas para an√°lisis de datos y experimentos

### 3Ô∏è‚É£ Transformaci√≥n de datos num√©ricos en narrativas
- Cargar un dataset simple (ventas, usuarios, etc.)
- La IA genera autom√°ticamente una narrativa que explica los patrones principales
- Incluye recomendaciones accionables basadas en los datos

### 4Ô∏è‚É£ Generador de dashboards por voz
- El usuario describe verbalmente qu√© quiere visualizar
- La IA genera el c√≥digo para crear ese dashboard espec√≠fico
- Se muestra en tiempo real el resultado visual

## üìù Ejemplo de integraci√≥n con dashboard

Aqu√≠ un ejemplo de c√≥mo podr√≠as integrar el an√°lisis de ping√ºinos en un dashboard:

In [None]:
# Ejemplo conceptual de c√≥digo para Streamlit (no ejecutar)
'''
import streamlit as st
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from PIL import Image
import openai
import os
from dotenv import load_dotenv

# Configuraci√≥n inicial
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
st.set_page_config(page_title="An√°lisis de Ping√ºinos con IA", layout="wide")

# T√≠tulo y descripci√≥n
st.title("üêß An√°lisis de Ping√ºinos Enriquecido con IA")
st.write("Explora datos de ping√ºinos con ayuda de inteligencia artificial generativa")

# Cargamos datos
penguins = sns.load_dataset("penguins")
penguins_clean = penguins.dropna().reset_index(drop=True)

# Sidebar para filtros
st.sidebar.header("Filtros")
selected_species = st.sidebar.multiselect("Especies", penguins_clean['species'].unique(), default=penguins_clean['species'].unique())
selected_island = st.sidebar.multiselect("Islas", penguins_clean['island'].unique(), default=penguins_clean['island'].unique())

# Filtramos datos
filtered_data = penguins_clean[
    penguins_clean['species'].isin(selected_species) &
    penguins_clean['island'].isin(selected_island)
]

# Columnas principales
col1, col2 = st.columns([3, 2])

with col1:
    st.header("Visualizaci√≥n de Datos")
    
    # Selector de visualizaci√≥n
    chart_type = st.selectbox(
        "Selecciona tipo de gr√°fico", 
        ["Scatter Plot", "Box Plot", "Violin Plot", "Pair Plot"]
    )
    
    # Generamos el gr√°fico seleccionado
    fig, ax = plt.subplots(figsize=(10, 6))
    
    if chart_type == "Scatter Plot":
        sns.scatterplot(x='flipper_length_mm', y='body_mass_g', 
                        hue='species', size='bill_length_mm',
                        sizes=(20, 200), alpha=0.8, data=filtered_data, ax=ax)
        plt.title('Relaci√≥n entre Longitud de Aleta y Masa Corporal')
        
    elif chart_type == "Box Plot":
        sns.boxplot(x='species', y='body_mass_g', data=filtered_data, ax=ax)
        plt.title('Distribuci√≥n de Masa Corporal por Especie')
        
    elif chart_type == "Violin Plot":
        sns.violinplot(x='species', y='flipper_length_mm', data=filtered_data, ax=ax)
        plt.title('Distribuci√≥n de Longitud de Aleta por Especie')
        
    elif chart_type == "Pair Plot":
        # Para pairplot necesitamos una figura diferente
        plt.close(fig)
        fig = sns.pairplot(filtered_data, hue='species', height=2.5)
        plt.suptitle('Relaciones entre Variables por Especie', y=1.02)
    
    st.pyplot(fig)

with col2:
    st.header("An√°lisis con IA")
    
    # Si el usuario selecciona una sola especie, mostramos su descripci√≥n
    if len(selected_species) == 1:
        st.subheader(f"Sobre los ping√ºinos {selected_species[0]}")
        
        # Aqu√≠ utilizar√≠amos la funci√≥n de generar_descripcion_especie
        # y guardar√≠amos en cach√© el resultado para no llamar a la API cada vez
        if "descripciones" not in st.session_state:
            st.session_state.descripciones = {}
            
        if selected_species[0] not in st.session_state.descripciones:
            with st.spinner("Generando descripci√≥n con IA..."):
                # Llamar√≠amos a la funci√≥n que usa OpenAI para generar la descripci√≥n
                st.session_state.descripciones[selected_species[0]] = "Descripci√≥n del ping√ºino..." # Simulado
                
        st.write(st.session_state.descripciones[selected_species[0]])
    
    # Bot√≥n para generar insights sobre los datos filtrados
    if st.button("Generar insights con IA"):
        with st.spinner("El modelo est√° analizando los datos..."):
            # Aqu√≠ llamar√≠amos a la funci√≥n que extrae insights
            # Simulado para este ejemplo
            insights = ["El ping√ºino Gentoo es significativamente m√°s pesado que las otras especies",
                       "Existe una fuerte correlaci√≥n entre la longitud de la aleta y la masa corporal",
                       "La distribuci√≥n de especies var√≠a considerablemente seg√∫n la isla"]
            
            for insight in insights:
                st.info(insight)
    
    # Cuadro de texto para preguntas del usuario
    st.subheader("Pregunta sobre los datos")
    user_question = st.text_input("Haz una pregunta sobre los ping√ºinos:")
    
    if user_question:
        with st.spinner("Procesando tu pregunta..."):
            # Aqu√≠ llamar√≠amos a la API de OpenAI con el contexto de los datos
            # Simulado para este ejemplo
            response = "Los ping√ºinos Gentoo tienen las aletas m√°s largas de las tres especies, con un promedio de 217mm comparado con 190mm para Adelie y 195mm para Chinstrap."
            st.success(response)
'''

## üåü Conclusi√≥n

En este notebook hemos explorado diferentes formas de enriquecer datos con IA generativa:

- ‚úÖ Generamos descripciones detalladas para complementar datos num√©ricos
- ‚úÖ Clasificamos autom√°ticamente ejemplos seg√∫n sus caracter√≠sticas
- ‚úÖ Creamos datos sint√©ticos basados en patrones existentes
- ‚úÖ Extrajimos insights autom√°ticos a partir de estad√≠sticas

Estas t√©cnicas pueden aplicarse a cualquier dominio y tipo de datos, permiti√©ndote:

- üîç Descubrir patrones ocultos en tus datos
- üöÄ Acelerar an√°lisis exploratorios
- üí° Generar hip√≥tesis para investigaci√≥n adicional
- üìä Crear visualizaciones y dashboards m√°s informativos

### Pr√≥ximos pasos:
- Prueba estas t√©cnicas con tus propios datasets
- Integra estos enriquecimientos en tus flujos de an√°lisis de datos
- Crea dashboards interactivos que combinen datos y generaci√≥n de IA