# Análisis de Datos con GPT + Data Science 🚀

## ¿Qué Haremos? 
Exploraremos cómo GPT revoluciona el análisis de datos en Python durante una sesión de 40 minutos. Veremos un flujo de trabajo moderno que combina técnicas tradicionales con IA.

## Objetivos 🎯

1. **Data Science + GPT**
   - Proceso clásico mejorado con IA
   - Casos prácticos reales

2. **Toma de Decisiones**
   - Decisiones basadas en datos + GPT
   - Validación de insights

3. **Automatización**
   - Uso eficiente de la API
   - Tareas rutinarias optimizadas

4. **Interpretación**
   - Análisis asistido por IA
   - Insights accionables

→ Enfoque paso a paso con ejemplos reales 📈

*Nota: Experiencia práctica con código y resultados tangibles*

# 1. Setup Inicial 🛠️

Configuramos nuestro ambiente y cargamos datos para análisis.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from openai import OpenAI
import os
from dotenv import load_dotenv
import numpy as np


# Configuramos la API de OpenAI
load_dotenv()
api_key = os.getenv("api_key_gpt")
client = OpenAI(api_key=api_key)

print("Bibliotecas importadas y API de OpenAI configurada.")

→ Dataset listo para análisis con GPT 📊

*Tip: Verifica tu API key en .env*

#### 1.1 Configuración de API GPT-4 🤖

In [9]:
def gpt_query(prompt):
    try:
        completion = client.chat.completions.create(
            model="gpt-4",
            messages=[
                {"role": "system", "content": "Eres un experto en análisis de datos y machine learning, capaz de proporcionar insights profundos y recomendaciones prácticas."},
                {"role": "user", "content": prompt}
            ]
        )
        return completion.choices[0].message.content
    except Exception as e:
        return f"Error al interactuar con GPT: {e}"

→ Función lista para consultas de análisis 🔍

*Tip: Mantén los prompts concisos y específicos*

#### 1.2 Carga y Exploración Inicial 📊

In [None]:
#Lectura de los datos 
california_housing = fetch_california_housing()
data = pd.DataFrame(california_housing.data, columns=california_housing.feature_names)
data['MedHouseVal'] = california_housing.target

print("Dataset cargado. Primeras filas:")
display(data.head())

print("\nInformación del dataset:")
display(data.info())

# 2. Análisis Exploratorio con GPT 🔍

🎯 Objetivos del análisis:
- Detectar patrones clave
- Identificar correlaciones importantes
- Obtener insights para preprocesamiento

*Tip: GPT complementará nuestro análisis técnico con insights adicionales* 📊

In [11]:
# Usamos GPT para generar recomendaciones sorprendentes, avanzadas y fáciles de entender para un data scientist

initial_recommendations = gpt_query(f"""
Este es un dataset de viviendas en California. Aquí tienes un resumen detallado de la información del dataset:

1. Número de filas y columnas: {data.shape}
2. Características: {data.columns.tolist()}
3. Valores nulos en las columnas: {data.isnull().sum().to_string()}
4. Descripción estadística del dataset:
{data.describe().to_string()}
5. Correlaciones entre características:
{data.corr().to_string()}

Con base en esta información, proporciona recomendaciones avanzadas que un data scientist debería seguir para optimizar este dataset de cara al modelado. Incluye solo acciones claras y fáciles de entender:

Solo responde con recomendaciones claras, prácticas y de alto nivel que sean sorprendentes y útiles para un data scientist experimentado.
""")

↓ Veremos:
- Insights clave del modelo
- Recomendaciones prácticas
- Próximos pasos sugeridos

*Tip: Presta atención a los patrones no obvios identificados por GPT* 🔍

In [None]:
from rich import print
from rich.console import Console
from rich.panel import Panel
from rich.markdown import Markdown
console = Console()

console.print(Markdown(initial_recommendations))


## 2.1 Análisis de Correlaciones 📊

🔍 Observamos:
- Correlaciones importantes con MedHouseVal
- Posibles variables redundantes
- Patrones para feature selection

*Tip: Los colores más intensos indican correlaciones más fuertes* 🎨

In [None]:
# Calcular la matriz de correlación
corr_matrix = data.corr()

# Configurar el tamaño del gráfico
plt.figure(figsize=(12, 8))

# Crear un heatmap para mostrar la matriz de correlación
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, fmt=".2f")


#### 2.1.1 Insights de Correlación con GPT 🎯


🔍 Enfoque en:
- Variables más predictivas
- Multicolinealidad
- Estrategias de feature selection

*Nota: GPT identificará patrones no evidentes en las correlaciones* 📊

In [None]:
# Usamos GPT para generar recomendaciones sorprendentes, avanzadas y fáciles de entender para un data scientist

# Variable a predecir 
target_var = 'MedHouseVal'


Correlation_recomendation = gpt_query(f"""
Analiza la siguiente matriz de correlación y proporciona recomendaciones específicas, concisas,  para la toma de decisiones como data scientist en la construcción de un modelo predictivo. El objetivo es es predecir la variable {target_var}:
{corr_matrix.to_string()}
""")

# Mostrar el panel con las recomendaciones
console.print(Markdown(Correlation_recomendation))


## 2.2 Feature Scaling 📏

Las variables tienen escalas muy diferentes:
- Population: 3 - 35,682 
- AveRooms: 0.8 - 141.9

⚠️ Esto puede afectar:
- Convergencia del modelo
- Interpretabilidad
- Performance general

*Nota: Implementaremos escalado durante el modelado* ➡️

## 2.3 Feature Engineering 🔨

Ideas clave:
- Distancias a puntos clave
- Ratios y combinaciones
- Transformaciones geográficas

*Próximo paso: Implementar features sugeridos* 🗺️

#### 2.3.1 Generación de Features con GPT 🛠️
Buscaremos:
- Interacciones entre variables
- Transformaciones útiles
- Features geográficos

*GPT combinará insights previos para sugerir features óptimos* 🎯

In [None]:
# Variable a predecir 
target_var = 'MedHouseVal'

Feature_eng_reco = gpt_query(f"""
Ten en cuenta las siguientes recomendaciones que me diste, y ayúdame a generar ideas para crear nuevas variables para realizar un modelo predictivo de la variable {target_var}:
{Correlation_recomendation}, {initial_recommendations}.
""")
console.print(Markdown(Feature_eng_reco))


#### 2.3.2 Implementación de Features 🔧
Features creados:
- Interacciones de variables 📊
- Distancias geográficas 🗺️
- Transformaciones logarítmicas 📈

*Tip: Validaremos su utilidad en el modelado* 🎯

In [16]:
def calcular_distancia(lat1, lon1, lat2=34.05, lon2=-118.25):  # Lat/Lon de Los Angeles como ejemplo
    # Convertir grados en radianes
    lat1, lon1, lat2, lon2 = map(np.radians, [lat1, lon1, lat2, lon2])

    # Diferencias
    dlat = lat2 - lat1
    dlon = lon2 - lon1

    # Fórmula de Haversine
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a))
    
    # Radio de la Tierra en kilómetros: aproximadamente 6371
    km = 6371 * c
    return km

# Puedes ajustar lat2 y lon2 a la ubicación que consideres referencia, como una ciudad principal
def calcular_distancia_costa(lat, lon):
    # Supongamos que (34.05, -118.25) es un punto en la costa de California
    return calcular_distancia(lat, lon, 34.05, -118.25)  # Usa latitudes y longitudes reales para tu caso


data['MedInc_por_HouseAge'] = data['MedInc'] * data['HouseAge']
data['MedInc_por_AveRooms'] = data['MedInc'] * data['AveRooms']
data['HouseAge_por_AveRooms'] = data['HouseAge'] * data['AveRooms']
data['Inc_per_Room'] = data['MedInc'] / data['AveRooms']
data['Distancia_Principalidad'] = data.apply(lambda row: calcular_distancia(row['Latitude'], row['Longitude']), axis=1) # Necesitarás una función para calcular distancias
data['Distancia_Costa'] = data.apply(lambda row: calcular_distancia_costa(row['Latitude'], row['Longitude']), axis=1) # Similar a lo anterior, necesitas una función específica
data['Población_Normalizada'] = data['Population'] / data['Population'].max()  # Normalización simple
data['MedInc_Log'] = np.log(data['MedInc'])
data['HouseAge_squared'] = data['HouseAge'] ** 2

In [None]:
data.sample(5)

## 2.4 Análisis de Outliers 🔍

Esta función identifica valores atípicos usando el método IQR (Rango Intercuartil):

📊 Nos dirá:
- Cuántos outliers hay por variable
- Qué porcentaje representan
- Dónde debemos prestar atención

*Tip: Los límites ±1.5*IQR son el estándar para detección* 📈

In [18]:
def calculate_outlier_limits_and_counts(df):
    outlier_summary = []
    for column in df.columns:
        if df[column].dtype in ['float64', 'int64']:  # Solo consideramos columnas numéricas
            p75 = df[column].quantile(0.75)
            p25 = df[column].quantile(0.25)
            iqr = p75 - p25
            upper_limit = p75 + 1.5 * iqr
            lower_limit = p25 - 1.5 * iqr

            # Contar los outliers
            num_outliers = df[(df[column] < lower_limit) | (df[column] > upper_limit)].shape[0]

            # Agregar los resultados a la lista
            outlier_summary.append({
                'Column': column,
                'Lower Limit': lower_limit,
                'Upper Limit': upper_limit,
                'Number of Outliers': num_outliers
            })

    # Convertir la lista a DataFrame
    outlier_df = pd.DataFrame(outlier_summary)
    return outlier_df

# Calcula los límites y el conteo de outliers
outlier_df = calculate_outlier_limits_and_counts(data)


In [None]:
outlier_df

#### 2.4.1 Estrategia de Outliers con GPT 🎯

Evaluaremos:
- Qué outliers tratar
- Métodos de tratamiento
- Impacto en el modelo

*Tip: Balance entre limpieza y preservación de información* ⚖️

In [None]:
# Utilizamos GPT para generar recomendaciones avanzadas, prácticas y claras para científicos de datos.

# Variable a predecir
target_var = 'MedHouseVal'

# Generar recomendaciones sobre manejo de outliers
outlier_reco = gpt_query(f"""
Considerando el resumen estadístico de los datos: {data.describe().to_string()}, y la información sobre outliers: {outlier_df.to_string()}.
Por favor, proporciona recomendaciones breves y directas sobre cómo limpiar los outliers para mejorar la predicción de la variable '{target_var}'. Asegúrate de que las sugerencias sean específicas y tengan sentido. 
""")

console.print(Markdown(outlier_reco))

# 2.4.2 Tratamiento de Outliers 🔧

🔧 Métodos aplicados:
- Log transform
- Clipping
- Normalización

*Tip: Verificar impacto en distribuciones* 📊

In [21]:
import pandas as pd
import numpy as np

# Supongamos que `data` es tu DataFrame y ya está cargado con los datos

### 1. Aplicar Transformación Logarítmica a MedInc
data['MedInc_Log'] = np.log1p(data['MedInc'])

### 2. Imponer Límites a AveRooms
data['AveRooms'] = np.clip(data['AveRooms'], 2.02, 8.46)

### 3. Establecer Límite Superior para AveBedrms
data['AveBedrms'] = np.where(data['AveBedrms'] > 1.24, 1.24, data['AveBedrms'])

### 4. Aplicar Estandarización o Transformación Logarítmica a Population
data['Population_Log'] = np.log1p(data['Population'])

### 5. Imponer Límites a AveOccup
data['AveOccup'] = np.clip(data['AveOccup'], 1.15, 4.56)

### 6. Establecer Límite Superior para MedHouseVal
data['MedHouseVal'] = np.where(data['MedHouseVal'] > 4.82, 4.82, data['MedHouseVal'])

### 7. Establecer Límite Superior para MedInc_por_HouseAge
data['MedInc_por_HouseAge'] = np.where(data['MedInc_por_HouseAge'] > 263.27, 263.27, data['MedInc_por_HouseAge'])

### 8. Establecer Límites para MedInc_por_AveRooms
data['MedInc_por_AveRooms'] = np.clip(data['MedInc_por_AveRooms'], -12.58, 52.13)

### 9. Establecer Límites para HouseAge_por_AveRooms
data['HouseAge_por_AveRooms'] = np.clip(data['HouseAge_por_AveRooms'], -50.62, 341.75)

### 10. Aplicar Transformación Logarítmica o Estandarización a Inc_per_Room
data['Inc_per_Room_Log'] = np.log1p(data['Inc_per_Room'])  # Considerando logarítmica si los valores son siempre positivos

### 11. Estandarizar la Población o Aplicar Transformación Logarítmica
data['Población_Normalizada'] = (data['Population'] - data['Population'].mean()) / data['Population'].std()

### 12. Descartar Outliers en MedInc o Reemplazarlos
# Primero calcular los límites para outliers basados en cuantiles
lower_bound, upper_bound = data['MedInc'].quantile([0.01, 0.99])
# Reemplazar outliers con la mediana
data['MedInc'] = np.where((data['MedInc'] < lower_bound) | (data['MedInc'] > upper_bound), data['MedInc'].median(), data['MedInc'])


In [None]:
data

# 3. Selección de Modelo con GPT 🤖

🎯 Criterios:
- Distribución de datos
- Relaciones entre variables
- Complejidad necesaria

*Tip: La recomendación se basará en características del dataset* 📊

## 3.1 Selección Inteligente del Modelo con GPT y TOOLS🤖


🎯 Proceso:
- Análisis de datos
- Selección modelo óptimo
- Justificación técnica

*Tip: GPT considera complejidad y características del dataset* 📊

In [23]:
from openai import OpenAI
import pandas as pd
from typing import Dict

def get_model_recommendation(data: pd.DataFrame) -> Dict:
    """
    Consulta a GPT para obtener recomendación del mejor modelo de ML.
    
    Args:
        data: DataFrame con los datos para analizar
        
    Returns:
        Dict con el modelo recomendado y su justificación
    """
    # Preparar los datos para GPT
    sample_str = data.sample(20).to_string(index=False)
    stats_str = data.describe().to_string()
    corr_str = data.corr().to_string()
    
    
    # Definir la función tool
    tools = [{
        "type": "function",
        "function": {
            "name": "recommend_model",
            "description": "Recomienda el mejor modelo de ML entre XGBoost, Random Forest y Linear Regression",
            "parameters": {
                "type": "object",
                "properties": {
                    "best_model": {
                        "type": "string",
                        "enum": ["XGBoost", "Random Forest", "Linear Regression"],
                        "description": "El modelo más apropiado para los datos"
                    },
                    "justification": {
                        "type": "string",
                        "description": "Explicación de por qué se eligió este modelo"
                    }
                },
                "required": ["best_model", "justification"]
            }
        }
    }]
    
    try:
        # Realizar llamada a OpenAI
        response = client.chat.completions.create(
            model="gpt-4",
            messages=[
                {
                    "role": "system",
                    "content": """Eres un experto data scientist. Debes analizar los datos 
                    proporcionados y recomendar el mejor modelo de ML entre XGBoost, Random Forest 
                    y Linear Regression. Basa tu decisión en las características de los datos, 
                    correlaciones y estadísticas descriptivas."""
                },
                {
                    "role": "user",
                    "content": f"""Por favor analiza estos datos y recomienda el mejor modelo:
                    
                    Muestra de datos:
                    {sample_str}
                    
                    Estadísticas descriptivas:
                    {stats_str}
                    
                    Matriz de correlación:
                    {corr_str}"""
                }
            ],
            tools=tools,
            tool_choice={"type": "function", "function": {"name": "recommend_model"}},
            temperature=0
        )
        
        # Extraer la recomendación
        tool_call = response.choices[0].message.tool_calls[0]
        recommendation = eval(tool_call.function.arguments)
        
        return recommendation
        
    except Exception as e:
        return {
            "best_model": "Error",
            "justification": f"Error al obtener recomendación: {str(e)}"
        }

#### 3.1.1 Evaluación del Modelo Recomendado 🎯


In [None]:
get_model_recommendation(data)

✅ GPT sugiere Random Forest por:
- Manejo de no-linealidad
- Robustez a outliers
- Captura de interacciones complejas

➡️ Próximo paso: Implementación y validación del modelo

*Tip: Random Forest funciona bien con nuestras features ingenieradas* 🌲

# 4 Entrenamiento del Modelo 🔨


📊 Proceso:
- Split de datos
- Escalado
- Entrenamiento
- Métricas

*Tip: Configuración para reproducibilidad* 🎯

In [25]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import pandas as pd

def train_recommended_model(data: pd.DataFrame, 
                          target_column: str,
                          recommendation: dict,
                          random_state: int = 42):
    """
    Entrena el modelo recomendado por GPT.
    
    Args:
        data: DataFrame con los datos
        target_column: Nombre de la columna objetivo
        recommendation: Diccionario con la recomendación de GPT
        random_state: Semilla para reproducibilidad
    
    Returns:
        dict con el modelo entrenado y sus métricas
    """
    # Separar features y target
    X = data.drop(target_column, axis=1)
    y = data[target_column]
    
    # Split train-test
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=random_state
    )
    
    # Escalar datos
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Seleccionar y entrenar modelo según recomendación
    model_name = recommendation['best_model']
    
    if model_name == 'Random Forest':
        model = RandomForestRegressor(
            n_estimators=100,
            random_state=random_state,
            max_depth=15,
            n_jobs=-1
        )
    elif model_name == 'Linear Regression':
        model = LinearRegression()
    elif model_name == 'XGBoost':
        model = XGBRegressor(
            n_estimators=100,
            random_state=random_state,
            n_jobs=-1
        )
    else:
        raise ValueError(f"Modelo no reconocido: {model_name}")
    
    # Entrenar modelo
    model.fit(X_train_scaled, y_train)
    
    # Hacer predicciones
    train_pred = model.predict(X_train_scaled)
    test_pred = model.predict(X_test_scaled)
    
    # Calcular métricas
    results = {
        'model': model,
        'model_name': model_name,
        'scaler': scaler,
        'metrics': {
            'train_r2': r2_score(y_train, train_pred),
            'test_r2': r2_score(y_test, test_pred),
            'train_mae': mean_squared_error(y_train, train_pred, squared=False),
            'test_mae': mean_squared_error(y_test, test_pred, squared=False)
        }
    }
    
    return results

# 5 Evaluación del Modelo 📊

🔍 Observaciones:
- Buen R² en train 
- Diferencia train-test aceptable
- MAE indica precisión razonable

*Tip: Vigilar señales de overfitting* ⚠️

In [None]:
results_model=train_recommended_model(data, 'MedHouseVal', get_model_recommendation(data))
results_model

# 6. Conclusiones y Próximos Pasos 🎯

🔑 Puntos clave:
- Performance del modelo
- Áreas de mejora
- Próximos pasos

*Tip: GPT ofrece perspectivas adicionales para optimización* 📈

In [None]:
def get_model_performance_analysis(data_stats, outlier_info, model_results):
    prompt = f"""
    Como Data Scientist experto, analiza los siguientes resultados del modelo Random Forest y proporciona recomendaciones específicas sobre el manejo de outliers:

    1. MÉTRICAS ACTUALES DEL MODELO:
    -------------------------------
    - R² Entrenamiento: {model_results['metrics']['train_r2']:.4f}
    - R² Test: {model_results['metrics']['test_r2']:.4f}
    - MAE Entrenamiento: {model_results['metrics']['train_mae']:.4f}
    - MAE Test: {model_results['metrics']['test_mae']:.4f}
    
    Configuración del modelo:
    - Tipo: Random Forest Regressor
    - Max Depth: 15
    - Escalador: StandardScaler

    2. ANÁLISIS SOLICITADO:
    ----------------------
    A. EVALUACIÓN DE OVERFITTING:
    - Analiza la diferencia entre R² de entrenamiento ({model_results['metrics']['train_r2']:.4f}) y test ({model_results['metrics']['test_r2']:.4f})
    - Evalúa la diferencia entre MAE de entrenamiento ({model_results['metrics']['train_mae']:.4f}) y test ({model_results['metrics']['test_mae']:.4f})
    - ¿Qué indican estas diferencias sobre el comportamiento del modelo?

    B. IMPACTO DE OUTLIERS:
    - Considerando las métricas actuales, ¿cómo podrían estar afectando los outliers?
    - ¿La diferencia en MAE sugiere problemas con valores extremos?
    - Análisis de los outliers identificados:
    {outlier_info}

    C. RECOMENDACIONES ESPECÍFICAS:
    1. Estrategias para mejorar el R² de test sin comprometer la generalización
    2. Técnicas para reducir el MAE, especialmente en el conjunto de test
    3. Ajustes sugeridos en los hiperparámetros del Random Forest
    4. Recomendaciones sobre el uso del StandardScaler con los outliers

    D. PLAN DE ACCIÓN PRIORIZADO:
    1. Cambios inmediatos para mejorar el rendimiento
    2. Experimentos sugeridos para validar el impacto de los cambios
    3. Métricas adicionales a monitorear
    4. Valores objetivo realistas para cada métrica

    E. VALIDACIÓN DE RESULTADOS:
    - Suggestions para cross-validation considerando los outliers
    - Métricas adicionales relevantes para este caso
    - Umbrales de aceptación para cada métrica

    Por favor, proporciona recomendaciones concretas y accionables, priorizando las que tengan mayor impacto en reducir la brecha entre las métricas de entrenamiento y test.
    """
    
    return prompt

# Ejemplo de uso
conclusiones_model = gpt_query(
    get_model_performance_analysis(
        data_stats=data.describe().to_string(),
        outlier_info=outlier_df.to_string(),
        model_results=results_model
    )
)

console.print(Markdown(conclusiones_model))