# 01 - Exploraci√≥n de Datos con Azure ML

Este notebook demuestra el uso de GitHub Copilot para acelerar la exploraci√≥n de datos en Azure ML.

**Objetivos:**
- Conectar a Azure ML workspace
- Cargar datos desde Azure Data Lake
- Realizar an√°lisis exploratorio (EDA)
- Generar visualizaciones interactivas
- Detectar calidad de datos

In [None]:
# Imports y configuraci√≥n
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
from great_expectations.dataset import PandasDataset

# Configuraci√≥n de visualizaci√≥n
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Imports completados")

## 1. Conexi√≥n a Azure ML Workspace

In [None]:
# Conectar a Azure ML
credential = DefaultAzureCredential()
ml_client = MLClient(
    credential=credential,
    subscription_id="<YOUR_SUBSCRIPTION_ID>",
    resource_group_name="<YOUR_RESOURCE_GROUP>",
    workspace_name="<YOUR_WORKSPACE>"
)

print(f"Conectado a workspace: {ml_client.workspace_name}")

## 2. Carga de Datos

üí° **Copilot tip:** Usa `/explain` para entender c√≥mo cargar datos desde diferentes fuentes.

In [None]:
# Ejemplo: cargar dataset de ejemplo (reemplazar con tus datos)
# Para demo usaremos un dataset sint√©tico
from sklearn.datasets import make_classification

X, y = make_classification(
    n_samples=10000,
    n_features=20,
    n_informative=15,
    n_redundant=5,
    random_state=42
)

# Crear DataFrame
feature_names = [f'feature_{i}' for i in range(X.shape[1])]
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

print(f"Dataset cargado: {df.shape[0]:,} filas, {df.shape[1]} columnas")
df.head()

## 3. An√°lisis Exploratorio de Datos (EDA)

In [None]:
# Resumen estad√≠stico
print("üìä Resumen Estad√≠stico:")
display(df.describe())

# Informaci√≥n del dataset
print("\nüìã Informaci√≥n del Dataset:")
df.info()

In [None]:
# An√°lisis de valores nulos
null_counts = df.isnull().sum()
if null_counts.sum() > 0:
    print("‚ö†Ô∏è  Valores nulos detectados:")
    print(null_counts[null_counts > 0])
else:
    print("‚úÖ No hay valores nulos")

In [None]:
# Distribuci√≥n de la variable target
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Conteo
df['target'].value_counts().plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥n de Target', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Clase')
axes[0].set_ylabel('Frecuencia')

# Porcentaje
df['target'].value_counts(normalize=True).plot(kind='pie', ax=axes[1], autopct='%1.1f%%')
axes[1].set_title('Proporci√≥n de Clases', fontsize=14, fontweight='bold')
axes[1].set_ylabel('')

plt.tight_layout()
plt.show()

## 4. An√°lisis de Correlaciones

In [None]:
# Matriz de correlaci√≥n
correlation_matrix = df.corr()

# Top correlaciones con target
target_corr = correlation_matrix['target'].sort_values(ascending=False)
print("üéØ Top 10 features correlacionadas con target:")
print(target_corr.head(11))  # 11 porque incluye la correlaci√≥n consigo mismo

In [None]:
# Heatmap de correlaciones
plt.figure(figsize=(16, 12))
sns.heatmap(
    correlation_matrix,
    cmap='coolwarm',
    center=0,
    square=True,
    linewidths=0.5,
    cbar_kws={"shrink": 0.8}
)
plt.title('Matriz de Correlaci√≥n de Features', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## 5. Validaci√≥n de Calidad con Great Expectations

üí° **Copilot tip:** Usa `/doc` para generar expectativas autom√°ticamente.

In [None]:
# Crear dataset con Great Expectations
ge_df = PandasDataset(df)

# Definir expectativas
expectations = [
    ge_df.expect_table_row_count_to_be_between(min_value=1000, max_value=100000),
    ge_df.expect_column_values_to_not_be_null('target'),
    ge_df.expect_column_values_to_be_in_set('target', [0, 1]),
]

# Validar
for exp in expectations:
    if exp['success']:
        print(f"‚úÖ {exp['expectation_type']}")
    else:
        print(f"‚ùå {exp['expectation_type']}: {exp.get('result', 'Failed')}")

## 6. Resumen y Pr√≥ximos Pasos

**Hallazgos clave:**
- Dataset balanceado con ~50% de cada clase
- Sin valores nulos
- Features con diferentes niveles de correlaci√≥n con target

**Pr√≥ximos pasos:**
1. Preparaci√≥n de datos (notebook 02)
2. Feature engineering
3. Entrenamiento de modelos

In [None]:
# Guardar dataset procesado para el siguiente notebook
output_path = './data/exploracion_completa.parquet'
df.to_parquet(output_path, index=False)
print(f"‚úÖ Dataset guardado en: {output_path}")