[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/husseinlopez/diplomadoIA/blob/main/M1_Ejercicios_Visualizacion_Exploracion.ipynb)

# M√≥dulo 1: Introducci√≥n a la Miner√≠a de Datos
## Ejercicios Pr√°cticos de Visualizaci√≥n y Exploraci√≥n

**Diplomado en Inteligencia Artificial**  
Dr. Irvin Hussein L√≥pez Nava  
CICESE - UABC

---

### Objetivos de esta sesi√≥n

1. **Familiarizarse con las herramientas b√°sicas** de an√°lisis exploratorio en Python
2. **Visualizar diferentes tipos de datos** seg√∫n su naturaleza (nominal, ordinal, continuo, discreto)
3. **Detectar patrones, relaciones y anomal√≠as** antes de modelar
4. **Aplicar buenas pr√°cticas** de visualizaci√≥n cient√≠fica

---

### Estructura del notebook

**Parte 1:** Visualizaci√≥n de conjuntos de datos gen√©ricos  
- Cantidades
- Distribuciones
- Proporciones
- Asociaciones
- Variables ordenadas

**Parte 2:** Exploraci√≥n de un conjunto de datos real  
- An√°lisis completo de un dataset cient√≠fico
- Identificaci√≥n de tipos de atributos
- Detecci√≥n de problemas en los datos
- Preparaci√≥n para modelado

## 0. Configuraci√≥n del Entorno

Importaremos las bibliotecas necesarias para todo el an√°lisis.

In [None]:
# Manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Configuraci√≥n de matplotlib para mejor visualizaci√≥n
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10

# Para ignorar warnings menores
import warnings
warnings.filterwarnings('ignore')

# Verificar versiones
print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")
print(f"Matplotlib: {plt.matplotlib.__version__}")
print(f"Seaborn: {sns.__version__}")
print("\n‚úì Entorno configurado correctamente")

---

# PARTE 1: Visualizaci√≥n de Datos Gen√©ricos

En esta secci√≥n exploraremos los **tipos fundamentales de visualizaci√≥n** seg√∫n el tipo de pregunta que queremos responder.

## 1.1 Visualizaci√≥n de Cantidades

**Pregunta:** ¬øCu√°nto hay de cada cosa?

Las cantidades representan magnitudes absolutas que queremos comparar entre categor√≠as.

In [None]:
# Crear datos de ejemplo: Producci√≥n de diferentes materiales
materiales = ['TiO‚ÇÇ', 'ZnO', 'Al‚ÇÇO‚ÇÉ', 'SiO‚ÇÇ', 'Fe‚ÇÇO‚ÇÉ', 'CuO']
produccion_kg = [245, 180, 320, 295, 150, 210]

# Crear DataFrame
df_materiales = pd.DataFrame({
    'Material': materiales,
    'Producci√≥n (kg)': produccion_kg
})

print("Datos de producci√≥n:")
print(df_materiales)

In [None]:
# Gr√°fico de barras: el est√°ndar para comparar cantidades
fig, ax = plt.subplots(figsize=(10, 6))

# Crear barras con colores diferenciados
bars = ax.bar(df_materiales['Material'], 
              df_materiales['Producci√≥n (kg)'],
              color=sns.color_palette("viridis", len(materiales)),
              edgecolor='black',
              linewidth=1.2)

# Personalizaci√≥n
ax.set_xlabel('Material', fontweight='bold')
ax.set_ylabel('Producci√≥n (kg)', fontweight='bold')
ax.set_title('Comparaci√≥n de Producci√≥n por Tipo de Material', 
             fontweight='bold', pad=20)
ax.grid(axis='y', alpha=0.3)

# A√±adir valores sobre las barras
for bar in bars:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{height:.0f}',
            ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüìä Observaciones:")
print("‚Ä¢ El eje Y comienza en 0 para evitar distorsi√≥n visual")
print("‚Ä¢ Las barras facilitan comparaci√≥n inmediata de magnitudes")
print(f"‚Ä¢ Material con mayor producci√≥n: {df_materiales.loc[df_materiales['Producci√≥n (kg)'].idxmax(), 'Material']}")

In [None]:
# Gr√°fico de puntos: alternativa m√°s precisa para comparaciones finas
fig, ax = plt.subplots(figsize=(10, 6))

# Ordenar datos para mejor visualizaci√≥n
df_sorted = df_materiales.sort_values('Producci√≥n (kg)')

# Crear gr√°fico de puntos
ax.plot(df_sorted['Producci√≥n (kg)'], df_sorted['Material'], 
        'o', markersize=12, color='steelblue', 
        markeredgecolor='black', markeredgewidth=1.5)

# A√±adir l√≠neas de referencia
for i, (material, prod) in enumerate(zip(df_sorted['Material'], 
                                          df_sorted['Producci√≥n (kg)'])):
    ax.hlines(y=i, xmin=0, xmax=prod, 
              colors='gray', linestyles='--', alpha=0.3)

ax.set_xlabel('Producci√≥n (kg)', fontweight='bold')
ax.set_ylabel('Material', fontweight='bold')
ax.set_title('Producci√≥n por Material (Gr√°fico de Puntos)', 
             fontweight='bold', pad=20)
ax.set_yticks(range(len(df_sorted)))
ax.set_yticklabels(df_sorted['Material'])
ax.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüí° Ventaja de los puntos:")
print("‚Ä¢ Menos 'tinta' visual innecesaria")
print("‚Ä¢ Mejor para comparaciones precisas entre valores cercanos")
print("‚Ä¢ M√°s escalable cuando hay muchas categor√≠as")

### üéØ Ejercicio 1: Tu turno

Crea un gr√°fico de barras horizontales con los siguientes datos de diferentes m√©todos de s√≠ntesis:

```python
metodos = ['Sol-gel', 'CVD', 'Sputtering', 'Hidrotermal', 'Coprecipitaci√≥n']
tiempo_h = [8, 4, 2, 12, 6]
```

**Pistas:**
- Usa `ax.barh()` en lugar de `ax.bar()`
- Ordena los datos de menor a mayor tiempo
- A√±ade etiquetas con los valores

In [None]:
# TU C√ìDIGO AQU√ç



## 1.2 Visualizaci√≥n de Distribuciones

**Pregunta:** ¬øC√≥mo est√°n distribuidos los valores?

Una distribuci√≥n describe c√≥mo se reparten los valores de una variable. No solo nos interesa el promedio, sino la **forma completa** de los datos.

In [None]:
# Generar datos simulados: temperaturas de s√≠ntesis (¬∞C)
np.random.seed(42)

# Tres procesos con diferentes distribuciones
temp_proceso_a = np.random.normal(550, 30, 200)  # Normal
temp_proceso_b = np.random.normal(650, 50, 200)  # Normal m√°s dispersa
temp_proceso_c = np.concatenate([np.random.normal(500, 20, 100),
                                  np.random.normal(600, 20, 100)])  # Bimodal

# Crear DataFrame
df_temp = pd.DataFrame({
    'Proceso A': temp_proceso_a,
    'Proceso B': temp_proceso_b,
    'Proceso C': temp_proceso_c
})

print("Estad√≠sticas descriptivas:")
print(df_temp.describe().round(2))

In [None]:
# Histogramas: visualizar la forma de cada distribuci√≥n
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

procesos = ['Proceso A', 'Proceso B', 'Proceso C']
colores = ['#FF6B6B', '#4ECDC4', '#45B7D1']

for ax, proceso, color in zip(axes, procesos, colores):
    ax.hist(df_temp[proceso], bins=30, color=color, 
            alpha=0.7, edgecolor='black', linewidth=1.2)
    ax.axvline(df_temp[proceso].mean(), color='red', 
               linestyle='--', linewidth=2, label='Media')
    ax.axvline(df_temp[proceso].median(), color='blue', 
               linestyle=':', linewidth=2, label='Mediana')
    ax.set_xlabel('Temperatura (¬∞C)', fontweight='bold')
    ax.set_ylabel('Frecuencia', fontweight='bold')
    ax.set_title(proceso, fontweight='bold')
    ax.legend()
    ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüîç An√°lisis de forma:")
print("‚Ä¢ Proceso A: Distribuci√≥n sim√©trica y concentrada")
print("‚Ä¢ Proceso B: Mayor dispersi√≥n (mayor desviaci√≥n est√°ndar)")
print("‚Ä¢ Proceso C: ¬°Bimodal! Sugiere dos poblaciones mezcladas")

In [None]:
# Curvas de densidad: comparaci√≥n suavizada
fig, ax = plt.subplots(figsize=(12, 6))

for proceso, color in zip(procesos, colores):
    df_temp[proceso].plot(kind='kde', ax=ax, label=proceso,
                          color=color, linewidth=2.5)

ax.set_xlabel('Temperatura (¬∞C)', fontweight='bold')
ax.set_ylabel('Densidad', fontweight='bold')
ax.set_title('Comparaci√≥n de Distribuciones de Temperatura', 
             fontweight='bold', pad=20)
ax.legend(title='Proceso', fontsize=11)
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\n‚ú® Ventaja de las curvas de densidad:")
print("‚Ä¢ Facilitan la comparaci√≥n directa entre distribuciones")
print("‚Ä¢ Representaci√≥n suavizada (no dependen del n√∫mero de bins)")
print("‚Ä¢ Revelan claramente la bimodalidad del Proceso C")

In [None]:
# Diagramas de caja: resumen estad√≠stico robusto
fig, ax = plt.subplots(figsize=(10, 6))

# Crear boxplot
bp = ax.boxplot([df_temp[p] for p in procesos],
                 labels=procesos,
                 patch_artist=True,
                 notch=True,
                 showmeans=True)

# Colorear las cajas
for patch, color in zip(bp['boxes'], colores):
    patch.set_facecolor(color)
    patch.set_alpha(0.7)

ax.set_ylabel('Temperatura (¬∞C)', fontweight='bold')
ax.set_title('Comparaci√≥n Robusta de Distribuciones', 
             fontweight='bold', pad=20)
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüì¶ Componentes del diagrama de caja:")
print("‚Ä¢ L√≠nea central: Mediana (Q2)")
print("‚Ä¢ Caja: Rango intercuart√≠lico (Q1 a Q3)")
print("‚Ä¢ Bigotes: Hasta 1.5√óIQR desde la caja")
print("‚Ä¢ Puntos: Valores at√≠picos (outliers)")
print("‚Ä¢ Tri√°ngulo verde: Media")
print("\nüí™ Ventajas: Resistente a outliers, comparaci√≥n directa, compacto")

### üéØ Ejercicio 2: An√°lisis de distribuciones

Genera datos de energ√≠a de banda prohibida (eV) para tres semiconductores:

```python
eg_tio2 = np.random.normal(3.2, 0.15, 150)
eg_zno = np.random.normal(3.37, 0.12, 150)
eg_wo3 = np.random.normal(2.8, 0.2, 150)
```

Crea:
1. Un violin plot comparativo (usa `sns.violinplot()`)
2. Calcula e imprime: media, mediana y desviaci√≥n est√°ndar de cada uno

In [None]:
# TU C√ìDIGO AQU√ç



## 1.3 Visualizaci√≥n de Proporciones

**Pregunta:** ¬øQu√© fracci√≥n del todo corresponde a cada categor√≠a?

Las proporciones describen c√≥mo se reparte un total entre categor√≠as.

In [None]:
# Datos: Composici√≥n de muestras por m√©todo de s√≠ntesis
data_composicion = {
    'M√©todo': ['Sol-gel', 'Sol-gel', 'Sol-gel', 
               'CVD', 'CVD', 'CVD',
               'Hidrotermal', 'Hidrotermal', 'Hidrotermal'],
    'Fase': ['Anatasa', 'Rutilo', 'Brookita',
             'Anatasa', 'Rutilo', 'Brookita',
             'Anatasa', 'Rutilo', 'Brookita'],
    'Proporci√≥n': [0.65, 0.30, 0.05,
                   0.45, 0.50, 0.05,
                   0.80, 0.15, 0.05]
}

df_comp = pd.DataFrame(data_composicion)
print(df_comp)

In [None]:
# Barras apiladas al 100%
df_pivot = df_comp.pivot(index='M√©todo', columns='Fase', values='Proporci√≥n')

fig, ax = plt.subplots(figsize=(10, 6))

df_pivot.plot(kind='bar', stacked=True, ax=ax,
              color=['#FFD93D', '#6BCB77', '#4D96FF'],
              edgecolor='black', linewidth=1.2)

ax.set_ylabel('Proporci√≥n', fontweight='bold')
ax.set_xlabel('M√©todo de S√≠ntesis', fontweight='bold')
ax.set_title('Composici√≥n de Fases Cristalinas por M√©todo', 
             fontweight='bold', pad=20)
ax.legend(title='Fase', bbox_to_anchor=(1.05, 1), loc='upper left')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüî¨ Observaciones:")
print("‚Ä¢ Hidrotermal favorece fuertemente la fase Anatasa")
print("‚Ä¢ CVD produce mayor proporci√≥n de Rutilo")
print("‚Ä¢ Brookita aparece en peque√±a proporci√≥n en todos los m√©todos")

In [None]:
# Barras lado a lado: mejor para comparar categor√≠as espec√≠ficas
fig, ax = plt.subplots(figsize=(10, 6))

df_pivot.plot(kind='bar', ax=ax,
              color=['#FFD93D', '#6BCB77', '#4D96FF'],
              edgecolor='black', linewidth=1.2)

ax.set_ylabel('Proporci√≥n', fontweight='bold')
ax.set_xlabel('M√©todo de S√≠ntesis', fontweight='bold')
ax.set_title('Comparaci√≥n Directa de Fases por M√©todo', 
             fontweight='bold', pad=20)
ax.legend(title='Fase')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüìä Cu√°ndo usar cada tipo:")
print("‚Ä¢ Barras apiladas ‚Üí Ver composici√≥n total de cada grupo")
print("‚Ä¢ Barras lado a lado ‚Üí Comparar categor√≠as espec√≠ficas entre grupos")

## 1.4 Visualizaci√≥n de Asociaciones

**Pregunta:** ¬øC√≥mo var√≠an conjuntamente dos o m√°s variables?

Las asociaciones revelan relaciones, tendencias y estructuras latentes en los datos.

In [None]:
# Generar datos simulados: propiedades de materiales
np.random.seed(42)
n = 100

# Variables correlacionadas
temperatura = np.random.uniform(400, 800, n)
cristalinidad = 20 + 0.08 * temperatura + np.random.normal(0, 5, n)
tamano_grano = 10 + 0.05 * temperatura + np.random.normal(0, 3, n)
eficiencia = 30 + 0.3 * cristalinidad + 0.2 * tamano_grano + np.random.normal(0, 8, n)

# Crear DataFrame
df_prop = pd.DataFrame({
    'Temperatura (¬∞C)': temperatura,
    'Cristalinidad (%)': cristalinidad,
    'Tama√±o grano (nm)': tamano_grano,
    'Eficiencia (%)': eficiencia
})

print("Primeras filas:")
print(df_prop.head())
print("\nEstad√≠sticas:")
print(df_prop.describe().round(2))

In [None]:
# Diagrama de dispersi√≥n simple
fig, ax = plt.subplots(figsize=(10, 6))

scatter = ax.scatter(df_prop['Temperatura (¬∞C)'], 
                     df_prop['Cristalinidad (%)'],
                     c=df_prop['Eficiencia (%)'],
                     cmap='viridis',
                     s=100,
                     alpha=0.6,
                     edgecolors='black',
                     linewidth=0.5)

# A√±adir barra de color
cbar = plt.colorbar(scatter, ax=ax)
cbar.set_label('Eficiencia (%)', fontweight='bold')

ax.set_xlabel('Temperatura (¬∞C)', fontweight='bold')
ax.set_ylabel('Cristalinidad (%)', fontweight='bold')
ax.set_title('Relaci√≥n entre Temperatura, Cristalinidad y Eficiencia', 
             fontweight='bold', pad=20)
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüîç Patrones observables:")
print("‚Ä¢ Relaci√≥n positiva entre temperatura y cristalinidad")
print("‚Ä¢ Mayor eficiencia asociada con mayor cristalinidad")
print("‚Ä¢ No hay agrupamientos evidentes (distribuci√≥n continua)")

In [None]:
# Pairplot: matriz de dispersi√≥n para todas las combinaciones
g = sns.pairplot(df_prop, 
                 diag_kind='kde',
                 plot_kws={'alpha': 0.6, 's': 50, 'edgecolor': 'black'},
                 diag_kws={'linewidth': 2})

g.fig.suptitle('Matriz de Relaciones entre Variables', 
               y=1.01, fontweight='bold', fontsize=14)
plt.tight_layout()
plt.show()

print("\nüéØ Utilidad del pairplot:")
print("‚Ä¢ Explora todas las relaciones bivariadas simult√°neamente")
print("‚Ä¢ Diagonal muestra distribuci√≥n de cada variable")
print("‚Ä¢ Fuera de diagonal: diagramas de dispersi√≥n")
print("‚Ä¢ Ideal para detecci√≥n r√°pida de correlaciones")

In [None]:
# Matriz de correlaci√≥n
correlacion = df_prop.corr()

fig, ax = plt.subplots(figsize=(8, 6))

sns.heatmap(correlacion, 
            annot=True, 
            fmt='.2f',
            cmap='coolwarm',
            center=0,
            square=True,
            linewidths=1,
            cbar_kws={"shrink": 0.8},
            ax=ax)

ax.set_title('Matriz de Correlaci√≥n de Propiedades', 
             fontweight='bold', pad=20)

plt.tight_layout()
plt.show()

print("\nüìä Interpretaci√≥n:")
print(f"‚Ä¢ Correlaci√≥n Temperatura-Cristalinidad: {correlacion.loc['Temperatura (¬∞C)', 'Cristalinidad (%)']:.3f}")
print(f"‚Ä¢ Correlaci√≥n Cristalinidad-Eficiencia: {correlacion.loc['Cristalinidad (%)', 'Eficiencia (%)']:.3f}")
print("\n‚ö†Ô∏è Recordatorio: Correlaci√≥n ‚â† Causalidad")

### üéØ Ejercicio 3: Detectar relaciones

Crea un dataset con las siguientes variables:
- Tiempo de tratamiento t√©rmico (100-500 min)
- √Årea superficial (50-150 m¬≤/g) - correlacionada negativamente con tiempo
- Actividad catal√≠tica - correlacionada positivamente con √°rea superficial

Genera 80 muestras y:
1. Crea un scatter plot de Tiempo vs √Årea superficial
2. Calcula la matriz de correlaci√≥n
3. Identifica qu√© variable tiene mayor correlaci√≥n con Actividad catal√≠tica

In [None]:
# TU C√ìDIGO AQU√ç



## 1.5 Visualizaci√≥n de Variables Ordenadas (Series)

**Pregunta:** ¬øC√≥mo cambia una variable a lo largo de una secuencia ordenada?

Las variables ordenadas tienen una progresi√≥n natural (tiempo, dosis, iteraci√≥n, etc.)

In [None]:
# Datos: Degradaci√≥n de un contaminante bajo luz UV
tiempo_min = np.arange(0, 121, 5)
concentracion_ppm = 100 * np.exp(-0.025 * tiempo_min) + np.random.normal(0, 2, len(tiempo_min))

df_degr = pd.DataFrame({
    'Tiempo (min)': tiempo_min,
    'Concentraci√≥n (ppm)': concentracion_ppm
})

print("Datos de degradaci√≥n:")
print(df_degr.head(10))

In [None]:
# Gr√°fico de l√≠nea: est√°ndar para series ordenadas
fig, ax = plt.subplots(figsize=(12, 6))

ax.plot(df_degr['Tiempo (min)'], df_degr['Concentraci√≥n (ppm)'],
        marker='o', markersize=6, linewidth=2, color='#E74C3C',
        markerfacecolor='white', markeredgecolor='#E74C3C', 
        markeredgewidth=2, label='Experimental')

# A√±adir l√≠nea te√≥rica
teorico = 100 * np.exp(-0.025 * tiempo_min)
ax.plot(tiempo_min, teorico, '--', linewidth=2, 
        color='blue', alpha=0.5, label='Modelo te√≥rico')

ax.set_xlabel('Tiempo (min)', fontweight='bold')
ax.set_ylabel('Concentraci√≥n (ppm)', fontweight='bold')
ax.set_title('Cin√©tica de Degradaci√≥n Fotocatal√≠tica', 
             fontweight='bold', pad=20)
ax.legend(fontsize=11)
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüìà Observaciones:")
print("‚Ä¢ Tendencia exponencial decreciente clara")
print("‚Ä¢ Buen ajuste al modelo te√≥rico (cin√©tica de primer orden)")
print(f"‚Ä¢ Degradaci√≥n del {((df_degr.iloc[0, 1] - df_degr.iloc[-1, 1]) / df_degr.iloc[0, 1] * 100):.1f}% en 120 min")

In [None]:
# Series m√∫ltiples: comparar diferentes catalizadores
np.random.seed(42)
cat_a = 100 * np.exp(-0.025 * tiempo_min) + np.random.normal(0, 2, len(tiempo_min))
cat_b = 100 * np.exp(-0.020 * tiempo_min) + np.random.normal(0, 2, len(tiempo_min))
cat_c = 100 * np.exp(-0.030 * tiempo_min) + np.random.normal(0, 2, len(tiempo_min))

fig, ax = plt.subplots(figsize=(12, 6))

ax.plot(tiempo_min, cat_a, marker='o', label='TiO‚ÇÇ puro', linewidth=2)
ax.plot(tiempo_min, cat_b, marker='s', label='TiO‚ÇÇ/Ag', linewidth=2)
ax.plot(tiempo_min, cat_c, marker='^', label='TiO‚ÇÇ/N', linewidth=2)

ax.set_xlabel('Tiempo (min)', fontweight='bold')
ax.set_ylabel('Concentraci√≥n (ppm)', fontweight='bold')
ax.set_title('Comparaci√≥n de Eficiencia Fotocatal√≠tica', 
             fontweight='bold', pad=20)
ax.legend(title='Catalizador', fontsize=11)
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüèÜ Ranking de eficiencia:")
print("1. TiO‚ÇÇ/N (dopado con nitr√≥geno) - degradaci√≥n m√°s r√°pida")
print("2. TiO‚ÇÇ puro - eficiencia intermedia")
print("3. TiO‚ÇÇ/Ag - degradaci√≥n m√°s lenta")

---

# PARTE 2: Exploraci√≥n de Datos Reales

Ahora aplicaremos todo lo aprendido a un **dataset real completo**.

## 2.1 Carga y Descripci√≥n del Dataset

Usaremos el **Wine Quality Dataset** - un conjunto de datos cl√°sico con propiedades fisicoqu√≠micas de vinos.

In [None]:
# Cargar dataset desde UCI Machine Learning Repository
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'

# Leer datos
df_wine = pd.read_csv(url, sep=';')

print("‚úì Dataset cargado exitosamente\n")
print(f"Dimensiones: {df_wine.shape[0]} muestras √ó {df_wine.shape[1]} variables\n")
print("Primeras filas:")
print(df_wine.head())

In [None]:
# Informaci√≥n general del dataset
print("INFORMACI√ìN GENERAL")
print("="*60)
df_wine.info()

print("\n" + "="*60)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("="*60)
print(df_wine.describe().round(2))

print("\n" + "="*60)
print("VALORES FALTANTES")
print("="*60)
missing = df_wine.isnull().sum()
if missing.sum() == 0:
    print("‚úì No hay valores faltantes en el dataset")
else:
    print(missing[missing > 0])

## 2.2 Identificaci√≥n de Tipos de Atributos

Recordemos la clasificaci√≥n de atributos:
- **Nominales:** Categor√≠as sin orden
- **Ordinales:** Categor√≠as con orden
- **Discretos:** Valores enteros contables
- **Continuos:** Valores reales

In [None]:
# Clasificar atributos seg√∫n su naturaleza
print("CLASIFICACI√ìN DE ATRIBUTOS")
print("="*60)

# Atributos continuos (mediciones fisicoqu√≠micas)
atributos_continuos = [
    'fixed acidity', 'volatile acidity', 'citric acid',
    'residual sugar', 'chlorides', 'free sulfur dioxide',
    'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol'
]

# Atributo ordinal (calidad del vino)
atributo_ordinal = 'quality'

print("\nüìè ATRIBUTOS CONTINUOS (11):")
for attr in atributos_continuos:
    rango = df_wine[attr].max() - df_wine[attr].min()
    print(f"  ‚Ä¢ {attr:25s} [{df_wine[attr].min():.2f} - {df_wine[attr].max():.2f}], rango: {rango:.2f}")

print(f"\nüéØ ATRIBUTO ORDINAL (1):")
print(f"  ‚Ä¢ {atributo_ordinal}")
print(f"    Valores √∫nicos: {sorted(df_wine[atributo_ordinal].unique())}")
print(f"    Distribuci√≥n:")
print(df_wine[atributo_ordinal].value_counts().sort_index())

## 2.3 Exploraci√≥n Visual Sistem√°tica

In [None]:
# 1. Variable objetivo: distribuci√≥n de calidad
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
quality_counts = df_wine['quality'].value_counts().sort_index()
ax1.bar(quality_counts.index, quality_counts.values, 
        color='steelblue', edgecolor='black', linewidth=1.2)
ax1.set_xlabel('Calidad', fontweight='bold')
ax1.set_ylabel('Frecuencia', fontweight='bold')
ax1.set_title('Distribuci√≥n de Calidad del Vino', fontweight='bold')
ax1.grid(axis='y', alpha=0.3)

# Gr√°fico de pastel
colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(quality_counts)))
ax2.pie(quality_counts.values, labels=quality_counts.index,
        autopct='%1.1f%%', colors=colors, startangle=90,
        wedgeprops={'edgecolor': 'black', 'linewidth': 1.2})
ax2.set_title('Proporci√≥n por Categor√≠a de Calidad', fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüéØ AN√ÅLISIS DE LA VARIABLE OBJETIVO:")
print(f"‚Ä¢ Calidad m√≠nima: {df_wine['quality'].min()}")
print(f"‚Ä¢ Calidad m√°xima: {df_wine['quality'].max()}")
print(f"‚Ä¢ Calidad modal: {df_wine['quality'].mode()[0]}")
print(f"‚Ä¢ Calidad media: {df_wine['quality'].mean():.2f}")
print("\n‚ö†Ô∏è Observaci√≥n: Dataset desbalanceado - mayor√≠a de vinos con calidad 5-6")

In [None]:
# 2. Distribuciones de variables continuas
fig, axes = plt.subplots(3, 4, figsize=(16, 12))
axes = axes.ravel()

for idx, col in enumerate(atributos_continuos):
    axes[idx].hist(df_wine[col], bins=30, color='skyblue', 
                   edgecolor='black', alpha=0.7)
    axes[idx].axvline(df_wine[col].mean(), color='red', 
                      linestyle='--', linewidth=2, label='Media')
    axes[idx].axvline(df_wine[col].median(), color='green', 
                      linestyle=':', linewidth=2, label='Mediana')
    axes[idx].set_title(col, fontweight='bold', fontsize=10)
    axes[idx].set_xlabel('')
    axes[idx].set_ylabel('Frecuencia', fontsize=9)
    axes[idx].legend(fontsize=8)
    axes[idx].grid(alpha=0.3)

# Ocultar subplot extra
axes[-1].axis('off')

plt.tight_layout()
plt.show()

print("\nüîç AN√ÅLISIS DE FORMAS:")
print("‚Ä¢ Mayor√≠a de variables muestran asimetr√≠a positiva (cola derecha)")
print("‚Ä¢ Algunas tienen outliers evidentes (ej: residual sugar, chlorides)")
print("‚Ä¢ pH muestra distribuci√≥n m√°s sim√©trica")

In [None]:
# 3. Comparaci√≥n de distribuciones por calidad
# Seleccionar 4 variables clave
variables_clave = ['alcohol', 'volatile acidity', 'sulphates', 'citric acid']

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
axes = axes.ravel()

for idx, var in enumerate(variables_clave):
    sns.boxplot(data=df_wine, x='quality', y=var, ax=axes[idx],
                palette='viridis')
    axes[idx].set_title(f'{var} por Calidad', fontweight='bold')
    axes[idx].set_xlabel('Calidad', fontweight='bold')
    axes[idx].set_ylabel(var, fontweight='bold')
    axes[idx].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüìä PATRONES OBSERVADOS:")
print("‚Ä¢ Alcohol: Tendencia positiva con calidad")
print("‚Ä¢ Volatile acidity: Tendencia negativa con calidad")
print("‚Ä¢ Sulphates: Leve tendencia positiva")
print("‚Ä¢ Citric acid: Relaci√≥n menos clara")

In [None]:
# 4. Matriz de correlaci√≥n completa
# Calcular correlaci√≥n
correlacion = df_wine.corr()

# Crear figura
fig, ax = plt.subplots(figsize=(12, 10))

# Heatmap
sns.heatmap(correlacion, annot=True, fmt='.2f', 
            cmap='coolwarm', center=0,
            square=True, linewidths=0.5,
            cbar_kws={"shrink": 0.8},
            ax=ax)

ax.set_title('Matriz de Correlaci√≥n - Wine Quality Dataset', 
             fontweight='bold', pad=20, fontsize=14)

plt.tight_layout()
plt.show()

# Correlaciones m√°s fuertes con 'quality'
quality_corr = correlacion['quality'].sort_values(ascending=False)
print("\nüéØ CORRELACIONES CON CALIDAD (ordenadas):")
print(quality_corr)

In [None]:
# 5. Scatter plots de las variables m√°s correlacionadas con calidad
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

# Top 3 correlaciones positivas (excluyendo quality consigo misma)
top_vars = quality_corr.index[1:4]  # Excluir 'quality' misma

for idx, var in enumerate(top_vars):
    scatter = axes[idx].scatter(df_wine[var], df_wine['quality'],
                                c=df_wine['quality'], cmap='RdYlGn',
                                s=50, alpha=0.5, edgecolors='black',
                                linewidth=0.5)
    axes[idx].set_xlabel(var, fontweight='bold')
    axes[idx].set_ylabel('Quality', fontweight='bold')
    axes[idx].set_title(f'Corr: {quality_corr[var]:.3f}', fontweight='bold')
    axes[idx].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\n‚ú® VARIABLES M√ÅS PREDICTIVAS:")
for var in top_vars:
    print(f"‚Ä¢ {var}: r = {quality_corr[var]:.3f}")

In [None]:
# 6. Detecci√≥n de outliers mediante boxplots
fig, axes = plt.subplots(3, 4, figsize=(16, 12))
axes = axes.ravel()

outliers_info = {}

for idx, col in enumerate(atributos_continuos):
    # Calcular outliers usando IQR
    Q1 = df_wine[col].quantile(0.25)
    Q3 = df_wine[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df_wine[(df_wine[col] < lower_bound) | (df_wine[col] > upper_bound)]
    outliers_info[col] = len(outliers)
    
    # Boxplot
    bp = axes[idx].boxplot([df_wine[col]], 
                           labels=[col],
                           patch_artist=True,
                           notch=True)
    bp['boxes'][0].set_facecolor('lightblue')
    axes[idx].set_ylabel('Valor', fontsize=9)
    axes[idx].set_title(f'{col}\n({len(outliers)} outliers)', 
                       fontweight='bold', fontsize=9)
    axes[idx].grid(axis='y', alpha=0.3)

# Ocultar subplot extra
axes[-1].axis('off')

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è RESUMEN DE OUTLIERS:")
for var, count in sorted(outliers_info.items(), key=lambda x: x[1], reverse=True):
    pct = (count / len(df_wine)) * 100
    print(f"‚Ä¢ {var:25s}: {count:4d} outliers ({pct:5.2f}%)")

## 2.4 Identificaci√≥n de Problemas y Decisiones

Bas√°ndonos en la exploraci√≥n visual, identificamos los principales retos:

In [None]:
print("="*70)
print("REPORTE DE HALLAZGOS Y DECISIONES PARA PREPROCESAMIENTO")
print("="*70)

print("\n1Ô∏è‚É£ DESBALANCEO DE CLASES")
print("-" * 70)
print("   Problema: Mayor√≠a de muestras concentradas en calidades 5-6")
print("   Impacto: Modelos sesgados hacia clases mayoritarias")
print("   Soluciones posibles:")
print("   ‚Ä¢ T√©cnicas de balanceo (SMOTE, undersampling, oversampling)")
print("   ‚Ä¢ Agrupar calidades en categor√≠as (Bajo/Medio/Alto)")
print("   ‚Ä¢ Usar m√©tricas apropiadas (F1-score, balanced accuracy)")

print("\n2Ô∏è‚É£ OUTLIERS SIGNIFICATIVOS")
print("-" * 70)
print("   Variables m√°s afectadas:")
top_outliers = sorted(outliers_info.items(), key=lambda x: x[1], reverse=True)[:3]
for var, count in top_outliers:
    print(f"   ‚Ä¢ {var}: {count} outliers")
print("   Decisiones:")
print("   ‚Ä¢ Evaluar si son errores o valores genuinos extremos")
print("   ‚Ä¢ Considerar transformaciones (log, Box-Cox)")
print("   ‚Ä¢ Usar m√©todos robustos a outliers")

print("\n3Ô∏è‚É£ ESCALAS DIFERENTES")
print("-" * 70)
ranges = {col: df_wine[col].max() - df_wine[col].min() 
          for col in atributos_continuos}
print("   Rangos muy dispares entre variables:")
print(f"   ‚Ä¢ M√≠nimo: {min(ranges.values()):.2f}")
print(f"   ‚Ä¢ M√°ximo: {max(ranges.values()):.2f}")
print("   Soluci√≥n: Normalizaci√≥n o estandarizaci√≥n obligatoria")

print("\n4Ô∏è‚É£ CORRELACIONES ALTAS ENTRE PREDICTORES")
print("-" * 70)
# Encontrar pares con correlaci√≥n alta
high_corr_pairs = []
for i in range(len(correlacion.columns)):
    for j in range(i+1, len(correlacion.columns)):
        if abs(correlacion.iloc[i, j]) > 0.7:
            high_corr_pairs.append((correlacion.columns[i], 
                                   correlacion.columns[j],
                                   correlacion.iloc[i, j]))

if high_corr_pairs:
    print("   Pares de variables altamente correlacionadas:")
    for var1, var2, corr in high_corr_pairs:
        print(f"   ‚Ä¢ {var1} ‚Üî {var2}: r = {corr:.3f}")
    print("   Considerar: Reducci√≥n de dimensionalidad (PCA)")
else:
    print("   ‚úì No hay multicolinealidad severa")

print("\n5Ô∏è‚É£ DISTRIBUCIONES ASIM√âTRICAS")
print("-" * 70)
print("   Muchas variables con asimetr√≠a positiva")
print("   Considerar: Transformaciones logar√≠tmicas para normalizar")

print("\n" + "="*70)
print("PR√ìXIMOS PASOS RECOMENDADOS")
print("="*70)
print("1. Limpieza de datos y tratamiento de outliers")
print("2. Transformaci√≥n y normalizaci√≥n de variables")
print("3. Balanceo de clases o redefinici√≥n del problema")
print("4. Selecci√≥n de caracter√≠sticas")
print("5. Preparaci√≥n para modelado")
print("="*70)

## üéØ Ejercicio Final Integrador

**Tarea:** Realiza un an√°lisis exploratorio completo de otro dataset

Usa el dataset de vino blanco (similar estructura):
```python
url_white = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'
```

**Entregables:**
1. Carga y descripci√≥n del dataset
2. Identificaci√≥n de tipos de atributos
3. Al menos 4 visualizaciones diferentes (distribuciones, correlaciones, comparaciones por calidad)
4. Lista de al menos 3 problemas identificados en los datos
5. Propuesta de 3 decisiones de preprocesamiento

In [None]:
# TU AN√ÅLISIS COMPLETO AQU√ç



---

## üìö Resumen de la Sesi√≥n

### Lo que hemos aprendido:

1. **Visualizaci√≥n es razonamiento, no decoraci√≥n**
   - Cada tipo de gr√°fico responde a una pregunta espec√≠fica
   - La elecci√≥n correcta depende del tipo de datos y objetivo

2. **Tipos fundamentales de visualizaci√≥n:**
   - Cantidades ‚Üí Barras, puntos
   - Distribuciones ‚Üí Histogramas, boxplots, densidades
   - Proporciones ‚Üí Barras apiladas, comparaciones
   - Asociaciones ‚Üí Scatter plots, matrices de correlaci√≥n
   - Series ‚Üí Gr√°ficos de l√≠nea

3. **Proceso de exploraci√≥n sistem√°tica:**
   - Inspecci√≥n estructural (dimensiones, tipos, faltantes)
   - An√°lisis univariado (distribuciones individuales)
   - An√°lisis bivariado (relaciones entre pares)
   - An√°lisis multivariado (patrones globales)

4. **Detecci√≥n de problemas antes de modelar:**
   - Desbalanceo de clases
   - Outliers
   - Escalas dispares
   - Multicolinealidad
   - Distribuciones asim√©tricas

### Herramientas dominadas:
- **Pandas:** Manipulaci√≥n y estad√≠stica descriptiva
- **Matplotlib:** Control fino de elementos visuales
- **Seaborn:** Visualizaci√≥n estad√≠stica de alto nivel

### Pr√≥xima sesi√≥n:
**Limpieza y Preprocesamiento de Datos**
- Tratamiento de valores faltantes
- Manejo de outliers
- Normalizaci√≥n y estandarizaci√≥n
- Transformaciones de variables
- Reducci√≥n de dimensionalidad
- Balanceo de clases

---

### üìñ Referencias

- Wilke, C. O. (2019). *Fundamentals of Data Visualization*. O'Reilly Media.
- Aggarwal, C. C. (2015). *Data Mining: The Textbook*. Springer.
- McKinney, W. (2017). *Python for Data Analysis*. O'Reilly Media.

---

**¬øPreguntas? ¬øComentarios?**

Dr. Irvin Hussein L√≥pez Nava  
CICESE - UABC