<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_010.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 10. Visualización avanzada con boxplot y violinplot**
- Crea boxplot de sepal_width por especie
- Crea violinplot de la misma variable
- Identifica especie con mayor mediana de sepal_width
- Identifica especie con mayor variabilidad

# **Resolución del Reto 10**

### **Paso 1: Cargar dataset Iris desde Seaborn**
Importamos el dataset clásico de flores Iris para el análisis de visualización.

```python
# EJECUTA ESTE CÓDIGO PARA CARGAR IRIS
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

print("🌸 Paso 1: Cargando dataset Iris...")
df = sns.load_dataset('iris')
print(f"✅ Dataset cargado - Dimensiones: {df.shape}")
print(f"🌺 Especies disponibles: {df['species'].unique()}")
```

### **Paso 2: Crear boxplot de sepal_width por especie**
Visualizamos la distribución del ancho del sépalo para cada especie usando boxplot.

```python
# EJECUTA ESTE CÓDIGO PARA CREAR BOXPLOT
print("📦 Paso 2: Creando boxplot de sepal_width por especie...")
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='species', y='sepal_width', palette='Set2')
plt.title('Distribución del Ancho del Sépalo por Especie (Boxplot)')
plt.xlabel('Especie')
plt.ylabel('Ancho del Sépalo (cm)')
plt.grid(axis='y', alpha=0.3)
plt.show()
print("✅ Boxplot creado correctamente")
```

### **Paso 3: Crear violinplot de sepal_width por especie**
Complementamos con violinplot para visualizar la densidad de la distribución.

```python
# EJECUTA ESTE CÓDIGO PARA CREAR VIOLINPLOT
print("🎻 Paso 3: Creando violinplot de sepal_width por especie...")
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='species', y='sepal_width', palette='Set2')
plt.title('Distribución del Ancho del Sépalo por Especie (Violinplot)')
plt.xlabel('Especie')
plt.ylabel('Ancho del Sépalo (cm)')
plt.grid(axis='y', alpha=0.3)
plt.show()
print("✅ Violinplot creado correctamente")
```

### **Paso 4: Identificar especie con mayor mediana de sepal_width**
Calculamos las medianas para determinar qué especie tiene el sépalo más ancho.

```python
# EJECUTA ESTE CÓDIGO PARA CALCULAR MEDIANAS
print("📊 Paso 4: Calculando medianas por especie...")
medianas = df.groupby('species')['sepal_width'].median().sort_values(ascending=False)
print("Medianas de sepal_width por especie:")
print(medianas)

especie_mayor_mediana = medianas.index[0]
print(f"\n🎯 Especie con mayor mediana de sepal_width: {especie_mayor_mediana}")
print(f"📏 Mediana: {medianas.iloc[0]:.2f} cm")
```

### **Paso 5: Identificar especie con mayor variabilidad**
Calculamos la desviación estándar para determinar qué especie presenta mayor variabilidad.

```python
# EJECUTA ESTE CÓDIGO PARA CALCULAR VARIABILIDAD
print("📈 Paso 5: Calculando variabilidad por especie...")
desviaciones = df.groupby('species')['sepal_width'].std().sort_values(ascending=False)
print("Desviación estándar de sepal_width por especie:")
print(desviaciones)

especie_mayor_variabilidad = desviaciones.index[0]
print(f"\n🎯 Especie con mayor variabilidad en sepal_width: {especie_mayor_variabilidad}")
print(f"📏 Desviación estándar: {desviaciones.iloc[0]:.3f} cm")
```

### **Paso 6: Visualización combinada (opcional)**
Creamos una visualización que combina boxplot y violinplot para comparación.

```python
# EJECUTA ESTE CÓDIGO PARA VISUALIZACIÓN COMBINADA
print("🔄 Paso 6: Creando visualización combinada...")
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Boxplot
sns.boxplot(data=df, x='species', y='sepal_width', palette='Set2', ax=ax1)
ax1.set_title('Boxplot - Ancho del Sépalo por Especie')
ax1.set_xlabel('Especie')
ax1.set_ylabel('Ancho del Sépalo (cm)')
ax1.grid(axis='y', alpha=0.3)

# Violinplot
sns.violinplot(data=df, x='species', y='sepal_width', palette='Set2', ax=ax2)
ax2.set_title('Violinplot - Ancho del Sépalo por Especie')
ax2.set_xlabel('Especie')
ax2.set_ylabel('Ancho del Sépalo (cm)')
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()
print("✅ Visualización combinada creada")
```

### **Paso 7: Resumen de hallazgos**
Sintetizamos los principales descubrimientos del análisis.

```python
# EJECUTA ESTE CÓDIGO PARA RESUMEN
print("🎓 Paso 7: Resumen de hallazgos del Reto 10")
print("=" * 50)
print(f"📊 Dataset Iris: {df.shape[0]} observaciones, {df.shape[1]} características")
print(f"🌺 Especies analizadas: {', '.join(df['species'].unique())}")
print(f"🎯 Especie con MAYOR mediana de sepal_width: {especie_mayor_mediana}")
print(f"🎯 Especie con MAYOR variabilidad en sepal_width: {especie_mayor_variabilidad}")
print("\n📋 Interpretación visual:")
print("   • Boxplot: Muestra medianas, cuartiles y valores atípicos")
print("   • Violinplot: Combina boxplot con densidad de probabilidad")
print("   • Setosa: Sépalo más ancho y menos variable")
print("   • Virginica: Mayor variabilidad en el ancho del sépalo")

print("\n🎉 ¡Reto 10 completado! Dominada la visualización avanzada con boxplot y violinplot")
```

## 🎯 **Puntos clave del Reto 10**

### **Competencias técnicas adquiridas**
1. **Boxplot**: Visualización de distribuciones con medianas, cuartiles y outliers
2. **Violinplot**: Combinación de distribución de densidad con estadísticas de boxplot
3. **Análisis comparativo**: Identificación de diferencias entre grupos
4. **Métricas de variabilidad**: Uso de desviación estándar para medir dispersión
5. **Visualización múltiple**: Creación de subplots para comparación directa

### **Hallazgos principales del dataset Iris**
- **Setosa** presenta el sépalo más ancho (mayor mediana)
- **Virginica** muestra la mayor variabilidad en el ancho del sépalo
- **Versicolor** tiene una distribución intermedia en ambos aspectos
- Los visualizaciones confirman diferencias significativas entre especies

### **Aplicaciones prácticas**
- Identificación de características distintivas entre categorías
- Detección de outliers y valores atípicos
- Análisis de homogeneidad/heterogeneidad dentro de grupos
- Comunicación efectiva de hallazgos estadísticos