<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_010.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 10. Visualizaci√≥n avanzada con boxplot y violinplot**
- Crea boxplot de sepal_width por especie
- Crea violinplot de la misma variable
- Identifica especie con mayor mediana de sepal_width
- Identifica especie con mayor variabilidad

# **Resoluci√≥n del Reto 10**

### **Paso 1: Cargar dataset Iris desde Seaborn**
Importamos el dataset cl√°sico de flores Iris para el an√°lisis de visualizaci√≥n.

```python
# EJECUTA ESTE C√ìDIGO PARA CARGAR IRIS
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

print("üå∏ Paso 1: Cargando dataset Iris...")
df = sns.load_dataset('iris')
print(f"‚úÖ Dataset cargado - Dimensiones: {df.shape}")
print(f"üå∫ Especies disponibles: {df['species'].unique()}")
```

### **Paso 2: Crear boxplot de sepal_width por especie**
Visualizamos la distribuci√≥n del ancho del s√©palo para cada especie usando boxplot.

```python
# EJECUTA ESTE C√ìDIGO PARA CREAR BOXPLOT
print("üì¶ Paso 2: Creando boxplot de sepal_width por especie...")
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='species', y='sepal_width', palette='Set2')
plt.title('Distribuci√≥n del Ancho del S√©palo por Especie (Boxplot)')
plt.xlabel('Especie')
plt.ylabel('Ancho del S√©palo (cm)')
plt.grid(axis='y', alpha=0.3)
plt.show()
print("‚úÖ Boxplot creado correctamente")
```

### **Paso 3: Crear violinplot de sepal_width por especie**
Complementamos con violinplot para visualizar la densidad de la distribuci√≥n.

```python
# EJECUTA ESTE C√ìDIGO PARA CREAR VIOLINPLOT
print("üéª Paso 3: Creando violinplot de sepal_width por especie...")
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='species', y='sepal_width', palette='Set2')
plt.title('Distribuci√≥n del Ancho del S√©palo por Especie (Violinplot)')
plt.xlabel('Especie')
plt.ylabel('Ancho del S√©palo (cm)')
plt.grid(axis='y', alpha=0.3)
plt.show()
print("‚úÖ Violinplot creado correctamente")
```

### **Paso 4: Identificar especie con mayor mediana de sepal_width**
Calculamos las medianas para determinar qu√© especie tiene el s√©palo m√°s ancho.

```python
# EJECUTA ESTE C√ìDIGO PARA CALCULAR MEDIANAS
print("üìä Paso 4: Calculando medianas por especie...")
medianas = df.groupby('species')['sepal_width'].median().sort_values(ascending=False)
print("Medianas de sepal_width por especie:")
print(medianas)

especie_mayor_mediana = medianas.index[0]
print(f"\nüéØ Especie con mayor mediana de sepal_width: {especie_mayor_mediana}")
print(f"üìè Mediana: {medianas.iloc[0]:.2f} cm")
```

### **Paso 5: Identificar especie con mayor variabilidad**
Calculamos la desviaci√≥n est√°ndar para determinar qu√© especie presenta mayor variabilidad.

```python
# EJECUTA ESTE C√ìDIGO PARA CALCULAR VARIABILIDAD
print("üìà Paso 5: Calculando variabilidad por especie...")
desviaciones = df.groupby('species')['sepal_width'].std().sort_values(ascending=False)
print("Desviaci√≥n est√°ndar de sepal_width por especie:")
print(desviaciones)

especie_mayor_variabilidad = desviaciones.index[0]
print(f"\nüéØ Especie con mayor variabilidad en sepal_width: {especie_mayor_variabilidad}")
print(f"üìè Desviaci√≥n est√°ndar: {desviaciones.iloc[0]:.3f} cm")
```

### **Paso 6: Visualizaci√≥n combinada (opcional)**
Creamos una visualizaci√≥n que combina boxplot y violinplot para comparaci√≥n.

```python
# EJECUTA ESTE C√ìDIGO PARA VISUALIZACI√ìN COMBINADA
print("üîÑ Paso 6: Creando visualizaci√≥n combinada...")
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Boxplot
sns.boxplot(data=df, x='species', y='sepal_width', palette='Set2', ax=ax1)
ax1.set_title('Boxplot - Ancho del S√©palo por Especie')
ax1.set_xlabel('Especie')
ax1.set_ylabel('Ancho del S√©palo (cm)')
ax1.grid(axis='y', alpha=0.3)

# Violinplot
sns.violinplot(data=df, x='species', y='sepal_width', palette='Set2', ax=ax2)
ax2.set_title('Violinplot - Ancho del S√©palo por Especie')
ax2.set_xlabel('Especie')
ax2.set_ylabel('Ancho del S√©palo (cm)')
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()
print("‚úÖ Visualizaci√≥n combinada creada")
```

### **Paso 7: Resumen de hallazgos**
Sintetizamos los principales descubrimientos del an√°lisis.

```python
# EJECUTA ESTE C√ìDIGO PARA RESUMEN
print("üéì Paso 7: Resumen de hallazgos del Reto 10")
print("=" * 50)
print(f"üìä Dataset Iris: {df.shape[0]} observaciones, {df.shape[1]} caracter√≠sticas")
print(f"üå∫ Especies analizadas: {', '.join(df['species'].unique())}")
print(f"üéØ Especie con MAYOR mediana de sepal_width: {especie_mayor_mediana}")
print(f"üéØ Especie con MAYOR variabilidad en sepal_width: {especie_mayor_variabilidad}")
print("\nüìã Interpretaci√≥n visual:")
print("   ‚Ä¢ Boxplot: Muestra medianas, cuartiles y valores at√≠picos")
print("   ‚Ä¢ Violinplot: Combina boxplot con densidad de probabilidad")
print("   ‚Ä¢ Setosa: S√©palo m√°s ancho y menos variable")
print("   ‚Ä¢ Virginica: Mayor variabilidad en el ancho del s√©palo")

print("\nüéâ ¬°Reto 10 completado! Dominada la visualizaci√≥n avanzada con boxplot y violinplot")
```

## üéØ **Puntos clave del Reto 10**

### **Competencias t√©cnicas adquiridas**
1. **Boxplot**: Visualizaci√≥n de distribuciones con medianas, cuartiles y outliers
2. **Violinplot**: Combinaci√≥n de distribuci√≥n de densidad con estad√≠sticas de boxplot
3. **An√°lisis comparativo**: Identificaci√≥n de diferencias entre grupos
4. **M√©tricas de variabilidad**: Uso de desviaci√≥n est√°ndar para medir dispersi√≥n
5. **Visualizaci√≥n m√∫ltiple**: Creaci√≥n de subplots para comparaci√≥n directa

### **Hallazgos principales del dataset Iris**
- **Setosa** presenta el s√©palo m√°s ancho (mayor mediana)
- **Virginica** muestra la mayor variabilidad en el ancho del s√©palo
- **Versicolor** tiene una distribuci√≥n intermedia en ambos aspectos
- Los visualizaciones confirman diferencias significativas entre especies

### **Aplicaciones pr√°cticas**
- Identificaci√≥n de caracter√≠sticas distintivas entre categor√≠as
- Detecci√≥n de outliers y valores at√≠picos
- An√°lisis de homogeneidad/heterogeneidad dentro de grupos
- Comunicaci√≥n efectiva de hallazgos estad√≠sticos