<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_006.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 6. Dataset "Iris" desde Seaborn**
- Carga Iris desde Seaborn: `sns.load_dataset('iris')`
- Explora estructura con `.shape`, `.info()`, `.columns`
- Verifica valores nulos
- Calcula n√∫mero de observaciones por especie con `.value_counts()`

# **Resoluci√≥n del Reto 6**

## **Paso 1: Cargar dataset Iris desde Seaborn**
El dataset Iris contiene **150 muestras** de flores con **4 caracter√≠sticas num√©ricas** (medidas de s√©palos y p√©talos) clasificadas en **3 especies** igualmente distribuidas:
- **setosa**
- **versicolor** y
- **virginica** (50 muestras cada una)

Es el dataset cl√°sico para problemas de clasificaci√≥n en machine learning.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

print("üå∏ Paso 1: Cargando dataset Iris desde Seaborn...")
df = sns.load_dataset('iris')
print("‚úÖ Dataset Iris cargado correctamente desde Seaborn")

üå∏ Paso 1: Cargando dataset Iris desde Seaborn...
‚úÖ Dataset Iris cargado correctamente desde Seaborn


## **Paso 2: Explorar estructura del dataset**

```python
print("üìè Paso 2: Explorando estructura del dataset...")
print(f"Dimensiones del dataset: {df.shape}")
print(f"- Filas (observaciones): {df.shape[0]}")
print(f"- Columnas (caracter√≠sticas): {df.shape[1]}")

print("\nüè∑Ô∏è Columnas disponibles:")
for i, columna in enumerate(df.columns, 1):
    print(f"   {i}. {columna}")

print("\nüëÄ Primeras 5 filas del dataset:")
print(df.head())
```

## **Paso 3: Informaci√≥n detallada del dataset**

```python
print("üìã Paso 3: Informaci√≥n detallada del dataset...")
print("\nüîç Informaci√≥n general con .info():")
print(df.info())

print("\nüìä Resumen de tipos de datos:")
print(f"- Columnas num√©ricas: {len(df.select_dtypes(include=[np.number]).columns)}")
print(f"- Columnas categ√≥ricas: {len(df.select_dtypes(include=['object']).columns)}")

print("\nüè∑Ô∏è Nombres de columnas con .columns:")
print(f"Columnas: {list(df.columns)}")
```

## **Paso 4: Verificar valores nulos**

```python
print("‚ùì Paso 4: Verificando valores nulos...")
valores_nulos = df.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)

print(f"\nüéØ Total de valores nulos en el dataset: {df.isnull().sum().sum()}")
print(f"üìä Porcentaje de valores nulos: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100):.2f}%")

# Verificar si hay columnas con valores nulos
columnas_con_nulos = valores_nulos[valores_nulos > 0]
if len(columnas_con_nulos) == 0:
    print("\n‚úÖ Excelente! El dataset Iris no tiene valores nulos")
else:
    print(f"\nüö® Columnas con valores nulos: {len(columnas_con_nulos)}")
    for columna, nulos in columnas_con_nulos.items():
        print(f"   - {columna}: {nulos} nulos ({nulos/df.shape[0]*100:.1f}%)")
```

## **Paso 5: N√∫mero de observaciones por especie**

```python
print("üå∫ Paso 5: Calculando n√∫mero de observaciones por especie...")

conteo_especies = df['species'].value_counts()
print("\nüìä N√∫mero de observaciones por especie:")
print(conteo_especies)

print("\nüìà Distribuci√≥n porcentual:")
porcentaje_especies = df['species'].value_counts(normalize=True) * 100
for especie, count in conteo_especies.items():
    porcentaje = porcentaje_especies[especie]
    print(f"   - {especie}: {count} observaciones ({porcentaje:.1f}%)")

print(f"\nüéØ Total de observaciones: {conteo_especies.sum()}")
print(f"üî¢ N√∫mero de especies diferentes: {len(conteo_especies)}")
```

## **Paso 6: Visualizaci√≥n de la distribuci√≥n por especie**

```python
print("üìä Paso 6: Visualizando distribuci√≥n por especie...")

plt.figure(figsize=(10, 6))

# Gr√°fico de barras para la distribuci√≥n de especies
plt.subplot(1, 2, 1)
conteo_especies.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
plt.title('Distribuci√≥n de Especies de Iris', fontsize=14, fontweight='bold')
plt.xlabel('Especie', fontweight='bold')
plt.ylabel('N√∫mero de Observaciones', fontweight='bold')
plt.xticks(rotation=45)

# Gr√°fico de pie para la distribuci√≥n porcentual
plt.subplot(1, 2, 2)
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']
plt.pie(conteo_especies, labels=conteo_especies.index, autopct='%1.1f%%',
        colors=colors, startangle=90)
plt.title('Distribuci√≥n Porcentual\nde Especies', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()
```

## **Paso 7: Resumen ejecutivo del an√°lisis**

```python
print("üìà Paso 7: Resumen ejecutivo del an√°lisis exploratorio")

print("\n" + "="*50)
print("         RESUMEN EJECUTIVO - DATASET IRIS")
print("="*50)

print(f"üìä DIMENSIONES: {df.shape[0]} observaciones √ó {df.shape[1]} caracter√≠sticas")

print(f"üîç TIPOS DE DATOS:")
print(f"   - Num√©ricas: {len(df.select_dtypes(include=[np.number]).columns)} columnas")
print(f"   - Categ√≥ricas: {len(df.select_dtypes(include=['object']).columns)} columna")

nulos_totales = df.isnull().sum().sum()
print(f"‚ùì VALORES NULOS: {nulos_totales} ({nulos_totales/(df.shape[0]*df.shape[1])*100:.1f}% del dataset)")

# Principales hallazgos
print(f"üéØ PRINCIPALES HALLAZGOS:")
conteo_especies = df['species'].value_counts()
for especie, count in conteo_especies.items():
    porcentaje = (count / df.shape[0]) * 100
    print(f"   - {especie}: {count} observaciones ({porcentaje:.1f}%)")

print(f"\n‚úÖ Columnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"   {i:2d}. {col}")

print("\nüéâ ¬°Reto 6 completado! An√°lisis exploratorio del dataset Iris finalizado")
print("="*50)
```

## **üéØ Puntos clave del Reto 6**

1. **Carga desde Seaborn**: Uso de datasets embebidos en librer√≠as
2. **Estructura del dataset**: Entender dimensiones y tipos de datos
3. **Calidad de datos**: Verificaci√≥n de valores nulos
4. **Distribuci√≥n por categor√≠a**: An√°lisis de frecuencia por especie
5. **Visualizaci√≥n**: Gr√°ficos para comprender la distribuci√≥n
6. **Resumen ejecutivo**: S√≠ntesis de hallazgos importantes

**üìö Valor educativo**: Este reto ense√±a el an√°lisis exploratorio b√°sico de datasets de clasificaci√≥n, fundamentales en machine learning, mostrando c√≥mo evaluar la distribuci√≥n balanceada de clases y la calidad de los datos.