# 🐧 Análisis Exploratorio de Datos (EDA): El Dataset de Pingüinos

**Objetivo:** Realizar un análisis exploratorio de datos completo sobre un nuevo dataset para afianzar los conocimientos adquiridos con el dataset Iris.

**El Dataset:** Este conjunto de datos contiene mediciones de 344 pingüinos de tres especies diferentes (`Adelie`, `Chinstrap`, y `Gentoo`), observados en el archipiélago Palmer en la Antártida.

**Tu misión:** Al igual que un biólogo explorador, deberás analizar los datos para entender las características de cada especie de pingüino y descubrir qué variables son las más útiles para diferenciarlas.


## 1. LIBRERÍAS
Importa las librerías que te permitirán trabajar con datos y crear visualizaciones.
- pandas: para manipular los datos.
- numpy: para operar y calcular.
- seaborn y matplotlib: para crear gráficos increíbles.

In [None]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

Configuramos el parámetro ```style``` para que los gráficos de *Seaborn* queden más legibles

In [None]:
sns.set_theme(style="ticks")

## 2. CARGA DE DATOS (Dataset "penguins" de Seaborn)
Seaborn nos da acceso directo a este dataset.
1. Carga el dataset 'penguins' y asígnalo a una variable llamada 'df'.
2. Realizar un primer vistazo a los datos mostrando las 5 primeras filas.


In [None]:

df = sns.load_dataset('penguins')

## 3. PRIMERAS APROXIMACIONES

Responde a estas preguntas usando los métodos de pandas:
1. ¿Cuántas filas y columnas tiene nuestro dataset? 
2. ¿Qué tipos de datos tiene cada columna (números, texto, etc.)? ¿Hay valores nulos? 
3. ¿Cuáles son las estadísticas básicas (media, desviación, etc.) de las columnas numéricas? 
4. ¿Cuántos pingüinos de cada especie tenemos? ¿Está balanceado? 

In [None]:

# TU CÓDIGO AQUÍ


Habrás podido comprobar que hay algunos valores nulos (missing values). Para este ejercicio, la estrategia más sencilla es eliminar las filas que contengan algún valor nulo.   

Usa el método **.dropna()** sobre el dataframe y guarda el resultado en el mismo dataframe. Después, vuelve a comprobar que ya no quedan valores nulos.

In [None]:
# TU CÓDIGO AQUÍ

## 📊 Análisis Univariado: Explorando cada variable por separado

Ahora vamos a estudiar cada variable de forma individual para entender su distribución.


### 1. Para las variables NUMÉRICAS:   

- Crea un histograma para cada una de las 4 variables de medidas: 
    - 'bill_length_mm', 
    - 'bill_depth_mm', 
    - 'flipper_length_mm', 
    - 'body_mass_g'.   

Esto mostrará cómo se distribuyen sus valores. ¿Siguen una distribución normal? ¿Hay valores atípicos?   

(Pista: usa ```sns.histplot(data=df, x="nombre_de_la_columna", kde=True```). [INFO](https://seaborn.pydata.org/generated/seaborn.histplot.html))

In [None]:


fig, axes = plt.subplots(2, 2, figsize=(12, 10)) # Gráfico que contiene 4 subgráficos (2 filas x 2 columnas)
fig.suptitle('Distribución de las Variables Numéricas', fontsize=16)

# TU CÓDIGO AQUÍ

### 2. Para las variables CATEGÓRICAS:   

- Crea un gráfico de barras para ver cuántos pingüinos hay por 'island' y por 'sex'.       

(Pista: usa ```sns.countplot(data=df, x="nombre_de_la_columna"```.[INFO](https://seaborn.pydata.org/generated/seaborn.countplot.html))

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 5)) # Gráfico que contiene 2 subgráficos (1 fila x 2 columnas)
fig.suptitle('Distribución de las Variables Categóricas', fontsize=16)

# TU CÓDIGO AQUÍ

## 📈 Análisis Bivariado: Buscando relaciones entre variables

Este es el paso más importante. ¿Cómo se relacionan las variables entre sí? Y lo más crucial, ¿qué variables nos ayudan a diferenciar las especies?

### 1. Relación entre variables numéricas:   

El gráfico más potente para esto es el pairplot. Genera un pairplot de todo el dataframe, pero añade el parámetro `hue='species'`.

Esto coloreará los puntos de cada gráfico según la especie del pingüino.    

Observa y responde: **¿Qué par de variables parece separar mejor las tres especies?**




In [None]:
# TU CÓDIGO AQUÍ

### 2. Relación entre una variable numérica y la especie:   

Para ver más en detalle cómo se distribuye una medida para cada especie, los boxplots son perfectos. Crea un **boxplot** que compare la 'longitud de la aleta' (`flipper_length_mm`) entre las tres especies.   

(Pista: sns.boxplot(data=df, x='species', y='flipper_length_mm') [INFO]((https://seaborn.pydata.org/generated/seaborn.boxplot.html)))   

Observa y responde: **¿Qué puedes concluir de este gráfico? ¿Qué especie tiene las aletas más largas?**



In [None]:
# TU CÓDIGO AQUÍ

## 🧠 Conclusiones del Análisis

**¡Felicidades, has completado el análisis!**

Ahora, reflexiona y responde a las siguientes preguntas basándote en los gráficos que has generado.

**1. ¿Qué variable (o par de variables) crees que es la más útil para clasificar a los pingüinos? ¿Por qué?**
   
   *Escribe tu respuesta aquí.*

**2. ¿Observaste alguna relación interesante o inesperada entre dos variables? Por ejemplo, a mayor longitud del pico, ¿la masa corporal también es mayor?**
   
   *Escribe tu respuesta aquí.*

**3. Si tuvieras que crear un modelo de Machine Learning muy simple para predecir la especie, ¿qué dos variables elegirías y por qué?**
   
   *Escribe tu respuesta aquí.*

# 🤖 Creación de un Modelo de Machine Learning

¡Excelente trabajo con el análisis! Hemos explorado los datos y hemos identificado visualmente que algunas variables como la longitud de la aleta y la del pico son muy buenas para diferenciar las especies.

Ahora, vamos a dar el siguiente paso: **entrenar un modelo de clasificación**. El objetivo es que la máquina aprenda las relaciones que descubrimos y sea capaz de predecir la especie de un pingüino por sí misma, solo viendo sus medidas.

### 1. Preparar los datos para el modelo

Los modelos de machine learning necesitan dos cosas:
- **'X'**: Las variables predictoras (las características o "features").
- **'y'**: La variable objetivo (lo que queremos predecir o "target").

Para empezar, usaremos todas las columnas numéricas como nuestras características.

In [None]:
# TU CÓDIGO AQUÍ

A continuación, mostramos cómo se ven nuestras **X** e **y** para entenderlo mejor

In [None]:
# TU CÓDIGO AQUÍ

### 2. Dividir los datos en entrenamiento y prueba (Train/Test Split)

No se puede evaluar un modelo con los mismos datos que usó para aprender. Por eso, se divide el dataset en dos partes:
- Un conjunto de entrenamiento (**train**) (75%, por ejemplo): para que el modelo aprenda.
- Un conjunto de prueba (**test**) (25%): para evaluar qué tal lo hace con datos que nunca ha visto.

Importamos la función para dividir los datos de **sklearn.model_selection**

In [None]:

# TU CÓDIGO AQUÍ



Usamos la función train_test_split para que haga la división por nosotros.   
Nota: `random_state=42` es una semilla para que la división sea siempre la misma y el experimento sea reproducible.


In [None]:
# TU CÓDIGO AQUÍ

### 3. Elegir, entrenar y predecir con el modelo

Hay muchos modelos de clasificación. De momento, solo hemos trabajado con dos de ellos:
- El **regresor lineal**, para tareas de predicción sobre valores de tipo *contínuo* y,
- El **regresor logístico**, para tareas de clasificación sobre valores *discretos/categóricos*

**¿Cúal crees que aplica en este problema?**

In [None]:
# TU CÓDIGO AQUÍ

Creamos el modelo. `random_state=42` asegura que obtengamos el mismo resultado cada vez.


In [None]:
# TU CÓDIGO AQUÍ

A continuación, entrenamos el modelo con los datos de entrenamiento.

In [None]:
# TU CÓDIGO AQUÍ

Ahora que el modelo está entrenado, le pedimos que haga predicciones sobre nuestros datos de prueba.


In [None]:
# TU CÓDIGO AQUÍ

Comparamos las predicciones del modelo (y_pred) con las etiquetas reales (y_test) para ver cuántas acertó.    
Para ello usamos la métrica de [exactitud (accuracy)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html).


In [None]:
# TU CÓDIGO AQUÍ

### 4. Evaluar el rendimiento con una Matriz de Confusión

La [**precisión** (*accuracy*)](https://foqum.io/blog/termino/accuracy-exactitud/) nos da una idea general, pero una [**matriz de confusión**](https://es.wikipedia.org/wiki/Matriz_de_confusi%C3%B3n) nos da mucho más detalle. Nos muestra exactamente qué especies se clasificaron bien y cuáles confundió el modelo.

In [None]:
from sklearn.metrics import confusion_matrix

Generamos la matriz de confusión ([INFO](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)).    

NOTA: `labels=log_reg.classes_` nos asegura que las filas y columnas de la matriz tengan el orden correcto.

In [None]:
# TU CÓDIGO AQUÍ

Para que sea más fácil de interpretar, la visualizamos con un mapa de calor [(```sns.heatmap()```)](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

In [None]:
# TU CÓDIGO AQUÍ

## 🤔 Interpretación de Resultados y Siguientes Pasos

**¡Enhorabuena! Has entrenado y evaluado tu primer modelo de clasificación.**

Ahora, tómate un momento para analizar la matriz de confusión y la precisión obtenida.

**1. Según la matriz, ¿hubo alguna especie que el modelo confundiera con otra? Si es así, ¿cuál?**
   
   *Escribe tu respuesta aquí. Fíjate en los números que no están en la diagonal principal de la matriz.*

**2. El modelo obtuvo una precisión muy alta (probablemente >95%). ¿Coincide esto con lo que esperabas después de ver el `pairplot` en tu análisis exploratorio? ¿Por qué?**
   
   *Escribe tu respuesta aquí.*

**3. ¿Qué podrías hacer para intentar mejorar aún más el modelo?**
   
   *Escribe aquí tus ideas.*