# Exploraci√≥n y visualizaci√≥n de datos

## Conoce tus datos

Antes de construir un modelo de _Machine Learning_ regularmente es una buena idea explorar y visualizar los datos.

Inspeccionar los datos es una buena formar de identificar anormalidades y particularidades **que podr√≠an afectar el desempe√±o de los modelos**.

Una de las mejores manera de entender los datos es _visualizarlos_.
 
Nuestro objetivo es **conocer y entender los datos antes de aplicar modelos de Machine Learning**.

En este notebook iremos paso a paso:
1. Cargar los datos y conocer su estructura.
2. Realizar un an√°lisis univariado (cada variable por separado).
3. Realizar un an√°lisis bivariado y multivariado (relaciones entre variables).
4. Observar patrones que nos ayuden a diferenciar especies de Iris.

### 1. Cargar los datos y conocer su estructura

#### Importar bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import warnings
warnings.filterwarnings('ignore')

#### Importar datos

In [None]:
# Primera forma de conectarse con datos en repositorio
from sklearn.datasets import load_iris

iris = load_iris()
iris

In [None]:
type(iris) # Bunch

In [None]:
print(iris.target_names)

A continuaci√≥n, tendremos nuestros datos separados.

Imagina los datos como una matriz donde cada fila es una **observaci√≥n** y cada columna una **caracter√≠stica**:  

$$
X =
\begin{bmatrix}
\color{blue}{\underbrace{5.1}_{x_{11}}} & \color{blue}{\underbrace{3.5}_{x_{12}}} & \color{blue}{\underbrace{1.4}_{x_{13}}} & \color{blue}{\underbrace{0.2}_{x_{14}}} \\
4.9 & 3.0 & 1.4 & 0.2 \\
7.0 & 3.2 & 4.7 & 1.4 \\
6.4 & 3.2 & 4.5 & 1.5 \\
6.3 & 3.3 & 6.0 & 2.5 \\
\vdots & \vdots & \vdots & \vdots \\
\end{bmatrix}
$$

- Cada **fila** corresponde a una **observaci√≥n** (ej. una flor medida).  
- Cada **columna** corresponde a una **caracter√≠stica** (ej. longitud del s√©palo, ancho del s√©palo, etc.).  

Podemos anotar expl√≠citamente:  

$$
\underbrace{\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{bmatrix}}_{\text{Observaciones (filas)}}
\quad
\begin{matrix}
\updownarrow \\
\text{Caracter√≠sticas (columnas)}
\end{matrix}
$$

In [None]:
X = iris.data   
y = iris.target 

In [None]:
X[:10]

Y su vector de etiquetas ser√≠a:  

$$
y =
\begin{bmatrix}
\text{Setosa} \\
\text{Setosa} \\
\text{Versicolor} \\
\text{Versicolor} \\
\text{Virginica} \\
\vdots \\
\end{bmatrix}
$$

In [None]:
y

Para trabajar con una forma m√°s c√≥moda en un formato tabular, convertiremos los datos a un **DataFrame** de pandas.

In [None]:
# Pandas DataFrame
datos = pd.DataFrame(X, columns=iris.feature_names)
datos['y'] = y

In [None]:
datos

In [None]:
type(datos)

Ver documentaci√≥n: [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#)

In [None]:
datos

---

In [None]:
# Segunda forma de conectar nuetros datos
import os
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ruta = os.path.join('drive', 'MyDrive', 'curso-machine-learning', 'iris.csv') #content

In [None]:
ruta = os.path.join('..', '..', 'docs', 'datos', 'iris.csv')

In [None]:
df = pd.read_csv(ruta)
df

#### Establecemos un problema

Supongamos que queremos _predecir la especie de una flor Iris_ a partir de las **caracter√≠sticas** medidas (longitud y ancho del s√©palo y del p√©talo).

![iris](../docs/_static/iris.png)

En ciencia de datos, este es un problema de **clasificaci√≥n supervisada**:
- **Supervisada**: porque tenemos las etiquetas (especies) para entrenar el modelo.
- **Clasificaci√≥n**: porque las etiquetas son categor√≠as (Setosa, Versicolor, Virginica).

#### 1. Explorar datos

##### üîπ Renombrar columnas

In [None]:
df.rename({
    'sepal length (cm)': 'sepal_l',
    'sepal width (cm)': 'sepal_w',
    'petal length (cm)': 'petal_l',
    'petal width (cm)': 'petal_w',
    'species': 'y'
}, axis=1, inplace=True)


In [None]:
df

In [None]:
df.head(3)

##### üîπ Eliminar columnas

#### Ejes en pandas (`axis`)

- **`axis=0`** ‚Üí hacia abajo ‚¨áÔ∏è  
  - Opera *a lo largo de las filas*  
  - Afecta a **columnas**  

- **`axis=1`** ‚Üí hacia el lado ‚û°Ô∏è  
  - Opera *a lo largo de las columnas*  
  - Afecta a **filas**

In [None]:
df.drop('id', axis=1, inplace=True)

#### üîπ Explorar la dimensi√≥n del DataFrame

In [None]:
# Explorar cual es el nombre de las columnas
df.columns

In [None]:
# Explorar la dimension del df
df.shape

#### üîπ Conteos

In [None]:
df.y.value_counts()

##### üîπ Valores faltantes

In [None]:
df.isnull().sum(axis=0)

In [None]:
df.dropna(inplace=True)

#### üîπ Informaci√≥n general del conjunto de datos

In [None]:
df.info()

In [None]:
df.y.unique()

##### üîπ Renombrar valores de una columna

In [None]:
df['y'].replace({
    'setosa': 0,
    'versicolor': 1,
    'virginica': 2
}, inplace=True)

##### üîπ Separar dataframes

In [None]:
df_setosa = df[df.y == 0]
df_versicolor = df[df.y == 1]
df_virginica = df[df.y == 2]

##### üîπEstad√≠sticas descriptivas

In [None]:
df.describe()

##### üîπ Tipo de datos

In [None]:
df.dtypes

### 2. Realizar un an√°lisis univariado

Antes de correr cualquier modelo de _Machine Learning_, es imprescindible entender nuestros datos en t√©rminos estad√≠sticos, as√≠ como visualizarlos para detectar patrones y caracter√≠sticas importantes.

En ciencia de datos esto se conoce como **An√°lisis Exploratorio de Datos (EDA)**.

En esta secci√≥n, exploraremos dos bibliotecas populares para la visualizaci√≥n de datos en Python: 

* [**Matplotlib**](https://matplotlib.org/)
* [**Seaborn**](https://seaborn.pydata.org/) 

Ambas bibliotecas ofrecen potentes herramientas para crear gr√°ficos, pero tienen diferencias en su enfoque y facilidad de uso.

![](../docs/_static/artists_figure.png)

**Figura 1.** Estructura jer√°rquica de los objetos en Matplotlib.Imagen tomada del cap√≠tulo _"Matplotlib"_ por John D. Hunter, en _The Architecture of Open Source Applications, Volume II._ Disponible en [aosabook.org](https://aosabook.org/en/v2/matplotlib.html), bajo licencia [CC BY 3.0](https://creativecommons.org/licenses/by/3.0/legalcode).

![](../docs/_static/artists_tree.png)

**Figura 2.** Ejemplo visual de un gr√°fico generado con Matplotlib, con sus componentes principales identificados seg√∫n la jerarqu√≠a de objetos. Imagen tomada del cap√≠tulo _"Matplotlib"_ por John D. Hunter, en _The Architecture of Open Source Applications, Volume II._ Disponible en [aosabook.org](https://aosabook.org/en/v2/matplotlib.html), bajo licencia [CC BY 3.0](https://creativecommons.org/licenses/by/3.0/legalcode).

#### üîπ Histograma

``.hist()`` es una funci√≥n (m√©todo) dentro de`` matplotlib.pyplot``.

Se invoca con par√©ntesis `()` porque recibe par√°metros (``datos``, ``bins``, ``color``, etc.) y genera un gr√°fico.

In [None]:
# --- Matplotlib ---
fig, ax = plt.subplots()

ax.hist(df["sepal_l"],
        bins=15,
        color="skyblue",
        edgecolor="black")
        
ax.set_xlabel("Sepal_l")
ax.set_ylabel("Frecuencia")
ax.set_title("Histograma con Matplotlib")

plt.show()

In [None]:
# --- Seaborn ---

sns.set(style="darkgrid")

fig, ax = plt.subplots()

sns.histplot(df["sepal_l"], 
            bins=15, 
            kde=True, 
            ax=ax)
ax.set_title("Histograma con Seaborn")

plt.show()

In [None]:
# Estad√≠sticas b√°sicas
media = df["sepal_l"].mean()
mediana = df["sepal_l"].median()
std = df["sepal_l"].std()

In [None]:
# Crear figura
fig, ax = plt.subplots()

# Histograma con Seaborn
sns.histplot(df["sepal_l"], bins=15, kde=True, ax=ax, color="steelblue")

# A√±adir l√≠neas de estad√≠sticas
ax.axvline(media, color="red", linestyle="--", label=f"Media = {media:.2f}")
ax.axvline(mediana, color="green", linestyle="-.", label=f"Mediana = {mediana:.2f}")
ax.axvline(media+std, color="orange", linestyle=":", label=f"Media + œÉ = {media+std:.2f}")
ax.axvline(media-std, color="orange", linestyle=":", label=f"Media - œÉ = {media-std:.2f}")

ax.set_title("Histograma con estad√≠sticas")
ax.set_xlabel("Longitud del s√©palo (cm)")
ax.set_ylabel("Frecuencia")
ax.legend()

plt.show()

üîé Diferencias:
- **Matplotlib**: m√°s manual, hay que definir colores, t√≠tulos, ejes, etc.

- **Seaborn**: menos c√≥digo, estilo por defecto m√°s elegante, y a√±ade opcionalmente curva de densidad (`kde=True`).  


In [None]:
# --- Pandas ---
# Histograma de todas las variables num√©ricas
df.hist(figsize=(8,6),
        bins=15,
        color="skyblue",
        edgecolor="black")
plt.show()

#### üîπ Otras representaciones gr√°ficas

Para explorar una variable num√©rica podemos usar diferentes representaciones gr√°ficas:

1. **Boxplot (diagrama de caja)**  
   - Resume la variable en t√©rminos de **mediana, cuartiles y posibles valores at√≠picos**.  
   - √ötil para detectar **asimetr√≠as** y **outliers**.

`.boxplot()`

2. **Histograma**  
   - Divide los datos en intervalos (*bins*) y muestra la **frecuencia de valores** en cada intervalo.  
   - Permite observar la **forma general de la distribuci√≥n** (sim√©trica, sesgada, multimodal, etc.).

`.hist()`

3. **KDE (Kernel Density Estimation)**  
   - Es una versi√≥n suavizada del histograma que estima la **densidad de probabilidad**.  
   - Ayuda a ver la **tendencia continua** de la distribuci√≥n sin depender del n√∫mero de bins.

`kdeplot()`

In [None]:
# Ajustamos estilo
sns.set(style="whitegrid") #cambiar por , "whitegrid", "darkgrid", "white", "ticks"

# Crear figura con 3 subplots
fig, axes = plt.subplots(1, 3, figsize=(12,4))

# Boxplot
sns.boxplot(x=df["sepal_l"], ax=axes[0], color="steelblue")
axes[0].set_xlabel("Longitud del s√©palo")

# Histograma
sns.histplot(df["sepal_l"], bins=15, ax=axes[1], color="steelblue")
axes[1].set_xlabel("Longitud del s√©palo")
axes[1].set_ylabel("Frecuencia")

# KDE (curva de densidad)
sns.kdeplot(df["sepal_l"], ax=axes[2], shade=True, color="steelblue")
axes[2].set_xlabel("Longitud del s√©palo")
axes[2].set_ylabel("Densidad")

fig.suptitle("An√°lisis univariado de la longitud del s√©palo", fontsize=14)
plt.tight_layout()
plt.show()

#### üîπ An√°lisis estad√≠stico y visual

_¬øqu√© nos dicen estos gr√°ficos?_



![ Iris Setosa](../docs/_static/01-univariate-iris.png)

_Observaciones interesantes:_

- **Sepal length:** distribuci√≥n con tendencia a distribuci√≥n normal, concentrada entre 5 y 7 cm, sin outliers fuertes.  
- **Sepal width:** m√°s variable, con algunos valores at√≠picos en los extremos, menos √∫til para separar especies.  
- **Petal length:** distribuci√≥n claramente bimodal, separa bien las especies.  
- **Petal width:** tambi√©n bimodal y muy discriminante, diferencia claramente entre *setosa* y las dem√°s.  

**Conclusi√≥n general:**  
Las variables de los s√©palos muestran mayor solapamiento y menor poder de clasificaci√≥n, mientras que las de los p√©talos son las m√°s relevantes para distinguir entre las especies del dataset *Iris*.

### 3. An√°lisis bivariado y multivariado

En esta secci√≥n exploraremos las relaciones entre pares de variables y c√≥mo estas relaciones pueden ayudar a diferenciar las especies de Iris.

In [None]:
fig, ax = plt.subplots()

ax.scatter(df.sepal_l, df.sepal_w)

ax.set(xlabel='Sepal Length (cm)',
       ylabel='Sepal Width (cm)',
       title='Sepal Length vs Width');

In [None]:
sns.pairplot(df, hue="y", diag_kind="kde", markers=["o", "s", "D"], palette="Set2")
plt.suptitle("Caracter√≠sticas del Iris", y=1.02)
plt.show()

#### üîπ Correlaci√≥n entre variables

### An√°lisis de correlaci√≥n

El an√°lisis de correlaci√≥n dentro del **EDA** permite identificar relaciones entre variables, detectar redundancia (multicolinealidad) y orientar la selecci√≥n de caracter√≠sticas antes de entrenar un modelo.

In [None]:
# Calcular la matriz de correlaciones
corr = df.drop(columns="y").corr()
corr

**Interpretaci√≥n de la correlaci√≥n**

Hay dos aspectos importantes al analizar un mapa de calor de correlaci√≥n:
1. **La magnitud** (qu√© tan cerca est√° de 1 o -1) ‚Üí indica la **fuerza** de la relaci√≥n.  
2. **El signo** (positivo o negativo) ‚Üí indica la **direcci√≥n** de la relaci√≥n.  

- Valores **positivos**: cuando una variable aumenta, la otra tambi√©n tiende a aumentar.  
- Valores **negativos**: cuando una variable aumenta, la otra tiende a disminuir.

In [None]:
# Crear heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap="RdBu", vmin=-1, vmax=1, fmt=".2f")
plt.title("Mapa de calor - Correlaci√≥n de variables Iris")
plt.show()

**Conclusiones de heatmap:**

- `petal_l` y `petal_w` ‚Üí correlaci√≥n muy alta y positiva (~0.96), aportan informaci√≥n muy similar.  
- `sepal_l` con variables de p√©talos ‚Üí correlaci√≥n positiva fuerte (0.83‚Äì0.88).  
- `sepal_w` ‚Üí correlaciones d√©biles o negativas, es la variable m√°s independiente.

### Conclusiones del an√°lisis exploratorio

- El dataset **Iris** est√° balanceado en cuanto a n√∫mero de muestras por especie (50 por cada una de las 3 especies).

- Contiene **4 variables num√©ricas** (longitud y ancho de s√©palos y p√©talos) y **1 variable categ√≥rica** (especie), que ser√° utilizada como **target** del modelo.

- Se observa una **fuerte correlaci√≥n positiva** entre el largo y el ancho de los p√©talos (`petal_l` y `petal_w`), lo que significa que aportan informaci√≥n muy similar.

- A pesar de esta redundancia, las **caracter√≠sticas de los p√©talos** son las m√°s discriminantes para diferenciar especies: incluso por separado, permiten distinguir claramente entre *Setosa*, *Versicolor* y *Virginica*. 

- La especie **Setosa** `0` es la m√°s f√°cil de identificar, ya que presenta dimensiones significativamente m√°s peque√±as que las dem√°s.

- Las especies **Versicolor** `1` y **Virginica** `2` muestran cierto solapamiento, lo que puede generar confusi√≥n en su clasificaci√≥n.

- Las **caracter√≠sticas de los p√©talos** resultan ser las m√°s relevantes para entrenar modelos de *Machine Learning*, mientras que las de los s√©palos aportan menos poder discriminante.

In [None]:
#!pip install ydata_profiling

In [None]:
from ydata_profiling import ProfileReport

reporte = ProfileReport(df, title="Reporte Iris", explorative=True)

#ruta_reporte = os.path.join('drive', 'MyDrive', 'curso-machine-learning')
#ruta_reporte = os.path.join('..', '..', 'docs', 'datos')

reporte.to_file(os.path.join(ruta_reporte, "reporte_iris.html"))