# ✅ 01 - EXPLORACIÓN (01_exploracion.ipynb)

## ✔️ Objetivo:
Entender la estructura, tipo y distribución de los datos. Identificar posibles problemas antes de modelar.

# Checklist: Exploración de Datos 🕵️‍♂️

| **Tarea**                        | **Código de Ejemplo (usando pandas y seaborn)**                                                                 | **Consejo Profesional**                                                                                          |
|----------------------------------|------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------|
| **1. Cargar Datos**              | ```python import pandas as pd df = pd.read_csv('data/raw/tu_dataset.csv')```                               | Usa rutas relativas para que tu proyecto sea portable.                                                          |
| **2. Inspección Inicial**        | ```python df.head() df.info() df.shape```                                                                | `df.info()` es clave. Te da el conteo de no nulos y el tipo de dato (`Dtype`), tu primera pista sobre limpieza. |
| **3. Estadísticas Descriptivas** | ```python df.describe(include='all')```                                                                        | `include='all'` muestra estadísticas tanto para columnas numéricas como categóricas. ¡Muy útil!                 |
| **4. Nulos y Duplicados**        | ```python df.isnull().sum() df.duplicated().sum()```                                                        | Visualiza los nulos con un mapa de calor: ```python sns.heatmap(df.isnull(), cbar=False)```              |
| **5. Análisis Univariado**       | ```python sns.histplot(data=df, x='columna_numerica', kde=True) sns.countplot(data=df, x='columna_categorica')``` | Analiza cada variable por separado. ¿Distribución normal? ¿Categorías desbalanceadas?                          |
| **6. Bivariado / Multivariado**  | ```python sns.scatterplot(data=df, x='var1', y='var2') sns.heatmap(df.corr(numeric_only=True), annot=True) sns.pairplot(df)``` | El heatmap es esencial para ver relaciones lineales. `pairplot` da visión general, pero es lento con muchos datos. |
| **7. Documentar Hallazgos**      | _Usa markdown en tu notebook_                                                                                    | Ejemplo: _“La variable `edad` tiene una distribución sesgada a la derecha”, “Alta correlación entre `ingresos` y `gastos`”._ |


## [___] 1. Cargar los datos


In [None]:
import pandas as pd

df = pd.read_csv("data/raw/archivo.csv")


## [___] 2. Revisar dimensiones y estructura


In [None]:

# [  ] Revisar dimensiones y estructura
df.shape # (rows, columns) 

# [  ] Mostrar información del DataFrame
df.info()

# [  ] Mostrar las primeras filas del DataFrame
df.head()

# [  ] Mostrar los nombres de las columnas del DataFrame
df.columns

Consejo Profesional: El comando df.info() es tu mejor amigo al inicio. Te da un mapa rápido de qué columnas necesitan ser corregidas (ej. una fecha como object) y dónde podrías tener valores faltantes.



## [___] 3. Tipos de datos y valores nulos


In [None]:
# [  ] Mostrar los tipos de datos de cada columna del DataFrame
df.dtypes

# [  ] Verificar si hay valores nulos en el DataFrame
df.isnull().sum()

# [  ] Calcular el porcentaje de valores nulos en cada columna del DataFrame
df.isna().mean() * 100


## [__] 4. Describir datos numéricos y categóricos


In [None]:
# [  ] Describir datos numéricos 
df.describe()

#[  ] Describir datos object
df.describe(include='object')

## [__] 5. Distribuciones y outliers

In [None]:
#[__] Crear un diagrama de caja (boxplot)
sns.boxplot(data=df[['columna_num1', 'columna_num2']])
plt.xticks(rotation=45)
plt.show()

## [__] Cardinalidad de variables categóricas
La cardinalidad en este contexto se refiere al número de valores únicos que tiene una variable categórica.



In [None]:
# Selecciona solo las columnas de tipo 'object' o 'category' (típicas de variables categóricas)
columnas_categoricas = df.select_dtypes(include=['object', 'category']).columns

# Cuenta cuántos valores únicos tiene cada columna categórica
cardinalidades = df[columnas_categoricas].nunique()

## [__] Deteccion Duplicados

In [None]:

df.duplicated().sum()


Consejos:
Usa df.sample(10) para revisar ejemplos al azar.

Usa histogramas (df.hist()) para detectar sesgos.

Aplica sns.heatmap(df.corr(), annot=True) para relaciones numéricas.

