# Cookbook de EDA

## 0. Setup b√°sico

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("data.csv")   # o el dataset que uses
```

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data
df = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/data-preprocessing-project-tutorial/main/AB_NYC_2019.csv")   # o el dataset que uses

## Checklist general de EDA (para pegar en la pared)

1. Entender el problema y cada fila.
2. Mirada r√°pida a los datos.
3. Revisar estructura y tipos.
4. Buscar valores faltantes.
5. Buscar duplicados.
6. Analizar variables num√©ricas.
7. Analizar variables categ√≥ricas.
8. Analizar fechas/tiempo (si hay).
9. Analizar texto libre (si hay).
10. Ver relaci√≥n con la variable objetivo.
11. Buscar correlaciones y multicolinealidad.
12. Buscar outliers y valores raros.
13. Pensar en calidad del dato y ‚Äúsentido de negocio‚Äù.
14. Anotar conclusiones y decisiones (drop, imputar, transformar, etc.).





## Paso 1: Entender el problema y la fila

**Objetivo:** saber qu√© significa cada fila y qu√© queremos predecir.

**Pasos (sin c√≥digo):**

* Preguntar:

  * ¬øQu√© representa una fila? ¬øUn cliente, una compra, una medici√≥n de sensor‚Ä¶?
  * ¬øQu√© queremos predecir o explicar? ‚Üí **target** (columna objetivo).
  * ¬øQu√© columnas solo se conocen despu√©s del resultado? (posible leakage)

**Nota:**
Si no saben qu√© significa una columna ‚Üí *anotar la duda* y no usarla para modelar hasta entenderla.




## Paso 2: Mirada r√°pida al dataset

**Objetivo:** tener una idea general del tama√±o y forma.

```python
df.shape          # (filas, columnas)
df.head()         # primeras filas
df.tail()         # √∫ltimas filas
df.sample(5, random_state=0)  # filas aleatorias
```

**Qu√© mirar:**

* ¬øHay columnas raras (todo 0, todo igual, c√≥digos raros)?
* ¬øEl tama√±o tiene sentido (no son 10 filas cuando esperabas miles)?




## Paso 3: Estructura y tipos de datos

**Objetivo:** saber si las columnas est√°n con el tipo correcto.

```python
df.info()
df.dtypes
```

**Trucos:**

* IDs ‚Üí normalmente `object` o `int` pero **no se usan para modelos** (solo como identificadores).
* Fechas que aparecen como texto ‚Üí convertir a datetime:

```python
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")
```

* Variables num√©ricas que en realidad son categor√≠as (ej. ‚Äú1=Bajo, 2=Medio, 3=Alto‚Äù) ‚Üí tratarlas como categ√≥ricas.




## Paso 4: Valores faltantes (NaN)

**Objetivo:** ver d√≥nde falta informaci√≥n.

```python
df.isna().sum()            # por columna
(df.isna().mean()*100)     # % de NaN por columna
```

**Qu√© mirar:**

* Columnas con **muchos NaN** (ej. > 40‚Äì50%).
* Columnas con **0 NaN** (quiz√°s ya fueron imputadas o son obligatorias).

**Decisiones t√≠picas (para explicar simple):**

* **Pocos NaN** ‚Üí rellenar con:

  * num√©ricos: media/mediana o un valor especial (ej. -1).
  * categ√≥ricos: valor ‚ÄúDesconocido‚Äù.
* **Much√≠simos NaN** ‚Üí considerar eliminar la columna.
* NaN que tienen significado (ej. ‚Äúno tiene segunda direcci√≥n‚Äù) ‚Üí inventar categor√≠a ‚ÄúNo aplica‚Äù.

Ejemplo:

```python
# num√©rica
df["edad"] = df["edad"].fillna(df["edad"].median())

# categ√≥rica
df["ciudad"] = df["ciudad"].fillna("Desconocido")
```



## Paso 5: Duplicados

**Objetivo:** ver si hay filas repetidas.

```python
df.duplicated().sum()
df[df.duplicated()].head()
```

Para eliminarlos:

```python
df = df.drop_duplicates()
```

**Nota:**
A veces no es ‚Äútoda la fila‚Äù duplicada, sino un ID repetido ‚Üí hay que decidir si es un error o son eventos diferentes.




## Paso 6.1: Variables num√©ricas (visi√≥n general)

**Objetivo:** ver rangos, medias y valores raros.

```python
num_cols = df.select_dtypes(include=["int64", "float64"]).columns
df[num_cols].describe()
```

**Trucos:**

* Mirar si hay valores imposibles (edad negativa, salario 1e9, etc.).
* Ver si hay columnas casi constantes (m√°x ‚âà m√≠n).




## Paso 6.2: Variables num√©ricas (distribuciones)

**Objetivo:** ver la forma de cada variable (sesgo, cola larga, etc.).

Ejemplo con una columna:

```python
col = "edad"
df[col].hist(bins=30)
plt.xlabel(col)
plt.ylabel("Frecuencia")
plt.show()
```

**Qu√© ver:**

* **Sim√©trico**: parecido a una campana.
* **Sesgado a la derecha**: muchos valores peque√±os y pocos muy grandes (t√≠pico en ingresos, tiempos, montos).
* **Sesgado a la izquierda**: al rev√©s.

**Ideas de acciones simples:**

* Distribuci√≥n muy sesgada ‚Üí considerar logaritmo:
  `df["ingreso_log"] = np.log1p(df["ingreso"])`

Transformamos para que los modelos puedan entender mejor. No queremos colas extremas dominantes o escalas desproporcionadas. Aunque estas transformaciones no son necesarias para todos los modelos.




## Paso 7.1: Variables categ√≥ricas (conteos)

**Objetivo:** ver cu√°ntas categor√≠as hay y cu√°les son las m√°s frecuentes.

```python
cat_cols = df.select_dtypes(include=["object", "category"]).columns

for col in cat_cols:
    print(f"\n--- {col} ---")
    print(df[col].value_counts().head(10))
    print("N categor√≠as:", df[col].nunique())
```

**Trucos:**

* Columnas con **demasiadas categor√≠as** (ej. texto libre, IDs) ‚Üí cuidado para modelos.
* Categor√≠as muy raras ‚Üí se pueden agrupar en ‚ÄúOtros‚Äù.




## Paso 7.2: Variables categ√≥ricas (gr√°ficos simples)

Ejemplo: distribuci√≥n de una categor√≠a.

```python
col = "ciudad"
df[col].value_counts().head(10).plot(kind="bar")
plt.ylabel("Cuenta")
plt.show()
```

**Qu√© mirar:**

* Categor√≠as dominantes (ej. una ciudad es 90% de los casos).
* Categor√≠as casi sin datos (quiz√°s no valga la pena usarlas).




## Paso 8: Fechas y tiempo

**Objetivo:** aprovechar columnas de fecha.

Asumimos que ya convertiste la columna:

```python
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")
```

**Crear columnas derivadas f√°ciles:**

```python
df["anio"] = df["fecha"].dt.year
df["mes"] = df["fecha"].dt.month
df["dia_semana"] = df["fecha"].dt.day_name()
```

**Analizar evoluci√≥n en el tiempo:**

```python
df_por_mes = df.groupby(["anio", "mes"])["target"].mean()  # o count
df_por_mes.plot()
plt.ylabel("Target medio")
plt.show()
```

**Nota:** ver si hay **tendencias** o **estacionalidad** (por meses, d√≠as de semana).




## Paso 9: Texto libre (muy b√°sico)

**Objetivo:** tener idea de qu√© trae una columna de texto.

```python
df["comentario"].str.len().describe()  # longitud de texto
df["comentario"].head()
```

Trucos muy simples:

* Crear una columna con la **longitud del texto**:

  ```python
  df["len_comentario"] = df["comentario"].str.len()
  ```
* Contar cu√°ntos est√°n vac√≠os o muy cortos:

  ```python
  (df["comentario"].str.len() == 0).mean()
  ```




## Paso 10: Relaci√≥n con la variable objetivo (clasificaci√≥n)

### 10.1. Num√©rica vs target binario (0/1)

**Objetivo:** ver si la variable ayuda a separar clases.

```python
col = "edad"
df.groupby("target")[col].describe()
```

**Explicaci√≥n simple:**
Comparar la media de `edad` para target=0 y target=1.
Si son muy diferentes, esa variable probablemente sea √∫til.



### 10.2. Categor√≠a vs target binario

```python
col = "ciudad"
tabla = (
    df.groupby(col)["target"]
      .mean()
      .sort_values(ascending=False)
      .head(10)
)
print(tabla)
```

**Qu√© mirar:**
Ciudades con tasa de target mucho m√°s alta o m√°s baja ‚Üí categor√≠as importantes.





## Paso 11: Correlaciones (num√©ricas)

**Objetivo:** ver qu√© variables num√©ricas se parecen (se mueven juntas).

```python
corr = df[num_cols].corr()
corr["target"].sort_values(ascending=False)
```

**Que significa:**

* Correlaci√≥n cerca de **1**: suben y bajan juntas.
* Cerca de **-1**: una sube cuando la otra baja.
* Cerca de **0**: no hay relaci√≥n lineal clara.

Tambi√©n ver **correlaciones entre variables predictoras**:

* Si dos columnas est√°n casi perfectamente correlacionadas ‚Üí quiz√°s una sobra.




## Paso 12: Outliers (valores extremos)

### 12.1. Por regla simple

```python
col = "ingreso"
df[col].describe()
```

Luego:

```python
# Filas con valores muy grandes
df[df[col] > df[col].quantile(0.99)].head()
```

### 12.2. Boxplot simple

```python
df[[col]].boxplot()
plt.show()
```

**Nota:**

* Un outlier no siempre es un error.
* Preguntar: ¬øes un error de carga o un cliente realmente enorme?
* Opciones simples: recortar (cap), transformar (log), o dejarlos pero avisar al modelo.




## Paso 13.1: Columnas in√∫tiles o sospechosas

**Checklist simple:**

* Columnas **id√©nticas** o muy similares entre s√≠.
* Columnas con **un solo valor** (sin variabilidad).
* IDs puros (no explican nada, solo identifican).
* Columnas que se conocen **despu√©s** del resultado (leakage).

C√≥digo r√°pido:

```python
# columnas casi constantes
n = len(df)
for col in df.columns:
    freq = df[col].value_counts(normalize=True, dropna=False).iloc[0]
    if freq > 0.99:
        print("Casi constante:", col, f"({freq:.2%} mismo valor)")
```




## Paso 13.2: Data leakage (explicaci√≥n simple)

**Objetivo:** evitar ‚Äúhacer trampa‚Äù.

**Ejemplos:**

* Predecir si un cliente dejar√° la empresa usando una columna ‚Äúfecha_de_baja‚Äù.
* Predecir ventas del mes usando la columna ‚Äúventas_del_mes‚Äù ü§¶.

**Regla de oro:**

> Si la columna no estar√≠a disponible en el momento real de hacer la predicci√≥n, no puede usarse.




## Paso 14: Crear reporte y/o pipeline

Anotar conclusiones y decisiones (drop, imputar, transformar, etc.) para poder replicar en otros datasets (train, test o actualizaciones) o experimentos.

## Paso 15 (bonus): Reporte r√°pido autom√°tico

- [sweetviz](https://colab.research.google.com/github/amiune/freecodingtour/blob/main/cursos/espanol/datascience/analysis/A1.2_eda_sweetviz.ipynb)
- [pandas_dq](https://colab.research.google.com/github/amiune/freecodingtour/blob/main/cursos/espanol/datascience/analysis/A3.3_pandas_dq.ipynb)
-[mas...](https://colab.research.google.com/github/amiune/freecodingtour/blob/main/cursos/espanol/datascience/analysis/A0_intro.ipynb#scrollTo=48149491-163e-4f79-a52a-91e027f85bf5)

# Paso 16 (extra bonus): Ver distintos analisis en kaggle

- https://www.kaggle.com/datasets/saritas95/nyc-airbnb-insights-a-data-analysis
- https://www.kaggle.com/code/phongphmlm/airbnb-new-york-city-2019
- https://www.kaggle.com/code/dgomonov/data-exploration-on-nyc-airbnb
- https://www.kaggle.com/code/chbenitez/airbnb-nyc-an-lisis-y-preprocesamiento-de-datos/notebook
- https://www.kaggle.com/code/duygut/airbnb-nyc-price-prediction