# 📊 Esquema básico de un EDA

## INFORMACIÓN GENERAL
- Vista rápida del dataset:

  ```python
  data.head()
  data.info()     # Dtypes y valores nulos → categóricas si dtype=object
  data.describe() # Estadísticos numéricos, outliers
  ```

- Limpieza básica:

  ```python
  data.dropna(inplace=True)         # pocas faltas
  data.drop_duplicates(inplace=True)
  ```

## VARIABLES CATEGÓRICAS

* Ejemplo de columnas categóricas:

  ```python
  cols_cat = ['job','marital','education','default','housing',
              'loan','contact','month','poutcome','y']
  ```
* Análisis y normalización:

  ```python
  for col in cols_cat:
      print(data[col].nunique(), data[col].unique())
      sns.countplot(x=col, data=data, ax=axes[i])
      data[col] = data[col].str.lower()   # normalizar
  ```
* Correcciones de codificación:

  ```python
  data['education'] = data['education'].str.replace('sec.','secondary', regex=False)
  data.loc[data['education']=='unk','education'] = 'unknown'
  ```

---

## VARIABLES NUMÉRICAS

* Ejemplo de columnas numéricas:

  ```python
  cols_num = ['age','balance','day','duration','campaign','pdays','previous']
  ```
* Estadísticos y outliers:

  ```python
  data.describe()
  for col in cols_num:
      sns.boxplot(x=data[col])   # detectar outliers
      sns.histplot(data[col])   # sesgos, colas largas
  ```
* Ejemplo limpieza:

  ```python
  data = data[data['age']<=100]
  ```

---

## ANÁLISIS UNIVARIADO / BIVARIADO

* Relación de variables:

  ```python
  sns.lineplot(x=..., y=...)
  sns.barplot(x=..., y=...)
  ```
* Relaciones múltiples:

  ```python
  sns.scatterplot(x=..., y=..., hue=..., size=...)
  ```
* Muchas dimensiones → aplicar PCA.

---

## CORRELACIONES / DEPENDENCIAS

* Matriz de correlaciones:

  ```python
  corr = data.corr()
  sns.heatmap(corr, cmap="coolwarm", vmin=-1, vmax=1)
  ```
* Relaciones múltiples:

  ```python
  sns.pairplot(data[cols_num+cols_cat])
  ```

---

## MODELO (preprocesamiento)

* Tratar **valores nulos** y **outliers**.
* Variables categóricas → OneHotEncoder / LabelEncoder.
* Variables numéricas → escalado (z-score o min-max).

```