In [None]:
#dataframes
import pandas as pd
pd.set_option('display.max_columns', None)
#operaciones matem√°ticas
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Imputaci√≥n de nulos usando m√©todos avanzados estad√≠sticos
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Evaluar linealidad de las relaciones entre las variables
from scipy.stats import shapiro, kstest

# Gesti√≥n de los warnings
import warnings
warnings.filterwarnings("ignore")

#NOTA: axis 0 = columnas / axis 1 = filas

## üîç An√°lisis B√°sico de DataFrames

### üìê Dimensiones y tama√±o
- `df.shape` ‚Üí Devuelve (filas, columnas)
- `df.size` ‚Üí N√∫mero total de elementos (filas * columnas)

### ÔøΩ Para una columna
- `array.ndim` ‚Üí N√∫mero de dimensiones
- `array.dtype` ‚Üí Tipo de datos

## üóÉ Indexaci√≥n
- Sintaxis b√°sica: `df[fila, columna]` o `df[fila][columna]`

## üîé Filtrado Avanzado

### üîß Operadores l√≥gicos
- AND: `df[(cond1) & (cond2)]`
- OR: `df[(cond1) | (cond2)]`
- WHERE: `np.where(condici√≥n, valor_si_verdadero, valor_si_falso)`

### üéØ Loc vs Iloc
- **loc**: `df.loc['indice', 'columna']` (por etiquetas)
- **iloc**: `df.iloc[0, 1]` (por posici√≥n)
**Nota:** Si queremos a√±adir una condici√≥n, solo podemos usar `loc` porque iloc no acepta un booleano:
- df.loc[df['nombre_columna' CONDICI√ìN]] 
- para usar iloc habr√≠a que pasarlo a lista: df.iloc[list(df['nombre_columna'] CONDICI√ìN)]] 

## üìà Estad√≠sticos Esenciales

### üìä Medidas centrales
- **Media**: `df['Columna'].mean()`
- **Mediana**: `df['Columna'].median()`
- **Moda**: `df['Columna'].mode()`

### üìâ Medidas de dispersi√≥n
- **Varianza**: `df['Columna'].var()`
- **Desviaci√≥n est√°ndar**: `df['Columna'].std()`



## ÔøΩ Operaciones NumPy

| Operaci√≥n                        | Funci√≥n                        | Ejemplo                                 |
|----------------------------------|--------------------------------|-----------------------------------------|
| Suma                             | `np.add()`                     | `np.sum(array)`                         |
| Resta                            | `np.subtract()`                | `np.subtract(a, b)`                     |
| Multiplicaci√≥n                   | `np.multiply()`                | `np.multiply(a, b)`                     |
| Divisi√≥n                         | `np.divide()`                  | `np.divide(a, b)`                       |
| Potencia                         | `np.power()`                   | `np.power(a, b)`                        |
| Redondear                        | `np.round()`                   | `np.round(array, 2)`                    |
| Media (col / fila)               | `np.mean()`                    | `np.mean(array, axis=0)` / `axis=1`     |
| Varianza                         | `np.var()`                     | `np.var(array)`                         |
| Desviaci√≥n est√°ndar              | `np.std()`                     | `np.std(array)`                         |
| Valor m√≠nimo                     | `np.min()`                     | `np.min(array)`                         |
| Valor m√°ximo                     | `np.max()`                     | `np.max(array)`                         |
| Ordenar valores (menor a mayor)  | `np.sort()`                    | `np.sort(array)`                        |
| Ordenar valores (mayor a menor)  | `np.sort()` con negaci√≥n       | `-np.sort(-array)`                      |
| Transponer filas y columnas      | `np.transpose()`               | `np.transpose(array)`                   |



## üî¨ EDA (An√°lisis Exploratorio)

### üîé Primeras comprobaciones
- `df.head()` ‚Üí Primeras filas
- `df.tail()` ‚Üí √öltimas filas
- `df.sample(3)` ‚Üí Filas aleatorias
- `df.info()` ‚Üí Informaci√≥n resumida
- `df.shape` ‚Üí N√∫mero de filas y columnas
- `df.columns` ‚Üí Nombres de las columnas

### üîé Comprobaciones avanzadas
- `df.columns.get_loc("nombre_columna")` ‚Üí indica el √≠ndice donde se encuentra esa columna
- `df["col"].unique()` ‚Üí Valores √∫nicos de una columna
- `df["col"].value_counts()` ‚Üí Conteo del unique
- `df.select_dtypes(include=None, exclude=None)` ‚Üí Selecci√≥n de columnas de un tipo
- `df.drop(labels, axis=0, inplace=False)` ‚Üí Eliminar columnas

### üìù Descripci√≥n estad√≠stica
- `df.describe().T` ‚Üí Estad√≠sticos num√©ricos
- `df.describe(include="O").T` ‚Üí Estad√≠sticos categ√≥ricos

## üö® Manejo de Valores Nulos

### üîç Detecci√≥n
- `df["nombre_columna"].isnull()` ‚Üí Muestra por una columna espec√≠fica
- `df.isnull().sum()` ‚Üí Conteo por columna
- `round(df.isna().sum()/df.shape[0]*100, 2)` ‚Üí Porcentaje

### üõ† Imputaci√≥n
- Relleno simple: `df.fillna(valor)` o `df[col].fillna(value, method, axis, inplace, limit)`
- Avanzada:           

| Imputer            | Funci√≥n                                        | Ejemplo                                         |
|--------------------|------------------------------------------------|-------------------------------------------------|
| SimpleImputer      | SimpleImputer(strategy, fill_value)            | `data_imputed = imputer.fit_transform(datos)`   |
| IterativeImputer   | IterativeImputer(max_iter, random_state)       | `data_imputed = imputer.fit_transform(datos)`   |
| KNNImputer         | KNNImputer(n_neighbors=n_vecinos)              | `data_imputed = imputer.fit_transform(datos)`   |

## ‚ö†Ô∏è Valores Duplicados
- Detecci√≥n en todo el DF: `df.duplicated()` + `df.duplicated().sum()`
- Detecci√≥n por columna: `df.duplicated(subset = "nombre_columna").sum()`
- Eliminaci√≥n: `df.drop_duplicates(inplace=True)`

**Nota:**
- keep = `False` (muestra todos los duplicados), `first` (muestra el primero) y `last` (muestra el √∫ltimo)

## ü§ù Uni√≥n de DataFrames

| M√©todo | Descripci√≥n                                           | Ejemplo                                                                  |
|--------|-------------------------------------------------------|--------------------------------------------------------------------------|
| Concat | uni√≥n sin filtros. `Excepto` axis=1: une por √≠ndices  | `df = pd.concat(objs, axis=0, join='outer', ignore_index=False)`         |
| Merge  | uni√≥n por dos columnas iguales                        | `df = pd.merge(df1, df2, on='col')` o `df = df1.merge(df2, on=['col'])`  |
| Join   | uni√≥n por columnas que son √≠ndices                    | `df_final = df1.join(df2, on='clave')`                                   |

**M√©todos √∫tiles para la uni√≥n:** 
- df.rename(columns=nombre_columnas, index=nombre_filas, inplace=False)
- df.set_index(keys, drop=True, inplace=False)
- df.index --> para comprobar si nuestro df tiene un √≠ndice


## üìä Agrupaci√≥n y Agregaci√≥n
- B√°sica: `df.groupby("col").estad√≠stico()`
- M√∫ltiple: `df.groupby(["col1","col2"]).estad√≠stico()`
- M√∫ltiple **estad√≠sticos**: `df.groupby(["col1","col2"]).agg([lista_estad√≠sticos])`
- **Muestra todo el df**: df.groupby("col").estad√≠stico()
- **Muestra una columna**: df.groupby("col")["col"].estad√≠stico() --> Tambi√©n podemos incluir una lista de columnas

### Nota
- El groupby por defecto IGNORA los nulos, es decir, dropna = True

### Conversi√≥n Groupby = DataFrame
- groupby_resultado.reset_index()
- pd.DataFrame(groupby_resultado)

### Creaci√≥n de condiciones
| Operaci√≥n                           | Funci√≥n / M√©todo          | Ejemplo                                                                  |
|-------------------------------------|---------------------------|--------------------------------------------------------------------------|
| Crear condici√≥n b√°sica              | Condicional con operadores| `condicion = df["col"] > n√∫mero`                                         |
| Filtrar DataFrame con una condici√≥n | Indexaci√≥n booleana       | `df_filtrado = df[condicion]`                                            |
| Filtrar con varias condiciones      | `.isin()`                 | `df_filtrado = df[df["col"].isin(['cond1', 'cond2'])]`                   |
| Filtrar entre dos valores           | `.between()`              | `df_filtrado = df[df["col"].between(val1, val2, inclusive="both")]`      |
| Transformar columna a tipo fecha    | `pd.to_datetime()`        | `df["col"] = pd.to_datetime(df["columna"])`                              |
| Filtrar con regex                   | `.str.contains()`         | `df_filtrado = df[df["col"].str.contains(patron, regex=True, na=False)]` |


## üéö Apply y transformaciones
- Simple: `df['nueva'] = df['col'].apply(funci√≥n)`
- Lambda: `df['nueva'] = df.apply(lambda x: x*2)` --> Si mi funci√≥n recibe en el return m√°s de un valor

# üßπ M√©todos de Limpieza: `.map()` y `.replace()`

## üîÅ `.map()`

### ‚úÖ ¬øQu√© hace?
Aplica una transformaci√≥n o reemplazo **a cada elemento de una Serie**, devolviendo una nueva Serie con los valores transformados.

### üß∞ Sintaxis b√°sica:
df["col"].map(diccionario_o_funci√≥n)

## üîÑ M√©todo .replace()

### ‚úÖ ¬øQu√© hace?
Reemplaza valores espec√≠ficos en un DataFrame o Serie con otros valores dados

### ÔøΩ Sintaxis b√°sica
`df.replace(to_replace, value, inplace=False, ...)`

### üß† Ejemplos pr√°cticos

#### üìå Reemplazar un valor √∫nico
`df["columna"].replace(to_replace=2, value="dos", inplace=True)`

#### üìå Reemplazar m√∫ltiples valores
`df["columna"].replace([2, 4], ["dos", "cuatro"], inplace=True)`

#### üìå Usar expresiones regulares
`df["columna"].replace(",", ".", regex=True, inplace=True)`

### üí° Par√°metros clave

| Par√°metro  | Descripci√≥n | Valores comunes |
|------------|-------------|-----------------|
| `inplace`  | Modificaci√≥n directa del DataFrame | `True`/`False` |
| `regex`    | Interpreta valores como regex | `True`/`False` |
| `limit`    | M√°ximo de reemplazos | N√∫mero entero |
| `method`   | M√©todo de interpolaci√≥n | `'pad'`, `'ffill'`, `'bfill'` |

### ‚ö†Ô∏è Consideraciones importantes
- **Comportamiento por defecto**: `inplace=False` (crea copia)
- **Modificaci√≥n permanente**: Usar `inplace=True`
- **Regex avanzado**: Para patrones complejos
- **Eficiencia**: Mejor performance en Series que en DataFrames completos
- `str.replace()` para operaciones con strings

## üìÖ Manejo de Fechas
- Conversi√≥n: `df['fecha'] = pd.to_datetime(df['fecha'])`
- Extracci√≥n: `df['a√±o'] = df['fecha'].dt.year`

## üìä Visualizaci√≥n

#### üìå Tipos de Gr√°ficos Principales

| Tipo de Gr√°fica       | M√©todo Seaborn      | M√©todo Matplotlib | Explicaci√≥n |
|-----------------------|--------------------|------------------|-------------|
| **Histograma**        | `sns.histplot()`   | `plt.hist()`     | Distribuci√≥n de 1 variable num√©rica |
| **Boxplot**  | `sns.boxplot()`    | `plt.boxplot()`  | Distribuci√≥n y outliers de 1 variable num√©rica o categ√≥rica |
| **Violinplot**        | `sns.violinplot()` | -                | Combina boxplot con estimaci√≥n de densidad |
| **Scatterplot**       | `sns.scatterplot()`| `plt.scatter()`  | Relaci√≥n entre 2 variables num√©ricas |
| **Regplot**           | `sns.regplot()`    | -                | Scatterplot + l√≠nea de regresi√≥n |
| **Pairplot**          | `sns.pairplot()`   | -                | Relaciones entre m√∫ltiples variables |
| **Heatmap**           | `sns.heatmap()`    | `plt.imshow()`   | Visualizaci√≥n matricial con colores |
| **Countplot**         | `sns.countplot()`  | -                | Frecuencia de categor√≠as |
| **Barplot**           | `sns.barplot()`    | `plt.bar()`      | Relaci√≥n categ√≥rica-num√©rica |
| **Pointplot**         | `sns.pointplot()`  | -                | Relaci√≥n categ√≥rica-num√©rica con puntos |

#### üé® Personalizaci√≥n B√°sica
### ‚öôÔ∏è M√©todos Avanzados de Personalizaci√≥n

| Modificaci√≥n              | M√©todo Simple          | M√©todo con Subplots      |
|--------------------------|-----------------------|-------------------------|
| **T√≠tulo**               | `plt.title()`         | `axes[n].set_title()`    |
| **Etiqueta eje X**       | `plt.xlabel()`        | `axes[n].set_xlabel()`   |
| **Etiqueta eje Y**       | `plt.ylabel()`        | `axes[n].set_ylabel()`   |
| **L√≠mites eje X** -> hacemos zoom en los valores indicados       | `plt.xlim()`          | `axes[n].set_xlim()`     |
| **L√≠mites eje Y**        | `plt.ylim()`          | `axes[n].set_ylim()`     |
| **Ticks eje X** -> rotamos las etiquetas del eje x si es necesario         | `plt.xticks()`        | `axes[n].set_xticks()`   |
| **Ticks eje Y**          | `plt.yticks()`        | `axes[n].set_yticks()`   |
| **Ocultar bordes**       | `plt.gca().spines['right'].set_visible(False)` quitamos la l√≠nea de la derecha   | `axes[n].spines[...]`    |
| **Ocultar bordes**       | `plt.gca().spines["top"].set_visible(False)` quitamos la l√≠nea de arriba   | `axes[n].spines[...]`    |
| **Tama√±o de la gr√°fica**          | `plt.figure(figsize=(8, 6))`        | `fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8, 6))` 2 subplots verticales  |
