In [None]:
#dataframes
import pandas as pd
pd.set_option('display.max_columns', None)
#operaciones matemáticas
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Imputación de nulos usando métodos avanzados estadísticos
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Evaluar linealidad de las relaciones entre las variables
from scipy.stats import shapiro, kstest

# Gestión de los warnings
import warnings
warnings.filterwarnings("ignore")

#NOTA: axis 0 = columnas / axis 1 = filas

## 🔍 Análisis Básico de DataFrames

### 📐 Dimensiones y tamaño
- `df.shape` → Devuelve (filas, columnas)
- `df.size` → Número total de elementos (filas * columnas)

### � Para una columna
- `array.ndim` → Número de dimensiones
- `array.dtype` → Tipo de datos

## 🗃 Indexación
- Sintaxis básica: `df[fila, columna]` o `df[fila][columna]`

## 🔎 Filtrado Avanzado

### 🔧 Operadores lógicos
- AND: `df[(cond1) & (cond2)]`
- OR: `df[(cond1) | (cond2)]`
- WHERE: `np.where(condición, valor_si_verdadero, valor_si_falso)`

### 🎯 Loc vs Iloc
- **loc**: `df.loc['indice', 'columna']` (por etiquetas)
- **iloc**: `df.iloc[0, 1]` (por posición)
**Nota:** Si queremos añadir una condición, solo podemos usar `loc` porque iloc no acepta un booleano:
- df.loc[df['nombre_columna' CONDICIÓN]] 
- para usar iloc habría que pasarlo a lista: df.iloc[list(df['nombre_columna'] CONDICIÓN)]] 

## 📈 Estadísticos Esenciales

### 📊 Medidas centrales
- **Media**: `df['Columna'].mean()`
- **Mediana**: `df['Columna'].median()`
- **Moda**: `df['Columna'].mode()`

### 📉 Medidas de dispersión
- **Varianza**: `df['Columna'].var()`
- **Desviación estándar**: `df['Columna'].std()`



## � Operaciones NumPy

| Operación                        | Función                        | Ejemplo                                 |
|----------------------------------|--------------------------------|-----------------------------------------|
| Suma                             | `np.add()`                     | `np.sum(array)`                         |
| Resta                            | `np.subtract()`                | `np.subtract(a, b)`                     |
| Multiplicación                   | `np.multiply()`                | `np.multiply(a, b)`                     |
| División                         | `np.divide()`                  | `np.divide(a, b)`                       |
| Potencia                         | `np.power()`                   | `np.power(a, b)`                        |
| Redondear                        | `np.round()`                   | `np.round(array, 2)`                    |
| Media (col / fila)               | `np.mean()`                    | `np.mean(array, axis=0)` / `axis=1`     |
| Varianza                         | `np.var()`                     | `np.var(array)`                         |
| Desviación estándar              | `np.std()`                     | `np.std(array)`                         |
| Valor mínimo                     | `np.min()`                     | `np.min(array)`                         |
| Valor máximo                     | `np.max()`                     | `np.max(array)`                         |
| Ordenar valores (menor a mayor)  | `np.sort()`                    | `np.sort(array)`                        |
| Ordenar valores (mayor a menor)  | `np.sort()` con negación       | `-np.sort(-array)`                      |
| Transponer filas y columnas      | `np.transpose()`               | `np.transpose(array)`                   |



## 🔬 EDA (Análisis Exploratorio)

### 🔎 Primeras comprobaciones
- `df.head()` → Primeras filas
- `df.tail()` → Últimas filas
- `df.sample(3)` → Filas aleatorias
- `df.info()` → Información resumida
- `df.shape` → Número de filas y columnas
- `df.columns` → Nombres de las columnas

### 🔎 Comprobaciones avanzadas
- `df.columns.get_loc("nombre_columna")` → indica el índice donde se encuentra esa columna
- `df["col"].unique()` → Valores únicos de una columna
- `df["col"].value_counts()` → Conteo del unique
- `df.select_dtypes(include=None, exclude=None)` → Selección de columnas de un tipo
- `df.drop(labels, axis=0, inplace=False)` → Eliminar columnas

### 📝 Descripción estadística
- `df.describe().T` → Estadísticos numéricos
- `df.describe(include="O").T` → Estadísticos categóricos

## 🚨 Manejo de Valores Nulos

### 🔍 Detección
- `df["nombre_columna"].isnull()` → Muestra por una columna específica
- `df.isnull().sum()` → Conteo por columna
- `round(df.isna().sum()/df.shape[0]*100, 2)` → Porcentaje

### 🛠 Imputación
- Relleno simple: `df.fillna(valor)` o `df[col].fillna(value, method, axis, inplace, limit)`
- Avanzada:           

| Imputer            | Función                                        | Ejemplo                                         |
|--------------------|------------------------------------------------|-------------------------------------------------|
| SimpleImputer      | SimpleImputer(strategy, fill_value)            | `data_imputed = imputer.fit_transform(datos)`   |
| IterativeImputer   | IterativeImputer(max_iter, random_state)       | `data_imputed = imputer.fit_transform(datos)`   |
| KNNImputer         | KNNImputer(n_neighbors=n_vecinos)              | `data_imputed = imputer.fit_transform(datos)`   |

## ⚠️ Valores Duplicados
- Detección en todo el DF: `df.duplicated()` + `df.duplicated().sum()`
- Detección por columna: `df.duplicated(subset = "nombre_columna").sum()`
- Eliminación: `df.drop_duplicates(inplace=True)`

**Nota:**
- keep = `False` (muestra todos los duplicados), `first` (muestra el primero) y `last` (muestra el último)

## 🤝 Unión de DataFrames

| Método | Descripción                                           | Ejemplo                                                                  |
|--------|-------------------------------------------------------|--------------------------------------------------------------------------|
| Concat | unión sin filtros. `Excepto` axis=1: une por índices  | `df = pd.concat(objs, axis=0, join='outer', ignore_index=False)`         |
| Merge  | unión por dos columnas iguales                        | `df = pd.merge(df1, df2, on='col')` o `df = df1.merge(df2, on=['col'])`  |
| Join   | unión por columnas que son índices                    | `df_final = df1.join(df2, on='clave')`                                   |

**Métodos útiles para la unión:** 
- df.rename(columns=nombre_columnas, index=nombre_filas, inplace=False)
- df.set_index(keys, drop=True, inplace=False)
- df.index --> para comprobar si nuestro df tiene un índice


## 📊 Agrupación y Agregación
- Básica: `df.groupby("col").estadístico()`
- Múltiple: `df.groupby(["col1","col2"]).estadístico()`
- Múltiple **estadísticos**: `df.groupby(["col1","col2"]).agg([lista_estadísticos])`
- **Muestra todo el df**: df.groupby("col").estadístico()
- **Muestra una columna**: df.groupby("col")["col"].estadístico() --> También podemos incluir una lista de columnas

### Nota
- El groupby por defecto IGNORA los nulos, es decir, dropna = True

### Conversión Groupby = DataFrame
- groupby_resultado.reset_index()
- pd.DataFrame(groupby_resultado)

### Creación de condiciones
| Operación                           | Función / Método          | Ejemplo                                                                  |
|-------------------------------------|---------------------------|--------------------------------------------------------------------------|
| Crear condición básica              | Condicional con operadores| `condicion = df["col"] > número`                                         |
| Filtrar DataFrame con una condición | Indexación booleana       | `df_filtrado = df[condicion]`                                            |
| Filtrar con varias condiciones      | `.isin()`                 | `df_filtrado = df[df["col"].isin(['cond1', 'cond2'])]`                   |
| Filtrar entre dos valores           | `.between()`              | `df_filtrado = df[df["col"].between(val1, val2, inclusive="both")]`      |
| Transformar columna a tipo fecha    | `pd.to_datetime()`        | `df["col"] = pd.to_datetime(df["columna"])`                              |
| Filtrar con regex                   | `.str.contains()`         | `df_filtrado = df[df["col"].str.contains(patron, regex=True, na=False)]` |


## 🎚 Apply y transformaciones
- Simple: `df['nueva'] = df['col'].apply(función)`
- Lambda: `df['nueva'] = df.apply(lambda x: x*2)` --> Si mi función recibe en el return más de un valor

# 🧹 Métodos de Limpieza: `.map()` y `.replace()`

## 🔁 `.map()`

### ✅ ¿Qué hace?
Aplica una transformación o reemplazo **a cada elemento de una Serie**, devolviendo una nueva Serie con los valores transformados.

### 🧰 Sintaxis básica:
df["col"].map(diccionario_o_función)

## 🔄 Método .replace()

### ✅ ¿Qué hace?
Reemplaza valores específicos en un DataFrame o Serie con otros valores dados

### � Sintaxis básica
`df.replace(to_replace, value, inplace=False, ...)`

### 🧠 Ejemplos prácticos

#### 📌 Reemplazar un valor único
`df["columna"].replace(to_replace=2, value="dos", inplace=True)`

#### 📌 Reemplazar múltiples valores
`df["columna"].replace([2, 4], ["dos", "cuatro"], inplace=True)`

#### 📌 Usar expresiones regulares
`df["columna"].replace(",", ".", regex=True, inplace=True)`

### 💡 Parámetros clave

| Parámetro  | Descripción | Valores comunes |
|------------|-------------|-----------------|
| `inplace`  | Modificación directa del DataFrame | `True`/`False` |
| `regex`    | Interpreta valores como regex | `True`/`False` |
| `limit`    | Máximo de reemplazos | Número entero |
| `method`   | Método de interpolación | `'pad'`, `'ffill'`, `'bfill'` |

### ⚠️ Consideraciones importantes
- **Comportamiento por defecto**: `inplace=False` (crea copia)
- **Modificación permanente**: Usar `inplace=True`
- **Regex avanzado**: Para patrones complejos
- **Eficiencia**: Mejor performance en Series que en DataFrames completos
- `str.replace()` para operaciones con strings

## 📅 Manejo de Fechas
- Conversión: `df['fecha'] = pd.to_datetime(df['fecha'])`
- Extracción: `df['año'] = df['fecha'].dt.year`

## 📊 Visualización

#### 📌 Tipos de Gráficos Principales

| Tipo de Gráfica       | Método Seaborn      | Método Matplotlib | Explicación |
|-----------------------|--------------------|------------------|-------------|
| **Histograma**        | `sns.histplot()`   | `plt.hist()`     | Distribución de 1 variable numérica |
| **Boxplot**  | `sns.boxplot()`    | `plt.boxplot()`  | Distribución y outliers de 1 variable numérica o categórica |
| **Violinplot**        | `sns.violinplot()` | -                | Combina boxplot con estimación de densidad |
| **Scatterplot**       | `sns.scatterplot()`| `plt.scatter()`  | Relación entre 2 variables numéricas |
| **Regplot**           | `sns.regplot()`    | -                | Scatterplot + línea de regresión |
| **Pairplot**          | `sns.pairplot()`   | -                | Relaciones entre múltiples variables |
| **Heatmap**           | `sns.heatmap()`    | `plt.imshow()`   | Visualización matricial con colores |
| **Countplot**         | `sns.countplot()`  | -                | Frecuencia de categorías |
| **Barplot**           | `sns.barplot()`    | `plt.bar()`      | Relación categórica-numérica |
| **Pointplot**         | `sns.pointplot()`  | -                | Relación categórica-numérica con puntos |

#### 🎨 Personalización Básica
### ⚙️ Métodos Avanzados de Personalización

| Modificación              | Método Simple          | Método con Subplots      |
|--------------------------|-----------------------|-------------------------|
| **Título**               | `plt.title()`         | `axes[n].set_title()`    |
| **Etiqueta eje X**       | `plt.xlabel()`        | `axes[n].set_xlabel()`   |
| **Etiqueta eje Y**       | `plt.ylabel()`        | `axes[n].set_ylabel()`   |
| **Límites eje X** -> hacemos zoom en los valores indicados       | `plt.xlim()`          | `axes[n].set_xlim()`     |
| **Límites eje Y**        | `plt.ylim()`          | `axes[n].set_ylim()`     |
| **Ticks eje X** -> rotamos las etiquetas del eje x si es necesario         | `plt.xticks()`        | `axes[n].set_xticks()`   |
| **Ticks eje Y**          | `plt.yticks()`        | `axes[n].set_yticks()`   |
| **Ocultar bordes**       | `plt.gca().spines['right'].set_visible(False)` quitamos la línea de la derecha   | `axes[n].spines[...]`    |
| **Ocultar bordes**       | `plt.gca().spines["top"].set_visible(False)` quitamos la línea de arriba   | `axes[n].spines[...]`    |
| **Tamaño de la gráfica**          | `plt.figure(figsize=(8, 6))`        | `fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8, 6))` 2 subplots verticales  |
