# Notebook de ejemplo – Toolbox ML

Este notebook muestra un ejemplo de uso del módulo `toolbox_ML.py`
para análisis exploratorio y selección de variables, aplicado al dataset "dataset_viajes_jun23".

### Índice
1. [Carga de librerías y módulo](#1-carga-de-librerías-y-módulo)
2. [Carga de datos](#2-carga-de-datos)
3. [Análisis estructural](#3-análisis-estructural)
4. [Tipificación de variables](#4-tipificación-de-variables)
5. [Análisis de variables numéricas: regresión](#5-análisis-de-variables-numéricas-regresión)
6. [Análisis de variables categóricas: regresión](#6-análisis-de-variables-categóricas-regresión)

## 1. Carga de librerías y módulo

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


import toolbox_ML as tb


## 2. Carga de datos

Realizamos la carga del dataset y hacemos una inspección inicial

In [None]:
df = pd.read_csv("./data/dataset_viajes_jun23.csv")
df.head()

In [None]:
df.info()

## 3. Análisis estructural

La función `describe_df` realiza un resumen estructural del DataFrame, devolviendo para cada columna:
- Tipo de dato 
- Porcentaje de valores nulos
- Número de valores únicos
- Cardinalidad relativa

In [None]:
tb.describe_df(df)

## 4. Tipificación de variables
La función `tipifica_variables` realiza una clasificación inicial de las variables según su cardinalidad, para orientar el análisis exploratorio (no para sustituir el criterio del analista).
- Binaria: si tiene dos valores distintos
- Categórica: si tiene pocos valores distintos, menos que el `umbral_categoria`
- Numérica discreta: si tiene muchos valores distintos, pero el porcentaje de cardinalidad es bajo
- Numérica continua: si tiene muchos valores distintos y el porcentaje de cardinalidad supera `umbral_continua`

In [None]:
tb.tipifica_variables(df, umbral_categoria=12, umbral_continua=7.5)

## 5. Análisis de variables numéricas: regresión
### 5.1. Función get_features_num_regression
La función `get_features_num_regression` identifica variables numéricas potencialmente relevantes para un problema de regresión, evaluando su relación estadísticamente significativa con la variable target mediante correlación lineal. Aporta una lista de variables numéricas relevantes.

In [None]:
features_num = tb.get_features_num_regression(df, target_col="ingresos", umbral_corr=0.3, pvalue=0.05)
features_num

### 5.2. Función plot_features_num_regression
La función `plot_features_num_regression` genera gráficos de dispersión entre el target y las variables numéricas que superan el test de significancia. Lo que permite visualizar relaciones lineales o no lineales, y detectar outliers.  

In [None]:
tb.plot_features_num_regression(df, target_col="ingresos",columns= features_num, umbral_corr=0.3, pvalue= 0.05)



## 6. Análisis de variables categóricas: regresión
### 6.1.  Función get_features_cat_regression
La función `get_features_cat_regression` identifica variables categóricas que tienen relación significativa con la variable tárget numérica. Dependiendo del número de categorías, elegirá un test u otro, aportando una lista de variables categóricas relevantes: 
- 2 categorías → T-Test de Welch: comprueba si la media del grupo 0 es muy distinta de la media del grupo 1. Si la diferencia es muy grande, hay relación estadística. Este test no asume varianzas iguales ni tamaños de muestras iguales, ya que hay categorías que tiene más registros que otras.
- +2 categorías → Test de Anova: Comprueba si las medias de los grupos son iguales o al menos una es distinta. Si hay distintas, hay relación estadística y es entonces una variable interesante para analizar.

In [None]:
cols_sel_cat= tb.get_features_cat_regression(df, "ingresos", pvalue=0.05)
cols_sel_cat

### 6.2. Función plot_features_cat_regression
La función `plot_features_cat_regression` genera histogramas del target numérico agrupados por cada variables categórica significativa. Permite comparar distribuciones e identificar diferencias claras entre grupos.

In [None]:
from toolbox_ML import plot_features_cat_regression
plot_features_cat_regression(df, "ingresos", pvalue= 0.05, with_individual_plot=True);