# Notebook de ejemplo – Toolbox ML

Este notebook muestra un ejemplo de uso del módulo `toolbox_ML.py`
para análisis exploratorio y selección de variables, aplicado al dataset "dataset_viajes_jun23".

### Índice
1. Carga de librerías y módulo

## 1. Carga de librerías y módulo

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


import toolbox_ML as tb


## 2. Carga de datos

In [2]:
df = pd.read_csv("./data/dataset_viajes_jun23.csv")
df.head()

Unnamed: 0,aircompany,origen,destino,distancia,avion,con_escala,consumo_kg,duracion,ingresos,id_vuelo,mes
0,Airnar,París,Ginebra,411,Boeing 737,False,1028.6919,51,14232.65,Air_PaGi_10737,Jun23
1,FlyQ,Bali,Roma,12738,Boeing 737,True,33479.132544,1167,468527.19,Fly_BaRo_10737,Jun23
2,TabarAir,Ginebra,Los Angeles,9103,Airbus A380,False,109439.9072,626,584789.19,Tab_GiLo_11380,Jun23
3,MoldaviAir,París,Cincinnati,6370,Boeing 737,False,17027.01,503,233342.51,Mol_PaCi_10737,Jun23
4,TabarAir,Cincinnati,Roma,7480,Boeing 747,False,86115.744,518,438535.07,Tab_CiRo_10747,Jun23


## 3. Análisis estructural

La función `describe_df` realiza un resumen estructural del DataFrame, devolviendo para cada columna:
- Tipo de dato (dtype)
- Porcentaje de valores nulos
- Número de valores únicos
- Cardinalidad relativa (porcentaje de valores únicos respecto al total)

Es una alternativa ligera a df.info() + df.nunique() + análisis manual.

In [3]:
tb.describe_df(df)

COL_N,aircompany,origen,destino,distancia,avion,con_escala,consumo_kg,duracion,ingresos,id_vuelo,mes
DATA_TYPE,object,object,object,int64,object,bool,float64,int64,float64,object,object
MISSINGS (%),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
UNIQUE_VALUES,5,11,11,45,4,2,501,113,600,347,1
CARDIN (%),0.83,1.83,1.83,7.5,0.67,0.33,83.5,18.83,100.0,57.83,0.17


## 4. Definición del tárget
Definir la variable tárget del análisis, aquella que representa el resultado del proceso que se desesa predecir para resolver el problema comercial. 

In [None]:
# target_col = "target"

## 5. Tipificación de variables
La función `tipifica_variables` realiza una clasificación inicial de las variables según su cardinalidad. 
- Binaria: si tiene dos valores distintos
- Categórica: si tiene pocos valores distintos, menos que el `umbral_categoria`
- Numérica discreta: si tiene muchos valores distintos, pero el porcentaje de cardinalidad es bajo
- Numérica continua: si tiene muchos valores distintos y el porcentaje de cardinalidad supera `umbral_continua`

In [4]:
tb.tipifica_variables(df, umbral_categoria=10, umbral_continua=0.2)

Unnamed: 0,nombre_variable,tipo_sugerido
0,aircompany,Numérica continua
1,origen,Numérica continua
2,destino,Numérica continua
3,distancia,Numérica continua
4,avion,Numérica continua
5,con_escala,Numérica continua
6,consumo_kg,Numérica continua
7,duracion,Numérica continua
8,ingresos,Numérica continua
9,id_vuelo,Numérica continua


## Llamadas a las funciones del toolbox

## Visualización / outputs

## Comentarios