# TEAM CHALLENGUE: TOOLBOX
## Función: tipifica_variables()

En este notebook explico paso a paso el funcionamiento de la función `tipifica_variables`.

Esta función permite clasificar automáticamente las variables de un DataFrame como:
- **Binaria**
- **Categórica**
- **Numérica Discreta**
- **Numérica Continua**

Esta clasificación resulta útil para aplicar técnicas de análisis y modelado adecuadas.

### Paso 1: Importación de librerías y datos


In [None]:
from toolbox_Sandra import tipifica_variables, get_features_cat_regression

import seaborn as sns
import pandas as pd

df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [2]:
# Ejecuta la función para clasificar las variables del Titanic
resultado_tipificacion = tipifica_variables(df, umbral_categoria=10, umbral_continua=0.2)

# Mostrar resultados
print("\nVariables clasificadas:")
resultado_tipificacion


Variables clasificadas:


Unnamed: 0,nombre_variable,tipo_sugerido
0,survived,Binaria
1,pclass,Categórica
2,sex,Binaria
3,age,Numerica Discreta
4,sibsp,Categórica
5,parch,Categórica
6,fare,Numerica Continua
7,embarked,Categórica
8,class,Categórica
9,who,Categórica


## Análisis de resultados

La función ha clasificado las variables del dataset del Titanic en cuatro tipos:

- Las variables como `sex` o `alive` aparecen como **Binarias**, lo cual es coherente ya que solo tienen dos posibles valores.
- Variables como `embarked`, `class`, `who`, `deck`, etc. son clasificadas como **Categóricas**, al tener pocos valores únicos.
- `fare` se clasifica como **Numérica Continua**, ya que tiene una alta variedad de valores únicos.
- Otras como `age`, `sibsp` o `parch` se consideran **Numéricas Discretas** por su baja cardinalidad relativa.

In [6]:
# Revisar porcentaje de nulos
df.isnull().mean().sort_values(ascending=False)

deck           0.772166
age            0.198653
embarked       0.002245
embark_town    0.002245
survived       0.000000
pclass         0.000000
sex            0.000000
sibsp          0.000000
parch          0.000000
fare           0.000000
class          0.000000
who            0.000000
adult_male     0.000000
alive          0.000000
alone          0.000000
dtype: float64

In [11]:
# Seleccionamos columnas categóricas
cat_cols = df.select_dtypes(include=['object', 'category']).columns

# Eliminamos nulos en target y en categóricas
df_clean = df.dropna(subset=['fare'] + list(cat_cols))

cat_card = df_clean[cat_cols].nunique().sort_values(ascending=False)
cat_card

embarked       3
class          3
who            3
embark_town    3
sex            2
alive          2
dtype: int64

In [12]:
relacionadas = get_features_cat_regression(df, target_col="fare")
print("Variables categóricas relacionadas con 'fare':", relacionadas)

Variables categóricas relacionadas con 'fare': ['sex', 'embarked', 'class', 'who', 'embark_town', 'alive']
