# INTRODUCCIÓN: EL PROCESO DE LA CIENCIA DE DATOS

<img src="crisp.jpg" align="center" width="50%"></img>

El acrónimo CRISP-DM refiere a Proceso Estándar Cross Industria para la Minería de Datos ("Cross Industry Standard Process for Data Mining" en inglés) y fue introducido en 1996 en un esfuerzo de estandarizar el proceso de la minería de datos, de forma tal que pudiera servir como un flujo de trabajo estándar y confiable que pudiera ser adoptado por diferentes industrias. Dicho proceso serviría como el puntapié inicial para las *mejores prácticas* que produciría diversos beneficios.

Además de otorgar un proceso consistente y confiable bajo el cual organizar los proyectos de minería de datos también generaría confianza en clientes y demás partes interesadas que buscaban utilizar la minería de datos en sus organizaciones.

El marco CRISP-DM consta de 6 pasos principales:

- **Comprensión del negocio**. Implica la comprensión de los objetivos y requisitos de un proyecto desde el punto de vista empresarial. Estas perspectivas de negocio se utilizan para averiguar qué problemas de negocio se pueden resolver mediante el uso de la minería de datos.
- **Comprensión de los datos**. Esta fase nos permite familiarizarnos con los datos y esto implica la realización de análisis exploratorios de datos (Exploratory Data Analysis o **EDA**). Dicha exploración inicial de datos puede permitirnos averiguar qué subconjuntos de datos a utilizar para el modelado posterior, así como ayudar en la generación de hipótesis a explorar.
- **Preparación de los datos**. Se puede considerar que esta es la fase del proceso de minería de datos que más tiempo consume, ya que implica una limpieza y un preprocesamiento rigurosos de los datos, así como el tratamiento de los datos que faltan. 
**Se dice que esta parte del proceso insume hasta un 80% del tiempo de todo el proceso**.
- **Modelización**. Los datos preprocesados se utilizan para crear modelos en los que se emplean algoritmos de aprendizaje para realizar análisis multivariados.
- **Evaluación**. Al llevar a cabo los 4 pasos mencionados, es importante evaluar los resultados obtenidos y revisar el proceso realizado hasta el momento para determinar si se cumplen o no los objetivos de negocio fijados inicialmente. Si se considera oportuno, puede ser necesario repetir algunos pasos (es un proceso iterativo). Cuando se considere que los resultados y el proceso son satisfactorios, estaremos listos para pasar a la implementación. Además, en esta fase de evaluación, algunos resultados pueden suscitar nuevas ideas de proyectos que explorar.
- **Deployment**. Una vez que el modelo tiene una calidad satisfactoria, se procede a su deploy, que puede ser un simple informe, una API, una aplicación web, etc.


## Los roles en el proceso de ciencia de datos
<img src="data science process.jpg" align="center" width="50%"></img>

A medida que la disciplina se fue desarrollando, fueron apariendo nuevos roles más especializados en el proceso. Los **ingenieros de datos** (data engineers) se encargan de las primeras etapas del proceso. Son quienes deben hacer la recolección y limpieza de los datos. Se especializan en el uso de bases de datos.

Un segundo rol es el de los **analistas de datos** (data analysts). Se pueden superponer con los ingenieros de datos en la etapa de la limpieza de datos, pero van más allá y realizan análisis descriptivos de los conjuntos de datos (EDA). Pueden brindar valiosos *insights* para resolver los problemas planteados por el negocio/organización. De hecho, el resultado de su trabajo puede ser entregado a través de tableros o dashboards, en herramientas de BI como PowerBI, Tableau o Microstrategy.

Por último, los **ingenieros de machine learning** (machine learning engineers o ML Ops) se encargan de la parte final del proceso. Pueden participar de la construcción de modelos, aunque su foco es más bien la última milla del proceso. Es decir, se encargan de la puesta en producción de modelos, típicamente en el contexto de la nube (AWS, Google Cloud, Microsoft Azure). Además, participan de la evaluación y supervisión de los modelos.

Como vemos, el **científico de datos** tiene el rol más abarcativo. Debe ser capaz de cumplir todos los pasos del proceso, desde la formulación del problema o pregunta del negocio a resolver, hasta la implementación y evaluación del modelo que resuelva ese mismo problema formulado originalmente. Dependiendo de la organización, es posible que haya personas con uno o más de los roles anteriores, mientras que el resto del proceso típicamente es llevado a cabo por un científico de datos.


# Tratamiento de variables categóricas

### Variables Cualitativas y Cuantitativas

---

Las variables pueden ser caracterizadas como:

* **cuantitativas**: 

    - Una variable cuantitativa toma valores numéricos, como en el caso de del ingreso de una persona o el precio de una casa.  
<br>

* **cualitativas**:  

    - Una variable cualitativa toma valores en una de K diferentes clases o categorías.
    - Una variable cualitativa con dos posibles valores se denomina **binaria o dicotómica**.

### Tipos de una variable cualitativa


#### Nominal/Categórica. Categorías nombradas.

* Se suele asignar **valores o rótulos numéricos** a las variables categóricas: Estado civil, 0 si soltero y 1 si casado y 2 si divorciado

* Los números utilizados para rotular son arbitrarios. 

* En general, el software asume que los valores numéricos reflejan cantidades algebraicas y, por tanto, un cierto orden.

* La principal medida de posición es la **moda**. La mediana y la media no están definidas (y en general cualquier operación numérica tampoco).



<img src="cat1.png" align="center"></img>




#### Ordinal. 

* Es similar a una categórica pero existe un orden claro. 

<img src="cat2.png" align="center"></img>


<br><br>

#### Una forma de representar las variables categóricas: las variables Dummies

* Una **variable dummy** (variable indicadora) es una variable cualitativa que toma valores 0 o 1 para indicar la ausencia o presencia de algún atributo o efecto categórico

* Formalmente una variable dummy puede ser expresada mediante una **función indicadora**:

\begin{equation}
  D_i= \mathbb{I}_A(x_i) = \begin{cases}
    1, & \text{si $x_i \in A$} \\    
    0, & \text{si $x_i \not \in A$}
  \end{cases}
\end{equation}




* ¿Cuál es la relación entre variables categóricas y variables dummies?

    - Una variable categórica con N categorías puede ser expresada en términos de N−1 variables dummies (one-hot encoding).

    - Resuelve el problema de interpretar las etiquetas numéricas como un intervalo.

    - Este método tiene un **problema**: si las categorías tienen muchos valores aumenta considerablemente la **dimensionalidad** de los datos.


#### Ejemplo

Supongamos que tenemos una variable categórica, C, que registra la ciudad en la que reside una muestra de habitantes de la Argentina.

Asumamos que la variable puede tomar 4 posibles valores: Buenos Aires, Rosario, Córdoba y Mar del Plata.

Imaginemos que tenemos las siguiente 5 observaciones:

<img src="cat3.png" align="center"></img>





Podemos representar estas observaciones de la variable categórica usando dummies como:    

<img src="cat4.png" align="center"></img>



---

Es importante notar que **si existen k categorías, k-1 variables dummies son suficientes para representarlas**. Es decir, la categoría k se puede inferir si todas las variables están en 0. En nuestro ejemplo, es el caso de Mar del Plata.


In [1]:
import pandas as pd
import numpy as np

from category_encoders import TargetEncoder
from feature_engine.encoding import CountFrequencyEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

import pathlib
import joblib 

from collections import defaultdict
import sklearn
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier, XGBRegressor
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV
from sklearn import preprocessing
from scipy import stats
from sklearn import metrics

df=pd.DataFrame({'ciudad': ["paris", "paris", "tokyo", "amsterdam"], 'pais': ['francia','francia','japón','países bajos'], 'clase':['positiva','negativa','negativa','negativa']})
df

Unnamed: 0,ciudad,pais,clase
0,paris,francia,positiva
1,paris,francia,negativa
2,tokyo,japón,negativa
3,amsterdam,países bajos,negativa


In [2]:
ciudad_dummies = pd.get_dummies(df.ciudad, drop_first = True, prefix = 'ciudad')
ciudad_dummies
# Vemos que el registo n°3 corresponde a Amsterdam (ciudad_paris=F y ciudad_tokyo=F)

Unnamed: 0,ciudad_paris,ciudad_tokyo
0,True,False
1,True,False
2,False,True
3,False,False


## Otra forma de codificar variables categóricas: LabelEncoder y OrdinalEncoder

- LabelEncoder y OrdinalEncoder son similares: ordenan alfabéticamente las categorías y las codifican ordinalmente
- Podemos utilizar LabelEncoder para codificar la respuesta Y, mientras que usamos OrdinalEncoder para codificar las variables X
- No nos sirven para regresiones, pero nos sirven para algoritmos como el XGBoost, ya que sckit-learn requiere que todas las variables input sean numéricas.

In [3]:

le = preprocessing.LabelEncoder()
le.fit(df.clase)
#Vemos las categorías ordenadas
print(le.classes_)

#Transformamos la variable
print(le.transform(df.clase))

#También podemos hacer todo junto
print(le.fit_transform(df.clase))

#Lo aplicamos a otros datos
print(le.transform(["positiva", "positiva", "negativa"]))


['negativa' 'positiva']
[1 0 0 0]
[1 0 0 0]
[1 1 0]


In [4]:
enc = OrdinalEncoder()
print(enc.fit_transform(df))
print(enc.categories_)

[[1. 0. 1.]
 [1. 0. 0.]
 [2. 1. 0.]
 [0. 2. 0.]]
[array(['amsterdam', 'paris', 'tokyo'], dtype=object), array(['francia', 'japón', 'países bajos'], dtype=object), array(['negativa', 'positiva'], dtype=object)]


## Frequency Encoder

- La idea es reemplazar cada categoría por la frecuencia de la categoría.
- Para ello podemos utilizar la clase CountFrequencyEncoder de feature_engine.encoding

In [5]:
# pip install category_encoders

In [6]:
df=pd.read_csv('data/Titanic/train.csv')

for col in ['Sex','Pclass','Embarked']:
    df[col] = df[col].astype('object')
#Atención! Pclass es númerica pero debemos tratarla como categórica
    
df.loc[:,['Cabin','Embarked']]=df.loc[:,['Cabin','Embarked']].fillna('NA')
df=df.drop(columns=['PassengerId','Name','Ticket','Cabin'])

# X=df.drop(columns=['PassengerId','Survived','Name','Ticket','Cabin'])
# y=train['Survived']

train, test = train_test_split(df, test_size=0.20, random_state=42)
train.reset_index(inplace=True,drop=True)
test.reset_index(inplace=True,drop=True)

# X_train.reset_index(inplace=True,drop=True)
# X_test.reset_index(inplace=True,drop=True)
# y_train.reset_index(inplace=True,drop=True)
# y_test.reset_index(inplace=True,drop=True)

test

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,3,male,,1,1,15.2458,C
1,0,2,male,31.0,0,0,10.5000,S
2,0,3,male,20.0,0,0,7.9250,S
3,1,2,female,6.0,0,1,33.0000,S
4,1,3,female,14.0,1,0,11.2417,C
...,...,...,...,...,...,...,...,...
174,0,3,male,17.0,0,0,7.1250,S
175,0,3,male,,0,0,7.2250,C
176,1,3,female,38.0,1,5,31.3875,S
177,1,2,female,17.0,0,0,10.5000,S


In [7]:
train.Sex.value_counts(normalize=True)

Sex
male      0.655899
female    0.344101
Name: proportion, dtype: float64

In [8]:
#Genero diccionario de Frequency Encoders
dict_encoders_freq = defaultdict(CountFrequencyEncoder)

frecuency_transformer = CountFrequencyEncoder(encoding_method='frequency',missing_values='ignore')
# target_encoder = TargetEncoder()

vars_cat=['Sex']
var_clase='Survived'

preprocess = ColumnTransformer(
transformers=[
('frecuency_transformer', frecuency_transformer, vars_cat),
],remainder='passthrough') 

train_features = preprocess.fit_transform(train[vars_cat],train[var_clase])

#Vemos que reemplazó las categorías por la frecuencia

train_features[:10]
    


array([[0.65589888],
       [0.65589888],
       [0.65589888],
       [0.65589888],
       [0.34410112],
       [0.65589888],
       [0.65589888],
       [0.65589888],
       [0.65589888],
       [0.65589888]])

## Target Encoder

- La idea es reemplazar cada categoría por la proporción de la clase positiva de la variable target (en problemas de clasificación) o bien por su valor medio (en problemas de regresión).
- Para ello podemos utilizar la clase TargetEncoder de category_encoders

In [9]:
#Analicemos 
pd.crosstab(train.Sex,train.Survived,normalize='index')

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.261224,0.738776
male,0.813704,0.186296


In [10]:
#Genero diccionario de Frequency Encoders
dict_encoders_freq = defaultdict(CountFrequencyEncoder)

# frecuency_transformer = CountFrequencyEncoder(encoding_method='frequency',missing_values='ignore')
target_encoder = TargetEncoder()

vars_cat=['Sex']
var_clase='Survived'

preprocess = ColumnTransformer(
transformers=[
('target_encoder', target_encoder, vars_cat)
],remainder='passthrough') 

train_features = preprocess.fit_transform(train[vars_cat],train[var_clase])

#Vemos que reemplazó las categorías por la proporción de la clase positiva
train_features[:10]

array([[0.1862955 ],
       [0.1862955 ],
       [0.1862955 ],
       [0.1862955 ],
       [0.73877551],
       [0.1862955 ],
       [0.1862955 ],
       [0.1862955 ],
       [0.1862955 ],
       [0.1862955 ]])

In [11]:
#Podemos integrar todas las codificaciones en una sola función, y aplicarla siempre que tengamos variables categóricas

def trans_factores (df,vars_cat,var_clase):

    ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value',unknown_value=-1)
    frecuency_transformer = CountFrequencyEncoder(encoding_method='frequency')
    target_encoder = TargetEncoder()

    preprocess = ColumnTransformer(
    transformers=[
    ('ordinal_encoder', ordinal_encoder, vars_cat),
    ('frecuency_transformer', frecuency_transformer, vars_cat),
    ('target_encoder', target_encoder, vars_cat)
    ],remainder='passthrough') 

    train_features = preprocess.fit_transform(df[vars_cat],df[var_clase])

    #Guardamos archivo con encodings de los transformadores, a fin de poder utilizarlos en 
    #futuras corridas productivas
    pathlib.Path(f"preprocessing").mkdir(parents=True, exist_ok=True)
    _=joblib.dump(preprocess, 'preprocessing/transformer.joblib')
    
    #Renombramos variables codificadas
    vars_cat_cols=[s + '_ordinal' for s in vars_cat]
    vars_cat_cols=vars_cat_cols+[s + '_freq' for s in vars_cat]
    vars_cat_cols=vars_cat_cols+[s + '_target' for s in vars_cat]
    df2=df.copy()
    df2.drop(columns=vars_cat,axis=1,inplace=True)
    df2=pd.concat([df2,pd.DataFrame(train_features,columns=vars_cat_cols)],axis=1)
    return(df2)

In [12]:
vars_cat=['Sex','Pclass','Embarked']
train_mod=trans_factores(train,vars_cat,var_clase)
train_mod

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Sex_ordinal,Pclass_ordinal,Embarked_ordinal,Sex_freq,Pclass_freq,Embarked_freq,Sex_target,Pclass_target,Embarked_target
0,0,45.5,0,0,28.5000,1.0,0.0,3.0,0.655899,0.228933,0.73736,0.186296,0.607362,0.335238
1,0,23.0,0,0,13.0000,1.0,1.0,3.0,0.655899,0.212079,0.73736,0.186296,0.483443,0.335238
2,0,32.0,0,0,7.9250,1.0,2.0,3.0,0.655899,0.558989,0.73736,0.186296,0.241206,0.335238
3,0,26.0,1,0,7.8542,1.0,2.0,3.0,0.655899,0.558989,0.73736,0.186296,0.241206,0.335238
4,0,6.0,4,2,31.2750,0.0,2.0,3.0,0.344101,0.558989,0.73736,0.738776,0.241206,0.335238
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707,1,21.0,0,0,7.6500,0.0,2.0,3.0,0.344101,0.558989,0.73736,0.738776,0.241206,0.335238
708,0,,0,0,31.0000,1.0,0.0,3.0,0.655899,0.228933,0.73736,0.186296,0.607362,0.335238
709,0,41.0,2,0,14.1083,1.0,2.0,3.0,0.655899,0.558989,0.73736,0.186296,0.241206,0.335238
710,1,14.0,1,2,120.0000,0.0,0.0,3.0,0.344101,0.228933,0.73736,0.738776,0.607362,0.335238


In [13]:
#Aplicamos transformer a test

preprocess = joblib.load('preprocessing/transformer.joblib')
test_features = preprocess.transform(test[vars_cat])

vars_cat_cols=[s + '_ordinal' for s in vars_cat]
vars_cat_cols=vars_cat_cols+[s + '_freq' for s in vars_cat]
vars_cat_cols=vars_cat_cols+[s + '_target' for s in vars_cat]
test_mod=pd.concat([test,pd.DataFrame(test_features,columns=vars_cat_cols)],axis=1)
test_mod.drop(columns=vars_cat,axis=1,inplace=True)
test_mod

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Sex_ordinal,Pclass_ordinal,Embarked_ordinal,Sex_freq,Pclass_freq,Embarked_freq,Sex_target,Pclass_target,Embarked_target
0,1,,1,1,15.2458,1.0,2.0,0.0,0.655899,0.558989,0.175562,0.186296,0.241206,0.543995
1,0,31.0,0,0,10.5000,1.0,1.0,3.0,0.655899,0.212079,0.737360,0.186296,0.483443,0.335238
2,0,20.0,0,0,7.9250,1.0,2.0,3.0,0.655899,0.558989,0.737360,0.186296,0.241206,0.335238
3,1,6.0,0,1,33.0000,0.0,1.0,3.0,0.344101,0.212079,0.737360,0.738776,0.483443,0.335238
4,1,14.0,1,0,11.2417,0.0,2.0,0.0,0.344101,0.558989,0.175562,0.738776,0.241206,0.543995
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
174,0,17.0,0,0,7.1250,1.0,2.0,3.0,0.655899,0.558989,0.737360,0.186296,0.241206,0.335238
175,0,,0,0,7.2250,1.0,2.0,0.0,0.655899,0.558989,0.175562,0.186296,0.241206,0.543995
176,1,38.0,1,5,31.3875,0.0,2.0,3.0,0.344101,0.558989,0.737360,0.738776,0.241206,0.335238
177,1,17.0,0,0,10.5000,0.0,1.0,3.0,0.344101,0.212079,0.737360,0.738776,0.483443,0.335238


In [14]:
#Probamos con OneHotEncoder

encoder = OneHotEncoder(drop='first',sparse=False)
train_onehot = encoder.fit_transform(train[vars_cat])
train_onehot=pd.DataFrame(train_onehot,columns=encoder.get_feature_names_out())
#¿Cúantas variables debería generar el encoder?

train_ohe=pd.concat([train,train_onehot],axis=1)
train_ohe.drop(columns=vars_cat,inplace=True)
train_ohe



Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Sex_male,Pclass_2,Pclass_3,Embarked_NA,Embarked_Q,Embarked_S
0,0,45.5,0,0,28.5000,1.0,0.0,0.0,0.0,0.0,1.0
1,0,23.0,0,0,13.0000,1.0,1.0,0.0,0.0,0.0,1.0
2,0,32.0,0,0,7.9250,1.0,0.0,1.0,0.0,0.0,1.0
3,0,26.0,1,0,7.8542,1.0,0.0,1.0,0.0,0.0,1.0
4,0,6.0,4,2,31.2750,0.0,0.0,1.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
707,1,21.0,0,0,7.6500,0.0,0.0,1.0,0.0,0.0,1.0
708,0,,0,0,31.0000,1.0,0.0,0.0,0.0,0.0,1.0
709,0,41.0,2,0,14.1083,1.0,0.0,1.0,0.0,0.0,1.0
710,1,14.0,1,2,120.0000,0.0,0.0,0.0,0.0,0.0,1.0


In [15]:
test_onehot = encoder.transform(test[vars_cat])
test_onehot=pd.DataFrame(test_onehot,columns=encoder.get_feature_names_out())

test_ohe=pd.concat([test,test_onehot],axis=1)
test_ohe.drop(columns=vars_cat,inplace=True)
test_ohe

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Sex_male,Pclass_2,Pclass_3,Embarked_NA,Embarked_Q,Embarked_S
0,1,,1,1,15.2458,1.0,0.0,1.0,0.0,0.0,0.0
1,0,31.0,0,0,10.5000,1.0,1.0,0.0,0.0,0.0,1.0
2,0,20.0,0,0,7.9250,1.0,0.0,1.0,0.0,0.0,1.0
3,1,6.0,0,1,33.0000,0.0,1.0,0.0,0.0,0.0,1.0
4,1,14.0,1,0,11.2417,0.0,0.0,1.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
174,0,17.0,0,0,7.1250,1.0,0.0,1.0,0.0,0.0,1.0
175,0,,0,0,7.2250,1.0,0.0,1.0,0.0,0.0,0.0
176,1,38.0,1,5,31.3875,0.0,0.0,1.0,0.0,0.0,1.0
177,1,17.0,0,0,10.5000,0.0,1.0,0.0,0.0,0.0,1.0


In [16]:
#Probamos utilizar solos las variables target
train_target=train_mod.loc[:,train_mod.columns[train_mod.columns.str.contains('target|Survived')]]
test_target=test_mod.loc[:,test_mod.columns[test_mod.columns.str.contains('target|Survived')]]

Entrenamos modelos con hiperparámetros por default...

In [17]:
%%capture

y_train=train['Survived']
y_test=test['Survived']

X_train=train.drop(columns=['Survived']+vars_cat)
X_test=test.drop(columns=['Survived']+vars_cat)
model_xgb = XGBClassifier(n_jobs=3)
model_xgb.fit(X_train,y_train)

X_train_mod=train_mod.drop(columns=['Survived'])
X_test_mod=test_mod.drop(columns=['Survived'])
model_xgb_mod = XGBClassifier(n_jobs=3)
model_xgb_mod.fit(X_train_mod,y_train)

X_train_ohe=train_ohe.drop(columns=['Survived'])
X_test_ohe=test_ohe.drop(columns=['Survived'])
model_xgb_ohe = XGBClassifier(n_jobs=3)
model_xgb_ohe.fit(X_train_ohe,y_train)

X_train_target=train_target.drop(columns=['Survived'])
X_test_target=test_target.drop(columns=['Survived'])
model_xgb_target = XGBClassifier(n_jobs=3)
model_xgb_target.fit(X_train_target,y_train)

In [18]:
from sklearn.metrics import mean_squared_error

y_pred=model_xgb.predict(X_test)
print(f'AUC test sin vars cat: {round(roc_auc_score(y_test,y_pred),2)}')

y_pred=model_xgb_ohe.predict(X_test_ohe)
print(f'AUC test One-Hot Encoding: {round(roc_auc_score(y_test,y_pred),2)}')

y_pred=model_xgb_mod.predict(X_test_mod)
print(f'AUC test DF Nuevo Feature Engineering: {round(roc_auc_score(y_test,y_pred),2)}')

y_pred=model_xgb_target.predict(X_test_target)
print(f'AUC test Solo FE Target: {round(roc_auc_score(y_test,y_pred),2)}')


AUC test sin vars cat: 0.65
AUC test One-Hot Encoding: 0.81
AUC test DF Nuevo Feature Engineering: 0.81
AUC test Solo FE Target: 0.77


- Obtenemos ventajas al agregar las variables categóricas, pero no parece haber diferencia entre One-Hot Encoding y la variante de Feature Engineering propuesta.
- Si dejamos solo el Target Encoding, la performance decae.

### ¿Qué pasaría si tuvieramos una base más chica?

In [19]:
train_f=train.sample(100,random_state=42)
train_mod_f=train_mod.sample(100,random_state=42)
train_ohe_f=train_ohe.sample(100,random_state=42)
train_target_f=train_target.sample(100,random_state=42)


In [20]:
%%capture

y_train=train_f['Survived']
y_test=test['Survived']

X_train=train_f.drop(columns=['Survived']+vars_cat)
X_test=test.drop(columns=['Survived']+vars_cat)
model_xgb = XGBClassifier(n_jobs=3)
model_xgb.fit(X_train,y_train)

X_train_mod=train_mod_f.drop(columns=['Survived'])
X_test_mod=test_mod.drop(columns=['Survived'])
model_xgb_mod = XGBClassifier(n_jobs=3)
model_xgb_mod.fit(X_train_mod,y_train)

X_train_ohe=train_ohe_f.drop(columns=['Survived'])
X_test_ohe=test_ohe.drop(columns=['Survived'])
model_xgb_ohe = XGBClassifier(n_jobs=3)
model_xgb_ohe.fit(X_train_ohe,y_train)

X_train_target=train_target_f.drop(columns=['Survived'])
X_test_target=test_target.drop(columns=['Survived'])
model_xgb_target = XGBClassifier(n_jobs=3)
model_xgb_target.fit(X_train_target,y_train)

In [21]:
y_pred=model_xgb_ohe.predict(X_test_ohe)
print(f'AUC test DF original: {round(roc_auc_score(y_test,y_pred),2)}')

y_pred=model_xgb_mod.predict(X_test_mod)
print(f'AUC test DF original: {round(roc_auc_score(y_test,y_pred),2)}')

y_pred=model_xgb_target.predict(X_test_target)
print(f'AUC test DF original: {round(roc_auc_score(y_test,y_pred),2)}')


AUC test DF original: 0.71
AUC test DF original: 0.72
AUC test DF original: 0.73


- El efecto a favor de la nueva forma de codificar las variables categóricas se ve mejor cuando hay un mal ratio entre cantidad categorías y cantidad de registros (variables con muchas categorías y/o pocos casos).
- Es decir, podemos evitar caer en la **maldición de la dimensionalidad** a partir de las nuevas técnicas de feature engineering.
- Para debatir. ¿Qué problema piensan que tendríamos si hicieramos Frequency Encoding o Target Encoding con Cross-Validation?

## PRÁCTICA EN CLASE

A partir del dataset MovieLens_1000.csv, entrenar tres modelos:
1. Uno con one-hot encoding
2. Otro aplicando las técnicas de feature engineering vistas
3. Un tercero dejando unicamente las variables de target encoding


In [22]:
from sklearn.metrics import mean_squared_error

In [23]:
df_practica_f=pd.read_csv('data/MovieLens_1000.csv')
df_practica_f

Unnamed: 0,Rating,Gender,Age,Occupation
0,4,M,35,15
1,3,M,25,12
2,4,F,35,1
3,3,M,50,1
4,4,M,35,12
...,...,...,...,...
995,5,M,25,6
996,4,M,45,18
997,3,M,50,11
998,4,F,25,6


## BIBLIOGRAFÍA

- https://towardsdatascience.com/the-data-science-process-a19eb7ebc41b
- https://machinelearningmastery.com/one-hot-encoding-for-categorical-data/
- https://towardsdatascience.com/dealing-with-categorical-variables-by-using-target-encoder-a0f1733a4c69
- https://towardsdatascience.com/feature-encoding-techniques-in-machine-learning-with-python-implementation-dbf933e64aa