## Máster en Data Science

### Machine Learning

Contacto: angel.blanco@cunef.edu


# **Encoding de variables categóricas, escalado y modelo**

En este notebook se realiza el encoding de las variables categóricas. Muchos algoritmos de aprendizaje automático no pueden manejar las variables categóricas por sí mismas a menos que las convirtamos en valores numéricos. Los resultados producidos por el modelo varían según las diferentes técnicas de codificación utilizadas.

Las variables categóricas pueden dividirse en dos categorías:

    - Nominal (Sin orden particular)
    - Ordinal (con algún orden)

A mayores, se llevarán acabo el escalado y la formulación de modelos del proceso de EDA.


In [1]:
# Environment check
import sys

print(sys.version)
print(sys.path)
print("---")
print(sys.executable)

3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0]
['/home/angel/master/ML/repos/ml-class/EDA_Dataset/notebooks', '/usr/lib/python310.zip', '/usr/lib/python3.10', '/usr/lib/python3.10/lib-dynload', '', '/home/angel/master/ML/repos/practica0/.venv/lib/python3.10/site-packages']
---
/home/angel/master/ML/repos/practica0/.venv/bin/python


#### Librerías

In [2]:
# Procesamiento
import pandas as pd 
import numpy as np

# Modelaje
import sklearn
from sklearn.pipeline import Pipeline
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc, \
                            silhouette_score, recall_score, precision_score, make_scorer, \
                            roc_auc_score, f1_score, precision_recall_curve, accuracy_score, roc_auc_score, \
                            classification_report, confusion_matrix

from sklearn import metrics
from sklearn.metrics import ConfusionMatrixDisplay
# Encoding
import category_encoders as ce
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingClassifier

# Gráficos
import matplotlib.pyplot as plt
import seaborn as sns

#### Lectura de datos

In [3]:
pd_fraud_train = pd.read_csv("../data/preprocessed/train_pd_data_preprocessing_missing_outlier.csv")\
                  .drop(['Unnamed: 0'], axis=1)
pd_fraud_test = pd.read_csv("../data/preprocessed/test_pd_data_preprocessing_missing_outlier.csv")\
                  .drop(['Unnamed: 0'], axis=1)

#### Codificación de la variable objetivo

Siendo 1 indicador de alta probabilidad de fraude y 0 indicador de lo contrario.

In [6]:
pd_fraud_train['fraud_bool'].value_counts()

fraud_bool
0    791177
1      8823
Name: count, dtype: int64

In [7]:
X_train = pd_fraud_train.drop('fraud_bool',axis=1)
X_test = pd_fraud_test.drop('fraud_bool',axis=1)
y_train = pd_fraud_train['fraud_bool']
y_test = pd_fraud_test['fraud_bool']

#### Codificación del resto de variables categoricas

He elegido codificarlas con one-hot-encoding.

In [8]:
list_columns_cat = list(X_train.select_dtypes(["object", "category"]).columns)
list_other = list(set(X_train.columns)-set(list_columns_cat))

In [9]:
hot = ce.OneHotEncoder(cols=list_columns_cat)
modelo = hot.fit(X_train, y_train)

In [10]:
modelo

In [11]:
X_train_t = modelo.transform(X_train, y_train)
X_test_t = modelo.transform(X_test, y_test)

In [12]:
len(list(X_train_t.columns))

52

In [13]:
X_train_t.dtypes.to_dict()

{'income': dtype('float64'),
 'device_fraud_count': dtype('int64'),
 'device_distinct_emails_8w': dtype('int64'),
 'keep_alive_session': dtype('int64'),
 'device_os_1': dtype('int64'),
 'device_os_2': dtype('int64'),
 'device_os_3': dtype('int64'),
 'device_os_4': dtype('int64'),
 'device_os_5': dtype('int64'),
 'session_length_in_minutes': dtype('float64'),
 'source_1': dtype('int64'),
 'source_2': dtype('int64'),
 'foreign_request': dtype('int64'),
 'proposed_credit_limit': dtype('float64'),
 'has_other_cards': dtype('int64'),
 'bank_months_count': dtype('int64'),
 'phone_mobile_valid': dtype('int64'),
 'phone_home_valid': dtype('int64'),
 'housing_status_1': dtype('int64'),
 'housing_status_2': dtype('int64'),
 'housing_status_3': dtype('int64'),
 'housing_status_4': dtype('int64'),
 'housing_status_5': dtype('int64'),
 'housing_status_6': dtype('int64'),
 'housing_status_7': dtype('int64'),
 'email_is_free': dtype('int64'),
 'credit_risk_score': dtype('float64'),
 'employment_statu

Hasta aquí hemos llegado para la práctica del EDA de momento.