<a href="https://colab.research.google.com/github/virf96/Chat-Bot/blob/master/Caracterist%C3%ADcas_variables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Caracteristícas de las variables

**¿Que debemos considerar cuando analizamos variables?**

**1.- Datos Faltantes** (Falta de información para algunas observaciones dentro de una variable)

**2.- Variables Categóricas** (Variables que contienen cadena de caracteres en lugar de números)

**3.- Condiciones de modelos lineales** (Cumplen las variables con dichas condiciones)

**4.- Distribución** (Normal, sesgada, entre otras)

**5.- Valores extremos** (Valores inusuales o inesperados)

**6.- Magnitud** (Escala o rango de las variables)

# **Datos Faltantes**

## Definición:

$\bullet$ Los datos faltantes o valores vacíos ('missing values') se definen como valores/datos no disponibles para ciertas observaciones en un variable

$\bullet$ Los datos incompletos son un problema inevitable en la mayoría de las fuentes de datos

$\bullet$ Los valores vacíos pueden tener un gran impacto en las conclusiones que se deriven de la variable

## Motivos de datos faltantes:

$\bullet$ **Omitidos:** Un valor falta porque no se guardó apropiadamente

$\bullet$ **No existen:** Ejemplo: Cuando creamos variables como 'ratios' es posible que en algún caso el denominador sea cero y la variable no existe en ese caso

$\bullet$ **No se identifica:** Ejemplo: Cuando se usa el código postal para generar la variable 'colonia' y el código postal esta errado

## Impactos

$\bullet$ La librería principal para Machine Learning **"Scikit-learn"** no es compatible con los datos faltantes

$\bullet$ La sustitución/imputación de NA puede distorsionar la distribución de la variable 

$\bullet$ Afecta a todos los modelos de Machine Learning



In [1]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# Con este comando informamos a pandas que muestre todas
# las columnas cada vez que pedimos un display
pd.set_option('display.max_columns', None)

In [137]:
# Carguemos los datos del Titanic
data = pd.read_csv('/content/drive/My Drive/datasets/titanic.csv')

# Inspeccionemos las primeras 5 filas
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"


En Python, los valores faltantes se guardan como NaN, mira por ejemplo, los valores para la variable body.

In [138]:
# Podemos cuantificar el número total de valores nulos usando
# el método isnull seguido de el método suma en el dataframe

data.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

In [139]:
data.isna().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

**Hay** 263 valores faltantes para la variable 'Age', 1014 para 'Cabin' y 2 para 'Embarked'.

In [140]:
# Otra opción, es usar el método promedio 'mean'
# para visualizar el porcentage the los valores faltantes
# por cada variable

data.isnull().mean()*100

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64

Hay valores nulos en las variables Age (19.86% faltantes), Cabin - cabina en la cual el pasajero estaba viajando - (77% faltantes), y Embarked - el puerto en el cual el pasajero subió el Titanic - (0.2%  faltantes).

**Entender los mecanismos que generan los datos ausentes nos ayuda a escoger la técnica de sustitución más adecuada**

## Mecanismos

**1.- Valores Flatentes completamiente aleatorios (MCAR):**

$\bullet$ La probabilidad de que un valor falte es la misma para todas las observaciones.

$\bullet$ No hay relación alguna entre los datos faltantes y cualquier otro valor, ya sea registrado o ausente

$\bullet$ Omitir estos casos no sesga ninguna inferencia o conclusión hecha

En los datos del Titanic, los valores faltantes de las variables Cabin y Age fueron introducidos sistemáticamente. 
Para muchos de los pasajeros que no sobrevivieron, la edad ('Age') que tenían o la cabina ('Cabin') en la que estaban viajando, no pudo ser establecida. A la gente que sobrevivió, por el contrario, se les pudo preguntar dicha información.

Qué podemos deducir observando los datos?
En una situación como esta, podemos esperar un mayor número de valores faltantes para los pasajeros que no sobrevivieron.

Observemos:


In [142]:
# Creemos una variable binaria que indique
# si la información de la cabina esta ausente o no

data['cabin_null'] = np.where(data.cabin.isnull(), 1, 0)

In [144]:
# Evaluemos el porcentaje de los valores faltantes 
# en la cabina por los pasajeros que sobrevivieron vs. los que no sobrevivieron

# La variable 'Survived' (Sobreviente) toma valores 
# de 1 si el pasajero sobrevivió y 0 de lo contrario.

# Agrupar los datos para Sobrevivientes vs No-Sobrevivientes
# y encontrar el porcentaje de nulos en la cabina 
data.groupby(['survived'])['cabin_null'].mean()

survived
0    0.873918
1    0.614000
Name: cabin_null, dtype: float64

In [145]:
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,cabin_null
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO",0
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON",0
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON",0
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON",0
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON",0


In [147]:
# Otra forma de hacer lo mismo, pero con menos líneas de código 

data['cabin'].isnull().groupby(data['survived']).mean()

survived
0    0.873918
1    0.614000
Name: cabin, dtype: float64

Podemos ver que el porcentaje de valores faltantes es mucho más alto para las personas que no sobrevivieron (87%), con respecto a los que sobrevivieron (60%). Este hallazgo está alineado con nuestra hipótesis sobre los datos faltantes.

**Nota**: Para realmente entender si los valores faltantes no son aleatorios, es necesario familiarizarse muy bien con la forma en que los datos fueron recogidos. Analizar los datos, solo puede llevarnos a la dirección correcta o ayudarnos a construir hipótesis.


In [148]:
# Hagamos lo mismo para la variable 'age':

# Primero creamos variable binaria que indica
# si hay valores faltantes

data['age_null'] = np.where(data.age.isnull(), 1, 0)

# y luego miremos al promedio por cada uno de los grupos de sobrevivientes:
data.groupby(['survived'])['age_null'].mean()

survived
0    0.234858
1    0.146000
Name: age_null, dtype: float64

In [149]:
#Otra forma
data['age'].isnull().groupby(data['survived']).mean()

survived
0    0.234858
1    0.146000
Name: age, dtype: float64

Nuevamente podemos observar un porcentaje mayor de datos faltantes para los pasajeros que no sobrevivieron. Este análisis sugiere que hay una pérdida de datos sistemática: la gente que no sobrevivió tiende a tener más datos nulos. 

Probablemente, el método seleccionado para recoger la información, contribuye a la generación de los datos faltantes.


**2.-Valores Faltantes Aleatorios (MAR):**

$\bullet$ La probabilidad de ocurrencia de los datos faltantes depende de la información en otras variables.

**Ejemplo:** En el caso en el que tengamos una tabla de datos en donde tengamos la variable **Género y Peso** podría pasar que tengamos **NA en peso** debido a que las mujeres a veces no les gusta revelar su peso. 


In [150]:
# En los datos del Titanic, tambien hay valores faltantes 
# para la variable Embarked .

# Tomemos solo un segmento del dataframe con solo las observaciones con datos 
# faltantes para la variable Embarked

data[data.embarked.isnull()]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,cabin_null,age_null
168,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,6,,,0,0
284,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,6,,"Cincinatti, OH",0,0


Estas dos mujeres viajaban juntas, Miss Icard era la mucama de Mrs Stone.

A priori, pareciera que no hay indicios que los valores nulos de variables Embarked dependan de otra variable, y el hecho que ambas de estas mujeres sobrevivieron, quiere decir que hubiesen podido dar esta información.

Muy probablemente los valores se perdieron en el momento de crear los datos.

Si los valores son MCAR, la probabilidad de los datos faltantes para estas dos mujeres es la misma probabilidad que para cualquier otra persona en el Titanic. Por supuesto, esta hipótesis es difícil de demostrar, pero por lo menos nos sirve como ejemplo de variables MCAR.


**3.- Valores Faltantes No Aleatorios (MNAR):**

$\bullet$ Hay un mecanismo o una razón por la cuál los valores faltantes son introducidos en los datos 

Usaremos los datos de Lending Club. Vamos a explorar la variable nombre de la ocupacion (emp_title) y los años que lleva empleado para dicho empleador (emp_length), ambos declarados por los prestamistas en el momento de aplicación para un préstamo. 
En este ejemplo, los valores faltantes en emp_title estan asociados con los valores faltantes en emp_length.

In [151]:
# Carguemos las columnas que nos interesan de los datos
# Lending Club 

data = pd.read_csv('/content/drive/My Drive/datasets/loan.csv',
                   usecols=['emp_title', 'emp_length'],
                   na_values='',
                   keep_default_na=False)
data.head()

Unnamed: 0,emp_title,emp_length
0,Chef,10+ years
1,Postmaster,10+ years
2,Administrative,6 years
3,IT Supervisor,10+ years
4,Mechanic,10+ years


In [152]:
# Miremos el porcentaje de datos faltantes

data.isnull().mean()

emp_title     0.073841
emp_length    0.000000
dtype: float64

Aldedor del 7% de las observaciones contienen datos faltantes para emp_title. No faltan valores en la variable emp_length.

In [153]:
# Miremos los valores de los diferentes empleos

# Número de los diferentes empleos:
print('Número de los diferentes empleos: {}'.format(
    len(data.emp_title.unique())))

# Veamos unos ejemplos:
data.emp_title.unique()[0:20]

Número de los diferentes empleos: 512698


array(['Chef', 'Postmaster ', 'Administrative', 'IT Supervisor',
       'Mechanic', 'Director COE', 'Account Manager',
       'Assistant Director', 'Legal Assistant III', nan, 'Consultant',
       'Job Coach Supervisor', 'Quality Field Engineer', 'Teller ',
       'respritory therapist', 'Worship Director', 'Processor ',
       'Neonatal Nurse Practitioner', 'Stationary Engineer',
       'Exhibits director'], dtype=object)

In [154]:
# Veamos la variable emp_length
data.emp_length.unique()

array(['10+ years', '6 years', '4 years', '< 1 year', '2 years',
       '9 years', 'n/a', '5 years', '3 years', '7 years', '1 year',
       '8 years'], dtype=object)

El valor 'n/a', "not applicable" es en el cual estamos interesados. El cliente no puede llenar el campo sobre cuántos años lleva empleado, porque quizás no estén trabajando. Puede ser estudiante, ser pensionado o trabajador independientemente.

In [155]:
# Miremos el porcentaje de prestamistas  en 
# cada categoría de la variable emp_length 

# value_counts cuenta el número de observaciones por categoría
# si dividimos por el número de observaciones totales (len(data))
# obtenemos los porcentajes de observaciones por categoría

data.emp_length.value_counts() / len(data)

10+ years    0.330878
2 years      0.090096
< 1 year     0.084041
3 years      0.079956
1 year       0.065646
n/a          0.064984
5 years      0.061795
4 years      0.060427
6 years      0.045397
7 years      0.041003
8 years      0.040658
9 years      0.035120
Name: emp_length, dtype: float64

6 % de los prestamistas registraron 'n/a' para emp_length. De la celda anterior sabemos que para ~7% de los prestamistas emp_title tiene datos faltantes. Podría haber alguna relación entre los datos faltantes de estas variables?


In [156]:
# la variable emp_length tiene muchas categorías.

# Resumámoslas en 3 por simplicidad:
# '0-10 years' or '10+ years' or 'n/a' -->
# '0-10 años' o '10+ años' o 'n/a'

# Creemos un diccionarios y re-asignemos los valores de emp_length en 3 categorías:

length_dict = {k: '0-10 years' for k in data.emp_length.unique()}
length_dict['10+ years'] = '10+ years'
length_dict['n/a'] = 'n/a'

# miremos el diccionario:
length_dict

{'1 year': '0-10 years',
 '10+ years': '10+ years',
 '2 years': '0-10 years',
 '3 years': '0-10 years',
 '4 years': '0-10 years',
 '5 years': '0-10 years',
 '6 years': '0-10 years',
 '7 years': '0-10 years',
 '8 years': '0-10 years',
 '9 years': '0-10 years',
 '< 1 year': '0-10 years',
 'n/a': 'n/a'}

In [157]:
# Re-asignemos los valores de la variable emp_length 

data['emp_length_redefined'] = data.emp_length.map(length_dict)

# revisemos si funciono
data.emp_length_redefined.unique()

array(['10+ years', '0-10 years', 'n/a'], dtype=object)

In [158]:
# Calculemos la proporción de años de trabajo en la misma ocupación 
# para aquellos que tienen datos faltantes en la variable emp_title

# data[data.emp_title.isnull()] representa las observaciones con 
# valores faltantes en emp_title. 

# Cálculos:
# número de prestamistas para los cuales la ocupación es nula
not_employed = len(data[data.emp_title.isnull()])
not_employed



166931

In [159]:
# % de prestamistas para los cuales la ocupacióon falta
# por cada categoría de años de trabajo

data[data.emp_title.isnull()].groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / not_employed

emp_length_redefined
10+ years     0.021069
0-10 years    0.103678
n/a           0.875254
Name: emp_length, dtype: float64

Este resultado nos dice lo siguiente:
Para todos los prestamistas que tienen información faltante en emp_title, para aquellos que no están empleados:
- 5.4% declaró más de 10 años en emp_length (quizás son empleados independientes)
- 8.4% declaró entre 0-10 años en emp_length (igual que el anterior, quizás independientes)
- 86.3 % declaró n/a en emp_length (quizás son estudiantes, o trabajan en casa o son pensionados)

La mayoría de los datos faltantes en emp_title coinciden con la etiqueta 'n/a' en la variable emp_length (86%). Esto apoya la idea que estas 2 variables están relacionadas. De modo que los datos faltantes en emp_title, son MAR.


In [160]:
# Hagamos lo mismo para aquellos prestamistas que declaraon una ocupación

# número de prestamistas donde el nombre de la ocupación existe:
# número de empleados 
employed = len(data.dropna(subset=['emp_title']))

# % de prestamistas en cada categoría
data.dropna(subset=['emp_title']).groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / employed

emp_length_redefined
n/a           0.000382
10+ years     0.355579
0-10 years    0.644039
Name: emp_length, dtype: float64

El número de prestamistas que han reportado el nombre de un empleador (emp_title) y tienen   'n/a' como emp_length son muy pocos. Esto  confirma que los valores faltantes en emp_title están relacionados con 'n/a' en la variable emp_length.

'n/a' en emp_length puede ser registrado por personas pensionadas o estudiantes.

Valores faltantes en la variable emp_title dependen o están relacionados con la categoría 'n/a' en la variable emp_length. Este es un ejemplo de una variable MAR. El valor en emp_title falta de forma aleatoria para aquellos clientes que no están empleados, pero cuando emp_length falta, emp_title también está ausente.

# **CARDINALIDAD**

##Definición:

$\bullet$ Los valores de las variables categóricas son seleccionadas de un grupo de categórias (también conocidos como etiquetas)

$\bullet$ El número de etiquetas se conoce como **cardinalidad**

##Efectos de la cardinalidad

¿Tener múltiples etiquetas en una variables es un problema?

**Impacto:**

 $\circ$ La librería **Scikit-Learn** no soporta cadenas en las variables (strings)

 $\circ$ Las variables altamente cardinales pueden llevar a distribuciones desiguales entre las etiquetas que estan presentes en el set de entrenamiento y prueba

 $\circ$ Sobre ajuste en particular para algoritmos basados en árboles

 $\circ$ Problemas operacionales a la hora de poner el modelo en producción



## ¿Que puede pasar cuando tenemos variables con una cardinalidad alta en los modelos de Machine Learning?

$\star$ Algunas etiquetas solo aparecen en el set de entrenamiento $\Rightarrow$ Sobre-ajuste

$\star$ Algunas etiquetas solo aparecen en el set de prueba $\Rightarrow$ Modelo no sabe cómo interpretar los valores

**Consideraciones:**

$\bullet$ Variables con muchas etiquetas tienden a dominar las que tienen menos etiquetas, esto puede causar sobre ajuste principalmente en los modelos basados en árboles

$\bullet$ Un gran número de etiquetas en una variable puede introducir ruido y poca información

$\bullet$ Reducción de la cardinalidad puede ayudar con el desempeño en los modelos de Machine Learning


In [161]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# para construir modelos de machine learning 
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier

# para evaluar los modelos
from sklearn.metrics import roc_auc_score

# para separar datos en sets de entrenamiento y prueba
from sklearn.model_selection import train_test_split

In [162]:
# carguemos los datos del titanic 

data = pd.read_csv('/content/drive/My Drive/datasets/titanic.csv')
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"


Las variables categóricas en estos datos son Name (nombre), Sex (género), Ticket ( Tiquete), Cabin (cabina) y Embarked (puerto de embarque).

---------------
**Nota** Ticket y Cabin son variables alfanúmericas, es decir contienen letras y números, asi q deben ser tratados como Variables Combinadas.  Las manipularemos como categóricas.


In [76]:
# Miremos la cardinalidad para cada una de las variables

# Es decir, el número de diferentes categorías o etiquetas.

print('Número de diferentes categorías en la variable Name: {}'.format(
    len(data.name.unique())))

print('Número de diferentes categorías en la variable Gender: {}'.format(
    len(data.sex.unique())))

print('Número de diferentes categorías en la variable Ticket: {}'.format(
    len(data.ticket.unique())))

print('Número de diferentes categorías en la variable Cabin: {}'.format(
    len(data.cabin.unique())))

print('Número de diferentes categorías en la variable Embarked: {}'.format(
    len(data.embarked.unique())))

print('Número total de pasajeros en el Titanic: {}'.format(len(data)))

Número de diferentes categorías en la variable Name: 1307
Número de diferentes categorías en la variable Gender: 2
Número de diferentes categorías en la variable Ticket: 929
Número de diferentes categorías en la variable Cabin: 182
Número de diferentes categorías en la variable Embarked: 4
Número total de pasajeros en el Titanic: 1309


Mientras que la variable Sex tiene solo 2 etiquetas y Embarked 4 (baja cardinalidad), las variables Ticket, Name y Cabin, como es de esperarse, contienen un gran número de etiquetas (alta cardinalidad).

Para demostrar, el efecto de alta cardinalidad en la preparación de datos para entrenamiento y pruebas de un modelo de machine learning así como su desempeño usaremos la variable Cabin. 
Crearemos una nueva variable con cardinalidad reducida.


In [77]:
# exploremos los valores / categorías de Cabin

# Podemos observar que hay 182 diferentes cabinas
# por lo tanto la variable tienen alta cardinalidad

data.cabin.unique()

array(['B5', 'C22', 'E12', 'D7', 'A36', 'C101', nan, 'C62', 'B35', 'A23',
       'B58', 'D15', 'C6', 'D35', 'C148', 'C97', 'B49', 'C99', 'C52', 'T',
       'A31', 'C7', 'C103', 'D22', 'E33', 'A21', 'B10', 'B4', 'E40',
       'B38', 'E24', 'B51', 'B96', 'C46', 'E31', 'E8', 'B61', 'B77', 'A9',
       'C89', 'A14', 'E58', 'E49', 'E52', 'E45', 'B22', 'B26', 'C85',
       'E17', 'B71', 'B20', 'A34', 'C86', 'A16', 'A20', 'A18', 'C54',
       'C45', 'D20', 'A29', 'C95', 'E25', 'C111', 'C23', 'E36', 'D34',
       'D40', 'B39', 'B41', 'B102', 'C123', 'E63', 'C130', 'B86', 'C92',
       'A5', 'C51', 'B42', 'C91', 'C125', 'D10', 'B82', 'E50', 'D33',
       'C83', 'B94', 'D49', 'D45', 'B69', 'B11', 'E46', 'C39', 'B18',
       'D11', 'C93', 'B28', 'C49', 'B52', 'E60', 'C132', 'B37', 'D21',
       'D19', 'C124', 'D17', 'B101', 'D28', 'D6', 'D9', 'B80', 'C106',
       'B79', 'C47', 'D30', 'C90', 'E38', 'C78', 'C30', 'C118', 'D36',
       'D48', 'D47', 'C105', 'B36', 'B30', 'D43', 'B24', 'C2', 'C65',


Ahora reduzcamos la cardinalidad de esta variable. 
Cómo? en vez de usar toda la variable Cabin, capturaremos solamente la primera letra.

***Justificación***: la primera letra indica el piso en el cual la cabina se encontraba, y por lo tanto, es un indicativo de la clase social y estatus, así como de la proximidad a la superficie del Titanic. Ambos se conocen por mejorar la probabilidad de sobrevivir en el Titanic.


In [78]:
# let's capture the first letter of Cabin

data['Cabin_reduced'] = data['cabin'].astype(str).str[0]

data[['cabin', 'Cabin_reduced']].head()

Unnamed: 0,cabin,Cabin_reduced
0,B5,B
1,C22,C
2,C22,C
3,C22,C
4,C22,C


In [79]:
print('Número de diferentes categorías en la variable Cabin: {}'.format(
    len(data.cabin.unique())))

print('Número de diferentes categorías en la variable Cabin reducida: {}'.format(
    len(data. Cabin_reduced.unique())))

Número de diferentes categorías en la variable Cabin: 182
Número de diferentes categorías en la variable Cabin reducida: 9


Se redujeron el número de diferentes etiquetas de 182 a 9.

In [113]:
# separemos los datos para entrenamiento y pruebas
# para constuir modelo de machine learning

use_cols = ['cabin', 'Cabin_reduced', 'sex']

# tomemos función de scikit-learn
X_train, X_test, y_train, y_test = train_test_split(
    data[use_cols], 
    data.survived,  
    test_size=0.3,
    random_state=0)

X_train.shape, X_test.shape


((916, 3), (393, 3))

### Alta cardinalidad lleva a una distribución desigual de las categorías para las muestras usadas para entrenamiento y pruebas.

Cuando una variable es altamente cardinal, frecuentemente las categorías solo aparecen en la muestra de datos para entrenamiento, lo cual tiende a generar sobreajustes.

Por el contrario, si las categorías están presentes solo en la muestra de pruebas (o nuevos datos cuando el modelo se encuentra en producción), el algoritmo no sabrá cómo manejar estas nuevas etiquetas. 

Este problema se resuelve en gran parte reduciendo la cardinalidad de la variable. Veamos a continuación:

In [114]:
# Busquemos las etiquetas presentes solamente en el conjunto de datos para entrenamiento 

unique_to_train_set = [
    x for x in X_train.cabin.unique() if x not in X_test.cabin.unique()
]

len(unique_to_train_set)

113

Hay 113 cabinas solamente presentes en la muestra de entrenamiento y no en el de pruebas.

In [115]:
# Busquemos las etiquetas presentes solamente en el conjunto de datos para pruebas 

unique_to_test_set = [
    x for x in X_test.cabin.unique() if x not in X_train.cabin.unique()
]

len(unique_to_test_set)

36

Vemos como para una variable con alta cardinalidad,  valores (categorías) presentes en el conjunto de datos para entrenamiento no están en la muestra de prueba y viceversa. 

Ahora, este problema se puede resolver, reduciendo la cardinalidad de la variable como se muestra a continuación:

In [116]:
# Veamos las etiquetas presentes en los datos de entrenamiento
# para la variable Cabin cardinalidad reducida

unique_to_train_set = [
    x for x in X_train['Cabin_reduced'].unique()
    if x not in X_test['Cabin_reduced'].unique()
]

len(unique_to_train_set)

1

In [117]:
# Veamos las etiquetas presentes en los datos de prueba
# para la variable Cabin cardinalidad reducida

unique_to_test_set = [
    x for x in X_test['Cabin_reduced'].unique()
    if x not in X_train['Cabin_reduced'].unique()
]

len(unique_to_test_set)

0

Podemos ver como reduciendo la cardinalidad conlleva a solo tener una categoría en los datos de entrenamiento que no esta presente en los de prueba.  Y todas las etiquetes en el conjunto de prueba estan enel de entrenamiento.

### Efecto de la cardinalidad en el desempeño de los modelos de Machine Learning

Para evaluar el efecto de las variables categóricas en los modelos de machine learning, reemplacemos las categorías por números.

In [118]:
# Reemplacemos cada cabina por un número
# para demostrar rápidamente el efecto de las
# etiquetas en los algoritmos de machine learning

##############
# Nota: esta no es ni la única ni la mejor forma de  
# codificar variables categóricas en números 
# Veremos más detalles sobre estas y otras técnicas de codificación
# de variables categóricas en la sección respectiva: 
# "Codificando variables categóricas"
##############


cabin_dict = {k: i for i, k in enumerate(X_train.cabin.unique(), 0)}
cabin_dict

{'A10': 142,
 'A11': 51,
 'A14': 93,
 'A16': 143,
 'A18': 23,
 'A20': 82,
 'A21': 47,
 'A24': 7,
 'A26': 22,
 'A29': 49,
 'A34': 37,
 'A36': 104,
 'A5': 95,
 'A6': 101,
 'A9': 58,
 'B102': 80,
 'B18': 111,
 'B19': 108,
 'B20': 137,
 'B24': 98,
 'B26': 32,
 'B28': 97,
 'B3': 77,
 'B30': 115,
 'B35': 18,
 'B36': 83,
 'B37': 144,
 'B4': 130,
 'B41': 134,
 'B42': 103,
 'B45': 13,
 'B49': 96,
 'B5': 42,
 'B50': 6,
 'B51': 52,
 'B52': 72,
 'B57': 21,
 'B58': 70,
 'B61': 81,
 'B69': 33,
 'B71': 59,
 'B73': 20,
 'B77': 85,
 'B78': 146,
 'B86': 90,
 'B94': 36,
 'B96': 24,
 'C101': 27,
 'C103': 124,
 'C105': 88,
 'C110': 123,
 'C111': 8,
 'C116': 107,
 'C118': 126,
 'C123': 35,
 'C124': 64,
 'C125': 17,
 'C126': 66,
 'C128': 30,
 'C130': 118,
 'C132': 91,
 'C148': 87,
 'C2': 99,
 'C22': 4,
 'C23': 65,
 'C28': 138,
 'C30': 55,
 'C39': 39,
 'C49': 135,
 'C51': 120,
 'C52': 105,
 'C54': 94,
 'C55': 62,
 'C6': 10,
 'C62': 132,
 'C65': 75,
 'C68': 2,
 'C7': 84,
 'C78': 26,
 'C80': 145,
 'C82': 71,
 '

In [119]:
# codificar la variable cabina utilizando el diccionario creado anteriormente
# notemos que el diccionario reemplaza valores nulos por zero

X_train.loc[:, 'Cabin_mapped'] = X_train.loc[:, 'cabin'].map(cabin_dict)
X_test.loc[:, 'Cabin_mapped'] = X_test.loc[:, 'cabin'].map(cabin_dict)

X_train[['Cabin_mapped', 'cabin']].head(10)

Unnamed: 0,Cabin_mapped,cabin
501,0,
588,0,
402,0,
1193,0,
686,0,
971,0,
117,1,E36
540,0,
294,2,C68
261,3,E24


Vemos como NaN toma el valor de 0 en la nueva variable.


In [120]:
# Ahora reemplazamos las letras en la variable
# cabina reducida siguiendo el mismo procedimiento

# crear diccionario para reeemplazar
cabin_dict = {k: i for i, k in enumerate(X_train['Cabin_reduced'].unique(), 0)}

# reemplazar las etiquetas por los números con el diccionario
X_train.loc[:, 'Cabin_reduced'] = X_train.loc[:, 'Cabin_reduced'].map(
    cabin_dict)
X_test.loc[:, 'Cabin_reduced'] = X_test.loc[:, 'Cabin_reduced'].map(cabin_dict)

X_train[['Cabin_reduced', 'cabin']].head(10)

Unnamed: 0,Cabin_reduced,cabin
501,0,
588,0,
402,0,
1193,0,
686,0,
971,0,
117,1,E36
540,0,
294,2,C68
261,1,E24


In [121]:
# Ahora reemplacemos las categorías de la variable Sex con números

X_train.loc[:, 'sex'] = X_train.loc[:, 'sex'].map({'male': 0, 'female': 1})
X_test.loc[:, 'sex'] = X_test.loc[:, 'sex'].map({'male': 0, 'female': 1})

X_train.sex.head()

501     1
588     1
402     1
1193    0
686     1
Name: sex, dtype: int64

In [122]:
# miremos si hay datos faltantes en estas variables

X_train[['Cabin_mapped', 'Cabin_reduced', 'sex']].isnull().sum()

Cabin_mapped     0
Cabin_reduced    0
sex              0
dtype: int64

In [123]:
X_test[['Cabin_mapped', 'Cabin_reduced', 'sex']].isnull().sum()

Cabin_mapped     41
Cabin_reduced     0
sex               0
dtype: int64

En el set de prueba, hay ahora 30 valores faltantes para la variable de alta cardinalidad. Estas fueron introducidas cuando re-asignamos las categorías a números. Cómo sucedió? muchas categorías existen solo en la muestra de prueba. Inicialmente creamos nuestro  diccionario  usando la muestra de entrenamiento, y no generamos números para reemplazar esas etiquetas que se encontraban solo en la muestra de prueba. El resultado, es que estas etiquetas se codificaron con NaN. Veremos en futuros Notebooks cómo manejar este problema. Por ahora, llenaremos esos datos faltantes con 0.


In [124]:
# Miremos el número de las diferentes categorias en las variables codificadas.
len(X_train.Cabin_mapped.unique()), len(X_train.Cabin_reduced.unique())

(147, 9)

Podemos ver que de las 148 cabinas originales en los datos, solo 121 están presentes en la muestra de entrenamiento. Vemos también como reducimos el número de las diferentes categorías a solo 9.

Prosigamos con la evaluación del efecto de la cardinalidad en los algoritmos de machine learning.


In [125]:
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,Cabin_reduced
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO",B
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON",C
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON",C
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON",C
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON",C


In [126]:
X_train.head()

Unnamed: 0,cabin,Cabin_reduced,sex,Cabin_mapped
501,,0,1,0
588,,0,1,0
402,,0,1,0
1193,,0,0,0
686,,0,1,0


In [127]:
X_test.head()

Unnamed: 0,cabin,Cabin_reduced,sex,Cabin_mapped
1139,,0,0,0.0
533,,0,1,0.0
459,,0,0,0.0
1150,,0,0,0.0
393,,0,0,0.0


In [128]:
X_train.isna().sum()

cabin            702
Cabin_reduced      0
sex                0
Cabin_mapped       0
dtype: int64

### Random Forests

In [129]:
# Modelo construido con los datos de alta cardinalidad 
# en la variable cabina

# Modelo
rf = RandomForestClassifier(n_estimators=200, random_state=39)

# entrenar el modelo
rf.fit(X_train[['Cabin_mapped', 'sex']], y_train)

# hacer las predicciones en la muestra de entrenamiento y prueba
pred_train = rf.predict_proba(X_train[['Cabin_mapped', 'sex']])
pred_test = rf.predict_proba(X_test[['Cabin_mapped', 'sex']].fillna(0))

print('Muestra de entrenamiento')
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Muestra de prueba')
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Muestra de entrenamiento
Random Forests roc-auc: 0.853790650048556
Muestra de prueba
Random Forests roc-auc: 0.7691361097284443


Podemos ver que el desempeño de Random Forest en la muestra de entrenamiento es muy superior al desempeño en la muestra de prueba. Esto indica que el modelo esta sobre-ajustando: es muy bueno prediciendo los resultados en los datos que se usan para entrenarlo, pero no tiene el poder para generalizar las predicciones en datos nuevos.


In [130]:
# modelo construido con dataos de baja cardinalidad para cabin

# iniciar modelo
rf = RandomForestClassifier(n_estimators=200, random_state=39)

# entrenar  modelo
rf.fit(X_train[['Cabin_reduced', 'sex']], y_train)

# hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = rf.predict_proba(X_train[['Cabin_reduced', 'sex']])
pred_test = rf.predict_proba(X_test[['Cabin_reduced', 'sex']])

print('Segmento de entrenamiento')
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Random Forests roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Segmento de entrenamiento
Random Forests roc-auc: 0.8163420365403872
Segmento de prueba
Random Forests roc-auc: 0.8017670482827277


Podemos ver que con variables de baja cardinalidad, el Random Forest no sobre-ajusta al segmento de entrenamiento. Además, el modelo es mucho mejor generalizando las predicciones (compara el roc-auc de este modelo en el segmento de prueba vs el roc-auc del modelo anterior).

**Algo para resaltar: probablemente se pueda mejorar el impacto de la alta cardinalidad ajustando los hiper-parámetros del Random Forest.  Aquí simplemente queremos mostrar, que dado el mismo modelo, con los mismos hiper-parámetros, la alta cardinalidad puede causar sobre-ajustes en el mismo.**.


### AdaBoost

In [131]:
# modelo construido con datos de alta cardinalidad para cabin

# iniciar modelo
ada = AdaBoostClassifier(n_estimators=200, random_state=44)

# entrenar  modelo
ada.fit(X_train[['Cabin_mapped', 'sex']], y_train)

# hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = ada.predict_proba(X_train[['Cabin_mapped', 'sex']])
pred_test = ada.predict_proba(X_test[['Cabin_mapped', 'sex']].fillna(0))

print('Segmento de entrenamiento')
print('Adaboost roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Adaboost roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Segmento de entrenamiento
Adaboost roc-auc: 0.8296861713101102
Segmento de prueba
Adaboost roc-auc: 0.7604391350035948


In [132]:
# modelo construido con datos de baja cardinalidad para cabin

# iniciar modelo
ada = AdaBoostClassifier(n_estimators=200, random_state=44)

# entrenar  modelo
ada.fit(X_train[['Cabin_reduced', 'sex']], y_train)

#  predicciones en el segmento de prueba y entrenamiento 
pred_train = ada.predict_proba(X_train[['Cabin_reduced', 'sex']])
pred_test = ada.predict_proba(X_test[['Cabin_reduced', 'sex']].fillna(0))

print('Segmento de entrenamiento')
print('Adaboost roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Adaboost roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))


Segmento de entrenamiento
Adaboost roc-auc: 0.8161256723642566
Segmento de prueba
Adaboost roc-auc: 0.8001078480172557


Similarmente, el modelo Adaboost entrenado con la variable con alta cardinalidad sobre-ajusta el segmento de entrenamiento. Por el contrario, el modelo Adaboots entrenado con la variable de baja cardinalidad, generaliza mejor las predicciones.

Adicionalmente hay otras ventajas en construir un modelo con menos categorías en Cabina: 

a) es más simple 

 b) si una nueva categoría aparece en el segmento de prueba, simplemente con tomar la primera letra de la cabina, el modelo de machine learning sabrá cómo manejarla ya que ese caso “existía” en los datos de entrenamiento.


### Regresión Logística 

In [133]:
# modelo construido con datos de alta cardinalidad para cabin

# iniciar modelo
logit = LogisticRegression(random_state=44, solver='lbfgs')

# entrenar modelo
logit.fit(X_train[['Cabin_mapped', 'sex']], y_train)

#  hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = logit.predict_proba(X_train[['Cabin_mapped', 'sex']])
pred_test = logit.predict_proba(X_test[['Cabin_mapped', 'sex']].fillna(0))

print('Segmento de entrenamiento')
print('Logistic regression roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Logistic regression roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Segmento de entrenamiento
Logistic regression roc-auc: 0.8133909298124677
Segmento de prueba
Logistic regression roc-auc: 0.7750815773463858


In [134]:
# modelo construido con datos de baja cardinalidad para cabin

# iniciar modelo
logit = LogisticRegression(random_state=44, solver='lbfgs')

# entrenar modelo
logit.fit(X_train[['Cabin_reduced', 'sex']], y_train)

#  hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = logit.predict_proba(X_train[['Cabin_reduced', 'sex']])
pred_test = logit.predict_proba(X_test[['Cabin_reduced', 'sex']].fillna(0))

print('Segmento de entrenamiento')
print('Logistic regression roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Logistic regression roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Segmento de entrenamiento
Logistic regression roc-auc: 0.8123468468695123
Segmento de prueba
Logistic regression roc-auc: 0.8008268347989602


Podemos sacar la misma conclusión con la Regresión Logistica: reducir la cardinalidad mejora el desempeño del modelo y el poder de generalización del mismo


### Gradient Boosted Classifier - Máquina de potenciación del gradiente

In [135]:
# Construir modelo con datos con variedad categorias
# en la variable cabin

# iniciar modelo
gbc = GradientBoostingClassifier(n_estimators=300, random_state=44)

# entrenar modelo
gbc.fit(X_train[['Cabin_mapped', 'sex']], y_train)

#  hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = gbc.predict_proba(X_train[['Cabin_mapped', 'sex']])
pred_test = gbc.predict_proba(X_test[['Cabin_mapped', 'sex']].fillna(0))

print('Segmento de entrenamiento')
print('Máquina de potenciación del gradiente roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Máquina de potenciación del gradiente roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))



Segmento de entrenamiento
Máquina de potenciación del gradiente roc-auc: 0.862631390919749
Segmento de prueba
Máquina de potenciación del gradiente roc-auc: 0.7733117637298823


In [136]:
# Construir modelo con datos con variedad categorias
# en la variable cabin

# iniciar modelo
gbc = GradientBoostingClassifier(n_estimators=300, random_state=44)

# entrenar modelo
gbc.fit(X_train[['Cabin_reduced', 'sex']], y_train)

#  hacer predicciones en el segmento de prueba y entrenamiento 
pred_train = gbc.predict_proba(X_train[['Cabin_reduced', 'sex']])
pred_test = gbc.predict_proba(X_test[['Cabin_reduced', 'sex']].fillna(0))


print('Segmento de entrenamiento')
print('Máquina de potenciación del gradiente roc-auc: {}'.format(roc_auc_score(y_train, pred_train[:,1])))
print('Segmento de prueba')
print('Máquina de potenciación del gradiente roc-auc: {}'.format(roc_auc_score(y_test, pred_test[:,1])))

Segmento de entrenamiento
Máquina de potenciación del gradiente roc-auc: 0.816719415917359
Segmento de prueba
Máquina de potenciación del gradiente roc-auc: 0.8015181682429069


Gradient Boosted trees sobre ajustan al segmento de entrenamiento en los casos donde la variable cabin tiene muchas etiquetas. Esto es de esperarse ya que los métodos basados en arboles tienden a sesgarse cuando hay muchas categorías en una variable.
