<a href="https://colab.research.google.com/github/virf96/Chat-Bot/blob/master/Caracterist%C3%ADcas_variables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Caracteristícas de las variables

**¿Que debemos considerar cuando analizamos variables?**

**1.- Datos Faltantes** (Falta de información para algunas observaciones dentro de una variable)

**2.- Variables Categóricas** (Variables que contienen cadena de caracteres en lugar de números)

**3.- Condiciones de modelos lineales** (Cumplen las variables con dichas condiciones)

**4.- Distribución** (Normal, sesgada, entre otras)

**5.- Valores extremos** (Valores inusuales o inesperados)

**6.- Magnitud** (Escala o rango de las variables)

# Datos Faltantes

## Definición:

$\bullet$ Los datos faltantes o valores vacíos ('missing values') se definen como valores/datos no disponibles para ciertas observaciones en un variable

$\bullet$ Los datos incompletos son un problema inevitable en la mayoría de las fuentes de datos

$\bullet$ Los valores vacíos pueden tener un gran impacto en las conclusiones que se deriven de la variable

## Motivos de datos faltantes:

$\bullet$ **Omitidos:** Un valor falta porque no se guardó apropiadamente

$\bullet$ **No existen:** Ejemplo: Cuando creamos variables como 'ratios' es posible que en algún caso el denominador sea cero y la variable no existe en ese caso

$\bullet$ **No se identifica:** Ejemplo: Cuando se usa el código postal para generar la variable 'colonia' y el código postal esta errado

## Impactos

$\bullet$ La librería principal para Machine Learning **"Scikit-learn"** no es compatible con los datos faltantes

$\bullet$ La sustitución/imputación de NA puede distorsionar la distribución de la variable 

$\bullet$ Afecta a todos los modelos de Machine Learning



In [1]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [3]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# Con este comando informamos a pandas que muestre todas
# las columnas cada vez que pedimos un display
pd.set_option('display.max_columns', None)

In [4]:
# Carguemos los datos del Titanic
data = pd.read_csv('/content/drive/My Drive/datasets/Titanic_df.csv')

# Inspeccionemos las primeras 5 filas
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


En Python, los valores faltantes se guardan como NaN, mira por ejemplo, los valores para la variable body.

In [5]:
# Podemos cuantificar el número total de valores nulos usando
# el método isnull seguido de el método suma en el dataframe

data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [6]:
data.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Hay 177 valores faltantes para la variable 'Age', 687 para 'Cabin' y 2 para 'Embarked'.

In [7]:
# Otra opción, es usar el método promedio 'mean'
# para visualizar el porcentage the los valores faltantes
# por cada variable

data.isnull().mean()*100

PassengerId     0.000000
Survived        0.000000
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            19.865320
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.000000
Cabin          77.104377
Embarked        0.224467
dtype: float64

Hay valores nulos en las variables Age (19.86% faltantes), Cabin - cabina en la cual el pasajero estaba viajando - (77% faltantes), y Embarked - el puerto en el cual el pasajero subió el Titanic - (0.2%  faltantes).

**Entender los mecanismos que generan los datos ausentes nos ayuda a escoger la técnica de sustitución más adecuada**

## Mecanismos

**1.- Valores Flatentes completamiente aleatorios (MCAR):**

$\bullet$ La probabilidad de que un valor falte es la misma para todas las observaciones.

$\bullet$ No hay relación alguna entre los datos faltantes y cualquier otro valor, ya sea registrado o ausente

$\bullet$ Omitir estos casos no sesga ninguna inferencia o conclusión hecha

En los datos del Titanic, los valores faltantes de las variables Cabin y Age fueron introducidos sistemáticamente. 
Para muchos de los pasajeros que no sobrevivieron, la edad ('Age') que tenían o la cabina ('Cabin') en la que estaban viajando, no pudo ser establecida. A la gente que sobrevivió, por el contrario, se les pudo preguntar dicha información.

Qué podemos deducir observando los datos?
En una situación como esta, podemos esperar un mayor número de valores faltantes para los pasajeros que no sobrevivieron.

Observemos:


In [8]:
# Creemos una variable binaria que indique
# si la información de la cabina esta ausente o no

data['cabin_null'] = np.where(data.Cabin.isnull(), 1, 0)

In [9]:
# Evaluemos el porcentaje de los valores faltantes 
# en la cabina por los pasajeros que sobrevivieron vs. los que no sobrevivieron

# La variable 'Survived' (Sobreviente) toma valores 
# de 1 si el pasajero sobrevivió y 0 de lo contrario.

# Agrupar los datos para Sobrevivientes vs No-Sobrevivientes
# y encontrar el porcentaje de nulos en la cabina 
data.groupby(['Survived'])['cabin_null'].mean()

Survived
0    0.876138
1    0.602339
Name: cabin_null, dtype: float64

In [10]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,cabin_null
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1


In [12]:
# Otra forma de hacer lo mismo, pero con menos líneas de código 

data['Cabin'].isnull().groupby(data['Survived']).mean()

Survived
0    0.876138
1    0.602339
Name: Cabin, dtype: float64

Podemos ver que el porcentaje de valores faltantes es mucho más alto para las personas que no sobrevivieron (87%), con respecto a los que sobrevivieron (60%). Este hallazgo está alineado con nuestra hipótesis sobre los datos faltantes.

**Nota**: Para realmente entender si los valores faltantes no son aleatorios, es necesario familiarizarse muy bien con la forma en que los datos fueron recogidos. Analizar los datos, solo puede llevarnos a la dirección correcta o ayudarnos a construir hipótesis.


In [13]:
# Hagamos lo mismo para la variable 'age':

# Primero creamos variable binaria que indica
# si hay valores faltantes

data['age_null'] = np.where(data.Age.isnull(), 1, 0)

# y luego miremos al promedio por cada uno de los grupos de sobrevivientes:
data.groupby(['Survived'])['age_null'].mean()

Survived
0    0.227687
1    0.152047
Name: age_null, dtype: float64

In [16]:
#Otra forma
data['Age'].isnull().groupby(data['Survived']).mean()

Survived
0    0.227687
1    0.152047
Name: Age, dtype: float64

Nuevamente podemos observar un porcentaje mayor de datos faltantes para los pasajeros que no sobrevivieron. Este análisis sugiere que hay una pérdida de datos sistemática: la gente que no sobrevivió tiende a tener más datos nulos. 

Probablemente, el método seleccionado para recoger la información, contribuye a la generación de los datos faltantes.


**2.-Valores Faltantes Aleatorios (MAR):**

$\bullet$ La probabilidad de ocurrencia de los datos faltantes depende de la información en otras variables.

**Ejemplo:** En el caso en el que tengamos una tabla de datos en donde tengamos la variable **Género y Peso** podría pasar que tengamos **NA en peso** debido a que las mujeres a veces no les gusta revelar su peso. 


In [17]:
# En los datos del Titanic, tambien hay valores faltantes 
# para la variable Embarked .

# Tomemos solo un segmento del dataframe con solo las observaciones con datos 
# faltantes para la variable Embarked

data[data.Embarked.isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,cabin_null,age_null
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,0,0
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,0,0


Estas dos mujeres viajaban juntas, Miss Icard era la mucama de Mrs Stone.

A priori, pareciera que no hay indicios que los valores nulos de variables Embarked dependan de otra variable, y el hecho que ambas de estas mujeres sobrevivieron, quiere decir que hubiesen podido dar esta información.

Muy probablemente los valores se perdieron en el momento de crear los datos.

Si los valores son MCAR, la probabilidad de los datos faltantes para estas dos mujeres es la misma probabilidad que para cualquier otra persona en el Titanic. Por supuesto, esta hipótesis es difícil de demostrar, pero por lo menos nos sirve como ejemplo de variables MCAR.


**3.- Valores Faltantes No Aleatorios (MNAR):**

$\bullet$ Hay un mecanismo o una razón por la cuál los valores faltantes son introducidos en los datos 

Usaremos los datos de Lending Club. Vamos a explorar la variable nombre de la ocupacion (emp_title) y los años que lleva empleado para dicho empleador (emp_length), ambos declarados por los prestamistas en el momento de aplicación para un préstamo. 
En este ejemplo, los valores faltantes en emp_title estan asociados con los valores faltantes en emp_length.

In [18]:
# Carguemos las columnas que nos interesan de los datos
# Lending Club 

data = pd.read_csv('/content/drive/My Drive/datasets/loan.csv',
                   usecols=['emp_title', 'emp_length'],
                   na_values='',
                   keep_default_na=False)
data.head()

Unnamed: 0,emp_title,emp_length
0,Chef,10+ years
1,Postmaster,10+ years
2,Administrative,6 years
3,IT Supervisor,10+ years
4,Mechanic,10+ years


In [19]:
# Miremos el porcentaje de datos faltantes

data.isnull().mean()

emp_title     0.073841
emp_length    0.000000
dtype: float64

Aldedor del 7% de las observaciones contienen datos faltantes para emp_title. No faltan valores en la variable emp_length.

In [20]:
# Miremos los valores de los diferentes empleos

# Número de los diferentes empleos:
print('Número de los diferentes empleos: {}'.format(
    len(data.emp_title.unique())))

# Veamos unos ejemplos:
data.emp_title.unique()[0:20]

Número de los diferentes empleos: 512698


array(['Chef', 'Postmaster ', 'Administrative', 'IT Supervisor',
       'Mechanic', 'Director COE', 'Account Manager',
       'Assistant Director', 'Legal Assistant III', nan, 'Consultant',
       'Job Coach Supervisor', 'Quality Field Engineer', 'Teller ',
       'respritory therapist', 'Worship Director', 'Processor ',
       'Neonatal Nurse Practitioner', 'Stationary Engineer',
       'Exhibits director'], dtype=object)

In [21]:
# Veamos la variable emp_length
data.emp_length.unique()

array(['10+ years', '6 years', '4 years', '< 1 year', '2 years',
       '9 years', 'n/a', '5 years', '3 years', '7 years', '1 year',
       '8 years'], dtype=object)

El valor 'n/a', "not applicable" es en el cual estamos interesados. El cliente no puede llenar el campo sobre cuántos años lleva empleado, porque quizás no estén trabajando. Puede ser estudiante, ser pensionado o trabajador independientemente.

In [22]:
# Miremos el porcentaje de prestamistas  en 
# cada categoría de la variable emp_length 

# value_counts cuenta el número de observaciones por categoría
# si dividimos por el número de observaciones totales (len(data))
# obtenemos los porcentajes de observaciones por categoría

data.emp_length.value_counts() / len(data)

10+ years    0.330878
2 years      0.090096
< 1 year     0.084041
3 years      0.079956
1 year       0.065646
n/a          0.064984
5 years      0.061795
4 years      0.060427
6 years      0.045397
7 years      0.041003
8 years      0.040658
9 years      0.035120
Name: emp_length, dtype: float64

6 % de los prestamistas registraron 'n/a' para emp_length. De la celda anterior sabemos que para ~7% de los prestamistas emp_title tiene datos faltantes. Podría haber alguna relación entre los datos faltantes de estas variables?


In [23]:
# la variable emp_length tiene muchas categorías.

# Resumámoslas en 3 por simplicidad:
# '0-10 years' or '10+ years' or 'n/a' -->
# '0-10 años' o '10+ años' o 'n/a'

# Creemos un diccionarios y re-asignemos los valores de emp_length en 3 categorías:

length_dict = {k: '0-10 years' for k in data.emp_length.unique()}
length_dict['10+ years'] = '10+ years'
length_dict['n/a'] = 'n/a'

# miremos el diccionario:
length_dict

{'1 year': '0-10 years',
 '10+ years': '10+ years',
 '2 years': '0-10 years',
 '3 years': '0-10 years',
 '4 years': '0-10 years',
 '5 years': '0-10 years',
 '6 years': '0-10 years',
 '7 years': '0-10 years',
 '8 years': '0-10 years',
 '9 years': '0-10 years',
 '< 1 year': '0-10 years',
 'n/a': 'n/a'}

In [25]:
# Re-asignemos los valores de la variable emp_length 

data['emp_length_redefined'] = data.emp_length.map(length_dict)

# revisemos si funciono
data.emp_length_redefined.unique()

array(['10+ years', '0-10 years', 'n/a'], dtype=object)

In [30]:
# Calculemos la proporción de años de trabajo en la misma ocupación 
# para aquellos que tienen datos faltantes en la variable emp_title

# data[data.emp_title.isnull()] representa las observaciones con 
# valores faltantes en emp_title. 

# Cálculos:
# número de prestamistas para los cuales la ocupación es nula
not_employed = len(data[data.emp_title.isnull()])
not_employed



166931

In [31]:
# % de prestamistas para los cuales la ocupacióon falta
# por cada categoría de años de trabajo

data[data.emp_title.isnull()].groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / not_employed

emp_length_redefined
10+ years     0.021069
0-10 years    0.103678
n/a           0.875254
Name: emp_length, dtype: float64

Este resultado nos dice lo siguiente:
Para todos los prestamistas que tienen información faltante en emp_title, para aquellos que no están empleados:
- 5.4% declaró más de 10 años en emp_length (quizás son empleados independientes)
- 8.4% declaró entre 0-10 años en emp_length (igual que el anterior, quizás independientes)
- 86.3 % declaró n/a en emp_length (quizás son estudiantes, o trabajan en casa o son pensionados)

La mayoría de los datos faltantes en emp_title coinciden con la etiqueta 'n/a' en la variable emp_length (86%). Esto apoya la idea que estas 2 variables están relacionadas. De modo que los datos faltantes en emp_title, son MAR.


In [32]:
# Hagamos lo mismo para aquellos prestamistas que declaraon una ocupación

# número de prestamistas donde el nombre de la ocupación existe:
# número de empleados 
employed = len(data.dropna(subset=['emp_title']))

# % de prestamistas en cada categoría
data.dropna(subset=['emp_title']).groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / employed

emp_length_redefined
n/a           0.000382
10+ years     0.355579
0-10 years    0.644039
Name: emp_length, dtype: float64

El número de prestamistas que han reportado el nombre de un empleador (emp_title) y tienen   'n/a' como emp_length son muy pocos. Esto  confirma que los valores faltantes en emp_title están relacionados con 'n/a' en la variable emp_length.

'n/a' en emp_length puede ser registrado por personas pensionadas o estudiantes.

Valores faltantes en la variable emp_title dependen o están relacionados con la categoría 'n/a' en la variable emp_length. Este es un ejemplo de una variable MAR. El valor en emp_title falta de forma aleatoria para aquellos clientes que no están empleados, pero cuando emp_length falta, emp_title también está ausente.