## Valores Faltantes/Ausentes

Los datos ausentes o valores vacíos ('missing values') se definen como  __valores__ / __datos__ no disponibles para ciertas observaciones en una variable que serían útiles o significativos para el análisis de los resultados.

Los valores vacíos aparecen como “NULL” en bases de datos o 'NA' en R/Python. Los datos incompletos son un problema inevitable en la mayoria de las fuentes de datos, y puede tener un gran impacto en las conclusiones que se deriven de las mismas.


### Por qué faltan datos?

Hay muchos tipos de datos faltantes y varias razones por las cuales pueden ocurrir. Estos dos factores son decisivos al enfrentar la ausencia de datos en el momento de analizar los resultados. A continuación algunos ejemplos:

- Un valor está faltando porque no se guardó apropiadamente
- Para algunas observaciones, los valores no existen
- El valor no se sabe o no se puede identificar

En muchas organizaciones, la información de clientes es recolectada a través de entrevistas telefónicas o alternativamente, llenando cuestionarios en línea.  A menudo sucede que:
- Campos en los formularios son omitidos por la persona que llena el cuestionario,  ya sea porque no son obligatorios, o porque decide no responder preguntas (por ejemplo relacionadas a salario) o porque simplemente una máqina falla al recolectar los datos.
-  Hay otros casos en los que los valores para ciertas variables no existen. Por ejemplo, en la variable 'deuda como porcentaje del salario' (una variable bastante común): si la persona no tiene ningún ingreso, el porcentaje de 0 no existe y por lo tanto el valor quedará faltando.
- En algunos casos, una variable es medida después de un período de tiempo, por lo que tenemos datos a partir de este momento y NA en las instancias previas.

En la sección 4 daremos recomendaciones de como manejar los valores ausentes. La idea es siempre probar diferentes enfoques para descubrir cuál es la mejor estrategia para los datos que se están analizando. No existe un “talle único y universal” en esto.


### Mecanismos de valores faltantes 

Dependiendo del patron que siguen los datos faltantes, ya sea que las pérdidas son aleatorias, es decir, afectan por igual a todos los individuos, o bien sean debidas a una razón o razones específicas, se pueden classificar en tres tipos de datos faltantes:

#### Valores Faltantes completamente aleatorios, MCAR (por sus siglas en inglés 'Missing Data Completely at Random'):

Una variable tiene valores faltantes completamente aleatorios (MCAR) si la probabilidad de que un valor falte es la misma para todas las observaciones. 

Cuando los datos son de tipo MCAR, no hay relación entre los datos faltantes y cualquier otro valor, ya sea registrado o ausente. En otras palabras, no hay nada sistemático que haga algún dato más probable faltar que otro. Si los valores para las observaciones realmente faltan de forma aleatoria, omitir esos casos no sesga ninguna inferencia o conclusiones hechas a partir de los datos filtrados.


#### Valores Faltantes  aleatorios, MAR (por sus siglas en inglés 'Missing Data at Random'):

MAR ocurre cuando hay una relation entre la probabilidad de ocurrencia de los datos faltantes y los valores registrados. En otras palabras, la probabilidad de que una observación falte depende de la disponibilidad de la información (otras variables en los datos). Por ejemplo, si es mas probable que los hombres revelen su 'peso' que las mujeres, entonces la variable 'peso' es MAR. La información de peso estará ausente de forma aleatoria  para los hombres y mujeres que no revelan su peso, pero ya que los hombres son más propensos a revelarlo, habrán mas valores faltantes para las mujeres que para los hombres.

En una situación como la anterior, si decidimos usar la variable con valores faltantes (como en este caso 'peso'), sería aconsejable incluir una variable que incluya el género para controlar el sesgo que existe en las observaciones con valores faltantes.

#### Valores Faltantes no aleatorios, MNAR (por sus siglas en inglés 'Missing Data not at Random'):

Los valores faltantes no son aleatorios (MNAR) cuando hay un mecanimo o una razón por la cual los valores faltantes son introducidos en los datos. Por ejemplo, MNAR puede ocurrir si las personas dejaron de llenar un cuestionario sobre depresión dado su nivel de depresión. En este caso, los valores faltantes estan relacionados con el objetivo del estudio, depresión. En forma similar, cuando una entidad financiera piden documentos bancarios y de indentidad de sus clientes para no prevenir fraude, tipicamente, estafadores haciendose pasar por alquien más, no presenta los documentos, porque no los tienen por la misma naturaleza de estafadores. Por lo tanto, hay una relación sistematica entre los documentos faltantes y la variable objetivo que se quiere predecir: fraude.

Como se pudieron dar cuenta, es importante entender los mecanismos por los cuales datos pueden faltar para poder decidir cual es la mejor forma de tratar dichos valores nulos.

====================================================================================================

## En este Demo:

En las siguientes secciones:

- Aprenderemos como detectar y cuantificar valores faltantes

- Trataremos de indentificar los 3 tipos mecanismos de valores faltantes discutidos en la introducción.

En este demo, usaremos datos de la companía financiera especializada en préstamos peer-to-peer llamada **Lending Club** y el **Titanic**

- Para descargar los datos, por favor referirse a la sección de **Datos** de la **Clase 1** del curso.


In [28]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# Número total de columnas en los datos
pd.set_option('display.max_columns', None)

In [29]:
# Carguemos los datos del Titanic
data = pd.read_csv('../titanic.csv')

# Inspeccionemos las primeras 5 filas
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"


In python, the missing values are stored as NaN, see for example the first row for the variable Cabin.

In [30]:
# Podemos cuantificar el número total de valores nulos usando
# el método isnull con la suma en el dataframe

data.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

Hay 177 valores faltantes para la variable 'Age', 687 para 'Cabin' y 2 para 'Embarked'.

In [31]:
# Otra opción, es usar el método promedio 'mean'  
# para visualizar el porcentage the los valores faltantes 
# por cada variable
data.isnull().mean()*100

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64

Hay valores nulos en las variables Age (19% faltantes), Cabin - cabina en la cual el pasajero estaba viajando - (77% faltantes), y Embarked - el puerto en el cual el pasajero subió el Titanic - (0.2%  faltantes).

## Mecanismos de Datos Faltantes

### Valores Faltantes no aleatorios, MNAR: valores faltantes sistemáticos 

En los datos del Titanic, los valores faltantes de las variables Cabin y Age. fueron introducidos sistemáticamente. 
Para muchos de los pasajeros que no sobrevivieron, la edad ('Age') que tenian o la cabina ('Cabin') que ellos estaban viajando, no pudo ser establecida. La gente que sobrevivió, por el contrario, se les pudo preguntar dicha información.

Qué podemos deducir observando los datos?
En una situación como esta, podemos esperar un mayor número de valores faltantes para los pasajeros que no sobrevivieron.

Observemos:

In [32]:
# Creemos una variable binaria que indique
# si la información de la cabina esta ausente o no

data['cabin_null'] = np.where(data.cabin.isnull(), 1, 0)

In [33]:
# Evaluemos el porcentaje de los valores faltantes 
# en la cabina por los pasajeros que sobrevivieron vs. los que no sobrevivieron

# La variable 'Survived' (Sobreviente) toma valores 
# de 1 si el psajero sobrevivió y 0 de lo contrario.

# Agrupar los datos para Sobrevivientes vs No-Sobrevivientes
# y encontrar el porcentaje de nulos en la cabina 
data.groupby(['survived'])['cabin_null'].mean()

survived
0    0.873918
1    0.614000
Name: cabin_null, dtype: float64

In [34]:
# Otra forma de hacer lo mismo, pero con menos líneas de código :)

data['cabin'].isnull().groupby(data['survived']).mean()

survived
0    0.873918
1    0.614000
Name: cabin, dtype: float64

Podemos ver que el porcentaje de valores faltantes es mucho más alto para las personas que no sobrevivieron (87%), con respecto a los que sobrevivieron (60%). Este hallazgo está alineado con nuestra hipótesis sobre los datos faltantes.

**Nota**: Para realmente entender si los valores faltantes no son aleatores, es necesario familiarizarse muy bien con la forma en que los datos fueron recogidos. Analizar los datos, solo puede llevarnos a la dirección correcta o ayudarnos a construir hipótesis.


In [35]:
# Hagamos lo mismo para la variable 'age':

# Primero creamos variable binaria que indica
# si hay valores faltantes

data['age_null'] = np.where(data.age.isnull(), 1, 0)

# y luego miremos al promedio por cada uno de los grupos de sobrevivientes:
data.groupby(['survived'])['age_null'].mean()

survived
0    0.234858
1    0.146000
Name: age_null, dtype: float64

In [36]:
# o con menos código :)

data['age'].isnull().groupby(data['survived']).mean()

survived
0    0.234858
1    0.146000
Name: age, dtype: float64

Nuevamente podemos observar un porcentaje mayor de datos faltantes para los pasajeros que no sobrevivieron. Este analysis sugiere que hay una pérdida de datos sistemática: la gente que no sobrevivió tiende a tener mas datos nulos. 

Probablemente, el método seleccionado para recoger la información, contribuye a la generación de los datos faltantes.


### Datos Faltantes Completamente Aleatorios (MCAR)

In [37]:
# En los datos del Titanic, tambien hay valores faltantes 
# para la variable Embarked .

# Tomemos solo un segmento del dataframe con solo las observaciones con datos 
# faltantes para la variable Embarked

data[data.embarked.isnull()]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,cabin_null,age_null
168,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,6,,,0,0
284,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,6,,"Cincinatti, OH",0,0


Estas dos mujeres viajaban juntas, Miss Icard era la mucama de Mrs Stone.

A priori, pareciera que no hay indicios que los valores nulos de variables Embarked dependan de otra variable, y el hecho que ambas de estas mujeres sobrevivieron, quiere decir que hubiesen podido dar esta información.

Muy probablemente los valores se perdieron en el momento de crear los datos.

Si los valores son MCAR, la probabilidad de los datos faltantes para estas dos mujeres es la misma probabilidad que para cualquier otra persona en el Titanic. Por supuesto, esta hipótesis es dificil de demostrar, pero por lo menos nos sirve como ejemplo de variables MCAR.

### Valores Faltantes Aleatorios (MAR)

Para este ejemplo, usaremos los datos del Lending Club. Vamos a explorar la variable nombre del empleador (emp_title) y los años que lleva empleado para dicho empleador (emp_length), ambos declarados por los prestamistas en el momento de applicación para un préstamo. emp_title refers to the name of the company for which the borrower works. En este ejemplo, los valores faltantes en emp_title estan asociados con los valores faltantes en emp_length.

In [38]:
# Carguemos las columnas que nos interesan de los datos
# Lending Club 

##########################################
# Nota: las versiones mas nuevas de pandas automaticamente convierten
# cadenas como nulos (NA). Para poder continuar con todas 
# las secciones de este Notebook, favor usar el código
# a continuación para cargar los datos.
# Puede ser necesario ajustar el código para versiones anteriores de pandas.
##########################################

data = pd.read_csv('../loan.csv',
                   usecols=['emp_title', 'emp_length'],
                   na_values='',
                   keep_default_na=False)
data.head()

Unnamed: 0,emp_title,emp_length
0,Chef,10+ years
1,Postmaster,10+ years
2,Administrative,6 years
3,IT Supervisor,10+ years
4,Mechanic,10+ years


In [39]:
# Miremos el porcentaje de datos faltantes
data.isnull().mean()

emp_title     0.073841
emp_length    0.000000
dtype: float64

Aldedor del 6% de las observaciones contienen datos faltantes para emp_title. No faltan valores en la variable emp_length.

In [40]:
# Miremos los valores de los diferentes empleadores 

# Número de los diferentes empleadores:
print('Número de los diferentes empleadores: {}'.format(
    len(data.emp_title.unique())))

# Veamos unos ejemplos:
data.emp_title.unique()[0:20]

Número de los diferentes empleadores: 512698


array(['Chef', 'Postmaster ', 'Administrative', 'IT Supervisor',
       'Mechanic', 'Director COE', 'Account Manager',
       'Assistant Director', 'Legal Assistant III', nan, 'Consultant',
       'Job Coach Supervisor', 'Quality Field Engineer', 'Teller ',
       'respritory therapist', 'Worship Director', 'Processor ',
       'Neonatal Nurse Practitioner', 'Stationary Engineer',
       'Exhibits director'], dtype=object)

Podemos ver valores faltantes o nulos (nan), y otros nombres de empleadores ( companías).

In [41]:
# Veamos la variable emp_length
data.emp_length.unique()

array(['10+ years', '6 years', '4 years', '< 1 year', '2 years',
       '9 years', 'n/a', '5 years', '3 years', '7 years', '1 year',
       '8 years'], dtype=object)

El valor 'n/a', "not applicable" es el cual estamos interesados. El cliente no puede llenar el campo sobre cuantos años lleva empleado, porque quizas no esten trabajando. Puede ser estudiante, ser pensionado o trabajador independiente.

In [42]:
# Miremos el porcentaje de prestamistas  en 
# cada categoría de la variable emp_length 

# value_counts cuenta el número de observaciones por categoría
# si dividimos por el número de observaciones (len(data))
# obtenemos los porcentajes de observaciones por categoría

data.emp_length.value_counts() / len(data)

10+ years    0.330878
2 years      0.090096
< 1 year     0.084041
3 years      0.079956
1 year       0.065646
n/a          0.064984
5 years      0.061795
4 years      0.060427
6 years      0.045397
7 years      0.041003
8 years      0.040658
9 years      0.035120
Name: emp_length, dtype: float64

5 % de los prestamistas registraron 'n/a' para emp_lenght. De la celda anterior sabemos que para ~5% de los prestamistas emp_title tiene datos faltantes. Podría haber alguna relación entre los datos faltantes de estas variables?
Revisemos!


In [43]:
# la variable emp_length tiene muchas categorías.
# Resumámoslas en 3 por simplicidad:
# '0-10 years' or '10+ years' or 'n/a' -->
# '0-10 años' o '10+ años' o 'n/a'


# Creemos un diccionarios y re-asignemos los valores de emp_length en 3 categorías:

length_dict = {k: '0-10 years' for k in data.emp_length.unique()}
length_dict['10+ years'] = '10+ years'
length_dict['n/a'] = 'n/a'

# miremos el diccionario:
length_dict

{'10+ years': '10+ years',
 '6 years': '0-10 years',
 '4 years': '0-10 years',
 '< 1 year': '0-10 years',
 '2 years': '0-10 years',
 '9 years': '0-10 years',
 'n/a': 'n/a',
 '5 years': '0-10 years',
 '3 years': '0-10 years',
 '7 years': '0-10 years',
 '1 year': '0-10 years',
 '8 years': '0-10 years'}

In [44]:
# Re-asignemos los valores de la variable emp_length 

data['emp_length_redefined'] = data.emp_length.map(length_dict)

# revisemos si funciono
data.emp_length_redefined.unique()

array(['10+ years', '0-10 years', 'n/a'], dtype=object)

Si funcionó, la variable que creamos solo tiene 3 categorias diferentes.


In [45]:
# Calculemos la proporción de años de trabajo con el mismo empleador 
# para aquellos que tienen datos faltantes en la variable emp_title

# data[data.emp_title.isnull()] representa las observaciones con 
# valores faltantes en emp_title. 

# Cálculos:
# número de prestamistas para los cuales el nombre del empleador es nulo
not_employed = len(data[data.emp_title.isnull()])

# % de prestamistas para los cuales el empleador falta
# por cada categoría de años de trabajo

data[data.emp_title.isnull()].groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / not_employed

emp_length_redefined
10+ years     0.021069
0-10 years    0.103678
n/a           0.875254
Name: emp_length, dtype: float64

Este resultado nos dice lo siguiente:
Para todos los prestamistas que tienen información faltante en emp_title, para aquellos que no estan empleados:
- 5.4% declaró más de 10 años en emp_length (quizás son empleados independientes)
- 8.4% declaró entre 0-10 años en emp_length (igual que el anterior, quizás independientes)
- 86.3 % declaró n/a en emp_length (quizás son estudiantes, o trabajan en casa o son pensionados)

The majority of the missing values in emp_title coincides with the label 'n/a' of emp_length (86%). This supports the idea that the 2 variables are related. Therefore, the missing data in emp_title, is MAR.

In [46]:
# Hagamos lo mismo para aquellos prestamistas que declaraon un empleador

# número de prestamistas donde el nombre del empleador existe :
# número de empleados 
employed = len(data.dropna(subset=['emp_title']))

# % de prestamistas en cada categoría
data.dropna(subset=['emp_title']).groupby(
    ['emp_length_redefined'])['emp_length'].count().sort_values() / employed

emp_length_redefined
n/a           0.000382
10+ years     0.355579
0-10 years    0.644039
Name: emp_length, dtype: float64

El número de prestamistas que han reportado el nombre de un empleador (emp_title) y tienen   'n/a' como emp_length son muy pocos. Esto  confirma que los valores falantes en emp_title no estan relacionados con 'n/a' en la variable emp_length.

'n/a' en emp_length puede ser registrados por personas pensionadas o estudiantes.

Valores faltantes en la variable emp_title depende o esta relacionada con la categoria 'n/a' label en la variable emp_length. Este es un ejemplo de una variable MAR. El valor en emp_title falta de forma aleatoria para aquellos clientes que no estan empleados, pero cuando emp_length falta es influenciado por emp_title tambien ausente .


**Esto es todo por este demo, esperamos lo hayan disfrutado y nos vemos en el siguiente. **