In [None]:
SANDBOX_NAME = # Sandbox Name
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/"




# Datos ausentes

La mayor parte de los datasets presentan registros con uno o varios campos cuya información está ausente (**missing values**), lo que puede generar problemas al intentar representar los datos, realizar ciertas operaciones o aplicarlo a un algoritmo. Es por eso que es necesario identificar y tratar esos valores ausentes. 

Las dos estrategias de tratamiento son el borrado o la asignación un valor determinado.

`Pandas` toma a los valores `NaN` y `None` como valores ausentes.





## Identificación de missing values

La primera acción a tomar es determinar si existen valores NaNs o None dentro del dataset.



In [None]:
import pandas as  pd
import numpy as np



Creamos dataframe  con missing values

In [None]:
df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [20, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])
df



Comprobamos si existe algún NaN o None en el dataframe

In [None]:
df.isnull()



En el ejemplo anterior es fácil comprobar si existe algún valor ausente, pero con dataframes más grandes es necesario recurrir a otros métodos:



Nos indica si algún elemento dentro del df es un missing value

In [None]:
df.isnull().values.any()



Comprueba que columnas tienen NaNs

In [None]:
df.isnull().any()



Nos indica el número de registros con NaNs por cada columna

In [None]:
df.isnull().sum()



Devuelve el número de missing values por cada registro

In [None]:
df.isnull().sum(axis=1)



## Eliminación de missing values

La estrategia más sencilla de tratamiento de missing values consiste en eliminar los registros que los contengan.




Eliminamos cualquier registro que contenga al menos un NaN

In [None]:
df.dropna()



Sin embargo, como vemos más abajo en el df no se han eliminado los registros con  NaNs. Para que el cambio se ejecute es necesario usar la opción inplace=True: `df.dropna(inplace=True)`

In [None]:
df



Podemos indicar un conjunto de columnas en los que eliminar los NaNs.

In [None]:
df.dropna(subset=['VarB'])



Aplicamos la condición de que todos los valores del registro sean NaNs para borrar el registro.

In [None]:
df.dropna(how='all')



O podemos aplicar un límite con un número mínimo de valores no NaNs por registro.

In [None]:
df.dropna(thresh=3)



## Asignación de valores



La otra opción de tratamiento consiste en asignar un valor determinado a las instancias con missing values. Lo hacemos con el método `fillna`, que al igual que dropna requiere
el parámetro inplace=True para persistir los cambios.

In [None]:
df.fillna('new')



Esta asignación del string 'new' se ha realizado sobre todos los elementos missing values. Para ello Pandas ha realizado un cambio en el tipo de alguna de las variables.



Comprobamos que el type antes y descués del fillna es distinto para la variable numérica

In [None]:
df['VarB'].dtype, df.fillna('new')['VarB'].dtype



Para evitar este tipo de cambios no deseados seleccionamos la columna a modificar.



Realizamos únicamente el fillna sobre la columna VarA

In [None]:
df['VarA'].fillna('new', inplace=True)
df



Podemos realizar una asignación de valores tomándo el último valor observado y propagándolo hacia adelante.

In [None]:
df['VarB'].fillna(method='ffill')

In [None]:
df['VarB']



También es posible asignar el resultado de una función, en este caso el valor medio de la columna.

In [None]:
df['VarB'].fillna(np.mean(df['VarB']))



# Ejercicios 

Dado el siguiente Dataframe

In [None]:
raw_data = {'first_name': ['Jason', 'Mary', 'Tina', 'Jake', 'Amy','Anne'], 
        'last_name': ['Miller', 'Smith', 'Ali', 'Milner', 'Cooze','Lynn'], 
        'age': [42, np.nan, 36, 24, 73,'23'], 
        'sex': ['m', np.nan, 'f', 'm', 'f','f'], 
        'preTestScore': [4, np.nan, np.nan, 2, 3, np.nan],
        'postTestScore': [25, np.nan, np.nan, 62, 70, np.nan]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df



- a. Determine que columna(s) tiene(n) el mayor número de NaNs.
- b. Complete las variables categóricas nulas con el valor mayoritario.
- c. Elimine los registros con mayor número de nulos
- d. Complete la variable 'preTestScore' con el valor medio
- e. Complete la variable 'postTestScore' con el valor inmediatamente posterior




##### Solución Ejercicio 1



Determine que columna(s) tiene(n) el mayor número de NaNs.

In [None]:
# Respuesta

df.isnull().sum()



Complete las variables categóricas nulas con el valor mayoritario.

In [None]:
# Respuesta

most_frequent_sex = df['sex'].value_counts().sort_values(ascending=False).index[0]
df['sex'].fillna(most_frequent_sex,inplace=True)
df



Elimine los registros con mayor número de nulos

In [None]:
# Respuesta

# Find the highest number of missing values in the registries

max_NaN = max(df.isnull().sum(axis=1).sort_values(ascending=False))

# Total number of columns

num_col = df.shape[1]

# Set the limit for NaN removals per row:

limit = num_col - max_NaN + 1 

# Delete those registries with the most missing values

df.dropna(thresh=limit, inplace=True)
df




Complete la variable 'preTestScore' con el valor medio

In [None]:
# Respuesta

df['preTestScore'].fillna(np.mean(df['preTestScore']),inplace=True)
df



Complete la variable 'postTestScore' con el valor inmediatamente posterior

In [None]:
# Respuesta

df['postTestScore'].fillna(method='backfill',inplace=True)
df