# Data Wrangling


## Datos ausentes

La mayor parte de los datasets presentan registros con uno o varios campos cuya información está ausente (**missing values**), lo que puede generar problemas al intentar representar los datos, realizar ciertas operaciones o aplicarlo a un algoritmo. Es por eso que es necesario identificar y tratar esos valores ausentes. 

Las dos estrategias de tratamiento son el borrado o la asignación un valor determinado.

`Pandas` toma a los valores `NaN` y `None` como valores ausentes.



### Identificación de missing values

La primera acción a tomar es determinar si existen valores NaNs o None dentro del dataset.



In [1]:
import pandas as  pd
import numpy as np

In [5]:
df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [20, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [6]:
df.isnull()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,False,False,False,False
Case2,True,False,False,False
Case3,False,True,False,True
Case4,True,True,False,True


En el ejemplo anterior es fácil comprobar si existe algún valor ausente, pero con dataframes más grandes es necesario recurrir a otros métodos:

In [7]:
df.isnull().values.any()

True

In [8]:
df.isnull().any()

VarA     True
VarB     True
VarC    False
VarD     True
dtype: bool

In [10]:
df.isnull().sum()

VarA    2
VarB    2
VarC    0
VarD    2
dtype: int64

In [11]:
df.isnull().sum(axis=1)

Case1    0
Case2    1
Case3    2
Case4    3
dtype: int64

### Eliminación de missing values

La estrategia más sencilla de tratamiento de missing values consiste en eliminar los registros que los contengan.


In [12]:
df.dropna()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0


In [13]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


Sin embargo, como vemos más abajo en el df no se han eliminado los registros con  NaNs. Para que el cambio se ejecute es necesario usar la opción inplace=True: `df.dropna(inplace=True)`

In [20]:
df_copy = df.copy()
df_copy.dropna(inplace=True)
df_copy

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0


In [21]:
df.dropna()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0


In [27]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


### Asignación de valores

La otra opción de tratamiento consiste en asignar un valor determinado a las instancias con missing values. Lo hacemos con el método `fillna`, que al igual que dropna requiere
el parámetro inplace=True para persistir los cambios.

In [49]:
df[["VarB", "VarD"]] = df[["VarB", "VarD"]].fillna(0)

In [50]:
df["VarA"].fillna("new", inplace=True)

In [51]:
df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [20, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])

In [52]:
df[df.columns[df.dtypes == "float64"]] = df[df.columns[df.dtypes == "float64"]].fillna(0)

In [53]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,0.0,6789,0.0
Case4,,0.0,765,0.0


In [54]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,0.0,6789,0.0
Case4,,0.0,765,0.0


Esta asignación del string 'new' se ha realizado sobre todos los elementos missing values. Para ello Pandas ha realizado un cambio en el tipo de alguna de las variables.

Para evitar este tipo de cambios no deseados seleccionamos la columna a modificar.

In [55]:
df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [20, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])

In [56]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [57]:
df['VarB'].fillna(method='ffill')

Case1    20.0
Case2    30.0
Case3    30.0
Case4    30.0
Name: VarB, dtype: float64

In [58]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [59]:
df["VarA"].fillna(method='bfill')

Case1      aa
Case2      cc
Case3      cc
Case4    None
Name: VarA, dtype: object

In [60]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [61]:
df["VarB"].fillna(np.mean(df["VarB"]))

Case1    20.0
Case2    30.0
Case3    25.0
Case4    25.0
Name: VarB, dtype: float64

## Ejercicios 

Dado el siguiente Dataframe

In [62]:
raw_data = {'first_name': ['Jason', 'Mary', 'Tina', 'Jake', 'Amy','Anne'], 
        'last_name': ['Miller', 'Smith', 'Ali', 'Milner', 'Cooze','Lynn'], 
        'age': [42, np.nan, 36, 24, 73,'23'], 
        'sex': ['m', np.nan, 'f', 'm', 'f','f'], 
        'preTestScore': [4, np.nan, np.nan, 2, 3, np.nan],
        'postTestScore': [25, np.nan, np.nan, 62, 70, np.nan]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,Mary,Smith,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0
5,Anne,Lynn,23.0,f,,


- a. Determine que columna(s) tiene(n) el mayor número de NaNs.
- b. Complete las variables categóricas nulas con el valor mayoritario.
- c. Elimine los registros con mayor número de nulos
- d. Complete la variable 'preTestScore' con el valor medio
- e. Complete la variable 'postTestScore' con el valor inmediatamente posterior


### Solución Ejercicio 1

Determine que columna(s) tiene(n) el mayor número de NaNs.

In [63]:
df.isnull().sum()

first_name       0
last_name        0
age              1
sex              1
preTestScore     3
postTestScore    3
dtype: int64

Complete las variables categóricas nulas con el valor mayoritario.

In [64]:
df["sex"].describe()

count     5
unique    2
top       f
freq      3
Name: sex, dtype: object

In [65]:
df["sex"].fillna(df["sex"].describe()["top"])

0    m
1    f
2    f
3    m
4    f
5    f
Name: sex, dtype: object

Elimine los registros con mayor número de nulos

In [66]:
df.isnull().sum(axis=1)

0    0
1    4
2    2
3    0
4    0
5    2
dtype: int64

In [67]:
max(df.isnull().sum(axis=1))

4

In [68]:
threshold=df.shape[1]-max(df.isnull().sum(axis=1))+1

In [69]:
df.dropna(thresh=threshold)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42,m,4.0,25.0
2,Tina,Ali,36,f,,
3,Jake,Milner,24,m,2.0,62.0
4,Amy,Cooze,73,f,3.0,70.0
5,Anne,Lynn,23,f,,


Complete la variable 'preTestScore' con el valor medio

In [70]:
df["preTestScore"]=df["preTestScore"].fillna(np.mean(df["preTestScore"]))

Complete la variable 'postTestScore' con el valor inmediatamente posterior

In [71]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,Mary,Smith,,,3.0,
2,Tina,Ali,36.0,f,3.0,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0
5,Anne,Lynn,23.0,f,3.0,


In [72]:
df["postTestScore"].fillna(method="bfill")

0    25.0
1    62.0
2    62.0
3    62.0
4    70.0
5     NaN
Name: postTestScore, dtype: float64