`Lab creado por Margarita Geleta para el curso Introducción a Machine Learning JEDI, edición 2021`

# Preprocesamiento de datos

> Garbage in, Garbage out

Limpiar bien los datos es fundamental para construir un buen modelo de Machine Learning. El preprocesamiento de datos ocupará gran parte del proyecto (normalmente ocupa un 50%-80% en proyectos reales). En este notebook reparasremos trucos, pistas y algunas reglas para limpiar y transformar datos en la etapa de *preprocessing*.

**La lista no es completa (!)**

---

## Cargar datos

Antes de cargar los datos, debemos echar un vistazo a los datos "crudos". 

- ¿Es un `.csv`, un `.tsv`, un `.txt`, un Excel, un `.json` ... ?`
- ¿Cuál es el separador de columnas? 
- ¿Y el separador decimal? 
- ¿Tiene `header`?
- Si es una tabla de Excel, ¿qué hoja estamos leyendo y cuántas deberíamos leer?

Todo esto lo podemos pasar como parámetros a la función de lectura de datos. No os olvideis de revisar la documentación: https://pandas.pydata.org/pandas-docs/stable/reference/index.html

---

## Estructura

Si no tenemos el `header`, sería mejor renombrar las columnas. Podemos acceder a las columnas con `df.columns` y podemos sobreescribir.

Normalmente las tablas tienen filas y columnas, donde las filas representan observaciones y las columnas variables. Pero a veces hay casos especiales cuando una variable puede estar repartida entre varias columnas o varias variables en una misma columa. Veamos ejemplos.

**Estructura estándar**:
- Filas: John, Jane, Mary. 
- Columnas: tratamiento (con 2 categorias: A y B), valor. 

**Caso: column headers son variables, no valores**:
- Filas: John, Jane, Mary. 
- Columnas: tratamiento_A, tratamiento_B. 
- Cada celda contendrá el valor por tratamiento.

### Wide to Long format

In [1]:
import pandas as pd
df = pd.DataFrame({'tratamiento_A': {'John': 12.6, 'Jane': 14.5, 'Mary': 11.75},
                   'tratamiento_B': {'John': 1.3, 'Jane': 3.5, 'Mary': 5.2},
                   'tratamiento_C': {'John': 2.4, 'Jane': 0.04, 'Mary': 3},
                   'Funciona': {'John': True, 'Jane': False, 'Mary': True}
                  })
df

Unnamed: 0,tratamiento_A,tratamiento_B,tratamiento_C,Funciona
John,12.6,1.3,2.4,True
Jane,14.5,3.5,0.04,False
Mary,11.75,5.2,3.0,True


In [2]:
# id_vars son las columnas identificadoras
# values_vars son las variables que transformamos
pd.melt(df, id_vars = ['tratamiento_A'], value_vars = ['tratamiento_B'])

Unnamed: 0,tratamiento_A,variable,value
0,12.6,tratamiento_B,1.3
1,14.5,tratamiento_B,3.5
2,11.75,tratamiento_B,5.2


In [3]:
df['nombre'] = df.index
pd.melt(df, id_vars = ['nombre'], value_vars = ['tratamiento_A', 'tratamiento_B'])

Unnamed: 0,nombre,variable,value
0,John,tratamiento_A,12.6
1,Jane,tratamiento_A,14.5
2,Mary,tratamiento_A,11.75
3,John,tratamiento_B,1.3
4,Jane,tratamiento_B,3.5
5,Mary,tratamiento_B,5.2


In [4]:
pd.melt(df, id_vars = ['nombre'], value_vars = ['tratamiento_A', 'tratamiento_B'], 
        var_name = 'tratamiento', value_name = 'dosis')

Unnamed: 0,nombre,tratamiento,dosis
0,John,tratamiento_A,12.6
1,Jane,tratamiento_A,14.5
2,Mary,tratamiento_A,11.75
3,John,tratamiento_B,1.3
4,Jane,tratamiento_B,3.5
5,Mary,tratamiento_B,5.2


In [5]:
dff = pd.melt(df, id_vars = ['nombre', 'Funciona'], value_vars = ['tratamiento_A', 'tratamiento_B', 'tratamiento_C'], 
        var_name = 'tratamiento', value_name = 'dosis')
dff

Unnamed: 0,nombre,Funciona,tratamiento,dosis
0,John,True,tratamiento_A,12.6
1,Jane,False,tratamiento_A,14.5
2,Mary,True,tratamiento_A,11.75
3,John,True,tratamiento_B,1.3
4,Jane,False,tratamiento_B,3.5
5,Mary,True,tratamiento_B,5.2
6,John,True,tratamiento_C,2.4
7,Jane,False,tratamiento_C,0.04
8,Mary,True,tratamiento_C,3.0


In [6]:
df

Unnamed: 0,tratamiento_A,tratamiento_B,tratamiento_C,Funciona,nombre
John,12.6,1.3,2.4,True,John
Jane,14.5,3.5,0.04,False,Jane
Mary,11.75,5.2,3.0,True,Mary


In [7]:
pd.wide_to_long(df, ['tratamiento'], i = 'nombre', j  = 'tipo', sep =  '_', suffix = '\w+')

Unnamed: 0_level_0,Unnamed: 1_level_0,Funciona,tratamiento
nombre,tipo,Unnamed: 2_level_1,Unnamed: 3_level_1
John,A,True,12.6
Jane,A,False,14.5
Mary,A,True,11.75
John,B,True,1.3
Jane,B,False,3.5
Mary,B,True,5.2
John,C,True,2.4
Jane,C,False,0.04
Mary,C,True,3.0


In [8]:
import numpy as np
df = pd.DataFrame({'A(weekly)-2010': np.random.rand(3),
                   'A(weekly)-2011': np.random.rand(3),
                   'B(weekly)-2010': np.random.rand(3),
                   'B(weekly)-2011': np.random.rand(3),
                   'target' : np.random.randint(3, size=3)})
df['id'] = df.index

In [9]:
df

Unnamed: 0,A(weekly)-2010,A(weekly)-2011,B(weekly)-2010,B(weekly)-2011,target,id
0,0.091339,0.121314,0.771361,0.711559,1,0
1,0.355159,0.541969,0.091577,0.358918,0,1
2,0.350464,0.984482,0.154835,0.899214,0,2


In [10]:
pd.wide_to_long(df, ['A(weekly)', 'B(weekly)'], i = 'id', j  = 'year', sep =  '-')

Unnamed: 0_level_0,Unnamed: 1_level_0,target,A(weekly),B(weekly)
id,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2010,1,0.091339,0.771361
1,2010,0,0.355159,0.091577
2,2010,0,0.350464,0.154835
0,2011,1,0.121314,0.711559
1,2011,0,0.541969,0.358918
2,2011,0,0.984482,0.899214


### Partir una columna en varias variables

In [11]:
df = pd.DataFrame({'Name': {'0': 'John', '1': 'Jane', '2': 'Mary'},
                   'Age': {'0': 24, '1': 36, '2': 12},
                   'Address': {'0': '01001  Autauga County, AL', 
                               '1': '01003  Baldwin County, AL', 
                               '2': '01005  Barbour County, AL'}
                  })
df

Unnamed: 0,Name,Age,Address
0,John,24,"01001 Autauga County, AL"
1,Jane,36,"01003 Baldwin County, AL"
2,Mary,12,"01005 Barbour County, AL"


In [12]:
df['Address'].str.split(' ', 1, expand = True) # expand para crear las nuevas columnas 

Unnamed: 0,0,1
0,1001,"Autauga County, AL"
1,1003,"Baldwin County, AL"
2,1005,"Barbour County, AL"


In [13]:
df['Address'].str.split(' ', 1, expand = True).rename(columns = {0: 'zip code', 1: 'Street'})

Unnamed: 0,zip code,Street
0,1001,"Autauga County, AL"
1,1003,"Baldwin County, AL"
2,1005,"Barbour County, AL"


---
# Limpieza

Recuerda: `garbage in, garbage out`.

- **Datos irrelevantes**: solo si sabemos que la varibles son 100% irrelevantes e inecesarios, podemos eliminarlas. Si no, una buena opción sería estudiar la matriz de correlación con las demás variables.
- **Datos duplicados**: a vecez, al juntar tablas, podemos obtener columnas o filas repetidas. Naturalmente, deberíamos eliminar las repeticiones.
- **Conversión de datos**: a veces tenemos variables enteras representadas en forma de strings o al revés. Siempre hay que comprobar el tipo de variables con `df.dtypes`. También podemos querer codificar variables categóricas (que pueden seer strings o lo que sea) en forma de enteros. Cuidado: cuando una conversión falla, se crea un NA.
- **Trabajar con strings**: hay muchas funciones disponibles, como paddings, `.lower()`, `.upper()`, etc. Podemos encontrar patrones en los strings gracias a expresiones regulares (RegEx) o mappear las strings con un diccionario.
- **Valores nulos (NAs)**: es lo peor que os podeis encontrar ... y os lo vais a encontrar ...


In [14]:
"HOlAa".upper()

'HOLAA'


## Get dummies
Para variables categóricas.

In [15]:
dff.dtypes

nombre          object
Funciona          bool
tratamiento     object
dosis          float64
dtype: object

In [16]:
pd.get_dummies(dff.drop(['nombre'], axis = 1))

Unnamed: 0,Funciona,dosis,tratamiento_tratamiento_A,tratamiento_tratamiento_B,tratamiento_tratamiento_C
0,True,12.6,1,0,0
1,False,14.5,1,0,0
2,True,11.75,1,0,0
3,True,1.3,0,1,0
4,False,3.5,0,1,0
5,True,5.2,0,1,0
6,True,2.4,0,0,1
7,False,0.04,0,0,1
8,True,3.0,0,0,1


---

## Codificar categóricas (no ordinales)

In [17]:
def encode_label(df): return df.astype('category').cat.codes

In [18]:
dff['tratamiento']

0    tratamiento_A
1    tratamiento_A
2    tratamiento_A
3    tratamiento_B
4    tratamiento_B
5    tratamiento_B
6    tratamiento_C
7    tratamiento_C
8    tratamiento_C
Name: tratamiento, dtype: object

In [19]:
encode_label(dff['tratamiento'])

0    0
1    0
2    0
3    1
4    1
5    1
6    2
7    2
8    2
dtype: int8

---

## Expresiones regulares

https://docs.python.org/3/library/re.html

Basado en metcarácteres.

- `.` representa cualquier carácter.
- `^` representa el inicio del string.
- `$` representa el final del string`.
- `*` representa 0 o infinitas repeticiones.
- `+` representa 1 o infinitas repeticiones.
- `?` representa 0 o 1 repeticiones.
- `*?`, `+?`, `??`. 
- `{m}` especifica `m` repeticiones.
- `{m, n}` especifica un rango de repeticiones.
- `\` escapa los metacarácteres.
- `[]` indica un conjunto de carácteres.
- `[a-z]`, `[0-9]`.
- Construcciones más díficiles pero muy útiles: https://stackoverflow.com/questions/2973436/regex-lookahead-lookbehind-and-atomic-groups

```
match = re.search(pattern, string)
if match:
    process(match)
```

In [20]:
import re

re.search('.\..$', '192.0.0.3').group()

'0.3'

#### Ejercicios RegEx

Extraer el nombre completo (i.e., P. A. Doodle): 

In [127]:
string = 'Mr/Mrs/Ms: P. A. Doodle'

Partir string en tres campos:

In [133]:
string = 'Name: Sabina; E-mail: sabina@gmail.com; Age: 40'

Extraer el correo electrónico: