<img src="mioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura Data preprocessing</center>
# Worksheet S3: Data cleaning

# Objetivos

El objetivo de este worksheet es que aprendas las operaciones más importantes de data cleaning:

* Slicing, Splitting y Joining
* Rellenar valores ausentes
* Unir data frames
* Eliminar duplicados
* Asertos

# Configuración del entorno

Como siempre, es importante que definamos en un solo bloque los paquetes y constantes a utilizar.

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Obtención de los datos

Esta vez va a ser fácil, vamos a importar los datos de un fichero csv, utilizaremos la función read_csv que nos proporciona la libreria de pandas para cargar una base de datos de usuarios.

In [2]:
df = pd.read_csv('usuarios.csv')

Una vez cargados los datos debemos inspeccionarlos, antes de empezar nuestro análisis.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101 entries, 0 to 100
Data columns (total 11 columns):
Unnamed: 0    101 non-null int64
Nombre        101 non-null object
Apellido 1    101 non-null object
Apellido 2    101 non-null object
Sexo          97 non-null object
Municipio     100 non-null object
Provincia     101 non-null object
DNI           101 non-null int64
NIF           100 non-null object
Edad          101 non-null int64
Hijos         101 non-null int64
dtypes: int64(4), object(7)
memory usage: 8.8+ KB


Antes de empezar a realizarnos preguntas sobre los datos, debemos comprender estructuran tienen. Para ello podemos hacer uso de las funciones `head`, `index` y `columns` para identificar la estructura del dataset.

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
0,0,Francisco,Castro,Cano,H,Lérida,Lérida,8805982,H,6,0
1,1,Xavier,Gómez,Rendón,H,Córdoba,Córdoba,26616576,X,77,3
2,2,Carmen,Vázquez,Trenado,M,Sabadell,Barcelona,47915145,,1,0
3,3,Anna,Alonso,López,M,,Zaragoza,23362379,Z,24,3
4,4,Manuel,López,Martínez,H,Palma de Mallorca,Islas Baleares,54999682,N,28,2


In [5]:
df.index

RangeIndex(start=0, stop=101, step=1)

In [6]:
df.columns

Index(['Unnamed: 0', 'Nombre', 'Apellido 1', 'Apellido 2', 'Sexo', 'Municipio',
       'Provincia', 'DNI', 'NIF', 'Edad', 'Hijos'],
      dtype='object')

A partir de aquí, podemos analizar columnas especificas. Es especialmente útil la función `unique` que nos permite conocer los posibles valores que toma una columna.

In [7]:
df['Municipio'].unique()

array(['Lérida', 'Córdoba', 'Sabadell', nan, 'Palma de Mallorca',
       'Alhaurín de la Torre', 'Lugo', 'Valladolid', 'Valencia',
       'Zaragoza', 'Móstoles', 'Gandía', 'Zamora', 'Teruel', 'Murcia',
       'Cabra', 'Albacete', 'Cádiz', 'Castellón de la Plana',
       'Arganda del Rey', 'Bilbao', 'León', 'Vigo', 'Cieza', 'El Ejido',
       'Barcelona', 'Orense', 'Lorca', 'Calatayud', 'Tudela', 'Arrecife',
       'Catarroja', 'La Estrada', 'Algeciras', 'San Andrés de la Barca',
       'Sevilla', 'Mataró', 'Basauri', 'Málaga', 'Totana', 'Vilaseca',
       'Durango', 'Onteniente', 'Getafe', 'Burjasot', 'Gáldar',
       'Pamplona', 'Santa Cruz de Tenerife', 'Fuengirola', 'Gijón',
       'Collado Villalba', 'Vélez-Málaga', 'Jaén', 'Almuñécar', 'Gavá',
       'Estepona', 'Salamanca', 'Azuqueca de Henares', 'Teguise', 'Adeje',
       'Cáceres', 'Calafell', 'Las Palmas de G. C.',
       'San Juan de Alicante', 'San Vicente del Raspeig', 'Fuenlabrada',
       'Santander'], dtype=object)

También es interesante la función `value_counts` que nos proporciona la misma información, y además nos proporciona el recuento de cada ocurrencia.

In [8]:
df['Provincia'].value_counts()

Barcelona           10
Valencia            10
Málaga               8
Murcia               7
Zaragoza             6
Islas Baleares       6
Madrid               5
Vizcaya              5
Las Palmas           4
Tarragona            3
S.C. de Tenerife     3
Pontevedra           3
Alicante             2
Teruel               2
Orense               2
Córdoba              2
Cádiz                2
Sevilla              2
Navarra              2
Albacete             2
León                 2
Castellón            1
Cáceres              1
Asturias             1
Lérida               1
Almería              1
Granada              1
Jaén                 1
Guadalajara          1
Valladolid           1
Cantabria            1
Lugo                 1
Zamora               1
Salamanca            1
Name: Provincia, dtype: int64

# Manejo de valores nulos

Podemos con las funciones `isnull`, `notnull` filtrar o quedarnos con las filas que tienen o no tienen valores nulos. 

In [9]:
df['Sexo'].isnull().value_counts()

False    97
True      4
Name: Sexo, dtype: int64

In [10]:
df['Sexo'].notnull().value_counts()

True     97
False     4
Name: Sexo, dtype: int64

# Slicing, Splitting y Joining
Estas operaciones nos permiten trocear, dividir y unir los datos frames.

Podemos quedarnos, sólo con las mujeres de nuestro dataset y restarles 5 años:

In [4]:
df_solo_mujeres = df[df['Sexo'].isin(['M'])]
df_solo_mujeres['Edad'] -= 5

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Esto nos da un warning ya que estamos intentando modificar un dataframe que no hemos copiado previamente, sino que hemos creado una vista. Dependiendo del tipo de dataframe, esto podría suponer que estamos modificando el objeto `df` original a partir del cual obtuvimos la vista.

Para evitar este warning, haremos uso de la función `copy`. 

In [5]:
df_solo_mujeres = df[df['Sexo'].isin(['M'])].copy()
df_solo_mujeres.head()

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
2,2,Carmen,Vázquez,Trenado,M,Sabadell,Barcelona,47915145,,1,0
3,3,Anna,Alonso,López,M,,Zaragoza,23362379,Z,24,3
13,13,Carmen,Altuna,Lozano,M,Gandía,Valencia,99852210,X,15,0
14,14,Paula,Arrese,López Pablo,M,Zamora,Zamora,78513802,J,18,0
18,18,Ana María,Ingelmo,Gómez,M,Cabra,Córdoba,4735830,S,34,2


Una vez extraído el dataframe, podemos aplicar modificaciones específicas de cada columna:

In [6]:
df_solo_mujeres['Edad'] -= 5
df_solo_mujeres.head()

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
2,2,Carmen,Vázquez,Trenado,M,Sabadell,Barcelona,47915145,,-4,0
3,3,Anna,Alonso,López,M,,Zaragoza,23362379,Z,19,3
13,13,Carmen,Altuna,Lozano,M,Gandía,Valencia,99852210,X,10,0
14,14,Paula,Arrese,López Pablo,M,Zamora,Zamora,78513802,J,13,0
18,18,Ana María,Ingelmo,Gómez,M,Cabra,Córdoba,4735830,S,29,2


Y podemos concatenar los resultados actuales con los existentes

In [14]:
pd.concat([df, df_solo_mujeres])['Sexo'].value_counts()

M    76
H    59
Name: Sexo, dtype: int64

In [15]:
df['Sexo'].value_counts()

H    59
M    38
Name: Sexo, dtype: int64

Puedes consultar la documentación del resto de operaciones sobre dataframes en: https://pandas.pydata.org/pandas-docs/stable/merging.html

# Duplicados

Otro de los problemas clásicos cuando preprocesamos los datos es detectar y tratar duplicados. Pandas para ello dispone de varias funciones: `duplicated` nos permite generar una máscara que indica todos que tienen los elementos que tienen al menos 1 repetición.

In [16]:
df[df['DNI'].duplicated(keep='first')]

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
21,21,Antonio Miguel,Sánchez,Romero,H,Teruel,Teruel,55096995,N,33,0


In [17]:
df[df['DNI'].duplicated(keep='last')]

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
15,15,Miguel,Sánchez,Romero,H,Teruel,Teruel,55096995,N,32,0


Adicionalmente, duplicated tiene un parámetro interesante `keep` que si lo marcamos a `False` nos incluye en la máscara la primera aparición.

In [18]:
df[df['DNI'].duplicated(keep = False)]

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
15,15,Miguel,Sánchez,Romero,H,Teruel,Teruel,55096995,N,32,0
21,21,Antonio Miguel,Sánchez,Romero,H,Teruel,Teruel,55096995,N,33,0


Y para droppear los duplicados y quedarnos con la primera repetición:

In [19]:
len(df)

101

In [20]:
df = df.drop_duplicates(subset=['DNI'])

In [21]:
len(df)

100

# Agrupar datos

Mediante la función `groupby` podemos agrupar los datos en función de una columna. Esta función al ejecutarla devuelve un objeto de tipo `DataFrameGroupBy` sobre el cual podemos aplicar funciones sobre cada grupo. Algunas de las más habituales son:

In [22]:
df.groupby('Sexo').size() # devuelve el tamaño de cada grupo

Sexo
H    58
M    38
dtype: int64

`agg` (http://devdocs.io/pandas~0.20/generated/pandas.core.groupby.dataframegroupby.agg) nos permite agregar los datos con una función de agregación. Por ejemplo:

In [23]:
df.groupby('Sexo').agg('min')

Unnamed: 0_level_0,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Provincia,DNI,Edad,Hijos
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
H,0,Adrián,Almodóvar,Acosta,Albacete,563557,0,0
M,2,Ana,Agulló,Aguilar,Alicante,388588,0,0


In [24]:
df.groupby('Sexo').agg(['min', 'max'])

Unnamed: 0_level_0,Unnamed: 0,Unnamed: 0,Nombre,Nombre,Apellido 1,Apellido 1,Apellido 2,Apellido 2,Provincia,Provincia,DNI,DNI,Edad,Edad,Hijos,Hijos
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
H,0,99,Adrián,Ángel,Almodóvar,Ziani,Acosta,Yang,Albacete,Zaragoza,563557,97948259,0,80,0,3
M,2,100,Ana,Teresa,Agulló,Álvarez,Aguilar,Águila,Alicante,Zaragoza,388588,99852210,0,73,0,3


In [25]:
df_grouped = df.groupby('Sexo').agg({'Edad': ['min', 'max'], 'Hijos': 'sum'})
df_grouped

Unnamed: 0_level_0,Edad,Edad,Hijos
Unnamed: 0_level_1,min,max,sum
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
H,0,80,65
M,0,73,49


E incluso combinarla con la función `apply` ya que podemos ejecutar un código específico por cada grupo de datos

In [26]:
def contar(df):
    return len(df)

df.groupby('Sexo').apply(contar)

Sexo
H    58
M    38
dtype: int64

# Ordenar datos por valor de una columna
Para ordenar por utilizaremos la función `sort_values`

In [27]:
df.sort_values(by='Edad').head(10)

Unnamed: 0.1,Unnamed: 0,Nombre,Apellido 1,Apellido 2,Sexo,Municipio,Provincia,DNI,NIF,Edad,Hijos
25,25,Ana Isabel,Herrera,Jorquera,M,Palma de Mallorca,Islas Baleares,53370157,Z,0,0
17,17,Jordi,Moreno,Márquez,H,Alhaurín de la Torre,Málaga,94561727,X,0,0
2,2,Carmen,Vázquez,Trenado,M,Sabadell,Barcelona,47915145,,1,0
68,68,María Dolores,Ferreiros,Vila,M,Lorca,Murcia,87613343,H,2,0
74,74,José Luis,Molina,Carretero,H,Bilbao,Vizcaya,38663277,R,3,0
62,62,María,Álvarez,Hernández,M,Valencia,Valencia,26406576,T,3,0
57,57,José,Szekely,Tarrago,H,Onteniente,Valencia,92521252,A,4,0
93,93,Raquel,El Goual,Cimpeanu,M,San Juan de Alicante,Alicante,72558926,K,4,0
0,0,Francisco,Castro,Cano,H,Lérida,Lérida,8805982,H,6,0
96,96,Francisco José,Lecina,Diez,H,Valencia,Valencia,19283205,M,6,0


Con el parámetro `ascending=False` podemos invertir el criterio de ordenación.

# Asertos

Nos permiten realizar comprobaciones sobre los datos. Un aserto se define con `assert` y la prueba lógica a evaluar.


In [28]:
assert 1 == 1 # Es verdadero

Si la excepcion no se cumple se lanzará una excepción del tipo `AssertionError`. Esta excepción es como cualquier excepción Python, podemos capturarla y procesarla.

In [29]:
try:
    assert 1 == 2 # Lanzará una excepción del tipo AssertionError
except AssertionError:
    print("ups")

ups


Es una buena práctica, siempre que hagamos flujos de trabajo con datos implementar asertos que nos garanticen la correcta entrada de los datos.

In [30]:
assert len(df[df['Hijos'] > 50]) == 0
assert len(df[df['Hijos'] < 0]) == 0
assert len(df[df['Edad'] > 150]) == 0
assert len(df[df['Edad'] < 0]) == 0

# Quizz

* ¿Cuáles es para ti el flujo que se debe seguir para hacer data cleaning?
* ¿Es posible tener un dataset "perfecto"?. _Entendiendo por perfecto, un dataset que no requiera data cleaning_.