Valores perdidos (missing values) e filas duplicadas

In [None]:
# En ocasións os nosos datos conteñen filas duplicadas ou faltan algúns datos. Estas alteracións
# poden influír nas nosas análises, polo que requiren un tratamento axeitado.

In [None]:
# A solución máis fácil (que non a máis axeitada) será sempre a eliminación dos valores perdidos

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Ficheiro con datos numéricos sobre niveis de contaminación
niveis = pd.read_csv('../datasets/niveis_de_contaminacion.csv')
niveis.info()

In [None]:
niveis

In [None]:
# mostramos número de nulls por columna
niveis.isnull().sum()

In [None]:
# podemos eliminar directamente todas aquelas filas que tñen valores nulos
niveis.dropna()

In [None]:
# Ficheiro con datos categóricos sobre datos de compras
compras = pd.read_csv('../datasets/patron_de_compra_con_null.csv', index_col=0)
compras.info()

In [None]:
compras

In [None]:
# Como borrar filas que teñan valores perdidos
compras_sen_nulos = compras.dropna()
compras_sen_nulos

In [None]:
# De xeito predeterminado dropna() aplícase ás filas
# Se queremos eliminar as columnas con valores null, indicamos o axis 1
compras_sen_columnas_null = compras.dropna(axis=1)
compras_sen_columnas_null

In [None]:
# Perder unha columna pode significar demasiado, polo que podemos establecer un límite ou limiar para 
# eliminar ou manter a columna. 
# Thresh/Threshold indica o número mínimo de valores NOT NULL que preciso para manter a columna
compras_sen_algunhas_columnas = compras.dropna(axis=1, thresh=12)
compras_sen_algunhas_columnas
## modificar o threshold

In [None]:
# Detección de filas duplicadas

In [None]:
# De novo, dataframe: niveis
niveis

In [None]:
# Duplicated devolve unha serie que indica as filas duplicacadas
niveis.duplicated()

In [None]:
niveis[niveis.duplicated()]

In [None]:
# Para eliminar filas duplicadas temos unha función específica: drop_duplicates
niveis.drop_duplicates()

In [None]:
niveis_novo = niveis.drop_duplicates()

In [None]:
# A maiores podo elminar filas con poucos datos útiles (fíxate na liña 32)
niveis_novo = niveis_novo.dropna(thresh=8)

In [None]:
niveis_novo

In [None]:
# Calculamos algúns estatísticos sobre os datos orixinais
niveis.mean()

In [None]:
niveis.std()

In [None]:
niveis.agg(['mean','std'])

In [None]:
# Podemos comprobar o efecto que a limpeza dos datos ten sobre o cálculo dos estatísticos

In [None]:
niveis_novo.agg(['mean','std'])

In [None]:
# Ante a aparición de valores perdidos (missing values) podemos decidir o seu reemprazo
# É importante escoller a técnica axeitada en cada caso, pois un reemprazo non adecuado
# pode mofificar outros resultados de xeito indesexado.

In [None]:
# Algunhas técnicas de reemprazo (con valores numéricos)
# - reemprazo con valor fixo (cero?)
# - reemprazo coa media da columna
# - reemprazo coa mediana da columna

In [None]:
# Cargamos de novo os datos de contaminación
niveis = pd.read_csv('../datasets/niveis_de_contaminacion.csv')

In [None]:
niveis.info()

In [None]:
niveis

In [None]:
# Reemprazo de valores perdidos con un valor fixo

In [None]:
# reemprazo con cero -> función "fillna()"
niveis_zero = niveis.fillna(0)
niveis_zero

In [None]:
# reemprazo coa media de cada columna
niveis_media = niveis.apply(lambda x: x.fillna(x.mean()), axis=0)
# axis = 0 <- aplicamos ás columnas
# x.mean() <- calcula a media da columna
# x.fillna() <- substitúe os valores nulos
# O importante é ter claro que en este caso a función lambda se aplica ás columnas (x)
niveis_media

In [None]:
# reemprazo coa media de cada columna
niveis_mediana = niveis.apply(lambda x: x.fillna(x.median()), axis=0)
niveis_mediana

In [None]:
# Exemplo con ficheiro con variables categóricas
compras = pd.read_csv('../datasets/patron_de_compra_con_null.csv', index_col=0)
compras.info()

In [None]:
compras

In [None]:
# Con que valores reemprazar os datos categóricos?
# - Descoñecido
# - Valores da fila anterior ou posterior

In [None]:
compras.Profesion.fillna('Descoñecido', inplace=True)
compras

In [None]:
# reemprazo con valores da fila anterior
compras_anterior = compras.fillna(method='ffill')
compras_anterior

In [None]:
# reemprazo don valores da fila posterios
compras_seguinte = compras.fillna(method='bfill')
compras_seguinte
# ollo coa última fila!