# Preparación y limpieza de datos

In [2]:
import numpy as np
import pandas as pd

## Tratamiento de missing values

- En la mayoría de fuentes de datos existen valores nulos, missing o NAN
- Estos "huecos" suelen causar problemas a la hora de realizar cálculos
- Por suerte con pandas podemos tratar estos datos de una forma más simple

### ¿Cómo detectar missing?

In [3]:
datos = pd.Series([1, np.nan, 'hello', None])
datos

0        1
1      NaN
2    hello
3     None
dtype: object

- Podemos ver que elementos son missing con :
    - isnull()
    - isna()

In [4]:
datos.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [5]:
datos.isna()

0    False
1     True
2    False
3     True
dtype: bool

### Eliminación de registros con missings

- Podemos utilizar el método dropna() de pandas para llevar a cabo esta tarea
- **Cuidado** Conviene hacer un estudio de los missings antes de realizar ninguna acción

In [6]:
datos

0        1
1      NaN
2    hello
3     None
dtype: object

In [7]:
datos.dropna()

0        1
2    hello
dtype: object

In [8]:
datos

0        1
1      NaN
2    hello
3     None
dtype: object

- Si queremos borrarlo tenemos que usar el parámetro **inplace**

In [9]:
datos.dropna(inplace=True)
datos

0        1
2    hello
dtype: object

- Tenemos un par más de parámetros:
    -  **axis** -> Selección de eje sobre el que realizar la eliminación. (filas o columnas)
    -  **how**-> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.
    -  **thresh**-> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.

In [10]:
datos = pd.DataFrame([[1., 6.5, 3.],
                     [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan],
                     [np.nan, 6.5, 3.]])
datos

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [11]:
datos_limpios = datos.dropna()
datos_limpios

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [12]:
datos_limpios = datos.dropna(axis='columns')
datos_limpios

0
1
2
3


In [13]:
datos_limpios = datos.dropna(how='all')
datos_limpios

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [14]:
datos.dropna(thresh=2) 

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
3,,6.5,3.0


In [15]:
datos.dropna(axis=1, thresh=3)

0
1
2
3


### Rellenos de missings

- Hay casos en los que no se desean eliminar los datos faltantes
- En estos casos hay distintas formas de proceder:
    - **bfill** la siguiente observación se pone atrás
    - **ffill** la última observación se repite
- Ambos casos se implementan mediante **DataFrame.fillna()**

In [19]:
datos = pd.DataFrame([[1., 6.5, 3.],
                     [2., np.nan, np.nan],
                     [np.nan, np.nan, np.nan],
                     [np.nan, 7.5, 4.]])
datos

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,2.0,,
2,,,
3,,7.5,4.0


In [20]:
datos.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,2.0,6.5,3.0
2,2.0,6.5,3.0
3,2.0,7.5,4.0


In [21]:
datos.fillna(method='bfill')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,2.0,7.5,4.0
2,,7.5,4.0
3,,7.5,4.0


In [22]:
datos.fillna(method='ffill', limit=1) # solo rellena el primer valor faltante

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,2.0,6.5,3.0
2,2.0,,
3,,7.5,4.0


In [24]:
datos.fillna(datos.mean())

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,2.0,7.0,3.5
2,1.5,7.0,3.5
3,1.5,7.5,4.0


## Duplicados

In [26]:
datos_duplicados = pd.DataFrame({'k1': ['uno', 'dos'] * 3 + ['dos'],
                                 'k2': [1, 1, 2, 3, 3, 4, 4]})
datos_duplicados

Unnamed: 0,k1,k2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
6,dos,4


In [28]:
datos_duplicados.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [30]:
datos_duplicados.drop_duplicates()

Unnamed: 0,k1,k2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4


In [31]:
datos_duplicados['v1'] = range(7)
datos_duplicados

Unnamed: 0,k1,k2,v1
0,uno,1,0
1,dos,1,1
2,uno,2,2
3,dos,3,3
4,uno,3,4
5,dos,4,5
6,dos,4,6


In [32]:
datos_duplicados.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,uno,1,0
1,dos,1,1


In [34]:
datos_duplicados.drop_duplicates(['k1','k2'], keep='last')

Unnamed: 0,k1,k2,v1
0,uno,1,0
1,dos,1,1
2,uno,2,2
3,dos,3,3
4,uno,3,4
6,dos,4,6


### Reemplazo de valores

In [35]:
datos = pd.Series([1., -999., 2., -999., -1000., 3.])
datos

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [37]:
datos.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [38]:
datos.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [39]:
# podemos pasarle un diccionario
datos.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### Outliers

- La detección de outliers es una tarea importante
- Suelen causar problemas a la hora de realizar los cálculos

In [40]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.015102,-0.016006,-0.034579,0.02468
std,1.029155,1.025962,0.99672,1.003659
min,-3.187491,-3.114035,-3.428294,-2.979959
25%,-0.670525,-0.753435,-0.708872,-0.646772
50%,0.01003,-0.062683,-0.025212,0.033917
75%,0.718067,0.64884,0.613374,0.682336
max,3.997853,3.816258,3.449923,3.534031


In [41]:
col = data[2]
col[np.abs(col) > 3]

336   -3.428294
635   -3.018863
676    3.449923
755    3.067717
Name: 2, dtype: float64

In [42]:
cond = (np.abs(data) > 3)
cond

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
995,False,False,False,False
996,False,False,False,False
997,False,False,False,False
998,False,False,False,False


In [43]:
cond.any(axis=1)

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Length: 1000, dtype: bool

In [44]:
data[(np.abs(data) > 3).any(axis=1)]

Unnamed: 0,0,1,2,3
261,0.461464,3.816258,-1.007491,-0.524125
329,3.285331,-1.053235,-1.3529,1.241747
336,-0.128125,-0.325649,-3.428294,0.47751
437,1.315862,-0.196439,-1.265608,3.018287
581,-1.599875,-3.114035,-0.848933,-0.399705
635,-0.445936,-0.413802,-3.018863,0.20007
676,-0.785812,-0.156944,3.449923,-0.397862
755,-2.9e-05,1.233042,3.067717,-0.38712
794,3.997853,1.419473,-1.272341,0.009137
890,3.355446,1.045845,-0.673449,1.433912


In [45]:
data[np.abs(data) > 3] = np.sign(data) * 3
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.01365,-0.017238,-0.034649,0.024127
std,1.023227,1.021189,0.993609,1.001876
min,-3.0,-3.0,-3.0,-2.979959
25%,-0.670525,-0.753435,-0.708872,-0.646772
50%,0.01003,-0.062683,-0.025212,0.033917
75%,0.718067,0.64884,0.613374,0.682336
max,3.0,3.0,3.0,3.0


___
## Ejercicios

**1** Carga el archivo train.csv

**2** Elimina todas las filas de NaN

**3** Elimina todos los registros donde la edad sea superior al percentil 90