## Limpieza de datos, cambiar los tipos de datos y manejo de missing values

In [1]:
import numpy as np
import pandas as pd

In [7]:
people = {
    "first":["Andres", "Omar", "Miguel", "Bob", "Roger", np.nan, None, 'NA'],
    "last":["Galarraga", "Vizquel", "Cabrera", "Abreu", "Cedeno", np.nan, np.nan, "Missing"],
    "email":["andres@gmail.com", "omar@email.com", "miguel@email.com", "bob@email.com", "roger@email.com",  np.nan, None, np.nan],
    "age":['33', '55', '43', '57', '48', None, None, 'Missing']
}

In [9]:
df = pd.DataFrame(people)

In [10]:
df

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48
5,,,,
6,,,,
7,,Missing,,Missing


## 1. Manejar missing values - Eliminar, reemplazar y rellenar 

### 1.1 Eliminar una columna o fila con datos faltantes - dropna()

In [11]:
# Para eliminar alguna columna o fila que contenga datos faltantes, utilizaremos "dropna()"
df.dropna()

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48


### 1.2 Valores por defecto de "dropna()"

In [13]:
df.dropna(axis = 'index', how ='any')
# Por defecto, dropna() utiliza como eje las filas "index", y como argumento "any", lo que quiere decir
# que eliminara cualquier fila "any" que contenga un valor nulo

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48


In [14]:
# Si cambiamos el argumento a "columns" borra todo el data frame, porque todas las columnas tienen un NaN
df.dropna(axis = 'columns', how ='any')

0
1
2
3
4
5
6
7


In [16]:
# Ahora, que pasa si cambiamos "any" por "all". En ese caso, se eliminar las filas, solo donde todos los valores sean NaN
df.dropna(axis = 'index', how ='all')
# df.dropna(axis = 'columns', how ='all')

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48
7,,Missing,,Missing


### 1.3 Argumento "subset" de dropna()

In [17]:
# Utilizando el argumento "subset" de dropna() podemos crear una lista de columna, y decidir en cuales van a buscarse
# y eliminarse los missing values. Podemos pasar una o varias columnas en "subset"
df.dropna(axis= 'index', how = 'any', subset = ['email'])

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48


In [18]:
# Podemos pasar una o varias columnas en "subset"
df.dropna(axis= 'index', how = 'any', subset = ['email', 'age'])

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48


### 1.4 Utilizar replace() para reemplazar valores nulos

In [19]:
df

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48
5,,,,
6,,,,
7,,Missing,,Missing


In [20]:
# En nuestra tabla NA y Missing son palabras de texto, y para que puedan ser tratadas como NaN, necesitamos pasarlas
# a ese formato con una funcion de numpy
df.replace('NA', np.nan, inplace = True)
df.replace('Missing', np.nan, inplace = True)
df

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33.0
1,Omar,Vizquel,omar@email.com,55.0
2,Miguel,Cabrera,miguel@email.com,43.0
3,Bob,Abreu,bob@email.com,57.0
4,Roger,Cedeno,roger@email.com,48.0
5,,,,
6,,,,
7,,,,


### 1.5 Utilizar el metodo mascara "isna()"

In [22]:
# El metodo isna() arroja True or False para indicar que un valor es o no nulo
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True


### 1.6 Rellenar celdas con valores nulos utilizando "fillna()"

In [23]:
# El metodo fillna() permite rellenar lugares donde hay NaN con un valor o texto especifico
# Podemos aplicarlo en todo el data frame
df.fillna('MISSING')

Unnamed: 0,first,last,email,age
0,Andres,Galarraga,andres@gmail.com,33
1,Omar,Vizquel,omar@email.com,55
2,Miguel,Cabrera,miguel@email.com,43
3,Bob,Abreu,bob@email.com,57
4,Roger,Cedeno,roger@email.com,48
5,MISSING,MISSING,MISSING,MISSING
6,MISSING,MISSING,MISSING,MISSING
7,MISSING,MISSING,MISSING,MISSING


In [25]:
# O como es mas comun en una sola columna. En este caso, la salida es una Serie
df['age'].fillna('0')

0    33
1    55
2    43
3    57
4    48
5     0
6     0
7     0
Name: age, dtype: object

## 2. Cambiar los tipos de datos - Casting astype()

In [28]:
# Si queremos hacer un calculo numerico, debemos asegurarnos que nuestros datos sean integer o float
# podemos comprobar los tipos de datos con "df.dtypes"
df.dtypes

first    object
last     object
email    object
age      object
dtype: object

In [30]:
# Podemos ver arriba, que no hay ningun valor numerico, todos son Object(texto), debemos pasar age a numerico
# Pero debemos pasarlo a float, porque los NaN son float por defecto, si no hacemos esto no podriamos hacer ningun calculo
df['age'] = df['age'].astype(float)

In [32]:
# Ahora vemos que la edad es de tipo flotante
df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [34]:
# Y podemos hacer calculos numericos con esa columna
df['age'].agg(['mean', 'median'])

mean      47.2
median    48.0
Name: age, dtype: float64

In [35]:
df['age'].describe()

count     5.000000
mean     47.200000
std       9.705668
min      33.000000
25%      43.000000
50%      48.000000
75%      55.000000
max      57.000000
Name: age, dtype: float64