## MANEJO DE DATOS FALTANTES

In [75]:
import pandas as pd

In [76]:
# Cargar datos de un archivo CSV

datos = pd.read_csv("../datos/clientes.csv")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [77]:
# Identificar donde no exiten datos dentro del DataFrame (Filtro)
# Con el método ".isnull()" se identifica los renglones donde faltan datos

filtro = datos["nombre"].isnull()
filtro

0    False
1    False
2     True
3    False
4     True
5    False
6    False
7    False
8    False
Name: nombre, dtype: bool

In [78]:
# Buscar en el DataFrame con el filtro creado

datos[filtro]

Unnamed: 0,nombre,edad,ingreso
2,,70.0,20000.0
4,,,


In [79]:
# Eliminar los renglones que son nulos en el DataFrame
# El método ".dropna()" regresa un DataFrame que carece valores nulos

datos.dropna()

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0


In [80]:
# Ser más especificos al eliminar valores nulos
# Con el parámetro "subset = [columnas]" se especifica que columnas se requieren eliminar los valores nulos

datos.dropna(subset = ["nombre"])

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [81]:
# Modificar el DataFrame original
# Con "implace = True" se especifica que se quiere modificar el DataFrame original

#datos.dropna(subset = ["nombre", "edad"], inplace = True)
#datos

In [82]:
# Rellenar los valores nulos del DataFrame
# Se utiliza el el método ".fillna(valor_reemplazo)"

datos.fillna(0)

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,0,70.0,20000.0
3,Carmen,49.0,22000.0
4,0,0.0,0.0
5,Mario,30.0,15800.0
6,Pedro,0.0,17400.0
7,Gustavo,27.0,0.0
8,Carlos,0.0,0.0


In [83]:
# Rellenar los valores nulos de una columna en específico del DataFrame
# Se utiliza el el método ".fillna(valor_reemplazo)"

# Se modifica solo la columna de "nombre"

datos["nombre"].fillna("Sin Nombre")

0          Juan
1         Luisa
2    Sin Nombre
3        Carmen
4    Sin Nombre
5         Mario
6         Pedro
7       Gustavo
8        Carlos
Name: nombre, dtype: object

In [84]:
# Creamos nuestro diccionario con los valores por defecto

valores_por_defecto = {"nombre": "Sin Nombre", "edad": 0, "ingreso": 0}
valores_por_defecto

{'nombre': 'Sin Nombre', 'edad': 0, 'ingreso': 0}

In [85]:
# Rellenar los valores nulos pasando como parámetro un diccionario
# Esta vez se pasa como parámetro el diccionario

datos.fillna(value = valores_por_defecto)

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Sin Nombre,70.0,20000.0
3,Carmen,49.0,22000.0
4,Sin Nombre,0.0,0.0
5,Mario,30.0,15800.0
6,Pedro,0.0,17400.0
7,Gustavo,27.0,0.0
8,Carlos,0.0,0.0


In [86]:
# Guardar el DataFrame como CSV, y se especifica que valor irá en aquellos lugares que es None o NaN

# Con el parámetro "header = True/False" especificamos que si queremos que se guarde el encabezado en el csv
# Con el parámetro "na_rep = valor" especificamos que valor irá donde no existan valores

datos.to_csv("../datos/datos_arreglado.csv", header = True, na_rep = "Faltante")

In [88]:
# Cargamos el archivo csv arreglado

datos = pd.read_csv("../datos/datos_arreglado.csv", index_col = 0)
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Faltante,70.0,20000.0
3,Carmen,49.0,22000.0
4,Faltante,Faltante,Faltante
5,Mario,30.0,15800.0
6,Pedro,Faltante,17400.0
7,Gustavo,27.0,Faltante
8,Carlos,Faltante,Faltante
