<a href="https://colab.research.google.com/github/Markohf/CD_Flash_DS/blob/main/C7_1_Limpieza_de_datos_faltantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpieza de datos faltantes

* Como hemos visto en ejercicios anteriores manejar datos faltantes (`NaN`, `Na`, `null`) no es tan simple.
* No hay unaforma perfecta para limpiar este tipo de datos y las decisiones que tomes deben depender de la naturaleza de tu dataset y de la finalidad de tu análisis.
* Pandas utiliza numpy, por lo que los `NaN` se manejan como un tipo de dato especial que no es ni valor ni texto.
* Los `NaN` además son un sub-tipo float por lo que al aplicar .info() a una columna con datos de este tipo veremos que la columna se marca como tipo float.

In [None]:
#Creamos un dataframe pequeño donde forzamos la creación de alguno NaN.
import pandas as pd
import numpy as np

#Creamos un dataframe donde forzamos algunos valores faltantes.
datos = {'Nombre': ['Juan', 'María', 'Carlos', 'Isa', 'Carla', 'Ana', 'Pedro', 'Laura'],
         'Edad': [25, 30, 22, np.nan, 45, 28, 33, np.nan],
         'Sexo': ['M', 'F', 'M', 'F', 'F', 'F', 'M', 'F'],
         'Altura': [175, 160, np.nan, 165, 170, np.nan, 180, 155]}
#Convertimos en df.
df = pd.DataFrame(datos)
#Revisamos el df.
df.head()

##Identificar valores faltantes

In [None]:
#Como vemos con .info() las columas con NaN se muestran con el tipo float.
df.info()

In [None]:
#.isna() nos muestra con booleanos los datos faltantes.
df.isna()

In [None]:
#Si usamos esto junto con .sum() podremos ver los NaN por columna.
df.isna().sum()

##Manejas valores faltantes

Sea cual sea el caso podemos decidir hacer  3 cosas con los `NaN` en un df.

* Eliminar las columna con `NaN`.
* Eliminar las filas con `NaN`.
* Reemplazar los `NaN` con otros valores.

##Eliminar filas con NaN
Si tenemos pocos datos NaN en comparación al total de filas con datos completos a veces lo más práctico para evitar sesgar nuestros datos es eliminar dichas filas y trabajar con lo datos completos con los que contamos.

In [None]:
#La funcion dropna elimina los datos faltantes.
#El parametro inplace=True especifica que se ejecute en el mismo df y así no es necesario guardar el resultado en otra variable.
df.dropna(inplace=True)
df.head()

In [None]:
#Ya que no quedan datos NaN, forzamos la creación de otros nuevos.
df.loc[[1, 4], ['Sexo']] = np.nan
df.loc[6, ['Nombre']] = np.nan
df.head()

In [None]:
#Podemos selccionar en que columas se buscan los NaN para eliminar las filas.
df.dropna(subset=['Nombre'], inplace=True)
df.head()

#Eliminar columnas con NaN
Esta es una decisión más agresiva ya que perdemos una característica de todas nuestras filas, pero la podemos tomar si existen muchos datos faltantes de dicha columna.

In [None]:
#Creamos un dataframe donde forzamos algunos valores faltantes.
data = {'Nombre': ['Juan', 'María', 'Carlos', 'Isa', 'Carla', 'Ana', 'Pedro', 'Laura'],
         'Edad': [np.nan, np.nan, 22, np.nan, 45, np.nan, 33, np.nan],
         'Sexo': [np.nan, 'F', np.nan, np.nan, np.nan, 'F', np.nan, np.nan],
         'Altura': [175, 160, 161, 165, 170, 175, 180, 155]}
df = pd.DataFrame(data)
df

In [None]:
#Eliminamos la columna Edad.
df.drop(columns='Edad', inplace=True)
df

In [None]:
#Usando axis=1 especificamos que la operacion se hace en toda la columna; axis= 0 (default), para filas.
df.dropna(axis=1, inplace=True)
df

In [None]:
#Podemos usar el parametro tresh para especificar el numero de datos existentes para que la columna no se borre.
data = {'Nombre': ['Juan', 'María', 'Carlos', 'Isa', 'Carla', 'Ana', 'Pedro', 'Laura'],
         'Edad': [np.nan, np.nan, 23, 50, 45, np.nan, 33, np.nan],
         'Sexo': ['M', 'F', 'M', 'F', 'F', 'F', np.nan, 'F'],
         'Altura': [175, 160, 161, 165, 170, 175, 180, 155]}
df = pd.DataFrame(data)
df.dropna(axis=1, thresh=5, inplace=True)
df

#Reemplazar valores faltantes
Estas en la decisión más compleja ya que debemos usar la forma adecuada para obtener un proxy de los datos faltantes y no siempre va a ser la misma forma en cada columna de un dataset.

In [None]:
data = {'Nombre': ['Juan', 'María', 'Carlos', 'Isa', 'Carla', 'Ana', 'Pedro', 'Laura'],
         'Edad': [np.nan, np.nan, 23, 50, 45, np.nan, 33, np.nan],
         'Sexo': ['M', 'F', 'M', 'F', 'F', 'F', np.nan, 'F'],
         'Altura': [175, 160, 161, 165, 170, 175, 180, 155]}
df = pd.DataFrame(data)

In [None]:
#Rellenando por un string
df['Sexo'].fillna('Missing', inplace=True)
df

In [None]:
data = {'Nombre': ['Juan', 'María', 'Carlos', 'Isa', 'Carla', 'Ana', 'Pedro', 'Laura'],
         'Edad': [np.nan, np.nan, 23, 50, 45, np.nan, 33, np.nan],
         'Sexo': ['M', 'F', 'M', 'F', 'F', 'F', np.nan, 'F'],
         'Altura': [175, 160, 161, 165, 170, 175, 180, 155]}
df = pd.DataFrame(data)

In [None]:
#Rellenando con un promedio
mean_edad = df['Edad'].mean()
df['Edad'].fillna(mean_edad, inplace=True)
df

Usando esta linea podemos tambien rellenar con la mediana .median(), con la moda .mode(), etc.