# Limpieza de datos
 
La limpieza de datos es uno de los pasos más importantes en un proyecto de aprendizaje automático, pues, pues el modelo usará las propiedades de cada variable, y si se entrena con datos "sucios" probablemente la salida también esté "sucia".
 
Para evaluar la validez de los datos de nuestro dataset, es importante analizar y corroborar si los datos cumplen o se ajustan a la reglas o restricciones propias del dato:
* **De tipo de dato**: los valores en una columna en particular deben ser de un tipo de datos.
* **De rango**: generalmente, los números o fechas deben estar dentro de un cierto rango.
* **Obligatorias**: determinadas columnas no pueden estar vacías.
* **Únicas**: un campo, debe ser único en un conjunto de datos.
* **De pertenencia al conjunto**: los valores de una columna provienen de un conjunto de valores discretos. Por ejemplo, el sexo biológico de una persona en general se marca como masculino o femenino.
* **Patrones de expresión regular**: campos de texto que deben seguir un patrón determinado. (Email)
* **Validación de campo cruzado**: deben cumplirse determinadas condiciones que abarcan varios campos. Por ejemplo, la fecha de alta de un paciente del hospital no puede ser anterior a la fecha de admisión.
 

El encuentro pasado hicimos una revisión de las columnas y descubrimos que había datos nulos (registros vacíos). No es posible realizar un modelo de aprendizaje automático con datos nulos por lo que veremos diferentes maneras de resolver esta cuestión.

Hay tres posiblidades frente a datos nulos: **imputar**, **marcar** o **eliminar**. En esta Notebook veremos algunos métodos para realizarlo.

In [1]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

#### Desde el Drive


In [None]:
from google.colab import drive
drive.mount('/content/drive')


In [5]:
#Recordar utilizar dataset modificado de la clase pasada. 

data = pd.read_csv("/content/data_clima_clase1.csv")
data.head()

Unnamed: 0.1,Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
0,0,0.92,11.27,130.0,8.05,1021.6,no,Cold,-0.56
1,1,0.73,20.93,330.0,16.1,1017.0,si,Warm,21.11
2,2,0.97,5.97,193.0,14.91,1013.99,si,Normal,16.6
3,3,0.82,3.22,300.0,16.1,1031.59,si,Cold,1.6
4,4,0.6,10.88,116.0,9.98,1020.88,si,Cold,2.19


In [8]:
data.drop(columns="Unnamed: 0", inplace=True)

#### Desde el archivo descargado en la computadora

In [None]:
from google.colab import files
import io

filesUploaded = files.upload()

In [None]:
data = pd.read_csv(".csv")

In [None]:
#vemos los primeros registros del dataset

data.head(3)

In [None]:
# Vemos el tamaño del dataset

data.shape

#### Identificación de datos nulos

Para observar si hay datos nulos se puede utilizar el método *isnull()* o *isna()* el cual devovlerá **True** en el caso que haya un dato nulo y **False** en el caso que no lo haya.
Esto puede ser utilizado como una máscara para filtrar el dataset y ver los registros nulos.

Para saber la cantidad de datos nulos es posible utilizar *sum()* luego de la identificación de los nulos sabiendo que **True** cuenta como 1 y **False** cuenta como 0, de esta manera sumara 1 por cada dato nulo. 

In [28]:
data.isna().sum()
mascara_humedad_isna = data["humedad"].isna()
data[mascara_humedad_isna]

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
568,,,,,,si,Normal,16.07
2548,,,,,,si,Warm,27.76
3545,,,,,,si,Normal,17.74
6580,,,,,,si,Warm,22.97
7815,,,,,,si,,0.98


In [None]:
data.isna()

In [None]:
data.isnull().sum()

Podemos observar que *temperatura* que es nuestra variable a predecir no tiene ningún nulo y hay una pequeña cantidad en cada una de las otras columnas. Exploraremos cada caso para definir si **imputar**, **marcar** o **eliminar** los nulos y formas de realizarlo.

#### Visiblidad

Comenzaremos observando la columna *visibilidad*, cuáles son los datos nulos. Para esto realizaremos un filtro utilizando el método *isnull()* para crear una máscara y luego filtraremos con *.loc.* para observar los datos

In [None]:
nulo_visibilidad = data["visibilidad_km"].isnull()
nulo_visibilidad

In [None]:
data.loc[nulo_visibilidad]

En este caso observamos que las 5 filas tienen varios datos faltantes de muchas columnas, imputar en este caso tal vez sería un poco forzado ya que de esos registros faltan muchos datos.

En este caso lo que realizaremos es **eliminar** las filas que tienen muchos datos nulos utilizando el método [dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html). Este método permite eliminar filas o columnas y se pueden definir distintos criterios. En este caso eliminaremos los 5 registos que tienen 5 datos nulos.

In [33]:
# qué datos toma la variable

data.dropna(axis=0, thresh=5)

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
0,0.92,11.27,130.0,8.05,1021.60,no,Cold,-0.56
1,0.73,20.93,330.0,16.10,1017.00,si,Warm,21.11
2,0.97,5.97,193.0,14.91,1013.99,si,Normal,16.60
3,0.82,3.22,300.0,16.10,1031.59,si,Cold,1.60
4,0.60,10.88,116.0,9.98,1020.88,si,Cold,2.19
...,...,...,...,...,...,...,...,...
9995,0.95,10.24,20.0,4.01,1007.41,si,Normal,10.02
9996,0.64,11.04,80.0,9.98,1031.33,si,Normal,8.63
9997,0.93,11.04,269.0,14.91,1014.21,si,Normal,5.98
9998,0.78,8.18,231.0,7.82,1005.02,si,Normal,9.79


In [None]:
# Revisamos la operación

data.loc[nulo_visibilidad]

In [None]:
# Comprobamos el tamaño del dataset y la cantidad de nulos

print(data.shape)
data.isnull().sum()

#### Lluvia

Revisaremos el caso de la columna *lluvia* observando cómo es el dato nulo. Nuevamente utilizaremos el método *isnull()* como una máscara y luego el método *.loc* para observar el dato

In [34]:
nulo_lluvia = data["lluvia"].isnull()
nulo_lluvia

0       False
1       False
2       False
3       False
4       False
        ...  
9995    False
9996    False
9997    False
9998    False
9999    False
Name: lluvia, Length: 10000, dtype: bool

In [35]:
data.loc[nulo_lluvia]

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
1862,0.97,9.58,299.0,11.27,1003.99,,Normal,17.64


Podemos observar que es solamente un dato y no se observa ninguna otra particularidad ya que el resto de los valores parecen correctos.

En este caso lo que realizaremos es **imputar** de manera aleatoria el dato faltante. Al ser una variable categórica utilizaremos la **moda**, es decir, el valor que más veces se repite. Para esto volveremos a observar como estás distribuidos los valores que puede tomar la columna y luego definiremos con *.loc* el dato faltante y lo completaremos.

En este caso lo realizaremos de manera aleatoria utilizando como criterio la **moda**, también podría imputarse los datos faltantes en base a los otros datos de las columnas que si tenemos, por ejemplo, *humedad* o *descripcion*.

In [36]:
# qué datos toma la variable

data["lluvia"].value_counts()

si    8911
no    1088
Name: lluvia, dtype: int64

In [37]:
# Como la moda es "si" (el valor que más se repite) imputaremos con ese valor (que además corresponde con la humedad)

# Seleccionaremos el dato que queremos imputar

data.loc[nulo_lluvia, "lluvia"]

1862    NaN
Name: lluvia, dtype: object

In [38]:
# Imputaremos el dato con el valor que definamos, en este caso "si"

data.loc[nulo_lluvia, "lluvia"] = "si"

In [39]:
# Revisamos la operación

data.loc[nulo_lluvia]

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
1862,0.97,9.58,299.0,11.27,1003.99,si,Normal,17.64


In [None]:
# Comprobamos que este correctamente imputado y que no haya más datos nulos en lluvia

print(data["lluvia"].value_counts())
data.isnull().sum()

#### Descripción

Ahora realizaremos el mismo procedimiento en el caso de los datos nulos en la variable *decripción*, utilizaremos *isnull()* para crear una máscara y luego filtraremos con *.loc.* para observar los datos