# Limpieza de datos
 
La limpieza de datos es uno de los pasos más importantes en un proyecto de análisis de datos ya que si los datos están "sucios", el análisis también lo será.
 
Para evaluar la validez de los datos de nuestro dataset, es importante analizar y corroborar si los datos cumplen o se ajustan a la reglas o restricciones propias del dato:
* **De tipo de dato**: los valores en una columna en particular deben ser de un tipo de datos.
* **De rango**: generalmente, los números o fechas deben estar dentro de un cierto rango.
* **Obligatorias**: determinadas columnas no pueden estar vacías.
* **Únicas**: un campo, debe ser único en un conjunto de datos.
* **De pertenencia al conjunto**: los valores de una columna provienen de un conjunto de valores discretos. Por ejemplo, el sexo biológico de una persona en general se marca como masculino o femenino.
* **Patrones de expresión regular**: campos de texto que deben seguir un patrón determinado. (Email)
* **Validación de campo cruzado**: deben cumplirse determinadas condiciones que abarcan varios campos. Por ejemplo, la fecha de alta de un paciente del hospital no puede ser anterior a la fecha de admisión.
 

Vamos a hacer una revisión de las columnas para ver si hay datos erroneos. También vamos a revisar si hay datos nulos (registros vacíos). Vamos a resolver estos problemas utilizando métodos de la librería Pandas.

In [1]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

import numpy as np

In [2]:
data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")
data.head()

  data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")


Unnamed: 0,long,lat,nro_registro,tipo_activ,comuna,manzana,calle_nombre,calle_altura,calle_chapa,direccion_normalizada,ubicacion,nombre_cientifico,ancho_acera,estado_plantera,ubicacion_plantera,nivel_plantera,diametro_altura_pecho,altura_arbol
0,-58.378563,-34.594902,26779,Lineal,1,,Esmeralda,1000.0,1120.0,ESMERALDA 1120,,Tipuana tipu,5.5,Ocupada,Regular,A nivel,88.0,34.0
1,-58.381532,-34.592319,30887,Lineal,1,,Pellegrini Carlos,1300.0,1345.0,"PELLEGRINI, CARLOS 1345",Exacta,Peltophorum dubium,4.5,Ocupada,Regular,Elevada,6.0,5.0
2,-58.379103,-34.591939,30904,Lineal,1,,Arroyo,800.0,848.0,ARROYO 848,Exacta,Fraxinus pennsylvanica,4.0,Ocupada,Regular,A nivel,7.0,6.0
3,-58.38071,-34.591548,31336,Lineal,1,,Arroyo,900.0,932.0,ARROYO 932,LD,Fraxinus pennsylvanica,,Ocupada,Regular,A nivel,9.0,29.0
4,-58.38071,-34.591548,31337,Lineal,1,,Arroyo,900.0,932.0,ARROYO 932,LA,Jacaranda mimosifolia,,Ocupada,Regular,A nivel,13.0,8.0


In [96]:
import pandas as pd
import numpy as np
nombres = pd.Series(['Mariela','Malena','Leandro','Lautaro','Franco','Gian','Aylen'])
edad = pd.Series([18,13,21,np.nan,np.nan,np.nan,19])
datos = pd.DataFrame({"nombres":nombres,"Edades":edad})



In [19]:
edad + 3

0    21.0
1    16.0
2    24.0
3     NaN
dtype: float64

In [26]:
for numero in edad:
  print (f'La edad es {numero}')
  print ('La edad es ' + str(numero))

La edad es 18.0
La edad es 18.0
La edad es 13.0
La edad es 13.0
La edad es 21.0
La edad es 21.0
La edad es nan
La edad es nan


In [81]:
mascara = datos['Edades'].isna()
mascara

0    False
1    False
2    False
3     True
4     True
5     True
6    False
Name: Edades, dtype: bool

In [55]:
~ mascara

0     True
1     True
2     True
3    False
4    False
5    False
6     True
Name: Edades, dtype: bool

In [61]:
datos['nombres'].isna() & mascara

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [90]:
datos

Unnamed: 0,nombres,Edades
0,Mariela,18.0
1,Malena,13.0
2,Leandro,21.0
3,Lautaro,
4,Franco,
5,Gian,
6,Aylen,19.0


In [97]:
mascara_no_nulos = ~datos['Edades'].isna()

In [100]:
datos.loc[mascara_no_nulos,'Edades']

0    18.0
1    13.0
2    21.0
6    19.0
Name: Edades, dtype: float64

In [99]:
datos.loc[~mascara_no_nulos,'Edades']

3   NaN
4   NaN
5   NaN
Name: Edades, dtype: float64

In [94]:
# datos.loc[~mascara_no_nulos,'Edades'] = datos['Edades'].mean()
# Opcion mejor, reemplazar edades el azar de las que ya conocemos.

In [105]:
datos_para_imputar = datos.loc[mascara_no_nulos,'Edades'].sample(3)

In [106]:
datos_para_imputar

1    13.0
6    19.0
0    18.0
Name: Edades, dtype: float64

In [113]:
datos['Edades'].iloc[~mascara_no_nulos] = datos_para_imputar

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos['Edades'].loc[~mascara_no_nulos] = datos_para_imputar


In [112]:
datos

Unnamed: 0,nombres,Edades
0,Mariela,18.0
1,Malena,13.0
2,Leandro,21.0
3,Lautaro,13.0
4,Franco,19.0
5,Gian,18.0
6,Aylen,19.0


In [36]:
datos.isna()

Unnamed: 0,nombres,Edades
0,False,False
1,False,False
2,False,False
3,False,True
4,False,True
5,False,True
6,False,True


In [43]:
nro_nans = datos['Edades'].isna().sum()
edades_no_nans = datos['Edades'][~datos['Edades'].isna()]

In [44]:
edades_no_nans

0    18.0
1    13.0
2    21.0
Name: Edades, dtype: float64

### Errores en la carga de los datos

En muy comun al utilizar datos de la vida real que haya errores en la carga y es necesario realizar una limpieza para normalizar los datos y asegurarse que todo este cargado de la misma manera. Es necesario realizar esto previo a hacer visualizaciones para poder hacer un análisis de datos de mejor calidad.

En este caso análizaremos las columnas *estado_plantera*, *ubicación_planera* y *nivel_planteara* para realizar una limpieza con distintas técnicas de la librearía Pandas.


In [114]:
data

Unnamed: 0,long,lat,nro_registro,tipo_activ,comuna,manzana,calle_nombre,calle_altura,calle_chapa,direccion_normalizada,ubicacion,nombre_cientifico,ancho_acera,estado_plantera,ubicacion_plantera,nivel_plantera,diametro_altura_pecho,altura_arbol
0,-58.378563,-34.594902,26779,Lineal,1,,Esmeralda,1000.0,1120.0,ESMERALDA 1120,,Tipuana tipu,5.5,Ocupada,Regular,A nivel,88.0,34.0
1,-58.381532,-34.592319,30887,Lineal,1,,Pellegrini Carlos,1300.0,1345.0,"PELLEGRINI, CARLOS 1345",Exacta,Peltophorum dubium,4.5,Ocupada,Regular,Elevada,6.0,5.0
2,-58.379103,-34.591939,30904,Lineal,1,,Arroyo,800.0,848.0,ARROYO 848,Exacta,Fraxinus pennsylvanica,4,Ocupada,Regular,A nivel,7.0,6.0
3,-58.380710,-34.591548,31336,Lineal,1,,Arroyo,900.0,932.0,ARROYO 932,LD,Fraxinus pennsylvanica,,Ocupada,Regular,A nivel,9.0,29.0
4,-58.380710,-34.591548,31337,Lineal,1,,Arroyo,900.0,932.0,ARROYO 932,LA,Jacaranda mimosifolia,,Ocupada,Regular,A nivel,13.0,8.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
370175,,,546140,Lineal,15,919,Guevara,1000.0,1000.0,,LD3,Ceiba speciosa,3.3,Ocupada,Regular,A nivel,34.0,7.0
370176,,,546141,Lineal,15,919,Guevara,1000.0,1000.0,,LD4,Melia azedarach,3.3,Ocupada,Regular,A nivel,45.0,8.0
370177,,,546142,Lineal,15,919,Guevara,1000.0,1000.0,,LD5,Ceiba speciosa,3.3,Ocupada,Regular,A nivel,60.0,8.0
370178,,,546143,Lineal,15,919,Guevara,1000.0,1000.0,,LD6,Ceiba speciosa,3.3,Ocupada,Regular,A nivel,64.0,8.0


#### Columna *ubicación_plantera*


In [115]:
data["ubicacion_plantera"].unique()

array(['Regular', nan, 'Fuera de línea', 'Ochava', 'Regular ', 'regular',
       'Fuera Línea,Ochava', 'Cantero Grande', 'Ocupada', 'o', 'Elevada',
       'O', 'Och', 'Ochva', 'Ochava/Fuera Línea', 'Subocupada', 'ochava',
       'Fuera Nivel', 'Sobreocupada', 'Fuera de Línea, Ochava',
       'Fuera Línea/Ochava'], dtype=object)

En este caso vemos varios problemas: datos que son leídos como diferentes pero en realidad son iguales por diferencia entre mínisculas y mayúsculas o por espacios de más (ejemplo: "Regular "), también se ven campos que están mal escritos como "Ochava" con "Ochva" y "Och" y datos que hay solamente una "o" que puede ser "Ochava" u "Ocupada". Como no lo sabemos en este caso vamos a dejar el dato nulo.

Para poner dato nulo vamos a utilizar un método de la librería Numpy = np.NaN (Not a Number)

Vamos a usar el método método [replace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html) 

In [121]:
datos_nombre_corregido = datos.replace("Aylen", "Ayelen", inplace = True)

In [125]:
datos.columns=['Nombres','Edades']

In [130]:
datos.rename(columns={"Edades":"edades"}, inplace=True)

In [131]:
datos

Unnamed: 0,Nombres,edades
0,Mariela,18.0
1,Malena,13.0
2,Leandro,21.0
3,Lautaro,
4,Franco,
5,Gian,
6,Ayelen,19.0


In [132]:
data.replace("Regular ", "Regular",inplace=True)
data.replace("regular", "Regular",inplace=True)
data.replace("o" , np.NaN,inplace=True)
data.replace("O", np.NaN,inplace=True)
data.replace("Och", "Ochava",inplace=True)
data.replace("Ochva", "Ochava",inplace=True)
data.replace("ochava" , "Ochava",inplace=True)
data.replace("Fuera Línea,Ochava", "Ochava/Fuera Linea",inplace=True)
data.replace("Fuera de Línea, Ochava", "Ochava/Fuera Linea",inplace=True)
data.replace("Ochava/Fuera Línea", "Ochava/Fuera Linea",inplace=True)
data.replace("Fuera Línea/Ochava", "Ochava/Fuera Linea",inplace=True)
data.replace("Ochava/Furea Linea", "Ochava/Fuera Linea",inplace=True)
              

In [133]:
data["ubicacion_plantera"].unique()

array(['Regular', nan, 'Fuera de línea', 'Ochava', 'Ochava/Fuera Linea',
       'Cantero Grande', 'Ocupada', 'Elevada', 'Subocupada',
       'Fuera Nivel', 'Sobreocupada'], dtype=object)

In [138]:
data["ubicacion_plantera"].value_counts()

Regular           340831
Ochava             21892
Fuera de línea      5941
Otro                  99
Name: ubicacion_plantera, dtype: int64

In [137]:
data.replace({"Ocupada":"Otro","Fuera Nivel":"Otro",
                                "Cantero Grande":"Otro","Ochava/Fuera Linea":"Otro",
                                "Sobreocupada":"Otro","Elevada":"Otro","Subocupada":"Otro"}, inplace=True)

#### Columna *nivel_plantera*


In [139]:
data["nivel_plantera"].unique()

array(['A nivel', 'Otro', 'Bajo nivel', nan, 'A Nivel', 'Bajo Nivel',
       'AN', 'EL', 'Elevado', 'a Nivel', 'elevada', 'el', 'A nivel ',
       'Reducida', 'Bajo Bivel', 'Eleveda',
       'obs: no tiene plantera definida', 'BN', 'Regular', 'bajo nivel',
       'A  Nivel', 'Bajo  nivel', 'Ochava', 'Elevadas', 'Baja Nivel',
       'An', 'ELEVADA'], dtype=object)

In [140]:
data["nivel_plantera"].value_counts()

A nivel                            232099
Otro                                78433
Bajo nivel                          35653
A Nivel                             21479
Bajo Nivel                            850
AN                                     88
A nivel                                61
a Nivel                                40
A  Nivel                               32
EL                                     21
Elevadas                               18
BN                                     12
Bajo Bivel                              9
Elevado                                 6
Reducida                                5
Eleveda                                 5
elevada                                 4
el                                      2
bajo nivel                              2
Baja Nivel                              2
ELEVADA                                 2
obs: no tiene plantera definida         1
Regular                                 1
Bajo  nivel                       

También notamos que varios valores están escrito de distintas maneras, vamos a utilizar nuevamente el método [replace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html) pero en este caso vamos a crear un diccionario para hacer el reemplazo

In [144]:
dicc_reemplazar= {"Bajo nivel":"Bajo Nivel",
                  "EL": "Elevadas",
                  "BN": "Bajo Nivel",
                  "Bajo Bivel" : "Bajo Nivel",
                  "Elevado" : "Elevadas",
                  "Eleveda": "Elevadas",
                  "elevada":"Elevadas",
                  "Elevada":"Elevadas",
                  "Baja Nivel": "Bajo Nivel",
                  "ELEVADA": "Elevadas",
                  "el":"Elevadas",
                  "bajo nivel": "Bajo Nivel",
                  "Bajo  nivel": "Bajo Nivel",
                   "obs: no tiene plantera definida": np.NaN
                  }

In [145]:
data.replace(dicc_reemplazar, inplace=True)

In [146]:
data["nivel_plantera"].unique()

array(['A nivel', 'Otro', 'Bajo Nivel', nan, 'A Nivel', 'AN', 'Elevadas',
       'a Nivel', 'A nivel ', 'Reducida', 'Regular', 'A  Nivel', 'Ochava',
       'An'], dtype=object)

In [None]:
# También se puede colocar dentro del reemplace una lista dentro de un diccionario


data.replace(["A nivel","AN",  "A  Nivel","a Nivel", "A nivel ", "A Nivel", "an", "An"], "A Nivel", inplace=True)

In [None]:
data["nivel_plantera"].unique()

#### Columna  *estado_plantera*

In [None]:
data["estado_plantera"].unique()

In [None]:
data["estado_plantera"].value_counts()

Podemos analizar que "Sobreocupada", "sobreocupada" y "SobreOcupada" es el mismo valor, solo que está escrito de distintas maneras ya que python (y la mayoría de los lenguajes) es sensible a las mayusculas y minusculas. Para resolver este tema vamos a utilizar el método [.Lower](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.lower.html) de Python y dejar todos los campos en minúsucula

In [None]:
data["estado_plantera"] = data["estado_plantera"].str.lower()

# Observar que en este caso reemplazamos la columna, podrìamos crear una nueva con otro nombre y luego eliminar la anterior

In [None]:
data["estado_plantera"].unique()

Si observamos con antención hay un espacio en la segunda "ocupada", por eso esta identificada como distinta, en este caso vamos a utilizar dos métodos de pandas: *apply* y *lambda*

- [apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html): puede realizarse sobre un DataFrame y opera sobre filas o columnas completas o sobre una Series (una sola columna) y opera sobre cada uno de los elementos.

- **funciones lambda** también se denominan funciones anónimas. Una función anónima es una función definida sin un nombre. Como sabemos, para definir una función normal en Python, usamos la palabra clave *def*, pero en el caso de funciones anónimas, usamos la palabra clave *lambda* para definirlas.

La sintaxis es 

    lambda argumento: expresión

Dentro de la expresión se realizará la función que se desea realizar.

En este caso definiremos la función lambda para realizar un condicional donde reemplace los valores "ocuapada " por un "ocupada" y sino que deje el valor.

In [None]:
# Se define una nueva columna "estado_plantera" con "apply" se corre la función "lambda" por cada uno de los valores de las celdas de nuestra Series
# x es el argumento que en este caso se refiere a cada valor de la columna

data["estado_plantera"] = data["estado_plantera"].apply(lambda x: "ocupada" if x=="ocupada " else x)

En el mismo sentido podemos considerar que "cantero ocupado" y "ocupada" son lo mismo, está es una decisión del/la analista de datos teniendo conociemiento sobre el tema que estamos trabajando. 

Vamos a utilizar nuevamente el método [replace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html)

In [None]:
data.replace("cantero ocupado", "ocupada", inplace=True)

In [None]:
data["estado_plantera"].unique()

#### Identificación de datos nulos

Ahora vamos a limpiar los datos nulos que encontramos en nuestro dataset. 
Para observar si hay datos nulos se puede utilizar el método *isnull()* o *isna()* el cual devovlerá **True** en el caso que haya un dato nulo y **False** en el caso que no lo haya.
Esto puede ser utilizado como una máscara para filtrar el dataset y ver los registros nulos.

Para saber la cantidad de datos nulos es posible utilizar *sum()* luego de la identificación de los nulos sabiendo que **True** cuenta como 1 y **False** cuenta como 0, de esta manera sumara 1 por cada dato nulo. 

In [None]:
data.isnull()

In [None]:
data.isna()

In [None]:
data.isnull().sum()

Podemos observar que hay varias variables quue tienen datos nulos, frente a eso se pueden realizar distintas estrategias: **imputar**, **marcar** o **eliminar**, eso dependerá de la importancia de la columna, de la cantida de datos nulos y es decisión del/la Analista de datos. 

#### Columna *manzana*

En este caso vamos a analizar qué columnas no son importantes para nuestro análisis por ejemplo la columna *manzana*, se interpreta que tiene muchos nulos porque no en todas las direcciones se indica este dato, pero vemos que de 370.180, 146.040 son nulos, es decir casi el 40% es nulo.

En este caso vamos a eliminar la columna con el método [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

In [None]:
data.drop(columns="manzana", inplace=True)

In [None]:
data.columns

#### Columna *calle_nombre*

Vamos a ver los registros nulos de de *calle_nombre*, para eso vamos a hacer una máscara y filtrar el dataset para verlo mejor

In [None]:
mask_nulo_calle = data["calle_nombre"].isnull()
mask_nulo_calle

In [None]:
data.loc[mask_nulo_calle]

En este caso observamos que los registros que tienen nulo el *calle_nombre* tienen varios datos faltantes de muchas columnas, no tenemos ningún dato de ubicación por lo que en este caso tal vez vamos a eliminar los registros que tienen este dato nulo

En este caso lo que realizaremos es **eliminar** las filas que tienen muchos datos nulos utilizando el método [dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html). Este método permite eliminar filas o columnas y se pueden definir distintos criterios. En este caso eliminaremos los registos que tienen nulo esta columna.

In [None]:
data.dropna(subset=["calle_nombre"], inplace=True)

In [None]:
# Revisamos la operación

data.shape

In [None]:
data.isnull().sum()

#### Columna *nivel_plantera*

En este caso vemos que hay 1324 nulos que representan menos del 1% de los datos

In [None]:
data.loc[data["nivel_plantera"].isnull()]

Podemos observar que es solamente uno o dos datos y no se observa ninguna otra particularidad ya que el resto de los valores parecen correctos.

En este caso lo que realizaremos es **imputar** de manera aleatoria el dato faltante. Al ser una variable categórica utilizaremos la **moda**, es decir, el valor que más veces se repite. Para esto volveremos a observar como estás distribuidos los valores que puede tomar la columna y luego definiremos con *.loc* el dato faltante y lo completaremos.

En este caso lo realizaremos de manera aleatoria utilizando como criterio la **moda**, también podría imputarse los datos faltantes en base a los otros datos de las columnas que si tenemos. 

In [None]:
data["nivel_plantera"].value_counts()

In [None]:
# Como la moda es "A Nivel" (el valor que más se repite) imputaremos con ese valor (que además corresponde con la humedad)

# Seleccionaremos el dato que queremos imputar

data.loc[data["nivel_plantera"].isnull()] = "A Nivel"

In [None]:
# Revisamos la operación

data.loc[data["nivel_plantera"].isnull()]

In [None]:
# Comprobamos que este correctamente imputado y que no haya más datos nulos en lluvia

print(data["nivel_plantera"].value_counts())
data.isnull().sum()

#### Columna *ubicacion_plantera*

Ahora realizaremos el mismo procedimiento en el caso de los datos nulos en la variable *ubicacion_plantera*, utilizaremos *isnull()* para crear una máscara y luego filtraremos con *.loc.* para observar los datos

In [None]:
data.loc[data["ubicacion_plantera"].isnull()]

En este caso nuevamente lo que realizaremos es **imputar** de manera aleatoria el dato faltante. Para esto volveremos a observar los datos que puede tomar esta columna y luego definiremos con *.loc* el dato faltante y lo completaremos. Esta imputación será creando una lista aleatoria de valores para completar los datos faltantes. 

Para crear esta lista utilizaremos la libreria *random* cuyo método *choices* permite la generación de una lista aleatoria de los 4 valores que más se repiten. Para ver más de esta librería y practicar puede consultaste [w3schools](https://www.w3schools.com/python/ref_random_choice.asp)

Aquí también lo realizaremos de manera aleatoria, pero podría imputarse los datos faltantes en base a los otros datos de las columnas que si tenemos.

In [None]:
# Primero confirmaremos los valores que puede tomar la columna "descripcion"

data["ubicacion_plantera"].value_counts()

In [None]:
# Creamos la lista que tome los valores que indiquemos y k es la cantidad de valores que se generaran, en este caso 629

import random

lista_imputar = random.choices(["Regular", "Ochava", "Fuera de linea", "A Nivel"], k=629)  #correr varias veces para ver como se modifica
lista_imputar

In [None]:
# Volvemos a seleccionar los campos que queremos imputar y definimos los campos con la lista creada en el paso anterior

data.loc[data["ubicacion_plantera"].isnull(), "ubicacion_plantera"]=lista_imputar

In [None]:
# Comprobamos que este correctamente imputado y que no haya más datos nulos en lluvia

print(data["ubicacion_plantera"].value_counts())

data.isnull().sum()

## Conclusión

En esta notebook hemos revisado disntias formas de resolver los datos erroneos faltantes y se vieron diferentes métodos útiles para realizar estas operaciones. Hay muchos métodos de Pandas que se pueden utilizar como por ejemplo [fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html), en este caso solo hemos visto algunos, es importante resaltar que en todo el proceso es el/la Analista de Datos quien debe tomar decisiones sobre los pasos a seguir.

### Desafío 6: Buscar Datasets

El objetivo es ponerse en grupos y buscar dataset que sean de su interés para poder realizar un análisis. Puede ser de cualquier tema que les interese que puedan contar con Datos. Les dejamos un Documento de Google con sitios donde pueden buscar datasets, es un Documento colaborativo entre todas las comisiones de Datos asì que pueden agregar: [Dataset](https://docs.google.com/document/d/1EnimkrV_a9cu-ZrrcydZnigquQeGSpUsnqu0BA3fUFE/edit?usp=sharing!)