## Filtrar Dataset

Hoy aprenderemos a filtrar un dataset y realizar agrupaciones con métodos de la librería de pandas.

Retomaremos el dataset utilizado la clase anterior sobre el Abrbolado de la Ciudad de Buenos Aires extraído de https://data.buenosaires.gob.ar/dataset/arbolado-publico-lineal. Recuerden que cada fila de este dataset representa UN Árbol


In [1]:
#importamos las librerias que utilizaremos
import pandas as pd

In [None]:
data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")
data

### Filtrar un dataset

#### .iloc

Para acceder a determinadas columnas, filas o registros de un dataset es posible indexarlos por número de fila y número de columna a través del método *.iloc* y entre corchetes separado por una coma primero las filas y luego las columnas.

Además es posible utilizar un *slice*, es decir, seleccionar filas o columnas  donde se indique desde y hasta cual. Para eso se coloca un valor, dos puntos y el segundo valor, siendo **el primero inclusivo y el último no inclusivo**.

Para seleccionar todas las filas o todas las columnas debo colocar hacer un slice sin límite, es decir solo : (dos puntos)

In [None]:
data.head()

In [None]:
# iloc: acceso por número de fila, columna
data.iloc[1,3]

In [None]:
# slice entre fila 1 a 4 (no inclusivo), columa 3
data.iloc[1:4, 3]

In [None]:
# Fila 4 y todas sus columnas  (si no se coloca nada se asume que son todas las columnas)

data.iloc[4, :]

In [None]:
# Para filtrar toda una columna se debe colocar : en lugar de las filas

data.iloc[:, 2]

#### .loc
Es posible filtrar por columnas, filas o registros utilizando el nombre de las columnas utilizando el método *.loc* y entre corchetes primero las filas y luego las columnas

In [None]:
data

In [None]:
# fila 1, columa "nombre_cientifico"

data.loc[1,"nombre_cientifico"]

In [None]:
# Para ver todos los registros de una columna se debe indicar : en el lugar de las filas

data.loc[:, "nombre_cientifico"]

In [None]:
 # Se puede seleccionar una lista de columnas

data.loc[:, ["direccion_normalizada", "nombre_cientifico"]]

#Notese que se puede hacer sin el loc como vimos la Notebook anterior

#### Filtrar un DataFrame

Para realizar un filtro de determinados valores se debe generar máscara con una operación lógica que devuelva *True* o *False*.

Luego se debe usar el método *.loc* con la máscara donde los valores *True* los tomará y los valores *False* los descartará

In [None]:
data["comuna"]== 1

In [None]:
#filtrar Comuna 1
print(data["comuna"])
mask_comuna1 = data["comuna"]== 1   #ver el doble igual. Como es un número no requiere las comillas
mask_comuna1

In [None]:
#solo devuelvo los valores True (evalua por índice)
data.loc[mask_comuna1]

In [None]:
#por default sin el .loc selecciona filas True

data[mask_comuna1]

In [None]:
# loc[filas (True), columnas]

data.loc[mask_comuna1,"nombre_cientifico"]

In [None]:
#error sin el loc

data[mask_comuna1,"nombre_cientifico"]

In [None]:
#error con iloc

data.iloc[mask_comuna1]

In [None]:
# Crear un nuevo Dataframe filtrado la comuna 1

data_comuna1 = data.loc[mask_comuna1]


In [None]:
data_comuna1

In [None]:
# Realizar operaciones matemáticas sobre el DataFrame filtrado. ¿Cuántos abroles hay en la comuna 1?

data_comuna1["nro_registro"].count()

In [None]:
# ¿Cuánto es el promedio de altura de los árboles de la comuna 1?

data_comuna1["altura_arbol"].mean()

De la misma manera podemos filtrar los Àrboles que están en la calle Arroyo

In [None]:
# ¿Qué árboles hay sobre la calle Arroyo?. Se puede hacer la máscara en la misma fila que el loc, en este caso de "calle_nombre"

data.loc[(data["calle_nombre"]=="Arroyo"), "nombre_cientifico"]

#ver que es sensible a mayusculas y minusculas

In [None]:
# ¿Cuántos árboles hay en la calle Arroyo?

data.loc[(data["calle_nombre"]=="Arroyo"), "nro_registro"].count()

Admás es posible realizar un filtro de un registro particular, en este caso la el árbol que queda en la dirección "ARROYO 848"

In [None]:
#Definición de operación lógica con ==

mask_arroyo = data["direccion_normalizada"]== "ARROYO 848"
mask_arroyo

data["direccion_normalizada"]== "ARROYO 848"

In [None]:
# data[mask_arroyo]
data.loc[mask_arroyo, "direccion_normalizada"]


In [None]:
# ¿Qué tipo de árbol hay en Arroyo 848?

data.loc[mask_arroyo, "nombre_cientifico"]

También es posible utilizar más de una condición

Podemos utilizar *&* (y) en el caso que sea necesario que se cumplan todas las condiciones y *|* (o) en el caso de que se tenga que cumplir por lo menos una.

In [None]:
# Àrboles de nombre_cientifico Fraxinus pennsylvanica en la calle Arroyo

mask_fraxinus_arroyo = (data["calle_nombre"]=="Arroyo") & (data["nombre_cientifico"]=="Fraxinus pennsylvanica") 

In [None]:
# Podemos obviar el .loc 

data[mask_fraxinus_arroyo].head()

In [None]:
# Àrboles que quedan en la calle Arroyo o en la calle Esmeralda (notar el O). Lo hacemos en una sola fila

data[(data["calle_nombre"]=="Arroyo") | (data["calle_nombre"]=="Esmeralda")]