#### Dataset

Hoy aprenderemos a filtrar un dataset y realizar agrupaciones con métodos de la librería de pandas.

Retomaremos el dataset utilizado la clase anterior sobre Encuentros de educación ambiental extraído de https://datos.gob.ar/dataset/ambiente-encuentros-jornadas-educacion-ambiental

In [None]:
#importamos las librerias que utilizaremos
import pandas as pd


#### Desde el Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv("ruta",  sep=";") #aclaración punto y coma en este archivo

#### Desde el archivo descargado en la computadora

In [None]:
from google.colab import files
import io

In [None]:
filesUploaded = files.upload()

Saving encuentro-educacion-ambiental.csv to encuentro-educacion-ambiental.csv


In [None]:
data = pd.read_csv(io.BytesIO(filesUploaded["encuentro-educacion-ambiental.csv"]), sep=";") 


In [None]:
data.head(3)


### Filtrar un dataset

#### .iloc

Para acceder a determinadas columnas, filas o registros de un dataset es posible indexarlos por número de fila y número de columna a través del método *.iloc* y entre corchetes separado por una coma primero las filas y luego las columnas.

Además es posible utilizar un *slice*, es decir, seleccionar filas o columnas  donde se indique desde y hasta cual. Para eso se coloca un valor, dos puntos y el segundo valor, siendo el primero inclusivo y el último no inclusivo).

Para seleccionar todas las filas o todas las columnas debo colocar hacer un slice sin límite, es decir solo : (dos puntos)

In [None]:
data

In [None]:
#iloc: acceso por número de fila, columna
data.iloc[1,3]

In [None]:
#slice entre fila 1 a 4 (no inclusivo), columa 3
data.iloc[1:4, 3]

In [None]:
# Seleccionar la fila 4 y todas sus columnas  (si no se coloca nada se asume que son todas las columnas)

data.iloc[4, :]

In [None]:
# Para filtrar la columna se debe colocar : en lugar de las filas

data.iloc[:, 2]

#### .loc
Es posible filtrar por columnas, filas o registros utilizando el nombre de las columnas utilizando el método *.loc* y entre corchetes primero las filas y luego las columnas

In [None]:
#fila 1, columa "encuentro_tematica"
data.loc[1,"encuentro_tematica"]

In [None]:
# Para ver todos los registros se debe indicar : en el lugar de las filas

data.loc[:, "encuentro_tematica"]

In [None]:
 # Se puede seleccionar una lista de columnas

 data.loc[:, ["encuentro_tematica", "Encuentro_destinatarios"]]

 #Notese que se puede hacer sin el loc como vimos la Notebook anterior

#### Filtrar un DataFrame

Para realizar un filtro de determinados valores se debe generar máscara con una operación lógica que devuelva *True* o *False*.

Luego se debe usar el método *.loc* con la máscara donde los valores *True* los tomará y los valores *False* los descartará

In [None]:
#filtrar 2016
print(data["encuentro_anio"])
mask_2016 = data["encuentro_anio"]== 2016   #ver el doble igual. Como es un número no requiere las comillas
mask_2016

In [None]:
#solo devuelvo los valores True (evalua por índice)
data.loc[mask_2016]

In [None]:
#por default sin el .loc selecciona filas True
data[mask_2016]

In [None]:
#loc[filas (True), columnas]
data.loc[mask_2016,"encuentro_tematica"]

In [None]:
#error sin el loc
data[mask_2016,"encuentro_tematica"]

In [None]:
#error con iloc
data.iloc[mask_2016]

In [None]:
#creo dataframe filtrado 2016

data_2016 = data.loc[mask_2016]


In [None]:
# Puedo utilizar una operación matemática sobre el DataFrame filtrado. ¿Cuántos encuentros se realizaron en 2016?
data_2016["encuentro_numero"].sum()

In [None]:
#cuantos participaron en los encuentros de 2016
data_2016["encuentro_participantes"].sum()

In [None]:
#en una sola linea
data.loc[mask_2016,"encuentro_participantes"]#.sum()

In [None]:
#ver el encuentro con mayor cantidad de participantes
data["encuentro_participantes"].max()

In [None]:
#Definición de operación lógica con ==

mask_max_participantes = data["encuentro_participantes"]== data["encuentro_participantes"].max()
mask_max_participantes

In [None]:
data[mask_max_participantes]
#data.loc[mask_max_participantes]


In [None]:
#temática del encuentro con mayor cantidad de participantes
data.loc[mask_max_participantes, "encuentro_tematica"]

In [None]:
#buscar temáticas de ecuentros para Autoridades y docentes universitarios. Se puede hacer la máscara en la misma fila que el loc

data.loc[(data["Encuentro_destinatarios"]=="Autoridades y docentes universitarios"), "encuentro_tematica"]

In [None]:
#cuantos participantes de los encuentros para Autoridades y docentes universitarios
data.loc[(data["Encuentro_destinatarios"]=="Autoridades y docentes universitarios"), "encuentro_participantes"].sum()

#### Agrupación

El método _groupby_agrupa todas las filas que tengan igual valor. [Documentacion groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby)


Podemos describir las operaciones sobre grupos con el término *split-apply-combine*

En la primera etapa del proceso, los datos en un objeto `pandas` (una instancia de `Series` o de `DataFrame`) se dividen en grupos (*split*) en base a una o más keys que definimos. Esta división se lleva a cabo por filas (axis = 0) o por columnas (axis = 1).

Como segunda etapa, aplicamos una función a cada uno de los grupos (*apply*) dando como resultado un nuevo valor por grupo.

Como último paso, los resultados de la aplicación de la función en cada uno de los grupos se combina en un objeto resultado (*combine*).



In [None]:
#agrupamos la tabla por año
data_agrupada = data.groupby("encuentro_anio")
data_agrupada

#Acá se crea un objeto agrupado por encuentro pero aún o hemos realizado ninguna operación para poner datos
#Sería como una tabla que solamente tiene un índice y falta indicar los datos

In [None]:
#cuántos valores de cada año
data_agrupada.size()

In [None]:
# sobre esta agrupación podemos realizar distintos operaciones, por ejemplo sumar la cantidad de participantes por año (por agrupación)
data_agrupada["encuentro_participantes"].sum()

In [None]:
#creo un DataFrame de la data agrupada por año, ver que tiene un índice y una columna
data_anio_encuentro =data_agrupada["encuentro_participantes"].sum()
print(data_anio_encuentro.shape)
data_anio_encuentro

In [None]:
# Vamos a agrupar los encuentros por destinatario, primero observamos cuantos hay de cada tipo

data["Encuentro_destinatarios"].value_counts()

In [None]:
# realizamos la agrupación utilizando el método groupby

data_destinantarios = data.groupby("Encuentro_destinatarios")
data_destinantarios

# ¿Cuántas filas debería tener la agrupación? Observar el value_counts()


In [None]:
# Hacer una operación: sumar la cantidad de encuentros 

data_destinantarios["encuentro_participantes"].sum()

In [None]:
# Hacer una operación: el primer año en el que se desarrollaron encuentros

data_destinantarios["encuentro_anio"].min()

### Ejercicios
 1. ¿Cuáles son los posibles destinatarios?

 2. Mostrar la información de los encuentros del año 2019. *Crear una máscara y luego acceder con .loc*
 
 3. Crea un Dafreame con los destinatarios de los encuentros del año 2019.
 
 4. ¿Cuántos encuentros hubo en el año 2018?
 
 5. ¿Cuántos encuentros hubo para "Almunos de nivel secundario"? *Realizaro con sum() y luego crea un Dataframe con la información de este/esos encuentro/s*
 
 6. ¿Cuántos participantes promedio hubo por año? *usar groupby*
 
 7. ¿Cuántos participantes de cada destinatario hubo? *usar groupby*
 
 8. ¿Cuántos participantes hubo por año por destinatario por año? *para hacer agrupaciones sobre 2 columnas se deben colocar entre corchetes dentro del parentesis (["columa1", "columna2"])*