#### Agrupaciones y gráficos

Hoy aprenderemos realizar agrupaciones con métodos de la librería de pandas.

Retomaremos el dataset utilizado las clases anteriores sobre el Arbolado de la Ciudad de Buenos Aires

In [None]:
#importamos las librerias que utilizaremos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")
data.head()

#### Agrupación

El método _groupby_agrupa todas las filas que tengan igual valor. [Documentacion groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby)


Podemos describir las operaciones sobre grupos con el término *split-apply-combine*

En la primera etapa del proceso, los datos en un objeto `pandas` (una instancia de `Series` o de `DataFrame`) se dividen en grupos (*split*) en base a una o más keys que definimos. Esta división se lleva a cabo por filas (axis = 0) o por columnas (axis = 1).

Como segunda etapa, aplicamos una función a cada uno de los grupos (*apply*) dando como resultado un nuevo valor por grupo.

Como último paso, los resultados de la aplicación de la función en cada uno de los grupos se combina en un objeto resultado (*combine*).



In [None]:
#agrupamos la tabla por comuna
data_agrupada = data.groupby("comuna")
data_agrupada

#Acá se crea un objeto agrupado por encuentro pero aún o hemos realizado ninguna operación para poner datos
#Sería como una tabla que solamente tiene un índice y falta indicar los datos

In [None]:
#cuántos valores de cada año
data_agrupada.size()

In [None]:
#creo un DataFrame de la data agrupada por año, ver que tiene un índice y una columna
data_arboles_comuna =data_agrupada["comuna"].count()
print(data_arboles_comuna.shape)
data_arboles_comuna

In [None]:
# sobre esta agrupación podemos realizar distintos operaciones, por ejemplo hacer el promedio de la altura de los arbole (por agrupación)
data_agrupada["altura_arbol"].mean()

In [None]:
# Vamos a agrupar los arboles por nombre_cientifico, primero observamos cuantos hay de cada tipo

data["nombre_cientifico"].value_counts()

In [None]:
# realizamos la agrupación utilizando el método groupby

data_nombre_cientifico = data.groupby("nombre_cientifico")
data_nombre_cientifico

# ¿Cuántas filas debería tener la agrupación? Observar el value_counts()


In [None]:
# Hacer una operación: el arbol más alto de cada tipo

data_nombre_cientifico["altura_arbol"].max().sort_values(ascending=False)

In [None]:
# Hacer una operación: promedio altura_arbol 

nombre_cientifico_promedio_altura = data_nombre_cientifico["altura_arbol"].mean().sort_values(ascending=False)[:15]

Podemos realizar un gráfico con esta información, en este caso realizaremos un scatterplot pero solo seleccionaremos los 15 más altos para que se visualice correctamente

In [None]:
sns.scatterplot(x=nombre_cientifico_promedio_altura.index, y= nombre_cientifico_promedio_altura)

In [None]:
# Podemos girar los ejes para que se vean los nombres

sns.scatterplot(x=nombre_cientifico_promedio_altura.index, y= nombre_cientifico_promedio_altura)
plt.xticks(rotation=50)

In [None]:
# Debemos agrandar el gráfico para que se visualice mejor y podemos cambiarle la forma y el tamaño a los marcadores con los parametros 

plt.figure(figsize=(10, 5))
sns.scatterplot(x=nombre_cientifico_promedio_altura.index, y= nombre_cientifico_promedio_altura, s=100,marker="P" )
plt.xticks(rotation=45)

También podemos generar una tabla más compleja agrupando por comuna y por nombre cientifico para ver cuántos tipos de arboles hay por cada columna

En este caso vamos a realizar una agrupación por comuna y vamos a usar el método [nunique](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html) que muestra la cantidad de valores unicos (valores distintos)

In [None]:
tipo_por_comuna = data.groupby("comuna")["nombre_cientifico"].nunique()
tipo_por_comuna

Teniendo esta agrupación podemos realizar un gráfico con esta información, por ejemplo un [barplot](https://seaborn.pydata.org/generated/seaborn.barplot.html)

In [None]:
sns.barplot(x=tipo_por_comuna.index, y=tipo_por_comuna)

Podemos agregarle etiquetas a los ejes de este gráfico este gráfico utilizando los argumentos "color", [palette](https://seaborn.pydata.org/generated/seaborn.color_palette.html#seaborn.color_palette) y  "saturation". Se pueden ver los colores y paletas en la [documentación de matplotlib](https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html)

In [None]:
sns.barplot(x=tipo_por_comuna.index, y=tipo_por_comuna, palette="deep")

In [None]:
sns.barplot(x=tipo_por_comuna.index, y=tipo_por_comuna, palette="Greens")

Podemos cambiar las etiquetas y colocar nombre al gráfico

In [None]:
sns.barplot(x=tipo_por_comuna.index, y=tipo_por_comuna, color = "g", saturation=0.9)
plt.title("Cantidad de tipos de arbol por comuna")
plt.xlabel("Comuna")
plt.ylabel("Cantidad de tipos de arbol")