# Agrupando datos

Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

Un análisis EDA que vimos en el notebook anterior no nos alcanza completamente para entender los datos, principalmente cuando hay variables categóricas. Hasta ahora, estuvimos calculando un EDA para todas las filas de un conjunto de datos, pero los EDA pueden ser útiles para comparar diferentes grupos, dados por variables categóricas. Por ejemplo, ¿una raza de perro pesa más que otra en promedio? ¿Las colibríes hembra son más grandes que los machos? En este notebook vamos a aprender a trabajar cuando nuestros datos están formados por diferentes grupos.

En este notebook trabajaremos con un subset de datos de [AVONET](https://onlinelibrary.wiley.com/doi/10.1111/ele.13898). El cual es el registro de datos morfológicos, ecológicos y geográficos de pájaros. Las mediciones morfológicas son las de las siguiente [imagen](https://onlinelibrary.wiley.com/doi/10.1111/ele.13898)

Este es un subset de pequeño de especies de 11020 posibles. Y solo se eligieron las siguientes mediciones:

- **species**: Nombre de la especie.
- **sex**: Sexo del animal (macho, hembra o indefinido).
- **beak_length**: La distancia desde la punta de la mandíbula superior hasta el final del culmen en su intersección con el cere o la frente (Medida 1 de la imagen).
- **beak_depth**: Distancia entre la parte superior e inferior del pico (Medida 3 de la imagen).
- **tarsus_length**: Longitud desde el pliegue interior de la articulación tibiotarsiana hasta la base de los dedos (Medida 5 de la imagen).
- **wing_length**: La longitud del ala, la distancia entre la curva del ala y la pluma primaria más larga (Medida 6 de la imagen). 
- **tail_length**: La medida de la cola se toma desde la base de la cola hasta la punta de las plumas más largas (Medida 9 de la imagen). 

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

Arranquemos cargando nuestro datos.

1. Importa `pandas` como `pd` 

In [None]:
import ___ as pd

2. Lea el csv `birds.csv` en un DataFrame y llame al DataFrame `birds`

In [None]:
birds = pd.___("birds.csv")

3. Imprima la cabecera de `birds`. Ademas, explore la información sobre columnas.

In [None]:
birds.___()

In [None]:
birds.___()

## Explorando variables categóricas

Analizar una variable categórica con pocas categorías es relativamente sencilla. Se calcula la proporción de las categorías o al menos de las más importantes.

Vamos a trabajar con la columna `species` que contiene el nombre de las especies de pájaros.

1. Usando el método `.unique()` vea las categorías únicas que posee la columna `species` de `birds`.

In [None]:
birds["___"].unique()

Como vemos se encuentran 10 especies diferentes. Ahora vamos a calcular cuántas veces aparecen en `birds` cada especie.

2. Calcule usando `.value_counts()` la columna `species` de `birds`. Asignelo a `cuenta_species_birds`.

In [None]:
cuenta_species_birds = birds["___"].___

3. Cuente el total de filas de la columna `species` de `birds` usando `.count()`. Asignelo a `total_birds`.

In [None]:
___ = ___.count()

4. Obtenga la proporción de cada categoría dividiendo `cuenta_species_birds` con `total_birds`. Asignelo a `proporcion_species_birds`.

In [None]:
proporcion_species_birds = ___ / ___

5. Muestre a `proporcion_species_birds`

In [None]:
___

Como podemos ver 23% de los pájaros son [Zosterops chloris](https://es.wikipedia.org/wiki/Zosterops_chloris) y el que menos proporción tiene en el dataset es [Hylopezus perspicillatus](https://es.wikipedia.org/wiki/Hylopezus_perspicillatus).  

Los gráficos de barras son una herramienta visual común para mostrar una sola variable categórica. Las categorías se enumeran en el eje x y las frecuencias o proporciones en el eje y.

1. Grafique en un gráfico de barra `proporcion_species_birds` usando `.plot.bar()` de Pandas.

In [None]:
ax = proporcion_species_birds.plot.___()
ax.set_ylabel("Proportion")
ax.set_xlabel("Species");

### Moda

La moda es el valor, o valores en caso de empate, que aparece con mayor frecuencia en los datos. En los casos de `birds`, la moda es **Zosterops chloris**. La moda es una estadística de resumen simple para datos categóricos y, por lo general, no se usa para datos numéricos.

----

La proporción en este dataset es la proporción de la muestra, la cual no es medida de la proporción de la población de pájaros. Generalizar a una población puede estar determinado por muchas situaciones de cómo fue tomada la muestra. En este caso depende del operador y comportamiento del animal, atrapar a un animal depende de qué especies es.

Ahora, hay casos que son más fáciles de lograr obtener la proporción de una población, principalmente con casos que tenemos control. Por ejemplo, si tenemos registros de usuarios en una página web y queremos ver que tipo de artículos compran. En estos casos no hay problemas de operador. Cuando tenemos la posibilidad de registrar todos los datos, gracias a big data, podemos procesar toda la población directamente. Si por algún motivo no se puede contar con herramientas de **Big Data**, se puede utilizar herramientas de inferencias estadística para poder estimar esta proporción. Con esto, estamos comentando que para resolver un problema como Data Scientist, se puede ser más tradicional usando herramientas estadísticas, así como resolver problemas con heurística, Big Data y Machine Learning. 

## Agrupando mediante variables categóricas y agregación de datos

Con las variables categóricas no solo podemos ver la proporción en un dataset, sino que nos permite realizar un análisis estadístico usando a estas variables como agrupadoras. Las variables categóricas cumplen en general el rol de separar, y es esperable que las variables numéricas, estadísticamente nos presenten información como para poder obtener nueva información de nuestro dataset. Por ejemplo, el sexo de un león determina variaciones en su peso y tamaño, o un nivel socioeconomico de la población va a tener diferentes rangos de ingresos y gastos mensuales. 

Como vimos en clase, Pandas nos permite agrupar los datos usando `.groupby()`.
`
1. Usando el método `.groupby()` agrupe usando `species` de `birds` y asignelo a `birds_grouped`

In [None]:
___ = birds.groupby([___])

`.groupby()` posee un atributo llamado `.groups` que nos devuelve los grupos formados y que filas (dado por el indice) pertenece a cada uno de los grupos. Si utilizamos con `.groups`, el método `.keys()`, podemos ver cada uno de los posibles grupos, en este caso a la especies de pájaros del dataset.

2. Usando `.groups.keys()` en `birds_grouped` muestre las diferentes especies de pájaros.

In [None]:
___.groups.keys()

3. Usando `birds_grouped`, obtenga el promedio del largo de pico por especie (`"beak_length"`)

In [None]:
birds_grouped["___"].mean()

4. Usando `birds_grouped`, obtenga el desvio estandar del largo del pico por especie (`"beak_length"`)

In [None]:
___.std()

Acá vemos que el largo de pico promedio de *Cyanomitra olivacea* es el más largo de los pájaros que se encuentran en el set. Por otro lado, vemos que *Hylopezus perspicillatus* tiene menos variación del largo del pico entre especímenes que otros pájaros.

## Calculando múltiples estadísticas por grupo

La pieza final de la sintaxis que examinaremos es el método `agg()`. La funcionalidad de agregación proporcionada por `agg()` permite calcular múltiples estadísticas por grupo en un solo cálculo.

### Aplicar una sola función por columna

Las instrucciones para la agregación se proporcionan en forma de diccionario. Las key del diccionario se utilizan para especificar las columnas en las que desea realizar operaciones y los valores del diccionario para especificar la función que se ejecutará.

1. Cree un diccionario con las columnas `"beak_length"` y `"beak_depth"` cómo keys del diccionario, y para cada una que tenga como valor `"mean"` y `"median"` respectivamente. Asignelo a `beak_dict`.

In [None]:
beak_dict = {
    "___": "mean",
    "___": "median"
}

2. Use el método `.agg()` en `birds_grouped` con `beak_dict` como argumento

In [None]:
birds_grouped.___(beak_dict)

Como podemos ver, se calculó para la columna `"beak_length"` el valor promedio para cada especie y en `"beak_depth"` la mediana. 

Para realizar los pasos de agrupar y calcular la agregación no necesitamos hacerlo en varios pasos, lo podemos hacer uno solo directamente desde el dataframe `birds`.

1. Realice el mismo calculo que agregación en una sola linea usando `birds`, `.groupby()` agrupando por `species`, `.agg()` y un diccionario para indicar las agregaciones para hacer por columna.

In [None]:
birds.___("species").agg({
    "___": "mean",
    "___": "___"
})

Se observa que los grupos formados se guardan como índices. Si queremos que no formen parte del índice, sino que sean una columna más, podemos indicarle a groupby que los guarde como columna usando el argumento opcional `as_index`.

2. Realice de nuevo el `.groupby()` anterior pero ahora con el argumento opcional `as_index` igual a `False`.

In [None]:
birds.___("species", as_index=___).agg({
    "___": "mean",
    "___": "___"
})

### Aplicar más de una función por columna

Si al diccionario que se le pasa a .agg(), a una key (recordemos que la columna que queremos agregar), le pasamos una lista con las funciones que queremos aplicar, podemos calcular más de una función estadística por columna.

1. Realice un `.groupby()` del dataframe `birds`, agrupando por species. Agrupe a las columnas `"beak_length"` y `"beak_depth"` y para cada una calcule el valor medio y el desvío estándar.

In [None]:
birds.___.agg({
    "beak_length": ["___", "___"],
    ___: ___    
})

### Aplicar funciones propias

El método `.agg()` acepta [13 funciones](https://cmdlinetips.com/2019/10/pandas-groupby-13-functions-to-aggregate/) que ya están implementadas por Pandas. Estas 13 funciones abarcan un gran espectro para agregar una variable. Pero también nos permite utilizar funciones de otras librerias o las nuestras, siempre que respetemos los [requerimientos de Pandas](https://towardsdatascience.com/creating-custom-aggregations-to-use-with-pandas-groupby-e3f5ef8cb43e). 

Por ejemplo, dentro de las 13 funciones no se encuentra la **Desviación absoluta mediana** que vimos en un notebook anterior. Por lo que si queremos calcular, debemos usar en nuestra agregaciones, debemos utilizar scipy. Vamos a calcular la **desviación absoluta mediana** para las columnas `"beak_length"` y `"beak_depth"`.

1. Importa `stats` de `scipy` 

In [None]:
from ___ import ___

2. Realice un `.groupby()` del dataframe `birds`, agrupando por species. Agrupe a las columnas `"beak_length"` y `"beak_depth"` y para cada una calcule la desviación absoluta mediana usando `stats.median_abs_deviation`.

In [None]:
birds.___.agg({
    "beak_length": stats.median_abs_deviation,
    ___: ___      
})

Como podemos ver, para la mayoría de las especies es NaN, esto se debe a que el dataframe posee valores nulos en las columnas. Para evitar esto vamos a crear nuestra propia función que primero descarte los valores nulos y luego calcule la desviación absoluta mediana.

1. Importa `numpy` como `np`

In [None]:
___

2. Crea una función llamada `mad_not_null` con argumento igual a `x`, que antes de calcular la desviación absoluta mediana, saque a los valores nulos.

In [None]:
def ___(x):
    ___ = x.dropna()
    return stats.median_abs_deviation(___)

3. Realice un `.groupby()` del dataframe `birds`, agrupando por species. Agrupe a las columnas `"beak_length"` y `"beak_depth"` y para cada una calcule la desviación absoluta mediana usando la función que definimos `mad_not_null`.

In [None]:
birds.___(___).agg({
    "___": mad_not_null,
    ___: ___    
})

Ahora podemos ver que se pudo calcular sin problemas para cada especie el valor la desviación absoluta mediana con las columnas `beak_length` y `beak_depth`.

Hay veces que no deseamos definir una función de forma explícita, sino realizar una función anónima ya que es para una sola aplicación. Para ello podés usar las funciones lambdas de Python. Ahora vamos a replicar el mismo cálculo de `mad_not_null` pero usando las funciones lambdas.

4. Repita el último groupby para calcular la desviación absoluta mediana de `"beak_length"` y `"beak_depth"` pero usando una función anónima.

In [None]:
birds.___.agg({
    "beak_length": lambda x: stats.median_abs_deviation(___.dropna()),
    "beak_depth": lambda ___: ___  
})

----

## Agrupando más de una columna

Para finalizar vamos a agrupar al dataframe `birds` no solo en especie, sino que ademas por sexo del animal. Para ello en vez de indicarle una columna, se le puede pasar una lista que deseamos agrupar a `.groupby()`. El orden en que se pasan las columnas es importante ya que determina la jerarquía. En este caso la especie del animal es de una jerarquia superior a la del sexo, por lo que el orden será primero `species` y luego `sex`. Para la parte de agregación, vamos a agrupar el resto de las columnas, y para cada una de ellas vamos a calcular las siguientes métricas:

- 25th percentil: Usando una función anónima y `np.quantile` con `q=0.25`. 
- Mediana: Usando `"median"`
- 75th percentil: Usando una función anónima y `np.quantile` con `q=0.75`.  


1. Primero vamos a eliminar los registros de las especies que no fueron correctamente determinado. Esos caso se definieron como  `"U"` en `sex`. Filtre el dataframe `birds` a todas las filas que `sex` sea distinto a `"U"`. Asignelo a `birds_corrected`.

In [None]:
___ = ___[___["sex"] != "U"]

2. Creemos una lista llamada `bird_metrics` con las metricas mencionadas arriba

In [None]:
bird_metrics = [
    lambda x: np.___(___.dropna(), q=0.25),
    "median",
    lambda x: ___(___, q=0.75)
]

3. Realice un `.groupby()` del dataframe `birds_corrected`, agrupando por `species` y `sex`, ademas que el agrupamiento se guarde como columna en vez de índice (`as_index=False`). Agrupe a las columnas `"beak_length"`, `"beak_depth"`, `"tarsus_length"`, `"wing_length"` y `"tail_length"` usando la lista `bird_metrics`. 

In [None]:
birds_corrected.groupby(["___", "sex"], ___=False).agg({
    "beak_length": ___,
    "___": bird_metrics, 
    ___: ___,
    ___: ___,
    ___: ___
})

En este análisis podemos por ejemplo que, asumiendo que tenemos suficientes registros, que aves de la especie **Bleda notatus** presenta un dimorfismo sexual, mientras casos como **Zosterops chloris** esto no ocurriría.