<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/6.Gestion_de_datos/Agregaci%C3%B3n_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Agregación de datos y operaciones de grupo

La categorización de un conjunto de datos y la aplicación de una función a cada grupo, ya sea una agregación o transformación, es un componente crítico del trabajo de análisis de datos. Después de cargar, fusionar y preparar un conjunto de datos, es posible que debas calcular estadísticas de grupo o posiblemente tablas dinámicas para fines de informes o visualización. Pandas proporciona una interfaz de grupo flexible, que te permite cortar, cortar en dados y resumir conjuntos de datos de forma natural.

Como verás, con la expresividad de Python y pandas, podemos realizar operaciones grupales bastante complejas utilizando cualquier función que acepte un objeto pandas o una matriz NumPy. 

## Actividades que veremos en este apartado

* Dividir un objeto pandas en pedazos usando una o más claves (en forma de funciones, matrices o nombres de columna de DataFrame)

* Calcular estadísticas de resumen de grupo, como conteo, media o desviación estándar, o una función definida por el usuario

* Aplique transformaciones dentro del grupo u otras manipulaciones, como normalización, regresión lineal, clasificación o selección de subconjuntos

* Calcular tablas dinámicas y tabulaciones cruzadas

* Realizar análisis cuantiles y otros análisis de grupos estadísticos.

## Mecánica del GroupBy

Existe un término conocido entre los analistas que describe operaciones de grupo,*split-apply-combine* 
En la primera parte de este proceso dividimos (split) dataframes o series en grupos basados en una o más keys. Una vez realizado la división, realizamos la función *apply* a cada grupo, produciendo un nuevo valor. 
Finalmente, tomamos el resultado de esas operaciones y las combinamos en un objeto.

![alt text](https://raw.githubusercontent.com/al34n1x/DataScience/master/img/split-apply-combine.png)

*source: Python for Data Analysis, 2nd Edition*



In [0]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                   'key2' : ['one', 'two', 'one', 'two', 'one'],
                   'data1' : np.random.randn(5),
                   'data2' : np.random.randn(5)})
df

Supongamos que deseas calcular la media *(mean())* de la columna data1 usando las etiquetas de key1

In [7]:
grouped = df['data1'].groupby(df['key1'])
grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fa610c04c18>

In [0]:
grouped.mean()

Aquí agrupamos los datos usando dos claves, y la Serie resultante ahora tiene un índice jerárquico.

In [9]:
media = df['data1'].groupby([df['key1'], df['key2']]).mean()
media

key1  key2
a     one    -0.319943
      two     0.546181
b     one    -2.620541
      two     0.987506
Name: data1, dtype: float64

In [0]:
media.unstack()

En el siguiente ejemplo todo el grupo de keys son series, de esta manera podría haber cualquier arreglo de la longitud correcta 

In [0]:
prov = np.array(['Buenos Aires', 'Buenos Aires', 'Córdoba', 'Córdoba', 'Tucumán'])
anios = np.array([2005, 2005, 2006, 2005, 2006])

In [0]:
df['data1'].groupby([prov, anios]).mean()

## Seleccionando una columna o subset de columnas

La indexación de un objeto **GroupBy** creado a partir de un DataFrame con un nombre de columna o matriz de nombres de columna, genera un subconjunto de columnas para la agregación.

In [0]:
df.groupby('key1')['data1'] # Equivalente a df['data1'].groupby(df['key1'])
df.groupby('key1')[['data2']] # Equivalente a df[['data2']].groupby(df['key1'])

Especialmente para grandes conjuntos de datos, puede ser conveniente agregar solo unas pocas columnas. Por ejemplo, en el conjunto de datos anterior, para calcular medios solo para la columna data2 y obtener el resultado como un DataFrame, podríamos escribir:

In [0]:
df.groupby(['key1', 'key2'])[['data2']].mean()

El objeto devuelto por esta operación de indexación es un DataFrame agrupado si se pasa una lista o matriz o una Serie agrupada si solo se pasa un solo nombre de columna como escalar

In [22]:
s_grouped = df.groupby(['key1', 'key2'])['data2']
s_grouped.mean()

key1  key2
a     one     0.625985
      two     1.098123
b     one     1.264394
      two    -0.223157
Name: data2, dtype: float64