<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 7  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Agrupando datos  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/agrupando.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Datos utilizados en esta Notebook

El archivo *planetas.csv* contiene datos sobre planetas que se han descubierto orbitando estrellas fuera de nuestro sistema solar. En este archivo, cada fila corresponde a un exoplaneta descubierto. Los atributos de cada exoplaneta (y por lo tanto las columnas del archivo) son:

* **método**  el método utilizado para descubrir el planeta.
* **número** el número total de planetas descubiertos orbitando la estrella anfitriona de este exoplaneta.
* **orbital_period** el período del planeta, su "año".
* **masa** la masa del exoplaneta.
* **distancia** la distancia de la estrella anfitriona del exoplaneta a la Tierra en años luz.
* **año** el año en que se descubrió el planeta.

In [3]:
# cargar el archivo datos/planets.csv en un dataframe llamado df_planetas
df_planetas = pd.read_csv("datos/planets.csv")
df_planetas.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [4]:
#Numero total de filas y columnas
df_planetas.shape

(1035, 6)

In [5]:
#Caracteristicas de cada columna
df_planetas.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


Como se puede observar existen columnas que no tienen todos los datos (ver el parametro **count** que es diferente, solo cuenta cuando existe el dato)

#  Introducción

A menudo se require agrupar a través de alguna etiqueta en los *DataFrtames*: esto se implementa en la operación denominada ``groupby``. El nombre "group by" o "agrupar por"  proviene de un comando en el lenguaje de la base de datos **SQL**, pero quizás sea más esclarecedor pensar en los términos acuñados por primera vez por Hadley Wickham: dividir, aplicar, combinar.

En esta figura se ilustra un ejemplo canónico de esta operación *dividir-aplicar-combinar (split-apply-combine)*, donde "aplicar" es una *agregación de suma*:

<img align="left" width="550"  float= "none" align="middle" src="figuras/groupby.png">


Esto deja en claro lo que logra ``groupby``:

- El paso *split* o *dividir*, implica dividir y agrupar un *DataFrame* según la etiqueta especificada.
- El paso *apply* o *aplicar*, implica calcular alguna función, generalmente un agregado, transformación o filtrado, dentro de los grupos individuales.
- El paso  *combine* o *combinar*, fusiona los resultados de estas operaciones en un arreglo de salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de los comandos de enmascaramiento, agregación y concatenación cubiertos en las lecciones anteriores, el poder de ``groupby`` es que abstrae estos pasos: el usuario no necesita pensar en *cómo* se realiza el cálculo, sino que piensa en la *operación como un todo*.

Como ejemplo concreto, echemos un vistazo al uso de **Pandas** para el cálculo que se muestra en este diagrama.
Comenzaremos creando el  *DataFrame*

In [6]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


La operación más básica de dividir-aplicar-combinar se puede calcular con el método ``groupby``, pasando el nombre de la columna de etiqueta deseada:

In [7]:
#groupby('key')
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000147E216BB20>

Observe que lo que se retorna no es un conjunto de *DataFrames*, sino un objeto ``DataFrameGroupBy``. Este objeto es donde está la magia: puede pensar en él como una vista especial del DataFrame, que está preparado para profundizar en los grupos, pero no realiza ningún cálculo real hasta que se aplica la agregación. Este enfoque de "evaluación perezosa" significa que los agregados comunes se pueden implementar de manera muy eficiente de una manera casi transparente para el usuario.

Para producir un resultado, podemos aplicar un agregado a este objeto ``DataFrameGroupBy``, que realizará los pasos apropiados de aplicación/combinación para producir el resultado deseado:

In [8]:
#Sumando los elementos de las etiquetas que coinciden
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


El método ``sum()``  es solo una posibilidad aquí; puede aplicar virtualmente cualquier función de agregación Pandas o NumPy común, así como virtualmente cualquier operación válida de *DataFrame*

In [10]:
#El elemento mayor 
df.groupby('key').max()
#el dato mayor con esa etiqueta

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,4
C,5


### El objeto GroupBy

El objeto ``GroupBy`` es una abstracción muy flexible. En muchos sentidos, puede simplemente tratarlo como si fuera una colección de *DataFrames* y hace las cosas difíciles sin que se percate de las operaciones y cálculos realizados. Veamos algunos ejemplos usando los datos de exoplanetas.

Quizás las operaciones más importantes que ofrece un ``GroupBy`` son el *agregado*, *filtrado*, *transformación* y *aplicación de un función*.

Discutiremos cada uno de estos con más detalle en las siguientes subsecciones, pero antes de eso, vamos a presentar algunas de las otras funciones que se pueden usar con la operación básica de ``GroupBy``.

#### Indexación de columnas

El objeto ``GroupBy`` admite la indexación de columnas de la misma manera que el *DataFrame* y devuelve un objeto ``GroupBy`` modificado.
Por ejemplo:

In [11]:
#groupby('method') 
df_planetas.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000147D92EF970>

In [12]:
# method -> 'orbital_period' 
df_planetas.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000147E21B9660>

Aquí hemos seleccionado un grupo en particular del grupo *DataFrame* original por referencia a su nombre de columna. Al igual que con el objeto ``GroupBy``, no se realiza ningún cálculo hasta que llamamos a algún agregado en el objeto:

In [14]:
# method -> 'orbital_period' -> median()  
df_planetas.groupby('method')['orbital_period'].median()
#mediana del periodo orbital, ordenado por método de menor a mayor

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

Si requerimos la lista ordenada alfabéticamente requerimos utilizar la función ``reset_index()``

In [15]:
#reset_index()
df_planetas.groupby('method')['orbital_period'].median().reset_index()
#se muestra en forma de dataframe con índices

Unnamed: 0,method,orbital_period
0,Astrometry,631.18
1,Eclipse Timing Variations,4343.5
2,Imaging,27500.0
3,Microlensing,3300.0
4,Orbital Brightness Modulation,0.342887
5,Pulsar Timing,66.5419
6,Pulsation Timing Variations,1170.0
7,Radial Velocity,360.2
8,Transit,5.714932
9,Transit Timing Variations,57.011


Ahora es posible aplicar el orden a la columna "orbital_period"

In [17]:
#ordenando
df_planetas.groupby('method')['orbital_period'].median().reset_index().sort_values('orbital_period', ascending=False)
#ordenando por orbital period de forma descendente

Unnamed: 0,method,orbital_period
2,Imaging,27500.0
1,Eclipse Timing Variations,4343.5
3,Microlensing,3300.0
6,Pulsation Timing Variations,1170.0
0,Astrometry,631.18
7,Radial Velocity,360.2
5,Pulsar Timing,66.5419
9,Transit Timing Variations,57.011
8,Transit,5.714932
4,Orbital Brightness Modulation,0.342887


Esto da una idea de la escala general de períodos orbitales (en días) a los que es sensible cada método. Podemos hacer lo mismo agrupando con lo el año.

In [18]:
# 'year' -> 'distance' -> median() 
df_planetas.groupby('year')['distance'].median()

year
1989     40.570
1992        NaN
1994        NaN
1995     15.360
1996     14.840
1997     17.430
1998     21.290
1999     29.760
2000     32.865
2001     33.650
2002     37.440
2003     35.955
2004     48.950
2005     35.870
2006     46.940
2007     80.580
2008     56.070
2009     52.830
2010     90.000
2011     87.870
2012    200.000
2013    132.000
2014    272.000
Name: distance, dtype: float64

Como era de esperarse se descubren planetas mas lejanos conforme va mejorando la tecnología a través de los años.

Para el propósito de las siguientes subsecciones, usaremos este *DataFrame*:

In [19]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


## a)  ``aggregate()`` - agregación


Puede tomar una cadena, una función o una lista de las mismas y calcular todos los agregados a la vez (puede hacer uso de las funciones de Numpy). Aquí hay un ejemplo rápido que combina todos estos:

In [20]:
# [min, np.median, max]
df.groupby('key').aggregate([np.min, np.median, np.max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,amin,median,amax,amin,median,amax
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


Otro patrón útil es pasar un diccionario de nombres de columna de mapeo a operaciones que se aplicarán en esa columna:

In [21]:
# {'data1': 'min','data2': 'max'})
df.groupby('key').aggregate({'data1': 'min','data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


Aplicando la operación similar a los datos de los exoplanetas 

In [22]:
# mostramos el dataframe df_planetas
df_planetas.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Agrupando por año y mostrando el "min", "median" y "max" en cada una de las otros parámetros cuantitativos (numéricos)

In [25]:
df_planetas.dtypes

method             object
number              int64
orbital_period    float64
mass              float64
distance          float64
year                int64
dtype: object

In [26]:
# 'year' -> [min, np.median, max]
df_planetas.groupby('year')[['orbital_period', 'mass']].aggregate([min, np.median, max])

Unnamed: 0_level_0,orbital_period,orbital_period,orbital_period,mass,mass,mass
Unnamed: 0_level_1,min,median,max,min,median,max
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1989,83.888,83.888,83.888,11.68,11.68,11.68
1992,25.262,45.90195,66.5419,,,
1994,98.2114,98.2114,98.2114,,,
1995,4.230785,4.230785,4.230785,0.472,0.472,0.472
1996,3.3135,65.6697,1078.0,0.6876,1.665,3.9
1997,39.845,39.845,39.845,1.04,1.04,1.04
1998,3.097,58.11289,442.1,0.52,1.39,8.02
1999,3.51,256.78,3810.0,0.42,1.9855,8.44
2000,3.024,179.665,2502.0,0.249,1.415,18.1
2001,6.276,462.79,2391.0,0.54,2.07,10.35


Nos fijamos ahora en la columna de “year” y en las variaciones de los valores de la columna “mass”

In [20]:
# 'year' -> 'mass' -> aggregate([min, np.median, max])


Unnamed: 0_level_0,min,median,max
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1989,11.68,11.68,11.68
1992,,,
1994,,,
1995,0.472,0.472,0.472
1996,0.6876,1.665,3.9
1997,1.04,1.04,1.04
1998,0.52,1.39,8.02
1999,0.42,1.9855,8.44
2000,0.249,1.415,18.1
2001,0.54,2.07,10.35


Podemos ordenar los datos de la columna "median" de mayor a menor

In [21]:
# 'year' -> 'mass' -> aggregate([np.min, np.median, np.max])


Unnamed: 0_level_0,amin,median,amax
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1989,11.68,11.68,11.68
2012,0.0036,2.37,11.1
2002,0.115,2.25,17.4
2007,0.035,2.215,19.8
2001,0.54,2.07,10.35
2008,0.0126,1.99,25.0
1999,0.42,1.9855,8.44
2003,0.229,1.825,18.37
2004,0.087,1.79,3.69
2009,0.016,1.78,21.42


## b)  apply ()  - Aplicación

El método  ``apply()`` le permite aplicar una función arbitraria a los resultados del grupo.
La función debe tomar un *DataFrame* y devolver un objeto Pandas  o un escalar; la operación de combinación se adaptará al tipo de salida devuelta.

Por ejemplo, aquí hay una "aplicación" que normaliza la primera columna por la suma de la segunda:

In [27]:
def norm_by_data2(x):
    #print("x['data2'].sum() )
    x['data1'] /= x['data2'].sum()
    return x

In [28]:
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [29]:
#groupby('key')['data2'].sum()
df.groupby('key')['data2'].sum()

key
A     8
B     7
C    12
Name: data2, dtype: int32

In [31]:
# Todos los elementos de data1-subgrupoA se dividirán entre 8
# Todos los elementos de data1-subgrupoB se dividirán entre 7
# Todos los elementos de data1-subgrupoC se dividirán entre 12
# groupby('key', group_keys=False).apply(norm_by_data2)
df.groupby('key', group_keys=False).apply(norm_by_data2)

#group keys = false para no agrupar por keys

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9
