<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">


<center><h2 style="font-size:2em;color:#840700">  Agrupando datos  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/agrupando.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Datos utilizados en esta Notebook

El archivo *planetas.csv* contiene datos sobre planetas que se han descubierto orbitando estrellas fuera de nuestro sistema solar. En este archivo, cada fila corresponde a un exoplaneta descubierto. Los atributos de cada exoplaneta (y por lo tanto las columnas del archivo) son:

* **método**  el método utilizado para descubrir el planeta.
* **número** el número total de planetas descubiertos orbitando la estrella anfitriona de este exoplaneta.
* **orbital_period** el período del planeta, su "año".
* **masa** la masa del exoplaneta.
* **distancia** la distancia de la estrella anfitriona del exoplaneta a la Tierra en años luz.
* **año** el año en que se descubrió el planeta.

In [16]:
# cargar el archivo datos/planets.csv en un dataframe llamado df_planetas
df_planetas = pd.read_csv("datos/planets.csv")
df_planetas.head(2)

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008


In [17]:
#Numero total de filas y columnas


In [18]:
#Caracteristicas de cada columna


Como se puede observar existen columnas que no tienen todos los datos (ver el parametro **count** que es diferente, solo cuenta cuando existe el dato)

#  Introducción

A menudo se require agrupar a través de alguna etiqueta en los *DataFrtames*: esto se implementa en la operación denominada ``groupby``. El nombre "group by" o "agrupar por"  proviene de un comando en el lenguaje de la base de datos **SQL**, pero quizás sea más esclarecedor pensar en los términos acuñados por primera vez por Hadley Wickham: dividir, aplicar, combinar.

En esta figura se ilustra un ejemplo canónico de esta operación *dividir-aplicar-combinar (split-apply-combine)*, donde "aplicar" es una *agregación de suma*:

<img align="left" width="550"  float= "none" align="middle" src="figuras/groupby.png">


Esto deja en claro lo que logra ``groupby``:

- El paso *split* o *dividir*, implica dividir y agrupar un *DataFrame* según la etiqueta especificada.
- El paso *apply* o *aplicar*, implica calcular alguna función, generalmente un agregado, transformación o filtrado, dentro de los grupos individuales.
- El paso  *combine* o *combinar*, fusiona los resultados de estas operaciones en un arreglo de salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de los comandos de enmascaramiento, agregación y concatenación cubiertos en las lecciones anteriores, el poder de ``groupby`` es que abstrae estos pasos: el usuario no necesita pensar en *cómo* se realiza el cálculo, sino que piensa en la *operación como un todo*.

Como ejemplo concreto, echemos un vistazo al uso de **Pandas** para el cálculo que se muestra en este diagrama.
Comenzaremos creando el  *DataFrame*

In [19]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


La operación más básica de dividir-aplicar-combinar se puede calcular con el método ``groupby``, pasando el nombre de la columna de etiqueta deseada:

In [20]:
#groupby('key')
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022A32464550>

Observe que lo que se retorna no es un conjunto de *DataFrames*, sino un objeto ``DataFrameGroupBy``. Este objeto es donde está la magia: puede pensar en él como una vista especial del DataFrame, que está preparado para profundizar en los grupos, pero no realiza ningún cálculo real hasta que se aplica la agregación. Este enfoque de "evaluación perezosa" significa que los agregados comunes se pueden implementar de manera muy eficiente de una manera casi transparente para el usuario.

Para producir un resultado, podemos aplicar un agregado a este objeto ``DataFrameGroupBy``, que realizará los pasos apropiados de aplicación/combinación para producir el resultado deseado:

In [21]:
#Sumando los elementos de las etiquetas que coinciden
#groupby('key').sum()

df.groupby('key')['data'].sum()

key
A    3
B    5
C    7
Name: data, dtype: int64

El método ``sum()``  es solo una posibilidad aquí; puede aplicar virtualmente cualquier función de agregación Pandas o NumPy común, así como virtualmente cualquier operación válida de *DataFrame*

In [22]:
#El elemento mayor 
#groupby('key').max()
df.groupby('key').max()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,4
C,5


### El objeto GroupBy

El objeto ``GroupBy`` es una abstracción muy flexible. En muchos sentidos, puede simplemente tratarlo como si fuera una colección de *DataFrames* y hace las cosas difíciles sin que se percate de las operaciones y cálculos realizados. Veamos algunos ejemplos usando los datos de exoplanetas.

Quizás las operaciones más importantes que ofrece un ``GroupBy`` son el *agregado*, *filtrado*, *transformación* y *aplicación de un función*.

Discutiremos cada uno de estos con más detalle en las siguientes subsecciones, pero antes de eso, vamos a presentar algunas de las otras funciones que se pueden usar con la operación básica de ``GroupBy``.

#### Indexación de columnas

El objeto ``GroupBy`` admite la indexación de columnas de la misma manera que el *DataFrame* y devuelve un objeto ``GroupBy`` modificado.
Por ejemplo:

In [23]:
#groupby('method') 
df_planetas.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022A3238B5B0>

In [24]:
# method -> 'orbital_period' 
df_planetas.groupby('method')['orbital_period'].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

Aquí hemos seleccionado un grupo en particular del grupo *DataFrame* original por referencia a su nombre de columna. Al igual que con el objeto ``GroupBy``, no se realiza ningún cálculo hasta que llamamos a algún agregado en el objeto:

In [25]:
# method -> 'orbital_period' -> median()  
df_planetas.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

Si requerimos la lista ordenada alfabéticamente requerimos utilizar la función ``reset_index()``

In [26]:
#reset_index()
df_planetas.groupby('method')['orbital_period'].median().reset_index()

Unnamed: 0,method,orbital_period
0,Astrometry,631.18
1,Eclipse Timing Variations,4343.5
2,Imaging,27500.0
3,Microlensing,3300.0
4,Orbital Brightness Modulation,0.342887
5,Pulsar Timing,66.5419
6,Pulsation Timing Variations,1170.0
7,Radial Velocity,360.2
8,Transit,5.714932
9,Transit Timing Variations,57.011


Ahora es posible aplicar el orden a la columna "orbital_period"

In [27]:
#ordenando
df_planetas.groupby('method')['orbital_period'].median().reset_index().sort_values('orbital_period', ignore_index=True)

Unnamed: 0,method,orbital_period
0,Orbital Brightness Modulation,0.342887
1,Transit,5.714932
2,Transit Timing Variations,57.011
3,Pulsar Timing,66.5419
4,Radial Velocity,360.2
5,Astrometry,631.18
6,Pulsation Timing Variations,1170.0
7,Microlensing,3300.0
8,Eclipse Timing Variations,4343.5
9,Imaging,27500.0


Esto da una idea de la escala general de períodos orbitales (en días) a los que es sensible cada método. Podemos hacer lo mismo agrupando con lo el año.

In [28]:
# 'year' -> 'distance' -> median() 
df_planetas.groupby('year')['distance'].mean().reset_index()

Unnamed: 0,year,distance
0,1989,40.57
1,1992,
2,1994,
3,1995,15.36
4,1996,15.866667
5,1997,17.43
6,1998,26.302
7,1999,30.947333
8,2000,30.7525
9,2001,36.531667


Como era de esperarse se descubren planetas mas lejanos conforme va mejorando la tecnología a través de los años.