<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 7  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Agrupando datos  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/agrupando.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Datos utilizados en esta Notebook

El archivo *planetas.csv* contiene datos sobre planetas que se han descubierto orbitando estrellas fuera de nuestro sistema solar. En este archivo, cada fila corresponde a un exoplaneta descubierto. Los atributos de cada exoplaneta (y por lo tanto las columnas del archivo) son:

* **método**  el método utilizado para descubrir el planeta.
* **número** el número total de planetas descubiertos orbitando la estrella anfitriona de este exoplaneta.
* **orbital_period** el período del planeta, su "año".
* **masa** la masa del exoplaneta.
* **distancia** la distancia de la estrella anfitriona del exoplaneta a la Tierra en años luz.
* **año** el año en que se descubrió el planeta.

In [None]:
df_planetas = pd.read_csv("datos/planets.csv")
df_planetas.head(5)

In [None]:
#Numero total de filas y columnas
df_planetas.shape

In [None]:
#Caracteristicas de cada columna
df_planetas.describe()

Como se puede observar existen columnas que no tienen todos los datos (ver el parametro **count** que es diferente, solo cuenta cuando existe el dato)

#  Introducción

A menudo se require agrupar a través de alguna etiqueta en los *DataFrtames*: esto se implementa en la operación denominada ``groupby``. El nombre "group by" o "agrupar por"  proviene de un comando en el lenguaje de la base de datos **SQL**, pero quizás sea más esclarecedor pensar en los términos acuñados por primera vez por Hadley Wickham: dividir, aplicar, combinar.

En esta figura se ilustra un ejemplo canónico de esta operación *dividir-aplicar-combinar (split-apply-combine)*, donde "aplicar" es una *agregación de suma*:

<img align="left" width="550"  float= "none" align="middle" src="figuras/groupby.png">


Esto deja en claro lo que logra ``groupby``:

- El paso *split* o *dividir*, implica dividir y agrupar un *DataFrame* según la etiqueta especificada.
- El paso *apply* o *aplicar*, implica calcular alguna función, generalmente un agregado, transformación o filtrado, dentro de los grupos individuales.
- El paso  *combine* o *combinar*, fusiona los resultados de estas operaciones en un arreglo de salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de los comandos de enmascaramiento, agregación y concatenación cubiertos en las lecciones anteriores, el poder de ``groupby`` es que abstrae estos pasos: el usuario no necesita pensar en *cómo* se realiza el cálculo, sino que piensa en la *operación como un todo*.

Como ejemplo concreto, echemos un vistazo al uso de **Pandas** para el cálculo que se muestra en este diagrama.
Comenzaremos creando el  *DataFrame*

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

La operación más básica de dividir-aplicar-combinar se puede calcular con el método ``groupby``, pasando el nombre de la columna de etiqueta deseada:

In [None]:
df.groupby('key')

Observe que lo que se retorna no es un conjunto de *DataFrames*, sino un objeto ``DataFrameGroupBy``. Este objeto es donde está la magia: puede pensar en él como una vista especial del DataFrame, que está preparado para profundizar en los grupos, pero no realiza ningún cálculo real hasta que se aplica la agregación. Este enfoque de "evaluación perezosa" significa que los agregados comunes se pueden implementar de manera muy eficiente de una manera casi transparente para el usuario.

Para producir un resultado, podemos aplicar un agregado a este objeto ``DataFrameGroupBy``, que realizará los pasos apropiados de aplicación/combinación para producir el resultado deseado:

In [None]:
#Sumando los elementos de las etiquetas que coinciden
df.groupby('key').sum()

El método ``sum()``  es solo una posibilidad aquí; puede aplicar virtualmente cualquier función de agregación Pandas o NumPy común, así como virtualmente cualquier operación válida de *DataFrame*

In [None]:
#El elemento mayor 
df.groupby('key').max()

### El objeto GroupBy

El objeto ``GroupBy`` es una abstracción muy flexible. En muchos sentidos, puede simplemente tratarlo como si fuera una colección de *DataFrames* y hace las cosas difíciles sin que se percate de las operaciones y cálculos realizados. Veamos algunos ejemplos usando los datos de exoplanetas.

Quizás las operaciones más importantes que ofrece un ``GroupBy`` son el *agregado*, *filtrado*, *transformación* y *aplicación de un función*.

Discutiremos cada uno de estos con más detalle en las siguientes subsecciones, pero antes de eso, vamos a presentar algunas de las otras funciones que se pueden usar con la operación básica de ``GroupBy``.

#### Indexación de columnas

El objeto ``GroupBy`` admite la indexación de columnas de la misma manera que el *DataFrame* y devuelve un objeto ``GroupBy`` modificado.
Por ejemplo:

In [None]:
df_planetas.groupby('method') 

In [None]:
df_planetas.groupby('method')['orbital_period'] 

Aquí hemos seleccionado un grupo en particular del grupo *DataFrame* original por referencia a su nombre de columna. Al igual que con el objeto ``GroupBy``, no se realiza ningún cálculo hasta que llamamos a algún agregado en el objeto:

In [None]:
df_planetas.groupby('method')['orbital_period'].median()  

Si requerimos la lista ordenada alfabéticamente requerimos utilizar la función ``reset_index()``

In [None]:
df_planetas.groupby('method')['orbital_period'].median().reset_index()

Ahora es posible aplicar el orden a la columna "orbital_period"

In [None]:
df_planetas.groupby('method')['orbital_period'].median().reset_index().sort_values('orbital_period', ascending=False)

Esto da una idea de la escala general de períodos orbitales (en días) a los que es sensible cada método. Podemos hacer lo mismo agrupando con lo el año.

In [None]:
df_planetas.groupby('year')['distance'].median() 

Como era de esperarse se descubren planetas mas lejanos conforme va mejorando la tecnología a través de los años.

Para el propósito de las siguientes subsecciones, usaremos este *DataFrame*:

In [None]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

## a)  ``aggregate()`` - agregación


Puede tomar una cadena, una función o una lista de las mismas y calcular todos los agregados a la vez (puede hacer uso de las funciones de Numpy). Aquí hay un ejemplo rápido que combina todos estos:

In [None]:
df.groupby('key').aggregate([min, np.median, max])

Otro patrón útil es pasar un diccionario de nombres de columna de mapeo a operaciones que se aplicarán en esa columna:

In [None]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Aplicando la operación similar a los datos de los exoplanetas 

In [None]:
df_planetas

Agrupando por año y mostrando el "min", "median" y "max" en cada una de las otros parámetros cuantitativos (numéricos)

In [None]:
df_planetas.groupby('year').aggregate([min, np.median, max])

Nos fijamos ahora en la columna de “year” y en las variaciones de los valores de la columna “mass”

In [None]:
df_planetas.groupby('year')['mass'].aggregate([min, np.median, max])

Podemos ordenar los datos de la columna "median" de mayor a menor

In [None]:
df_planetas.groupby('year')['mass'].aggregate([np.min, np.median, np.max]).sort_values('median',ascending=False)

## b) ``filter()`` -  Filtración

Una operación de filtrado le permite eliminar datos en función de las propiedades del grupo.
Por ejemplo, podríamos querer mantener todos los grupos en los que la desviación estándar es menor que algún valor crítico:


In [None]:
def filter_func(x):
    print("x",x,",  x['data2'].std()", x['data2'].std() )
    return x['data2'].std() < 4


In [None]:
df

In [None]:
df.groupby('key').std()

In [None]:
df.groupby('key').filter(filter_func)

La función ``filter()`` debe devolver un valor booleano que especifique si el grupo pasa el filtrado. Aquí, debido a que el grupo B y C no tienen una desviación estándar menor que 4, se elimina el resultado.

## c)  apply ()  - Aplicación

El método  ``apply()`` le permite aplicar una función arbitraria a los resultados del grupo.
La función debe tomar un *DataFrame* y devolver un objeto Pandas  o un escalar; la operación de combinación se adaptará al tipo de salida devuelta.

Por ejemplo, aquí hay una "aplicación" que normaliza la primera columna por la suma de la segunda:

In [None]:
def norm_by_data2(x):
    #print("x['data2'].sum() )
    x['data1'] /= x['data2'].sum()
    return x

In [None]:
df

In [None]:
df.groupby('key')['data2'].sum()

In [None]:
# Todos los elementos de data1-subgrupoA se dividirán entre 8
# Todos los elementos de data1-subgrupoB se dividirán entre 7
# Todos los elementos de data1-subgrupoC se dividirán entre 12
df.groupby('key').apply(norm_by_data2)