In [None]:
# initial setup
try:
    # settings colab:
    import google.colab        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Pandas 2 - Pivot table

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Dataset](#section_dataset)

[pivot_table](#section_pivot)

[pivot_table multi level](#section_pivot_multi_level)


---


<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)


Una tabla pivote o tabal dinámica es una herramienta de resumen que está disponible generalmente en programas de hojas de cálculo.

Crea medidas de reumne por una o más keys, usando esas claves como etiquetas de filas o columnas.

Pandas provee un método `pivot_table` sobre DataFrame y también como una función de pandas

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html


<a id="section_dataset"></a> 
## Dataset

[volver a TOC](#section_toc)

En esta práctica guiada usaremos los datos que provee seaborn en el dataset "titanic"

Este dataset también puede descargarse aquí https://github.com/mwaskom/seaborn-data/blob/master/titanic.csv

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
data = sns.load_dataset('titanic')

Miremos el tamaño y los primeros registros del dataset

In [None]:
data.shape

In [None]:
data.head(3)

<a id="section_pivot"></a> 
## `pivot_table`

[volver a TOC](#section_toc)


Analizamos la supervivencia por sexo y clase.

El valor de argumento aggfunc por default es mean para el método `DataFrame.pivot_table`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html

In [None]:
data.pivot_table('survived', index='sex', columns='class')

Los argumentos del método pivot_table son
* el campo sobre el que vamos a calcular la función de agregación, en este caso `mean`
* index define la columna del DataFrame original cuyos valores sirven de índice de la tabla dinámica
* columns define la columna del DataFrame original cuyos valores sirven de columnas de la tabla dinámica

En esta tabla vemos que sobrevivieron más mujeres que hombre, y a clase más alta mayor proporción de sobrevivientes.

<a id="section_pivot_multi_level"></a> 
## `pivot_table` multi level

[volver a TOC](#section_toc)


Analicemos grupos de edad como tercera dimensión.
 
Para eso generamos categorías dependiendo de los valores de la variable 'age' usando `cut`

La función `cut` divide los valores de una variable en intervalos discretos, con los límites especificados en el argumento `bins`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html

In [None]:
age_categories = pd.cut(data.age, [0, 18, 80])
data.pivot_table('survived', ['sex', age_categories], 'class')

Agreguemos información de la tarifa definiendo categorias de la variable `fare` de acuerdo al cuantilo al que pertenece cada valor.

Usamos la función `qcut` para calcular estas categorías

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html

Definimos dos categorías de `fare`

In [None]:
fare_categories = pd.qcut(data.fare, 2)
fare_categories

In [None]:
data.pivot_table('survived', ['sex', age_categories], [fare_categories, 'class'])

Podemos especificar distintas funciones de agregación para distintas columnas del DataFrame original

In [None]:
data.pivot_table(index='sex', columns='class',
                    aggfunc={'survived':sum, 'fare':'mean'})

Para calcular totales por grupo usamos `margins` y `margins_name`:

In [None]:
data.pivot_table('survived', index='sex', columns='class', margins=True, margins_name= "totales")

---

#### Referencias

Python for Data Analysis. Wes McKinney. Cap 10

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html