# 2.8. Operaciones de combinar, juntar y agrupar.

In [None]:
import pandas as pd
import numpy as np

In [None]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas

## Operaciones de agrupación

- Una de las funcionalidades más útiles es poder hacer agrupación de resultados y operaciones sobre los grupos.
- Al estilo de las sentencias GROUP BY de SQL). 
- La librería pandas también incluye dicha posibilidad.

In [None]:
peliculas

In [None]:
agrupado = peliculas.groupby('Año')

In [None]:
agrupado

- Una agrupación es un iterador.
- Representación interna del conjunto de registros que pertenecen a cada grupo.
- Sirve para aplicar alguna operación sobre dichos grupos o para iterar sobre ellos.

<center>
<img src="imgs/group.png"  alt="drawing" width=400"/>
</center>
- Las siguientes funciónes estan optimizadas para su aplicación:
<center>
<img src="imgs/group_method.png"  alt="drawing" width=500"/>
</center>                                                                                           

In [None]:
peliculas

In [None]:
#Media por grupo
agrupado.mean()

In [None]:
#Conteo de valores no nulos por grupo
agrupado.count()

- Podemos realizar la agrupación por múltiples claves.

In [None]:
peliculas.groupby(['Año', 'Director']).sum()

- También podemos hacer que una función predefinida establezca el criterio de agrupación.

In [None]:
def titulo_largo(elemento):
    if len(elemento) > 10:
        return "Largo"
    else:
        return "Corto"
    
peliculas.groupby(titulo_largo).sum()

- Se puede iterar sobre los grupos.

In [None]:
for name, group in peliculas.groupby('Año'):
    print(name)
    print(group)

In [None]:
# podemos generar un dict
pieces = dict(list(peliculas.groupby('Año')))
pieces

In [None]:
pieces[2013]

## Tablas pivote
- Pandas incluye la posibilidad de gestionar los mismos, como si de una Pivot Table de Excel.
- Los parámetros de la función son los siguientes:
<center>
<img src="imgs/pivot_methods.png"  alt="drawing" width=700"/>
</center>  

In [None]:
peliculas = pd.DataFrame({
    'Año':[2014, 2014, 2013, 2013], 
    'Valoración':[6, None, 8.75, None],
    'Presupuesto':[160, 250, 100, None],
    'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
    'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
})
peliculas

In [None]:
peliculas.pivot(index='Año', columns='Director', values='Título')

In [None]:
peliculas.pivot(index='Director', columns='Año', values='Presupuesto')

In [None]:
pd.pivot_table(peliculas, index='Director', columns='Año', values='Presupuesto')

- También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.

In [None]:
peliculas['Valoración'] = [6, 6, 5, 5]
peliculas

In [None]:
pd.pivot_table(peliculas, 
               values='Presupuesto', 
               index=['Año'], 
               columns=['Valoración'], 
               aggfunc=np.sum)

___
# Ejercicios

**5.2.1.** Carga el fichero  train.csv.

**5.2.2.** Calula el número de pasajeros por clase.

**5.2.3.** Calula la edad media de los supervivientes y los no supervivientes.

**5.2.4.** Calula el porcentage de supervientes por edad.

**5.2.5.** Calula el porcentage de supervientes por edad en intervalos de 10 y 5 años.

**5.2.6.** Crea un gráfico de barras de los datos anteriores.

**5.2.7.** Crea una tabla pivote con supervivientes como índice, la clase como columnas y la media de edad.