# Pivot Tables

Hemos visto cómo la abstracción `` GroupBy `` nos permite explorar las relaciones dentro de un conjunto de datos.

Una *pivot table* o tabla dinámica es una operación similar que se ve comúnmente en hojas de cálculo y otros programas que operan con datos tabulares.
La tabla dinámica toma datos simples de columnas como entrada y agrupa las entradas en una tabla bidimensional que proporciona un resumen multidimensional de los datos.

La diferencia entre tablas dinámicas y `` GroupBy `` a veces puede causar confusión; pero básicamente lo podemos entender como que las tablas dinámicas son una versión multidimensional de la agregación `` GroupBy ``.

Es decir, divide-aplica-combina, pero tanto la división como la combinación ocurren no en un índice unidimensional, sino en una cuadrícula bidimensional.

En este notebook, utilizaremos los datos que ya hemos visto de los pasajeros del Titanic para desarrollar los conceptos. Datos disponibles a través de la librería Seaborn.

In [1]:
import numpy as np
import pandas as pd

import seaborn as sns
titanic = sns.load_dataset('titanic')

In [2]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Este dataset contiene una gran cantidad de información sobre cada pasajero, incluyendo el sexo, la edad, la clase, la tarifa pagada y mucho más.

## Pivot Tables a mano

Para comenzar a aprender más sobre estos datos, podríamos comenzar agrupando según el género, si ha sobrevivido o no, o alguna combinación de los mismos.

En base a lo que ya hemos aprendido, podríamos tener la tentación de aplicar una operación de `` GroupBy ``; por ejemplo, veamos la tasa de supervivencia por género:

In [3]:
titanic.groupby('sex')[['survived']].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Esto inmediatamente nos da una idea: en general, tres de cada cuatro mujeres a bordo sobrevivieron, mientras que solo uno de cada cinco hombres lo hizo.

Esto es útil, pero nos gustaría ir un paso más allá y estudiar la supervivencia por sexo y, por ejemplo, clase.
Usando el `` GroupBy ``, podríamos proceder usando algo como:
Agrupamos por clase y género, *seleccionamos* 'survival, * aplicamos * la agregación de la media, * combinamos * los grupos resultantes, y luego * desapilamos * el índice jerárquico para revelar la multidimensionalidad oculta. En codigo:

In [4]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Esto nos da una idea más precisa de cómo el género y la clase afectaron la supervivencia, pero el código comienza a volverse un tanto confuso.

Si bien cada paso que damos tiene sentido dadas las herramientas que hemos visto, la larga cadena de código no es particularmente fácil de leer o usar.

Este `` GroupBy `` bidimensional es lo suficientemente común como para que Pandas incluya algo que nos facilite su tratamiento, como son las `` pivot_table ``, diseñadas especialmente para este tipo de agregación multidimensional.

## Sintaxis de Pivot Table

A continuación, se recoge el equivalente a la operación anteriore mediante ``Pivot Table``, la cual se puede obtener directamente con el método de los DataFrames `` pivot_table``:

In [5]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Esto es mcho más legible que el enfoque de `` group by `` y produce el mismo resultado.

Como era de esperar de un crucero transatlántico de principios del siglo XX, el gradiente de supervivencia favorece tanto a las mujeres como a las clases altas.
Las mujeres de primera clase sobrevivieron con un porcentaje muy elevado, mientras que solo uno de cada diez hombres de tercera clase lo hizo.

### Pivot Tables multinivel

Al igual que en el `` GroupBy ``, la agrupación en tablas dinámicas se puede especificar con múltiples niveles y mediante varias opciones.

Por ejemplo, podríamos estar interesados en considerar la edad como una tercera dimensión. Pero meter un dato de una variable con tanta variación podría desagregarnos tanto los datos que no sacaríamos nada en concreto. Por ello, resultaría más interesante realizar cierta agrupación de edades, como hacer una división entre menores de edad (<18), adultos (>18 y <65) y jubilados (>65), lo cual lo podemos conseguir gracias a la función `` pd.cut ``:

In [6]:
pd.cut(titanic['age'], [0, 18, 65, int(max(titanic['age']))])

0      (18.0, 65.0]
1      (18.0, 65.0]
2      (18.0, 65.0]
3      (18.0, 65.0]
4      (18.0, 65.0]
           ...     
886    (18.0, 65.0]
887    (18.0, 65.0]
888             NaN
889    (18.0, 65.0]
890    (18.0, 65.0]
Name: age, Length: 891, dtype: category
Categories (3, interval[int64]): [(0, 18] < (18, 65] < (65, 80]]

In [7]:
age = pd.cut(titanic['age'], [0, 18, 65, int(max(titanic['age']))])
titanic.pivot_table('survived', ['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 65]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 65]",0.380435,0.073171,0.135
male,"(65, 80]",0.25,0.0,0.0


También podríamos aplicar la misma estrategia cuando trabajamos con las columnas. Por ejemplo, podríamos agregar información sobre la tarifa pagada usando `` pd.qcut `` para calcular automáticamente los cuantiles:

In [8]:
fare = pd.qcut(titanic['fare'], 2)
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 65]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 65]",0.0,0.102041,0.126437,0.397727,0.030303,0.192308
male,"(65, 80]",,0.0,0.0,0.25,,


El resultado es una agregación de cuatro dimensiones con índices jerárquicos, que se muestra en una cuadrícula que demuestra la relación entre los valores.

### Opciones adicionales de Pivot Table

La llamada completa del método `` pivot_table `` de `` DataFrame `` es la siguiente:

```python
# call signature as of Pandas 0.18
pd.DataFrame.pivot_table(values=None, index=None, columns=None,
                      aggfunc='mean', fill_value=None, margins=False,
                      dropna=True, margins_name='All')
```

Ya hemos visto ejemplos de los tres primeros argumentos; por lo que ahora echaremos un vistazo rápido a los restantes.
Dos de las opciones, `` fill_value `` y `` dropna ``, tienen que ver con datos faltantes y son bastante sencillas; por lo que no mostraremos ejemplos de ellos aquí.

Por otra parte, la palabra clave ``aggfunc`` controla qué tipo de agregación se aplica, que por defecto será la media.
Al igual que con el `` GroupBy ``, la especificación de agregación puede ser un string que represente una de varias opciones comunes (por ejemplo, ``sum``, ``mean``, ``count``, ``min``, ``max``...) o una función que implemente una agregación (por ejemplo, `` np.sum ()`` , `` min ()``, `` sum ()``...).

Además, se puede especificar como un diccionario que asigne una columna a cualquiera de las opciones deseadas anteriores:

In [9]:
titanic.pivot_table('fare', index='sex', columns='class', aggfunc=np.max)

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,512.3292,65.0,69.55
male,512.3292,73.5,69.55


In [10]:
titanic.pivot_table(index='sex', columns='class',
                    aggfunc={'survived':sum, 'fare':'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


Date cuenta que también aquí que hemos omitido la palabra clave `` values ``, ya que al especificar un mapeo para "aggfunc", este parámetro se determina automáticamente.

También podríamos calcular en base a una combinación de ejes:

In [16]:
df = titanic.pivot_table(index=['sex', 'embarked'], columns=['class', 'alone'],
                                             aggfunc={'survived':sum, 'fare':['mean', 'max']})

In [22]:
df.sort_values(by=(    'fare',  'mean',  'Second', False), ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,fare,fare,fare,fare,fare,fare,fare,fare,fare,fare,fare,fare,survived,survived,survived,survived,survived,survived
Unnamed: 0_level_1,Unnamed: 1_level_1,max,max,max,max,max,max,mean,mean,mean,mean,mean,mean,sum,sum,sum,sum,sum,sum
Unnamed: 0_level_2,class,First,First,Second,Second,Third,Third,First,First,Second,Second,Third,Third,First,First,Second,Second,Third,Third
Unnamed: 0_level_3,alone,False,True,False,True,False,True,False,True,False,True,False,True,False,True,False,True,False,True
sex,embarked,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4,Unnamed: 17_level_4,Unnamed: 18_level_4,Unnamed: 19_level_4
male,C,512.3292,512.3292,41.5792,15.05,21.6792,18.7875,119.409874,72.163222,32.896533,14.208325,13.10377,8.215409,9.0,8.0,1.0,1.0,5.0,5.0
male,S,263.0,221.7792,73.5,73.5,69.55,56.4958,92.783489,32.267146,30.441667,14.213433,24.354565,9.861668,11.0,17.0,9.0,6.0,9.0,25.0
female,C,262.375,512.3292,41.5792,13.7917,22.3583,14.4583,112.003,120.692128,30.2175,12.89585,16.367589,8.67334,25.0,17.0,5.0,2.0,11.0,4.0
female,S,263.0,211.3375,65.0,33.0,69.55,12.475,102.443874,90.728571,27.621795,13.960714,23.898852,8.561113,32.0,14.0,36.0,25.0,19.0,14.0
female,Q,90.0,,,12.35,29.125,8.1375,90.0,,,12.35,18.284375,7.75534,1.0,,,2.0,5.0,19.0
male,Q,90.0,,,12.35,29.125,24.15,90.0,,,12.35,21.815,8.513648,0.0,,,0.0,1.0,2.0


A veces es útil calcular los totales de cada agrupación. Esto se puede hacer mediante el parámetro `` margins ``:

In [14]:
df = titanic.pivot_table('survived', index='sex', columns='class', margins=True)
df

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


Aquí, esto nos da automáticamente información sobre la tasa de supervivencia por género o por clase sin tener en cuenta el otro eje, gracias a los totales. Además, en el registro correspondiente a los dos ``All``, el resultado se corresponde con el total sin tener en cuenta ninguna división, es decir, nos dice que el porcentaje de supervivientes total fue del 38%.

La etiqueta del "margen" que hemos añadido se puede especificar con el parámetro `` margins_name``, que por defecto es `` All ``.

## Ejemplo: Cumpleaños

Veamos ahora un ejemplo más interesante, echemos un vistazo a los datos disponibles sobre nacimientos en los Estados Unidos, proporcionados por los Centros para el Control de Enfermedades (CDC).

Estos datos se pueden encontrar en https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv

In [20]:
births = pd.read_csv('births.csv')

Al observar los datos, vemos que es relativamente simple: contiene la cantidad de nacimientos agrupados por fecha y sexo:

In [21]:
births.head()

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548


Podemos comenzar a comprender estos datos un poco más usando una pivot table.

Por ejemplo, agreguemos una columna de décadas y echemos un vistazo a los nacimientos de hombres y mujeres en función de la década:

In [22]:
births['decade'] = 10 * (births['year'] // 10)
births.pivot_table('births', index='decade', columns='gender', aggfunc='sum')

gender,F,M
decade,Unnamed: 1_level_1,Unnamed: 2_level_1
1960,1753634,1846572
1970,16263075,17121550
1980,18310351,19243452
1990,19479454,20420553
2000,18229309,19106428


A simple vista, vemos que los nacimientos masculinos superan en número a los nacimientos femeninos en cada década.

## Ejercicio

Utiliza el fichero "births.csv" para responder a las siguientes preguntas:

1. Elimina aquellos registros que tengan algún registro con nulos
2. Crea un ``DataFrame`` con las columnas "year" y "gender" como índice. Ordena el ``DataFrame`` por el índice que has creado. Quédate con los nacimientos de mujeres de 1971. ¿Cuántos nacimientos hubo? Calcula el resultado utilizando el acceso por índice y no mediante el filtrado por condición.
3. Obtén como ``Series`` la suma de nacimientos por mes y género, usando "groupby". Convierte ese ``Series`` en un ``DataFrame`` con los meses como índice y el género como columnas.
4. Repite el ejercicio 3 con una pivot_table
5. Calcula el máximo de nacimientos en función del mes, para cada combinación de género y la siguiente agrupación de años: `` (1968, 1972], (1972, 1976], (1976, 1980], (1980, 1984], (1984, 1989]``. Utiliza alguna de las funciones que hemos visto en este notebook. (En el índice deberán estar tanto el género como cada una de las agrupaciones de años, y en las columnas el nº de mes).
6. Sobre el ``DataFrame`` anterior, accede a los nacimientos de varones entre los años 1972 y 1976, el mes de Febrero. Puede que necesites investigar lo que tienes y pensar un poco. Sabemos que tenemos que acceder con el índice, pero no sabemos qué debemos poner en el índice. Investiga con algún valor de los que tenemos en el índice. Pista: si llegas a un punto en el que pones algo de "Interval" y falla, sustituye ``Interval`` por ``pd.Interval`` ;)
7. Repite el ejercicio 5, pero calculando la media en lugar del máximo, y agrupando, en lugar de por años, por días, de forma que queden los primeros 10 días del mes, del 11 al 20, y del 21 al... Investiga los datos y piensa una solución para decidir hasta cuándo tomar. Encuentra la que más te convenza y úsala, o prueba varias

In [2]:
import pandas as pd

df = pd.read_csv("births.csv")
df

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548
...,...,...,...,...,...
15542,2008,10,,M,183219
15543,2008,11,,F,158939
15544,2008,11,,M,165468
15545,2008,12,,F,173215


In [4]:
# 1. 
df1 = df.copy().dropna()
df1

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548
...,...,...,...,...,...
15062,1988,12,29.0,M,5944
15063,1988,12,30.0,F,5742
15064,1988,12,30.0,M,6095
15065,1988,12,31.0,F,4435


In [34]:
# 2.
df2 = df1.copy()
df2 = df2.set_index(["year", "gender"]).sort_index()

df2.loc[1971, "F"]
# df1.groupby(['year', 'gender']).agg({'births': sum})['births']

Unnamed: 0_level_0,Unnamed: 1_level_0,month,day,births
year,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1971,F,1,1.0,4214
1971,F,1,2.0,4460
1971,F,1,3.0,4288
1971,F,1,4.0,4868
1971,F,1,5.0,5012
1971,...,...,...,...
1971,F,12,28.0,5218
1971,F,12,29.0,4936
1971,F,12,30.0,5048
1971,F,12,31.0,4520


In [46]:
# 3. 
df1.groupby(['month','gender'])['births'].sum().unstack()

# df1.groupby(['month','gender']).sum().unstack('gender')['births']

gender,F,M
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2810078,2949490
2,2616914,2746503
3,2859813,3008838
4,2706556,2854761
5,2813046,2972556
6,2798479,2960754
7,3026280,3194497
8,3075596,3234680
9,3029496,3177289
10,2956098,3100095


In [54]:
# 4. 
df1.pivot_table('births', index='month', columns='gender', aggfunc='sum')

gender,F,M
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4439.301738,4659.541864
2,4347.033223,4592.814381
3,4503.64252,4738.327559
4,4330.4896,4589.64791
5,4436.981073,4710.865293
6,4491.94061,4737.2064
7,4773.312303,5038.638801
8,4851.097792,5093.984252
9,4847.1936,5099.982343
10,4677.370253,4874.363208


In [72]:
# 5. 
df1 = df.copy().dropna()

year_cat = pd.cut(df1['year'], [1968, 1972, 1976, 1980, 1984, 1989])

# def f(x):
#     return round(max(x), 2)

# df5_a = df1.pivot_table('births', index=['gender', year_cat], columns='month', aggfunc=f)

df5 = df1.pivot_table('births', index=['gender', year_cat], columns='month', aggfunc='max')
df5

Unnamed: 0_level_0,month,1,2,3,4,5,6,7,8,9,10,11,12
gender,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
F,"(1968, 1972]",5542,5386,5334,5222,5264,5494,5752,5656,5986,5786,5610,6204
F,"(1972, 1976]",4541,4583,4634,4489,4655,4551,4909,5001,5156,4844,4633,4974
F,"(1976, 1980]",5029,5054,5171,4976,5186,5347,5516,5613,5667,5417,5229,5645
F,"(1980, 1984]",5210,5518,5294,5222,5341,5514,5761,5813,6021,5672,5461,5717
F,"(1984, 1989]",5464,5652,5615,5611,5744,5910,6200,6102,6332,5878,5826,6092
M,"(1968, 1972]",5682,5684,5972,5398,5494,5884,6208,6138,6480,5796,5836,6244
M,"(1972, 1976]",4879,4887,4889,4762,4899,4955,5204,5227,5343,5420,4969,5210
M,"(1976, 1980]",5234,5378,5385,5437,5385,5608,5945,5879,6055,5714,5536,5958
M,"(1980, 1984]",5498,5747,5597,5537,5672,5942,6119,6139,6250,5935,5678,5988
M,"(1984, 1989]",5767,5842,5888,6054,6172,6283,6527,6370,6519,6205,6072,6343


In [86]:
# 6. 

# df5.loc[('F', pd.Interval(1968, 1972, closed='right'))]
df5.index[0]

('F', Interval(1968, 1972, closed='right'))

In [98]:
# 7.
df6 = df.copy().dropna()

ser7 = pd.cut(df6['day'], [0, 10, 20, 31], right = True)

# def f(x):
#     return round(np.mean(x),2)

# df7 = df6.pivot_table('births', index=['gender', ser7], columns='month', aggfunc=f)
df7 = df6.pivot_table('births', index=['gender', ser7], columns='month', aggfunc='mean')
round(df7, 2)

Unnamed: 0_level_0,month,1,2,3,4,5,6,7,8,9,10,11,12
gender,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
F,"(0, 10]",4395.22,4599.14,4647.54,4538.28,4500.38,4626.66,4798.84,4953.31,4915.44,4924.13,4668.44,4654.29
F,"(10, 20]",4604.54,4653.63,4612.15,4498.78,4562.85,4646.19,4888.0,4985.7,5096.1,4732.4,4687.06,4751.52
F,"(20, 31]",4590.56,4141.23,4580.18,4301.17,4546.38,4536.65,4948.56,4943.4,4913.29,4656.35,4331.89,4557.99
M,"(0, 10]",4618.12,4834.08,4873.98,4780.16,4758.86,4881.59,5073.44,5205.9,5175.78,5146.28,4901.77,4875.52
M,"(10, 20]",4831.84,4885.68,4859.82,4743.54,4807.76,4914.75,5164.88,5239.62,5345.34,4963.95,4922.69,4971.56
M,"(20, 31]",4814.99,4432.67,4826.36,4566.38,4813.85,4813.62,5211.72,5205.95,5108.41,4898.29,4543.5,4777.46


## Ejercicio 2

Lee nuestro más que conocido fichero con datos de jugadores de fútbol ("FIFA20.csv") y construye las siguientes pivot table:

1. Suma de salarios de jugadores (en millones) en base a su team_position, su preferred_foot y si es influencer o no. Elige las columnas y los índices en función de lo que creas oportuno. Igual te sirve como consejo que puedes utilizar funciones creadas por ti en el aggfunc, que recibirán cada grupito de registros, como si de un groupby se tratara
2. Media de potential y mínimo de overall en función del año de nacimiento agrupado según su década utilizando los buckets oportunos, y el value_eur agrupado en los buckets [0, 100 000), [100 000, 1 000 000), [1 000 000, max+). Para obtener el año, podríamos utilizar un apply... Pero tranquilo, que en el tema siguiente veremos algún truquillo. Para sacar los grupos de las décadas, quiero que mires los años que tienes y que saques manualmente los años para hacer los buckets (aunque si eres capaz de sacarlo por código, adelante). En cuanto a la aggfunc, piensa en qué hacíamos para agregar con los group by

In [105]:
import pandas as pd

df = pd.read_csv("FIFA20.csv")
df[df['influencer']]['team_position'].unique()

array(['RW', 'LW', 'CAM', 'RCM', 'GK', 'LCB', 'ST', 'CDM', 'LDM', 'RCB',
       'LCM', 'CF', 'SUB', 'LB', 'RES', 'RS'], dtype=object)

In [118]:
# 1. 
df_pivot = df.pivot_table('wage_eur', index = ['team_position'], columns = ['preferred_foot', 'influencer'], aggfunc = sum)
df_pivot/1000000


# def suma_millones(x):
#     return np.sum(x)/1000000

# df.pivot_table('wage_eur', index = ['team_position'], columns = ['preferred_foot', 'influencer'], aggfunc = suma_millones)


# df['wage_eur_mill'] = df['wage_eur']/1000000
# df.pivot_table('wage_eur_mill', index = ['team_position'], columns = ['preferred_foot', 'influencer'], aggfunc = sum)



preferred_foot,Left,Left,Right,Right
influencer,False,True,False,True
team_position,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
CAM,0.999,0.125,2.438,0.46
CB,0.078,,1.164,
CDM,0.303,,2.567,0.313
CF,0.053,,0.386,0.285
CM,0.109,,0.839,
GK,1.121,0.385,5.586,0.36
LAM,0.068,,0.172,
LB,5.028,0.34,0.332,
LCB,3.089,0.215,4.014,0.701
LCM,1.285,0.265,3.742,0.38


In [125]:
# 2. 
lista2 = []

for i in range(len(df['dob'])):
    lista2.append(int(df['dob'][i][0:4]))
    
# df['año2'] = df['dob'].apply(lambda x: int(x[:4]))
    
df['año']=lista2
decadas = pd.cut(df['año'], [1970, 1980, 1990, 2000, 2010])
valores = pd.cut(df['value_eur'], [0, 100000, 1000000, df['value_eur'].max()+1], right=False)

df1 = df.pivot_table(index = decadas, columns = valores, aggfunc ={'potential':np.mean, 'overall':np.min})
round(df1,0)

Unnamed: 0,año,año2
0,1987,1987
1,1985,1985
2,1992,1992
3,1993,1993
4,1991,1991
...,...,...
18273,1997,1997
18274,1997,1997
18275,2000,2000
18276,2000,2000
