[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/repos-especializacion-UdeA/fundamendos-de-programacion-DS/blob/main/clase4_17-08-2024/Pandas3.ipynb)

<p><a name="esp"></a></p>


# **Especificando la clave para la división del DataFrame**

Los ejemplos presentados anteriormente expresan solo unas de las muchas opciones mediante las cuales se pueden definir los grupos. Veamos algunas otras opciones para la especificación de grupos.



La clave puede ser cualquier serie o lista con una longitud que coincida con la del DataFrame

In [2]:
import numpy as np
import pandas as pd
#import

In [3]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(1,7),
                   'data2': np.random.randint(0, 10, 6)},
                   columns=['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,1,5
1,B,2,0
2,C,3,8
3,A,4,8
4,B,5,9
5,C,6,4


Vamos a agrupar las filas 0 y 2 con índice "a"; las 1 y 3 con índice 1 ; las 4 y 5 con índice 10 y obtener la media

In [8]:
l = ["a", 1, "a", 1, 10, 10]

df.iloc[:,1:].groupby(l).mean()

Unnamed: 0,data1,data2
1,3.0,4.0
10,5.5,6.5
a,2.0,6.5


Otro método es el de proporcionar un diccionario que asigne los valores de los índices a las claves de grupo

In [9]:
# asignar la columna "key" como índice
df2 = df.copy().set_index('key')
df2

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1,5
B,2,0
C,3,8
A,4,8
B,5,9
C,6,4


In [11]:
# mapear los índices
mappeo = {'A': 'vocal', 'B':'consonante', 'C':'consonante'}


Análogamente al mapeo, es posible pasar cualquier función de Python que aplique sobre el índice y genere el grupo

In [12]:
df2.groupby(mappeo).sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonante,16,21
vocal,5,13


In [19]:
df2.index.str.lower()

Index(['a', 'b', 'c', 'a', 'b', 'c'], dtype='object', name='key')

In [23]:
df.groupby('key').mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.5,6.5
B,3.5,4.5
C,4.5,6.0


In [21]:
df2.groupby(str.lower).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,6.5
b,3.5,4.5
c,4.5,6.0


<p><a name="mul"></a></p>

# **Objetos de múltiples índices**

Hasta este punto, nos hemos centrado principalmente en datos unidimensionales y bidimensionales, almacenados en Series y DataFrame, respectivamente. A menudo, es útil ir más allá y almacenar datos de mayor dimensión, es decir, datos indexados por más de una o dos claves.


Por ejemplo, cualquiera de las opciones anteriores de agrupamiento se pueden combinar para agrupar con índice múltiple

In [24]:
df = df2.copy().groupby([str.lower, mappeo]).mean()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vocal,2.5,6.5
b,consonante,3.5,4.5
c,consonante,4.5,6.0


Note que en este caso obtenemos un objeto con dos índices o niveles

In [28]:
df2.index

Index(['A', 'B', 'C', 'A', 'B', 'C'], dtype='object', name='key')

In [25]:
df.index

MultiIndex([('a',      'vocal'),
            ('b', 'consonante'),
            ('c', 'consonante')],
           names=['key', 'key'])

Se puede acceder a los diferentes niveles del índice múltiple mediante el kwarg `level`:

In [26]:
df.groupby(level=0).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,6.5
b,3.5,4.5
c,4.5,6.0


In [27]:
df.groupby(level=1).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonante,4.0,5.25
vocal,2.5,6.5


Estudiemos este tipo de estructuras con un conjunto de datos real:

In [29]:
titanic = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/titanic.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [30]:
titanic.columns = titanic.columns.str.lower()
titanic.head()

Unnamed: 0,passengerid,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Veamos, por ejemplo, la tasa de supervivencia por género y por clase:

In [31]:
titanic.groupby(['sex', 'pclass'])['survived'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


In [32]:
titanic.groupby(['sex', 'pclass'])[['survived']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


Incluyamos ahora otra agregación:

In [44]:
titanic.groupby(['sex', 'pclass'])[['survived']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,91
female,2,70
female,3,72
male,1,45
male,2,17
male,3,47


In [37]:
df = titanic.groupby(['sex', 'pclass'])['survived'].agg(['mean', len])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,len
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,0.968085,94
female,2,0.921053,76
female,3,0.5,144
male,1,0.368852,122
male,2,0.157407,108
male,3,0.135447,347


si quisieramos obtener el número de personas que sobrevivieron podremos, por ejemplo, realizar una operación vectorizada que, como ya vimos, preserva el índice:

In [38]:
df['mean']* df['len']

Unnamed: 0_level_0,Unnamed: 1_level_0,0
sex,pclass,Unnamed: 2_level_1
female,1,91.0
female,2,70.0
female,3,72.0
male,1,45.0
male,2,17.0
male,3,47.0


Con estos objetos de índice múltiple, los datos de dimensiones superiores se pueden representar de forma compacta dentro de los objetos DataFrame bidimensionales y Series unidimensionales familiares.


<p><a name="tab"></a></p>

# **Tablas dinámicas**

Volvamos a obtener la tasa de supervivencia por género y por clase

In [39]:
df =titanic.groupby(['sex', 'pclass'])['survived'].mean()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


siempre podremos representar esta información en un DataFrame con índice único mediante el método `unstack()`:

In [40]:
df.unstack()

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Este GroupBy bidimensional es lo suficientemente común como para que Pandas incluya una función conveniente `pivot_table` que maneja este tipo de agregación multidimensional:

In [41]:
titanic.pivot_table('survived', index='sex', columns='pclass')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Por defecto `pivot_table` aplica la función `mean()`. Para cambiar la función de agregación utilizamos el argumento `aggfunc`

In [43]:
titanic.pivot_table('survived', index='sex', columns='pclass', aggfunc='sum')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


Podemos agrupar por dos columnas y aplicar una función correspondiente a cada una mediante un mapeo:

In [45]:
titanic.columns

Index(['passengerid', 'survived', 'pclass', 'name', 'sex', 'age', 'sibsp',
       'parch', 'ticket', 'fare', 'cabin', 'embarked'],
      dtype='object')

In [49]:
titanic.shape

(891, 12)

In [50]:
titanic.pivot_table(index='pclass',
                    columns='sex',
                    aggfunc={'survived':'sum',
                             'fare':'mean'})

Unnamed: 0_level_0,fare,fare,survived,survived
sex,female,male,female,male
pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,106.125798,67.226127,91,45
2,21.970121,19.741782,70,17
3,16.11881,12.661633,72,47


La agrupación en tablas dinámicas se puede especificar con múltiples niveles. Podríamos estar interesados en ver la edad como una tercera dimensión. Seccionaremos la edad usando la función `pd.cut`

In [52]:
print(pd.cut(titanic.age, [0, 18, 80]))

0      (18.0, 80.0]
1      (18.0, 80.0]
2      (18.0, 80.0]
3      (18.0, 80.0]
4      (18.0, 80.0]
           ...     
886    (18.0, 80.0]
887    (18.0, 80.0]
888             NaN
889    (18.0, 80.0]
890    (18.0, 80.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[int64, right]): [(0, 18] < (18, 80]]


In [54]:
age = pd.cut(titanic.age, [0, 18, 80])

titanic.pivot_table('survived', index = ['sex', age], columns = 'pclass')


Unnamed: 0_level_0,pclass,1,2,3
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


Podemos aplicar esta misma estrategia para trabajar con las columnas. Agreguemos información sobre la tarifa pagada usando `pd.cut` para calcular automáticamente los cuantiles

In [57]:
fare = pd.cut(titanic.fare, bins= [0, 256.165, 512.329])

multi = titanic.pivot_table('survived', index = ['sex', age], columns = [fare, 'pclass'])
multi

Unnamed: 0_level_0,fare,"(0.0, 256.165]","(0.0, 256.165]","(0.0, 256.165]","(256.165, 512.329]"
Unnamed: 0_level_1,pclass,1,2,3,1
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,"(0, 18]",0.9,1.0,0.511628,1.0
female,"(18, 80]",0.971429,0.9,0.423729,1.0
male,"(0, 18]",0.8,0.6,0.215686,
male,"(18, 80]",0.382022,0.071429,0.131313,0.0


In [56]:
titanic.fare.describe()

Unnamed: 0,fare
count,891.0
mean,32.204208
std,49.693429
min,0.0
25%,7.9104
50%,14.4542
75%,31.0
max,512.3292


A veces es útil calcular totales a lo largo de cada grupo. Esto se puede hacer a través del kwarg `margins`

In [60]:
titanic.pivot_table(index = 'sex', columns = 'pclass', values = 'survived', aggfunc = 'sum', margins = True)

pclass,1,2,3,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,91,70,72,233
male,45,17,47,109
All,136,87,119,342
