<a href="https://colab.research.google.com/github/maridufo/UDEA/blob/main/Copia_de_Pandas3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><a name="esp"></a></p>


# **Especificando la clave para la división del DataFrame**

Los ejemplos presentados anteriormente expresan solo unas de las muchas opciones mediante las cuales se pueden definir los grupos. Veamos algunas otras opciones para la especificación de grupos.



La clave puede ser cualquier serie o lista con una longitud que coincida con la del DataFrame

In [None]:
import numpy as np
import pandas as pd
#import

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],'data1': range(1,7),'data2': np.random.randint(0, 10, 6)},
                  columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,1,7
1,B,2,3
2,C,3,6
3,A,4,7
4,B,5,9
5,C,6,8


Vamos a agrupar las filas 0 y 2 con índice "a"; las 1 y 3 con índice 1 ; las 4 y 5 con índice 10 y obtener la media

In [None]:
l = ["a", 1, "a", 1, 10, 10]

df.loc[:, 'data1':].groupby(l).mean()

Unnamed: 0,data1,data2
1,3.0,5.0
10,5.5,8.5
a,2.0,6.5


Otro método es el de proporcionar un diccionario que asigne los valores de los índices a las claves de grupo

In [None]:
# asignar la columna "key" como índice
df2 = df.copy().set_index('key')
df2

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1,7
B,2,3
C,3,6
A,4,7
B,5,9
C,6,8


In [None]:
# mapear los índices
maping = {"A": 'vocal',
          'B': 'consonante',
          'C': "consonante"}

df2.groupby(maping).sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonante,16,26
vocal,5,14


Análogamente al mapeo, es posible pasar cualquier función de Python que aplique sobre el índice y genere el grupo

In [None]:
"ToMas".lower()

'tomas'

In [None]:
df2.index.str.lower()

Index(['a', 'b', 'c', 'a', 'b', 'c'], dtype='object', name='key')

In [None]:
df2.groupby(str.lower).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,7.0
b,3.5,6.0
c,4.5,7.0


<p><a name="mul"></a></p>

# **Objetos de múltiples índices**

Hasta este punto, nos hemos centrado principalmente en datos unidimensionales y bidimensionales, almacenados en Series y DataFrame, respectivamente. A menudo, es útil ir más allá y almacenar datos de mayor dimensión, es decir, datos indexados por más de una o dos claves.


Por ejemplo, cualquiera de las opciones anteriores de agrupamiento se pueden combinar para agrupar con índice múltiple

In [None]:
df = df2.groupby([str.lower, maping]).mean()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vocal,2.5,7.0
b,consonante,3.5,6.0
c,consonante,4.5,7.0


Note que en este caso obtenemos un objeto con dos índices o niveles

In [None]:
df.index

MultiIndex([('a',      'vocal'),
            ('b', 'consonante'),
            ('c', 'consonante')],
           names=['key', 'key'])

Se puede acceder a los diferentes niveles del índice múltiple mediante el kwarg `level`:

In [None]:
df.groupby(level = 1).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonante,4.0,6.5
vocal,2.5,7.0


In [None]:
df.groupby(level = 0).mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.5,7.0
b,3.5,6.0
c,4.5,7.0


Estudiemos este tipo de estructuras con un conjunto de datos real:

In [None]:
titanic = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/titanic.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
titanic.columns = titanic.columns.str.lower()
titanic.head()

Unnamed: 0,passengerid,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Veamos, por ejemplo, la tasa de supervivencia por género y por clase:

In [None]:
titanic.groupby(['sex', 'pclass']).survived.mean()

sex     pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

In [None]:
titanic.groupby(['sex', 'pclass'])[['survived']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


Incluyamos ahora otra agregación:

In [None]:
df = titanic.groupby(['sex', 'pclass']).survived.agg(['mean', len])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,len
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,0.968085,94
female,2,0.921053,76
female,3,0.5,144
male,1,0.368852,122
male,2,0.157407,108
male,3,0.135447,347


si quisieramos obtener el número de personas que sobrevivieron podremos, por ejemplo, realizar una operación vectorizada que, como ya vimos, preserva el índice:

In [None]:
df['total'] = df['len'] * df['mean']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,len,total
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,1,0.968085,94,91.0
female,2,0.921053,76,70.0
female,3,0.5,144,72.0
male,1,0.368852,122,45.0
male,2,0.157407,108,17.0
male,3,0.135447,347,47.0


Con estos objetos de índice múltiple, los datos de dimensiones superiores se pueden representar de forma compacta dentro de los objetos DataFrame bidimensionales y Series unidimensionales familiares.


<p><a name="tab"></a></p>

# **Tablas dinámicas**

Volvamos a obtener la tasa de supervivencia por género y por clase

In [None]:
df = titanic.groupby(['sex', 'pclass']).survived.mean()
df

sex     pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

siempre podremos representar esta información en un DataFrame con índice único mediante el método `unstack()`:

In [None]:
df = df.unstack()
df

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Este GroupBy bidimensional es lo suficientemente común como para que Pandas incluya una función conveniente `pivot_table` que maneja este tipo de agregación multidimensional:

In [None]:
titanic.pivot_table('survived', index = 'sex', columns = 'pclass', aggfunc= 'mean')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Por defecto `pivot_table` aplica la función `mean()`. Para cambiar la función de agregación utilizamos el argumento `aggfunc`

In [None]:
#titanic.pivot_table('survived', index = 'sex', columns = 'pclass', aggfunc= 'sum')
titanic.pivot_table('survived',
                    index = 'sex',
                    columns = 'pclass',
                    aggfunc= 'sum')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


Podemos agrupar por dos columnas y aplicar una función correspondiente a cada una mediante un mapeo:

In [None]:
titanic.pivot_table(index = 'sex',
                    columns = 'pclass',
                    aggfunc={'survived': 'sum',
                             'fare': 'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
pclass,1,2,3,1,2,3
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


La agrupación en tablas dinámicas se puede especificar con múltiples niveles. Podríamos estar interesados en ver la edad como una tercera dimensión. Seccionaremos la edad usando la función `pd.cut`

In [None]:
titanic.age.describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: age, dtype: float64

In [None]:
pd.cut(titanic.age, [0, 18, 80.0])

0      (18.0, 80.0]
1      (18.0, 80.0]
2      (18.0, 80.0]
3      (18.0, 80.0]
4      (18.0, 80.0]
           ...     
886    (18.0, 80.0]
887    (18.0, 80.0]
888             NaN
889    (18.0, 80.0]
890    (18.0, 80.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[float64, right]): [(0.0, 18.0] < (18.0, 80.0]]

In [None]:
age = pd.cut(titanic.age, [0, 18, 80.0])

titanic.pivot_table('survived', index = ['sex', age], columns = 'pclass')

  titanic.pivot_table('survived', index = ['sex', age], columns = 'pclass')


Unnamed: 0_level_0,pclass,1,2,3
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0.0, 18.0]",0.909091,1.0,0.511628
female,"(18.0, 80.0]",0.972973,0.9,0.423729
male,"(0.0, 18.0]",0.8,0.6,0.215686
male,"(18.0, 80.0]",0.375,0.071429,0.133663


Podemos aplicar esta misma estrategia para trabajar con las columnas. Agreguemos información sobre la tarifa pagada usando `pd.cut` para calcular automáticamente los cuantiles

In [None]:
titanic.fare.describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: fare, dtype: float64

In [None]:
fare = pd.cut(titanic.fare, 2)

titanic.pivot_table('survived',
                    index = ['sex', age],
                    columns = [fare, 'pclass'])

  titanic.pivot_table('survived',


Unnamed: 0_level_0,fare,"(-0.512, 256.165]","(-0.512, 256.165]","(-0.512, 256.165]","(256.165, 512.329]"
Unnamed: 0_level_1,pclass,1,2,3,1
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,"(0.0, 18.0]",0.9,1.0,0.511628,1.0
female,"(18.0, 80.0]",0.971429,0.9,0.423729,1.0
male,"(0.0, 18.0]",0.8,0.6,0.215686,
male,"(18.0, 80.0]",0.369565,0.071429,0.133663,0.5


A veces es útil calcular totales a lo largo de cada grupo. Esto se puede hacer a través del kwarg `margins`

In [None]:
titanic.pivot_table('survived',
                    index = 'sex',
                    columns = 'pclass',
                    margins = True,
                    aggfunc= 'sum')

pclass,1,2,3,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,91,70,72,233
male,45,17,47,109
All,136,87,119,342


In [None]:
import pandas as pd

In [None]:
#Importamos los datos que vamos a necesitar y los definimos como la data
data=pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/nba.csv")
data.head(10)

Unnamed: 0.1,Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [None]:
path = "https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/nba.csv"
nba = pd.read_csv(path, header=0, sep=",")
nba_sin_nan = nba.dropna()
team_salaries = nba_sin_nan.groupby('Team')['Salary'].sum().reset_index()
team_salaries_sorted = team_salaries.sort_values(by='Salary', ascending=False)
top_teams = nba_sin_nan.groupby('Team')['Salary'].mean().nlargest(5).index
#Filtramos el dataset con los 5 mejores equipos con mejor salario promedio
nba_top_teams = nba_sin_nan[nba_sin_nan['Team'].isin(top_teams)]
#Pivoteamos
df = pd.pivot_table(nba_top_teams, values='Salary', index='Team', columns = 'Position', aggfunc='mean')
df

Position,C,PF,PG,SF,SG
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chicago Bulls,13400000.0,3578740.0,11171530.0,1958160.0,5717549.0
Cleveland Cavaliers,7768435.0,13941010.0,6551592.0,947276.0,3349079.0
Golden State Warriors,6541249.0,14260870.0,11370790.0,3766367.0,8224138.0
Los Angeles Clippers,10394800.0,6655482.0,12289750.0,3662924.0,4639893.0
Miami Heat,981348.0,10197130.0,,4298409.0,7123384.0


In [None]:
tabla_dinamica = df[df['Team'].isin(equipos_top5)].pivot_table(
    index='Team',
    columns= 'Position',
    values='Salary',
    aggfunc='mean')

tabla_dinamica

Position,C,PF,PG,SF,SG
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chicago Bulls,13400000.0,3578740.0,11171532.0,1958160.0,5717549.0
Los Angeles Clippers,10394800.0,6655482.0,12289745.5,3662924.0,4639893.0
Miami Heat,981348.0,10197130.0,,4298409.0,7123384.0
New York Knicks,12650000.0,3128492.0,1572360.0,8452300.0,3004155.0
Oklahoma City Thunder,6303143.0,2606520.0,9382869.0,8599621.0,3207058.0
