#### Tablas dinámicas / Pivot tables

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("../datasets/cwurData.csv")
df

In [None]:
# creamos una función que asigne un tier en base al ranking
def create_category(ranking):
    if (ranking >= 1) & (ranking <= 100):
        return "First Tier Top Unversity"
    elif (ranking >= 101) & (ranking <= 200):
        return "Second Tier Top Unversity"
    elif (ranking >= 201) & (ranking <= 300):
        return "Third Tier Top Unversity"
    return "Other Top Unversity"

# aplicamos la funcion a una columna y guardamos el resultado en otra
df['Rank_Level'] = df['world_rank'].apply(lambda x: create_category(x))
df

In [None]:
# creamos una tabla pivote con: df.pivot_table(values="score", index="country", columns="Rank_Level", aggfunc=[np.mean])

# values="score": Especifica que los valores a considerar para la tabla pivote son los puntajes, 
# que están en la columna "score".

# index="country": Usa la columna "country" como índice de la tabla pivote, lo que significa que
# cada fila de la tabla pivote corresponderá a un país.

# columns="Rank_Level": Utiliza la columna "Rank_Level" para crear columnas en la tabla pivote, lo 
# que implica que cada nivel único de "Rank_Level" se convertirá en una columna separada en la tabla pivote.

# aggfunc=[np.mean]: Especifica que se aplicará la función de agregación np.mean (promedio) para 
# calcular los valores de la tabla pivote. En este caso, se calculará el promedio de los puntajes 
# para cada combinación de país y nivel de rango.

df.pivot_table(values="score", index="country", columns="Rank_Level", aggfunc=[np.mean]).head()

In [None]:
# las tablas pivote no estan limitadas a una sola función, con aggfunc podemos pasar varias
# funciones como una lista

df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max]).head()

In [None]:
# margins=True: calcula los márgenes (totales generales) a lo largo de cada dimensión. En este caso, 
# agrega una fila y una columna adicionales al final de la tabla pivote que muestran los totales generales:

# La fila adicional (All) mostrará el promedio y el máximo de los puntajes para cada país, independientemente
#  del nivel de rango.

# La columna adicional (All) mostrará el promedio y el máximo de los puntajes para cada nivel de rango, 
# independientemente del país.

df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max], 
               margins=True).head()

In [29]:
# una tabla pivot es simplemente un dataframe multinivel, podemos acceder a la series y celdas 
# del dataframe como lo hacemos normalmente
new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max], 
               margins=True)

print(new_df.index)
print(new_df.columns)

Index(['Argentina', 'Australia', 'Austria', 'Belgium', 'Brazil', 'Bulgaria',
       'Canada', 'Chile', 'China', 'Colombia', 'Croatia', 'Cyprus',
       'Czech Republic', 'Denmark', 'Egypt', 'Estonia', 'Finland', 'France',
       'Germany', 'Greece', 'Hong Kong', 'Hungary', 'Iceland', 'India', 'Iran',
       'Ireland', 'Israel', 'Italy', 'Japan', 'Lebanon', 'Lithuania',
       'Malaysia', 'Mexico', 'Netherlands', 'New Zealand', 'Norway', 'Poland',
       'Portugal', 'Puerto Rico', 'Romania', 'Russia', 'Saudi Arabia',
       'Serbia', 'Singapore', 'Slovak Republic', 'Slovenia', 'South Africa',
       'South Korea', 'Spain', 'Sweden', 'Switzerland', 'Taiwan', 'Thailand',
       'Turkey', 'USA', 'Uganda', 'United Arab Emirates', 'United Kingdom',
       'Uruguay', 'All'],
      dtype='object', name='country')
MultiIndex([('mean',  'First Tier Top Unversity'),
            ('mean',       'Other Top Unversity'),
            ('mean', 'Second Tier Top Unversity'),
            ('mean',  'Third T

  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],
  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],
  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],
  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],
  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],
  new_df = df.pivot_table(values='score', index='country', columns='Rank_Level', aggfunc=[np.mean, np.max],


In [30]:
print(new_df['mean']['First Tier Top Unversity'].head())
print(type(new_df['mean']['First Tier Top Unversity']))

country
Argentina        NaN
Australia    47.9425
Austria          NaN
Belgium      51.8750
Brazil           NaN
Name: First Tier Top Unversity, dtype: float64
<class 'pandas.core.series.Series'>


In [32]:
# podemos buscar el pais (en este caso es el indice) con la media más alta en universidades 
# de tier 1
new_df['mean']['First Tier Top Unversity'].idxmax()

'United Kingdom'

In [38]:
# las funciones stack() y unstack() en Pandas se utilizan para transformar la estructura de los datos 
# en un DataFrame, reorganizando los niveles de índices y columnas. Aquí está la explicación de cada una:

# stack() se utiliza para "apilar" los niveles de columnas de un DataFrame y convertirlos en niveles de índices, 
# lo que resulta en un DataFrame con un índice múltiple (MultiIndex).
new_df=new_df.stack()
print(new_df.head())

# unstack() es el proceso inverso de stack(). Se utiliza para "desapilar" un nivel del índice y convertirlo en 
# niveles de columnas, lo que resulta en un DataFrame con columnas múltiples.
new_df=new_df.unstack()
print(new_df.head())

country  Rank_Level                     
All      First Tier Top Unversity   mean     58.350675
                                    max     100.000000
         Other Top Unversity        mean     44.738871
                                    max      46.340000
         Second Tier Top Unversity  mean     49.065450
dtype: float64
                                        mean     max
country Rank_Level                                  
All     First Tier Top Unversity   58.350675  100.00
        Other Top Unversity        44.738871   46.34
        Second Tier Top Unversity  49.065450   51.29
        Third Tier Top Unversity   46.843450   47.93
        All                        47.798395  100.00
