# Ordenar y Agrupar DataFrames en Pandas

In [1]:
import pandas as pd


df: pd.DataFrame = pd.read_csv('./data/Top-Películas.csv')
print(df)

     indice_global  indice_estricto                    título  \
0                0              0.0  The Shawshank Redemption   
1                1              1.0             The Godfather   
2                2              1.0             The Godfather   
3                3              2.0           The Dark Knight   
4                4              2.0           The Dark Knight   
...            ...              ...                       ...   
2527          2527            998.0         The Invisible Man   
2528          2528            998.0         The Invisible Man   
2529          2529            999.0                  Cell 211   
2530          2530            999.0                  Cell 211   
2531          2531            999.0                  Cell 211   

                  director     año  duración           género  rating  \
0           Frank Darabont  1994.0     142.0            Drama     9.3   
1     Francis Ford Coppola  1972.0     175.0           Crimen     9.2   


In [3]:
# Reordenar el dataframe
sorted_df: pd.DataFrame = df.sort_values(by='rating')
print(sorted_df.head(10))

     indice_global  indice_estricto           título          director  \
2531          2531            999.0         Cell 211    Daniel MonzÃ³n   
2400          2400            953.0  Minority Report  Steven Spielberg   
2399          2399            952.0    Kung Fu Panda      Mark Osborne   
2398          2398            952.0    Kung Fu Panda      Mark Osborne   
2397          2397            952.0    Kung Fu Panda      Mark Osborne   
2396          2396            951.0        True Grit        Ethan Coen   
2395          2395            951.0        True Grit        Ethan Coen   
2394          2394            950.0         Stardust    Matthew Vaughn   
2393          2393            950.0         Stardust    Matthew Vaughn   
2392          2392            950.0         Stardust    Matthew Vaughn   

         año  duración     género  rating  metascore  recaudación(M)  
2531  2009.0     113.0      Drama     7.6        0.0            0.00  
2400  2002.0     145.0     Acción     7.6  

In [4]:
# Reordenar el dataframe, pero con ascending=False
sorted_df: pd.DataFrame = df.sort_values(by='rating', ascending=False)
print(sorted_df.head(10))

   indice_global  indice_estricto  \
0              0              0.0   
2              2              1.0   
1              1              1.0   
9              9              4.0   
15            15              6.0   
13            13              5.0   
12            12              5.0   
11            11              5.0   
10            10              4.0   
14            14              6.0   

                                           título              director  \
0                        The Shawshank Redemption        Frank Darabont   
2                                   The Godfather  Francis Ford Coppola   
1                                   The Godfather  Francis Ford Coppola   
9                                    12 Angry Men          Sidney Lumet   
15                          The Godfather Part II  Francis Ford Coppola   
13  The Lord of the Rings: The Return of the King         Peter Jackson   
12  The Lord of the Rings: The Return of the King         Peter Jac

In [5]:
# Reordenar el dataframe por dos o más columnas
sorted_df: pd.DataFrame = df.sort_values(
    by=['rating', 'recaudación(M)'],
    ascending=False
)
print(sorted_df.head(10))

   indice_global  indice_estricto  \
0              0              0.0   
1              1              1.0   
2              2              1.0   
3              3              2.0   
4              4              2.0   
5              5              2.0   
11            11              5.0   
12            12              5.0   
13            13              5.0   
6              6              3.0   

                                           título              director  \
0                        The Shawshank Redemption        Frank Darabont   
1                                   The Godfather  Francis Ford Coppola   
2                                   The Godfather  Francis Ford Coppola   
3                                 The Dark Knight     Christopher Nolan   
4                                 The Dark Knight     Christopher Nolan   
5                                 The Dark Knight     Christopher Nolan   
11  The Lord of the Rings: The Return of the King         Peter Jac

In [6]:
# Aplicar agrupación (equivalente a GROUP BY the SQL) en categorías
# Ejemplo: obtener el promedio de ratings por género
grouped_df: pd.Series = df.groupby('género')['rating'].mean()
print(grouped_df)

género
Acción             7.987255
Animación          7.943902
Aventura           7.980435
Biografía          7.971698
Ciencia Ficción    7.986567
Comedia            7.909910
Crimen             7.993500
Deportes           7.980000
Drama              7.980444
Familiar           7.932692
Fantasía           7.929508
Film-Noir          7.977273
Guerra             8.053191
Historia           7.931818
Misterio           7.991262
Musica             7.909677
Musical            7.943750
Romance            7.937398
Terror             7.875758
Thriller           7.929286
Western            8.006250
Name: rating, dtype: float64


In [7]:
# Obtener la suma de lo recaudado por año, los 10 mejores años
grouped_df: pd.Series = df.groupby('año')['recaudación(M)'].sum()
print(grouped_df.sort_values(ascending=False).head(10))

año
2014.0    8015.90
2019.0    7092.95
2010.0    6899.96
2016.0    6860.23
2015.0    6817.12
2012.0    6487.22
2009.0    6486.34
2018.0    5992.02
2008.0    5603.30
2017.0    5381.90
Name: recaudación(M), dtype: float64
