# Ordenar y Agrupar DataFrames

Vamos a ver algunas *operaciones esenciales* en el trabajo con dataframes, que van a ser muy útiles luego para el análisis de datos, ya que nos permiten organizar y extraer información valiosa de manera eficiente.

Para eso vamos a trabajar con este dataframe que proviene de un archivo csv que puedes descargar de esta lección, y que puedes importar como dataframe con estas mismas indicaciones que ves en pantalla, pero por supuesto deberás modificar la variable ruta con tu propia ruta de acceso al archivo que te has descargado.

In [1]:
import pandas as pd

In [2]:
ruta = 'C:/Users/Win10/Downloads/00 - FEDE/Udemy/Python para Data Science/Día 7/3 - Ordenar y Agrupar DataFrames/Top-Películas.csv'
df = pd.read_csv(ruta)

In [3]:
df

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
3,3,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Acción,9.0,84.0,534.86
4,4,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Crimen,9.0,84.0,534.86
...,...,...,...,...,...,...,...,...,...,...
2527,2527,998.0,The Invisible Man,James Whale,1933.0,71.0,Terror,7.6,87.0,0.00
2528,2528,998.0,The Invisible Man,James Whale,1933.0,71.0,Ciencia Ficción,7.6,87.0,0.00
2529,2529,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Acción,7.6,0.0,0.00
2530,2530,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Crimen,7.6,0.0,0.00


Comencemos con lo que se llama **ordenación de DataFrames**.

La ordenación es el proceso de organizar los datos en un **orden específico**, lo cual facilita la visualización y el análisis posterior.

Esto lo vimos un poco en el proyecto del día de ayer, pero ahora lo introducimos formalmente, presentando al método `sort_values()`.

In [4]:
df_ordenado = df.sort_values(by='rating')
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
2531,2531,999.0,Cell 211,Daniel MonzÃ³n,2009.0,113.0,Drama,7.6,0.0,0.0
2400,2400,953.0,Minority Report,Steven Spielberg,2002.0,145.0,Acción,7.6,80.0,132.07
2399,2399,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Aventura,7.6,74.0,215.43
2398,2398,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Acción,7.6,74.0,215.43
2397,2397,952.0,Kung Fu Panda,Mark Osborne,2008.0,92.0,Animación,7.6,74.0,215.43
2396,2396,951.0,True Grit,Ethan Coen,2010.0,110.0,Western,7.6,80.0,171.24
2395,2395,951.0,True Grit,Ethan Coen,2010.0,110.0,Drama,7.6,80.0,171.24
2394,2394,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Fantasía,7.6,66.0,38.63
2393,2393,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Familiar,7.6,66.0,38.63
2392,2392,950.0,Stardust,Matthew Vaughn,2007.0,127.0,Aventura,7.6,66.0,38.63


Como vemos esto ha ordenado nuestros registros según el valor de *rating*, pero lo hace **de menor a mayor**, porque así es como está programado `sort_values()` por defecto. Pero si queremos ordenarlos de **mayor a menor**, solo tenemos que modificar el valor del parámetro `ascending`.

In [5]:
df_ordenado = df.sort_values(by='rating', ascending=False)
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
9,9,4.0,12 Angry Men,Sidney Lumet,1957.0,96.0,Crimen,9.0,97.0,4.36
15,15,6.0,The Godfather Part II,Francis Ford Coppola,1974.0,202.0,Drama,9.0,90.0,57.3
13,13,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Drama,9.0,94.0,377.85
12,12,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Aventura,9.0,94.0,377.85
11,11,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Acción,9.0,94.0,377.85
10,10,4.0,12 Angry Men,Sidney Lumet,1957.0,96.0,Drama,9.0,97.0,4.36
14,14,6.0,The Godfather Part II,Francis Ford Coppola,1974.0,202.0,Crimen,9.0,90.0,57.3


Y en caso de que quieras que el ordenamiento se realice teniendo en cuenta **más de una columna**, en vez de pasarle el nombre de *una sola columna* al parámetro `by`, le pasamos una *lista con las columnas* que queremos que se consideren, y en el orden de prioridades que queremos darle.

In [6]:
df_ordenado = df.sort_values(by=['rating', 'recaudación(M)'], ascending=False)
df_ordenado.head(10)

Unnamed: 0,indice_global,indice_estricto,título,director,año,duración,género,rating,metascore,recaudación(M)
0,0,0.0,The Shawshank Redemption,Frank Darabont,1994.0,142.0,Drama,9.3,82.0,28.34
1,1,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Crimen,9.2,100.0,134.97
2,2,1.0,The Godfather,Francis Ford Coppola,1972.0,175.0,Drama,9.2,100.0,134.97
3,3,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Acción,9.0,84.0,534.86
4,4,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Crimen,9.0,84.0,534.86
5,5,2.0,The Dark Knight,Christopher Nolan,2008.0,152.0,Drama,9.0,84.0,534.86
11,11,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Acción,9.0,94.0,377.85
12,12,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Aventura,9.0,94.0,377.85
13,13,5.0,The Lord of the Rings: The Return of the King,Peter Jackson,2003.0,201.0,Drama,9.0,94.0,377.85
6,6,3.0,Schindler's List,Steven Spielberg,1993.0,195.0,Biografía,9.0,95.0,96.9


Ahora veamos la **agrupación de DataFrames**.

Agrupar es *reunir datos basados en categorías o valores comunes*, lo cual también es útil para el análisis comparativo.

El método que usamos para agrupar categorías es **groupby**, que en español significa *agrupar por*.

Supongamos que quiero saber el *rating promedio* que han obtenido los distintos *géneros* de películas. En ese caso debería agrupar las películas por **género** y luego calcular el **promedio** del **rating** para cada uno de esos grupos.

In [7]:
df_agrupado = df.groupby('género')['rating'].mean()
df_agrupado

género
Acción             7.987255
Animación          7.943902
Aventura           7.980435
Biografía          7.971698
Ciencia Ficción    7.986567
Comedia            7.909910
Crimen             7.993500
Deportes           7.980000
Drama              7.980444
Familiar           7.932692
Fantasía           7.929508
Film-Noir          7.977273
Guerra             8.053191
Historia           7.931818
Misterio           7.991262
Musica             7.909677
Musical            7.943750
Romance            7.937398
Terror             7.875758
Thriller           7.929286
Western            8.006250
Name: rating, dtype: float64

Y veamos un ejemplo más de `groupbu` para que podamos practicarlo un poco.

Supongamos que quieres ver el **total recaudado por año**. En este caso no queremos ver el *promedio* por año, sino la *suma* de lo que han recaudado las películas agrupadas según el año.

In [8]:
df_agrupado = df.groupby('año')['recaudación(M)'].sum()

Pero no quisiera ver la serie con todos los años, porque son muchísimos, sino que quiero ver **los 10 años con mejores recaudaciones**.

In [9]:
df_agrupado.sort_values(ascending=False).head(10)

año
2014.0    8015.90
2019.0    7092.95
2010.0    6899.96
2016.0    6860.23
2015.0    6817.12
2012.0    6487.22
2009.0    6486.34
2018.0    5992.02
2008.0    5603.30
2017.0    5381.90
Name: recaudación(M), dtype: float64