El método sort_values() en pandas es una poderosa herramienta para ordenar valores. Puede ordenar la tabla completa o grupos de filas dentro de ella.

Este método se aplica a un DataFrame y tiene dos parámetros:

by=: el nombre o nombres de la columna cuyos valores se usan para ordenar las filas del DataFrame.
ascending= indica el orden al realizar el ordenamiento. Su valor predeterminado es True. Para ordenar los datos en orden descendente, establece este parámetro en False.

![sort-values.png](attachment:sort-values.png)

Si aplicas el método sort_values() a una sola columna no habrá ningún parámetro by=, ya que solo tenemos una columna.

Ordenar los datos de nuestros exoplanetas

Digamos que tenemos un gran interés en los exoplanetas que son similares en tamaño a la Tierra. Ordenemos los datos por radio en orden ascendente. Primero vendrán los planetas más pequeños:

print(exoplanet.sort_values(by='radius').head(10))

             name     mass    radius  discovered
253   Kepler-37 b  0.01000  0.291431        2013
137  Kepler-102 b  0.01353  0.470774        2014
175  Kepler-138 b  0.00021  0.526818        2014
327   Kepler-62 c  0.01300  0.538027        2013
281   Kepler-42 d  0.00300  0.571654        2011
138  Kepler-102 c  0.00944  0.582863        2014
280   Kepler-42 c  0.00600  0.728579        2011
254   Kepler-37 c  0.03776  0.750996        2013
128      KOI-55 b  0.00140  0.762205        2011
279   Kepler-42 b  0.00900  0.784623        2011

Este es el código que ordena únicamente la columna radius y muestra los primeros 10 resultados:

print(exoplanet['radius'].sort_values().head(10))

253    0.291431
137    0.470774
175    0.526818
327    0.538027
281    0.571654
138    0.582863
280    0.728579
254    0.750996
128    0.762205
279    0.784623
Name: radius, dtype: float64

Recuerda que un valor de 1 significa que el radio es igual al de la Tierra. Parece que tenemos muchos exoplanetas que son más pequeños.

Podemos extraer todos los exoplanetas con un radio menor al de la Tierra utilizando la indexación lógica:

print(exoplanet[exoplanet['radius'] < 1])

             name     mass    radius  discovered
128      KOI-55 b  0.00140  0.762205        2011
129      KOI-55 c  0.00210  0.863085        2011
137  Kepler-102 b  0.01353  0.470774        2014
138  Kepler-102 c  0.00944  0.582863        2014
141  Kepler-102 f  0.01636  0.885503        2014
146  Kepler-106 b  0.01668  0.818250        2014
148  Kepler-106 d  0.02549  0.952757        2014
152  Kepler-107 d  0.01196  0.863085        2014
174  Kepler-131 c  0.02600  0.840668        2014
175  Kepler-138 b  0.00021  0.526818        2014
194   Kepler-20 e  0.00970  0.863085        2011
195   Kepler-20 f  0.04500  0.997592        2011
253   Kepler-37 b  0.01000  0.291431        2013
254   Kepler-37 c  0.03776  0.750996        2013
264  Kepler-406 c  0.00900  0.851876        2014
266  Kepler-408 b  0.01573  0.818250        2014
279   Kepler-42 b  0.00900  0.784623        2011
280   Kepler-42 c  0.00600  0.728579        2011
281   Kepler-42 d  0.00300  0.571654        2011
327   Kepler-62 c  0.01300  0.538027        2013
336   Kepler-68 c  0.00642  0.926976        2013

Ahora, digamos que solo nos interesan los valores para el 2014, podemos nuevamente usar la indexación lógica para extraerlos:

print(exoplanet[exoplanet['discovered'] == 2014])

            name    mass     radius  discovered
42      GU Psc b  11.000  15.132015        2014
84    HAT-P-49 b   1.730  15.838176        2014
86    HAT-P-54 b   0.760  10.581202        2014
92     HATS-15 b   2.170  12.385834        2014
95      HATS-4 b   1.323  11.433078        2014
..           ...     ...        ...         ...
478    WASP-74 b   0.826  13.988707        2014
487    WASP-83 b   0.300  11.657256        2014
489  WASP-87 A b   2.210  15.524326        2014
491    WASP-89 b   5.900  11.657256        2014
493  WASP-94 A b   0.452  19.279308        2014

[105 rows x 4 columns]

Combinemos ahora nuestras dos condiciones para encontrar estos planetas:

Planetas descubiertos en 2014.

Planetas más pequeños que la Tierra.

#exoplanetas más pequeños que la Tierra y descubiertos en 2014

exo_small_14 = exoplanet[exoplanet['radius'] < 1]
exo_small_14 = exo_small_14[exo_small_14['discovered'] == 2014]
print(exo_small_14)

             name     mass    radius  discovered
137  Kepler-102 b  0.01353  0.470774        2014
138  Kepler-102 c  0.00944  0.582863        2014
141  Kepler-102 f  0.01636  0.885503        2014
146  Kepler-106 b  0.01668  0.818250        2014
148  Kepler-106 d  0.02549  0.952757        2014
152  Kepler-107 d  0.01196  0.863085        2014
174  Kepler-131 c  0.02600  0.840668        2014
175  Kepler-138 b  0.00021  0.526818        2014
264  Kepler-406 c  0.00900  0.851876        2014
266  Kepler-408 b  0.01573  0.818250        2014

Ordenemos el resultado por radio en orden descendente.

print(exo_small_14.sort_values(by='radius', ascending=False))

             name     mass    radius  discovered
148  Kepler-106 d  0.02549  0.952757        2014
141  Kepler-102 f  0.01636  0.885503        2014
152  Kepler-107 d  0.01196  0.863085        2014
264  Kepler-406 c  0.00900  0.851876        2014
174  Kepler-131 c  0.02600  0.840668        2014
146  Kepler-106 b  0.01668  0.818250        2014
266  Kepler-408 b  0.01573  0.818250        2014
138  Kepler-102 c  0.00944  0.582863        2014
175  Kepler-138 b  0.00021  0.526818        2014
137  Kepler-102 b  0.01353  0.470774        2014

El método sort_values() devuelve un nuevo objeto en vez de modificarlo localmente. Por lo tanto, si deseas seguir trabajando con el DataFrame ordenado, deberás almacenar el resultado en una variable. Puedes guardarla nuevamente en la misma:

exo_small_14 = exo_small_14.sort_values(by='radius', ascending=False)
El más grande de estos planetas, Kepler-106 d, es casi del tamaño de la Tierra. Orbita alrededor de la estrella Kepler-106, que forma parte de la constelación Cygnus. Sin embargo, tendrías que hacer un largo viaje para visitarlo, ya que se encuentra a más de 1000 años luz de distancia.

Curiosamente, el ordenamiento se puede hacer no solo para números, sino también para strings. Echemos un vistazo rápido a un ejemplo paralelo para ilustrarlo. Vamos a crear un simple DataFrame que tenga una sola columna llamada alphabet:

import pandas as pd

df = pd.DataFrame(['b','a','c'], columns=['alphabet'])

Así es como se ve este DataFrame si lo imprimimos:

print(df)

 alphabet
0       b
1       a
2       c

Como podemos ver, aquí están las tres primeras letras del alfabeto, pero el orden es incorrecto. ¿Qué pasará si ordenamos este DataFrame por la columna alphabet? Vamos a probarlo:

df = df.sort_values(by='alphabet')

print(df)

 alphabet
1       a
0       b
2       c

¡Ahora tenemos nuestro alfabeto en el orden correcto gracias al ordenamiento! La conclusión es que el ordenamiento también se puede aplicar a las columnas que contienen no solo valores numéricos, sino también strings. Al ordenar strings, podemos ordenarlas en orden alfabético o de manera opuesta si establecemos ascending= en False. ¡Ahora practiquemos el ordenamiento!

Usando de nuevo el dataset music_log_processed.csv ordena de forma descendente el DataFrame por 'user_id' y almacénalo en df_ordenado. Muestra las primeras 10 filas de df_ordenado al final.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

df_ordenado = df.sort_values('user_id', ascending=False)

print(df_ordenado.head(10)) #Escribe tu código aquí

"""Resultado
        user_id  total_play  ...        genre                  track
52074  FFFD927C  125.330000  ...        metal   Of Purest Absolution
48101  FFFC49ED   55.963000  ...        dance          Stars with us
9468   FFFAC306    0.000000  ...         jazz        Samantha's Lips
57607  FFF8E0D3    3.553000  ...       ruspop      Я не могу сказать
14726  FFF8D7EB    0.100000  ...        world      Dong Song Lo Dang
11013  FFF67553  244.064000  ...         rock         Neurol Machine
22774  FFF4B04E  265.357000  ...          pop                Mi Anun
21084  FFF380C1    1.000000  ...       celtic   Queen Street Cobbler
58791  FFF2DD26    0.000000  ...  alternative         All Who Remain
52377  FFF1D41B   43.990204  ...        latin  Happy Birthday To You

[10 rows x 5 columns]"""

Usando nuevamente el dataset music_log_processed.csv filtra solo el género metal. Ordena de forma descendente el DataFrame por 'total_play' y almacénalo en metal_ordenado. Muestra las primeras 10 filas de metal_ordenado al final.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

metal_ordenado = df[df['genre'] == 'metal'].sort_values(by='total_play', ascending=False)

print(metal_ordenado.head(10))

"""Resultado
        user_id  total_play  ...  genre                            track
29939  ECE08CF4  691.957551  ...  metal                        Guardians
59913  D3174BD4  630.000000  ...  metal                           Awaken
16661  BDDAE2C0  589.183000  ...  metal                     33 Years Ago
37515  FEE3DC73  571.297959  ...  metal                            Sheep
49162  4015B412  540.682000  ...  metal                        Skogsmakt
27512  324A1234  537.521633  ...  metal                      Retribution
45211  528A6ECD  531.095000  ...  metal  Therefore Let Us Feed the Beast
4546   358509C7  528.230000  ...  metal                  Lost in Reality
35014  345DFD74  507.773000  ...  metal                  Ulver Nostalgia
8511   3F3D707F  498.000000  ...  metal                    Critical Mass

[10 rows x 5 columns]"""

Continuemos analizando el dataset music_log_processed.csv. Ordena de forma descendente el DataFrame por 'total_play'. Analiza cuál es el género más escuchado

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

ordenado = df.sort_values(by='total_play', ascending=False)

print(ordenado['genre'].head(10))

"""Resultado
8895        no_info
22764         world
18217       ambient
40854       ambient
34922           new
26143       ambient
20208           new
32905    avantgarde
18183       ambient
12455          jazz
Name: genre, dtype: object"""

Actividad práctica

Ejercicio 1

En la lección anterior, agrupaste nuestros datos music_log_processed.csv por 'genre' y calculaste el tiempo total que nuestros oyentes pasaron escuchando cada género. Como resultado, tenemos el tiempo de escucha total para cada 'genre'. Está almacenado en la variable time_by_genre en el precódigo.

Ahora, ordenemos los resultados en orden descendente y veamos los 10 géneros principales que más escucharon nuestros oyentes. Hazlo y guarda los resultados en la variable time_by_genre_sort.

Toma nota que para esta tarea no necesitas especificar la columna que se va a ordenar, ya que solamente hay una columna en la variable time_by_genre.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

time_by_genre = df.groupby('genre')['total_play'].sum()

time_by_genre_sort = time_by_genre.sort_values(ascending=False)# escribe tu código aquí

print(time_by_genre_sort.head(10))

"""Resultado
genre
dance          731069.475673
pop            727425.542459
electronic     679635.298107
rock           630434.772021
hiphop         297112.321237
classical      271098.177081
world          256630.643956
jazz           213871.653640
alternative    170130.211929
metal          154435.488092
Name: total_play, dtype: float64"""