# **Obtención y preparación de datos**

# OD17. Ordenación de Estructuras en Pandas

Otras útiles herramientas son aquellas que permiten ordenar las estructuras de datos de pandas -ordenación según los índices o según los valores- y las que permiten clasificar cada elemento de una estructura según su valor.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**Ordenación de series por índice**</font>

El método `pandas.Series.sort_index` devuelve una copia de la serie ordenada según las etiquetas de forma ascendente.

In [None]:
s = pd.Series([0, 1, 2, 3, 4], index = [3, 1, 5, 0, 4])
s

In [None]:
s.sort_index()

In [None]:
s.sort_index(ascending = False)

Si los índices fuesen cadenas de texto, se ordenarían de la $a$ a la $z$, dando a las mayúsculas mayor prioridad (siguiendo el criterio del estándar Unicode).

In [None]:
s = pd.Series([0, 1, 2, 3, 4], index = ["b", "d", "a", "A", "B"])
s

In [None]:
s.sort_index()

## <font color='blue'>**Ordenación de series por valor**</font>

Si lo que deseamos es obtener una copia de una serie tras ordenarla según sus valores, el método `pandas.Series.sort_values` hace exactamente esto, permitiéndonos -entre otras cosas- escoger si la ordenación es ascendente -valor por defecto- o descendente.

In [None]:
s = pd.Series([7, 3, 6, 1, -4], index = ["a", "b", "c", "d", "e"])
s

In [None]:
s.sort_values()

In [None]:
s.sort_values(ascending = False)

## <font color='blue'>**Ordenación de dataframes por índice**</font>

Los dataframes también tienen el mismo método que las series, `pandas.DataFrame.sort_index`, que devuelven una copia del mismo tras ordenarlo según las etiquetas a lo largo de un determinado eje.

In [None]:
df = pd.DataFrame({"C": [-3, 5, 2],
                   "A": [1, 0, 3],
                   "D": [4, 3, -4],
                   "B": [-2, 3, 1]},
                  index = ["c", "a", "b"])
df

Los índices del dataframe son de tipo texto y susceptibles de ser ordenados alfabéticamene, de la $a$ a la $z$ o viceversa (ya se ha comentado que las mayúsculas son situadas antes que las minúsculas en una ordenación ascendente). Ordenemos el dataframe, por lo tanto, a lo largo del eje 0 (eje vertical) -opción por defecto si no se indica otra cosa.

In [None]:
df.sort_index()

Efectivamente, las filas han sido ordenadas según el índice de filas. Especifiquemos que la ordenación del dataframe df sea por el eje 1 (eje horizontal).

In [None]:
df.sort_index(axis = 1)

En este caso vemos cómo han sido las columnas las que han sido ordenadas según sus etiquetas. Por supuesto, también tenemos la opción de recurrir al parámetro ascending para especificar el orden (ascendente o descendente).

In [None]:
df.sort_index(axis = 1, ascending = False)

El método `sort_index` no permite especificar más que un único eje, por lo que si deseásemos realizar una segunda ordenación a lo largo del otro eje, tendríamos que volver a aplicar el mismo método.



In [None]:
df.sort_index().sort_index(axis = 1)

## <font color='blue'>**Ordenación de dataframes por valor**</font>

El método `pandas.DataFrame.sort_values` asociado a todo dataframe es el que nos va a permitir ordenarlo según sus valores. En el caso de una estructura de dos dimensiones, hay dos elementos que van a definir cómo realizar la ordenación: el eje escogido (eje 0, por defecto) y, dentro de ese eje, qué fila o columna (o qué filas o columnas) van a determinar el orden de los datos.

In [None]:
df = pd.DataFrame({"A": [3, 2, 2, 0],
                   "B": [1, 2, 2, 0],
                   "C": [0, 3, 1, 5],
                   "D": [2, 4, 5, 6]},
                  index = ["a", "b", "c", "d"])
df

Supongamos que queremos ordenar esta estructura según la columna $A$, es decir, según el eje vertical o eje 0.

In [None]:
df.sort_values(by = "A")

Al tratarse del eje por defecto, no ha sido necesario especificarlo mediante el parámetro `axis`. Las columnas (en este caso solo una) que determinan el criterio de ordenación se han indicado mediante el parámetro `by` (si se trata de una única fila o columna basta indicar el nombre de la misma. Si se tratase de más de una, habría que agregarlas en forma de lista). Por cierto, este método exige trabajar con etiquetas, no acepta índices.

Las filas se han reordenado de forma que la columna $A$ muestre sus valores ordenados de menor a mayor. Las filas cuyas etiquetas son $b$ y $c$ , al tener el mismo valor en la columna $A$, reciben una ordenadión por defecto (la que imponga el código que, probablemente, deja el mismo orden en el que aparecen en el dataframe original). Si quisiéramos ordenar las filas también según una segunda columna, podríamos hacerlo de la siguiente manera:

In [None]:
df.sort_values(by = ["A", "C"])

Las filas $b$ y $c$, que en el ejemplo anterior no se ordenaban entre sí pues no había criterio alguno que lo impusiese, ahora sí se muestran ordenadas según la columna $C$.

Si deseásemos ordenar el dataframe según los valores de las filas $a$ y $b$, por ejemplo, y de mayor a menor, podríamos conseguirlo del siguiente modo:

In [None]:
df.sort_values(by = ["a", "b"], axis = 1, ascending = False)

En este caso ha sido necesario especificar el eje de ordenación, al no tratarse del eje por defecto (argumento `axis = 1`).

## <font color='blue'>**Clasificación de series**</font>

El método `pandas.Series.rank` devuelve una serie conteniendo la clasificación o posición de cada valor de la serie original si fuesen ordenados de menor a mayor.

In [None]:
s = pd.Series([4, 2, 0, 3, 6], index = ["a", "b", "c", "d", "e"])
s

Si ejecutamos el método `rank` asociado a esta serie, el resultado es el siguiente:

In [None]:
print(type(s.rank()))
s.rank()

Vemos que la estructura devuelta es una serie pandas, y que está formada por la posición o clasificación de cada elemento en la serie original. Así, por ejemplo, el menor valor de s era el 0 correspondiente a la etiqueta $c$, de forma que, en la serie resultante de aplicar el método rank, el valor correspondiente a la etiqueta $c$ es 1. El segundo valor de la serie s era el correspondiente a la etiqueta $b$, que se muestra con el valor 2 en el resultado de `rank`, y así sucesivamente. Es decir, los valores de la serie resultante son los números desde 1 hasta n, siendo n el número de elementos de la serie original.

O, al menos, esto es así si no hay valores repetidos en la serie original pues, en ese caso, el método rank nos permite especificar cómo queremos clasificarlos, cosa que podemos hacer con el parámetro `method`. Por defecto, cada uno de los valores repetidos recibe el valor medio de las clasificaciones de cada uno de los valores suponiendo que se les aplicase como clasificación un número entero consecutivo.

In [None]:
s = pd.Series([4, 2, 2, 3, 3, 3, 6], index = ["a", "b", "c", "d", "e", "f", "g"])
s

El valor 2 está repetido dos veces, y que el valor 3 está repetido tres veces. Apliquemos el método `rank` con los argumentos por defecto:

In [None]:
s.rank()

Si ordenásemos los valores de la serie $s$ de menos a mayor, el resultado sería el siguiente:

2, 2, 3, 3, 3, 4, 5

Es decir, los valores 2 ocuparían las posiciones 1 y 2. Su valor medio es 1.5, que es el valor que les asigna el método rank. Los valores 3 ocuparían las posiciones 3, 4 y 5, cuyo valor medio es 4, y éste es el valor que les asigna el método `rank`.

En todo caso, el parámetro `method` del método nos permite escoger el criterio de asignación de la clasificación para valores repetidos: puede ser, por ejemplo, el menor valor (de los que recibirían si se asignasen valores no repetidos):

In [None]:
s.rank(method = "min")

Vemos cómo se ha asignado a los dos valores correspondientes al menor valor (etiquetas $b$ y $c$) el valor 1 (mínimo de 1 y 2, posiciones que ocupan ambos números) y se ha asignado el valor 3 a los tres valores que ocupan las posiciones 3, 4 y 5.

## <font color='blue'>**Clasificación de dataframes**</font>

De forma semejante a las series, los dataframes tienen el método `pandas.DataFrame.rank`, que devuelve la clasificación de cada valor a lo largo de un determinado eje.

In [None]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, -1]},
                  index = ["ene", "feb", "mar"])
ventas

In [None]:
ventas.rank()

La estructura devuelta por el método `rank` es otro dataframe, y el eje por defecto en el que se calculan las clasificaciones es el eje 0 (eje vertical). Vemos que el comportamiento es semejante al visto para las series (de hecho, podemos pensar que el método se aplica a cada columna por separado, siendo éstas, como sabemos, series). Por ejemplo, la primera columna está formada por las cifras 3, 3 y 1, y la clasificación es 2.5, 2.5 y 1 respectivamente, sabiendo que el 2.5 es la media de las posiciones 2 y 3 que dichas cifras ocuparían si la serie original se ordenase de menor a mayor.

También podemos aplicar el método a lo largo del eje 1 (eje horizonta):

In [None]:
ventas.rank(axis = 1)

En este caso, si consideramos la primera fila, los valores del dataframe original son 3, 1, 3 y 7, y su clasificación es 2.5, 1, 2.5 y 4, sabiendo nuevamente que el 2.5 es el valor medio de las posiciones 2 y 3 que ocuparían los valores repetidos (3) si se asignasen posiciones numéricas consecutivas.

El método `rank` tiene -ya lo hemos visto para series- el parámetro `ascending` que controla el orden de los resultados (ascendente o descendente) y el parámetro method que controla el criterio de clasificación para valores repetidos.

### <font color='green'>Actividad 1</font>

La biblioteca de una universidad ha registrado un conjunto de libros de diferentes géneros, autores y años de publicación. Se te pide analizar y clasificar este conjunto de libros utilizando diferentes criterios de ordenación en un DataFrame. Algunos de estos libros han sido prestados a estudiantes y tienen fechas de devolución.

```
# Creación del DataFrame
data = {
    'Titulo': ['Programming in Python', 'History of World War II', 'Data Structures', 'Philosophy 101', 'Advanced Calculus', 'Literature of the 20th Century', 'Physics Fundamentals', 'Chemistry Basics', 'The Art of Writing', 'Biology Concepts'],
    'Autor': ['John Smith', 'Jane Doe', 'Alan Turing', 'Sophia Loren', 'Leonhard Euler', 'Oscar Wilde', 'Richard Feynman', 'Marie Curie', 'George Orwell', 'Charles Darwin'],
    'Genero': ['Programming', 'History', 'Computer Science', 'Philosophy', 'Mathematics', 'Literature', 'Physics', 'Chemistry', 'Literature', 'Biology'],
    'Año de publicación': [2020, 2005, 1995, 2010, 2000, 1985, 1990, 1998, 2002, 1880],
    'Fecha de devolución': [np.nan, '2023-05-21', '2023-05-22', np.nan, '2023-05-15', np.nan, '2023-05-18', np.nan, '2023-05-25', '2023-05-14']
}

df = pd.DataFrame(data)
df['Fecha de devolución'] = pd.to_datetime(df['Fecha de devolución'])
```

1. Ordena el DataFrame por 'Genero' y, dentro de cada género, por 'Año de publicación' en orden descendente.
2. Crea una serie que represente la cantidad de libros por género y ordena esta serie de manera descendente.
3. Ordena el DataFrame por 'Fecha de devolución', colocando primero los libros que aún no han sido devueltos (es decir, los valores NaN).
4. Para aquellos libros que han sido prestados y devueltos, ordena primero por la cercanía de la fecha de devolución y, en caso de empate, por el título del libro en orden alfabético.
5. Crea una columna que represente el año actual menos el 'Año de publicación' (esto dará la edad del libro) y ordena el DataFrame por esta nueva columna en orden ascendente.

In [None]:
# Tu código aquí ...


<font color='green'>Fin actividad 1</font>

### <font color='green'>Actividad 2</font>

Durante una competencia de atletismo a nivel nacional, se registraron los tiempos (en segundos) de varios atletas en diferentes eventos. Tu tarea es analizar el rendimiento de estos atletas y asignarles un ranking basado en sus tiempos.

```
# Creación del DataFrame
data = {
    'Atleta': ['John Doe', 'Jane Smith', 'Alan Turing', 'Sophia Loren', 'Eva Green', 'Chris Hemsworth', 'Scarlett Johansson', 'Robert Downey Jr.', 'Emma Watson', 'Tom Holland'],
    '100m': [10.5, 11.0, 10.8, 12.1, 10.6, 10.4, 12.0, 11.8, 10.9, 10.7],
    '200m': [21.5, 22.3, 21.9, 24.1, 21.7, 21.2, 24.0, 23.5, 22.0, 21.8],
    '400m': [48.5, 50.0, 49.0, 53.5, 49.2, 48.1, 54.0, 52.0, 49.5, 48.8]
}

df = pd.DataFrame(data)
```

1. Asigna un ranking a los atletas para cada evento (100m, 200m, 400m) utilizando la función rank(). Recuerda que un tiempo menor es mejor en carreras, por lo que el atleta con el menor tiempo debería tener el ranking más alto (por ejemplo, 1).
2. Calcula la suma de los rankings de cada atleta en los tres eventos.
Basado en la suma total de rankings, asigna un ranking general a cada atleta, donde el atleta con el menor score total (mejores posiciones) tiene el ranking más alto.
3. Filtra a los 3 atletas top basados en el ranking general.
4. Determina qué atleta tiene el mejor ranking promedio sin considerar sus peores y mejores performances (es decir, elimina el evento en el que tuvo su peor y mejor ranking y calcula el promedio de los rankings restantes).

In [None]:
# Tu código aquí ...


<font color='green'>Fin actividad 2</font>