# **Obtención y preparación de datos**

# OD17. Ordenación de Estructuras en Pandas
Otras útiles herramientas son aquellas que permiten ordenar las estructuras de datos de pandas -ordenación según los índices o según los valores- y las que permiten clasificar cada elemento de una estructura según su valor.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**Ordenación de series por índice**</font>

El método **pandas.Series.sort_index** devuelve una copia de la serie ordenada según las etiquetas de forma ascendente.

In [2]:
s = pd.Series([0, 1, 2, 3, 4], index = [3, 1, 5, 0, 4])
s

3    0
1    1
5    2
0    3
4    4
dtype: int64

In [3]:
s.sort_index()

0    3
1    1
3    0
4    4
5    2
dtype: int64

In [4]:
s.sort_index(ascending = False)

5    2
4    4
3    0
1    1
0    3
dtype: int64

Si los índices fuesen cadenas de texto, se ordenarían de la a a la z, dando a las mayúsculas mayor prioridad (siguiendo el criterio del estándar Unicode).

In [5]:
s = pd.Series([0, 1, 2, 3, 4], index = ["b", "d", "a", "A", "B"])
s

b    0
d    1
a    2
A    3
B    4
dtype: int64

In [6]:
s.sort_index()

A    3
B    4
a    2
b    0
d    1
dtype: int64

## <font color='blue'>**Ordenación de series por valor**</font>

Si lo que deseamos es obtener una copia de una serie tras ordenarla según sus valores, el método **pandas.Series.sort_values** hace exactamente esto, permitiéndonos -entre otras cosas- escoger si la ordenación es ascendente -valor por defecto- o descendente.

In [7]:
s = pd.Series([7, 3, 6, 1, -4], index = ["a", "b", "c", "d", "e"])
s

a    7
b    3
c    6
d    1
e   -4
dtype: int64

In [8]:
s.sort_values()

e   -4
d    1
b    3
c    6
a    7
dtype: int64

In [9]:
s.sort_values(ascending = False)

a    7
c    6
b    3
d    1
e   -4
dtype: int64

## <font color='blue'>**Ordenación de dataframes por índice**</font>

Los dataframes también tienen el mismo método que las series, **pandas.DataFrame.sort_index**, que devuelven una copia del mismo tras ordenarlo según las etiquetas a lo largo de un determinado eje.

In [10]:
df = pd.DataFrame({"C": [-3, 5, 2],
                   "A": [1, 0, 3],
                   "D": [4, 3, -4],
                   "B": [-2, 3, 1]},
                  index = ["c", "a", "b"])
df

Unnamed: 0,C,A,D,B
c,-3,1,4,-2
a,5,0,3,3
b,2,3,-4,1


Los índices del dataframe son de tipo texto y susceptibles de ser ordenados alfabéticamene, de la a a la z o viceversa (ya se ha comentado que las mayúsculas son situadas antes que las minúsculas en una ordenación ascendente). Ordenemos el dataframe, por lo tanto, a lo largo del eje 0 (eje vertical) -opción por defecto si no se indica otra cosa.

In [11]:
df.sort_index()

Unnamed: 0,C,A,D,B
a,5,0,3,3
b,2,3,-4,1
c,-3,1,4,-2


Efectivamente, las filas han sido ordenadas según el índice de filas. Especifiquemos que la ordenación del dataframe df sea por el eje 1 (eje horizontal).

In [12]:
df.sort_index(axis = 1)

Unnamed: 0,A,B,C,D
c,1,-2,-3,4
a,0,3,5,3
b,3,1,2,-4


En este caso vemos cómo han sido las columnas las que han sido ordenadas según sus etiquetas. Por supuesto, también tenemos la opción de recurrir al parámetro ascending para especificar el orden (ascendente o descendente).

In [13]:
df.sort_index(axis = 1, ascending = False)

Unnamed: 0,D,C,B,A
c,4,-3,-2,1
a,3,5,3,0
b,-4,2,1,3


El método *sort_index* no permite especificar más que un único eje, por lo que si deseásemos realizar una segunda ordenación a lo largo del otro eje, tendríamos que volver a aplicar el mismo método.



In [14]:
df.sort_index().sort_index(axis = 1)

Unnamed: 0,A,B,C,D
a,0,3,5,3
b,3,1,2,-4
c,1,-2,-3,4


## <font color='blue'>**Ordenación de dataframes por valor**</font>

El método **pandas.DataFrame.sort_values** asociado a todo dataframe es el que nos va a permitir ordenarlo según sus valores. En el caso de una estructura de dos dimensiones, hay dos elementos que van a definir cómo realizar la ordenación: el eje escogido (eje 0, por defecto) y, dentro de ese eje, qué fila o columna (o qué filas o columnas) van a determinar el orden de los datos.

In [15]:
df = pd.DataFrame({"A": [3, 2, 2, 0],
                   "B": [1, 2, 2, 0],
                   "C": [0, 3, 1, 5],
                   "D": [2, 4, 5, 6]},
                  index = ["a", "b", "c", "d"])
df

Unnamed: 0,A,B,C,D
a,3,1,0,2
b,2,2,3,4
c,2,2,1,5
d,0,0,5,6


Supongamos que queremos ordenar esta estructura según la columna A, es decir, según el eje vertical o eje 0.

In [16]:
df.sort_values(by = "A")

Unnamed: 0,A,B,C,D
d,0,0,5,6
b,2,2,3,4
c,2,2,1,5
a,3,1,0,2


Al tratarse del eje por defecto, no ha sido necesario especificarlo mediante el parámetro **axis**. Las columnas (en este caso solo una) que determinan el criterio de ordenación se han indicado mediante el parámetro **by** (si se trata de una única fila o columna basta indicar el nombre de la misma. Si se tratase de más de una, habría que agregarlas en forma de lista). Por cierto, este método exige trabajar con etiquetas, no acepta índices.

Las filas se han reordenado de forma que la columna A muestre sus valores ordenados de menor a mayor. Las filas cuyas etiquetas son "b" y "c" , al tener el mismo valor en la columna "A", reciben una ordenadión por defecto (la que imponga el código que, probablemente, deja el mismo orden en el que aparecen en el dataframe original). Si quisiéramos ordenar las filas también según una segunda columna, podríamos hacerlo de la siguiente manera:

In [17]:
df.sort_values(by = ["A", "C"])

Unnamed: 0,A,B,C,D
d,0,0,5,6
c,2,2,1,5
b,2,2,3,4
a,3,1,0,2


Las filas "b" y "c", que en el ejemplo anterior no se ordenaban entre sí pues no había criterio alguno que lo impusiese, ahora sí se muestran ordenadas según la columna "C".

Si deseásemos ordenar el dataframe según los valores de las filas "a" y "b", por ejemplo, y de mayor a menor, podríamos conseguirlo del siguiente modo:

In [18]:
df.sort_values(by = ["a", "b"], axis = 1, ascending = False)

Unnamed: 0,A,D,B,C
a,3,2,1,0
b,2,4,2,3
c,2,5,2,1
d,0,6,0,5


En este caso ha sido necesario especificar el eje de ordenación, al no tratarse del eje por defecto (argumento axis = 1).

## <font color='blue'>**Clasificación de series**</font>

El método **pandas.Series.rank** devuelve una serie conteniendo la clasificación o posición de cada valor de la serie original si fuesen ordenados de menor a mayor.

In [19]:
s = pd.Series([4, 2, 0, 3, 6], index = ["a", "b", "c", "d", "e"])
s

a    4
b    2
c    0
d    3
e    6
dtype: int64

Si ejecutamos el método **rank** asociado a esta serie, el resultado es el siguiente:

In [20]:
print(type(s.rank()))
s.rank()

<class 'pandas.core.series.Series'>


a    4.0
b    2.0
c    1.0
d    3.0
e    5.0
dtype: float64

Vemos que la estructura devuelta es una serie pandas, y que está formada por la posición o clasificación de cada elemento en la serie original. Así, por ejemplo, el menor valor de s era el 0 correspondiente a la etiqueta "c", de forma que, en la serie resultante de aplicar el método rank, el valor correspondiente a la etiqueta "c" es 1. El segundo valor de la serie s era el correspondiente a la etiqueta "b", que se muestra con el valor 2 en el resultado de rank, y así sucesivamente. Es decir, los valores de la serie resultante son los números desde 1 hasta n, siendo n el número de elementos de la serie original.

O, al menos, esto es así si no hay valores repetidos en la serie original pues, en ese caso, el método rank nos permite especificar cómo queremos clasificarlos, cosa que podemos hacer con el parámetro **method**. Por defecto, cada uno de los valores repetidos recibe el valor medio de las clasificaciones de cada uno de los valores suponiendo que se les aplicase como clasificación un número entero consecutivo. 

In [21]:
s = pd.Series([4, 2, 2, 3, 3, 3, 6], index = ["a", "b", "c", "d", "e", "f", "g"])
s

a    4
b    2
c    2
d    3
e    3
f    3
g    6
dtype: int64

El valor 2 está repetido dos veces, y que el valor 3 está repetido tres veces. Apliquemos el método rank con los argumentos por defecto:

In [22]:
s.rank()

a    6.0
b    1.5
c    1.5
d    4.0
e    4.0
f    4.0
g    7.0
dtype: float64

Si ordenásemos los valores de la serie $s$ de menos a mayor, el resultado sería el siguiente:

2, 2, 3, 3, 3, 4, 5

Es decir, los valores 2 ocuparían las posiciones 1 y 2. Su valor medio es 1.5, que es el valor que les asigna el método rank. Los valores 3 ocuparían las posiciones 3, 4 y 5, cuyo valor medio es 4, y éste es el valor que les asigna el método rank.

En todo caso, el parámetro **method** del método nos permite escoger el criterio de asignación de la clasificación para valores repetidos: puede ser, por ejemplo, el menor valor (de los que recibirían si se asignasen valores no repetidos):

In [23]:
s.rank(method = "min")

a    6.0
b    1.0
c    1.0
d    3.0
e    3.0
f    3.0
g    7.0
dtype: float64

Vemos cómo se ha asignado a los dos valores correspondientes al menor valor (etiquetas "b" y "c") el valor 1 (mínimo de 1 y 2, posiciones que ocupan ambos números) y se ha asignado el valor 3 a los tres valores que ocupan las posiciones 3, 4 y 5.

## <font color='blue'>**Clasificación de dataframes**</font>

De forma semejante a las series, los dataframes tienen el método **pandas.DataFrame.rank**, que devuelve la clasificación de cada valor a lo largo de un determinado eje. 

In [24]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, -1]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3,1,3,7
feb,3,5,7,2
mar,1,2,2,-1


In [25]:
ventas.rank()

Unnamed: 0,A,B,C,D
ene,2.5,1.0,2.0,3.0
feb,2.5,3.0,3.0,2.0
mar,1.0,2.0,1.0,1.0


La estructura devuelta por el método **rank** es otro dataframe, y el eje por defecto en el que se calculan las clasificaciones es el eje 0 (eje vertical). Vemos que el comportamiento es semejante al visto para las series (de hecho, podemos pensar que el método se aplica a cada columna por separado, siendo éstas, como sabemos, series). Por ejemplo, la primera columna está formada por las cifras 3, 3 y 1, y la clasificación es 2.5, 2.5 y 1 respectivamente, sabiendo que el 2.5 es la media de las posiciones 2 y 3 que dichas cifras ocuparían si la serie original se ordenase de menor a mayor.

También podemos aplicar el método a lo largo del eje 1 (eje horizonta):

In [26]:
ventas.rank(axis = 1)

Unnamed: 0,A,B,C,D
ene,2.5,1.0,2.5,4.0
feb,2.0,3.0,4.0,1.0
mar,2.0,3.5,3.5,1.0


En este caso, si consideramos la primera fila, los valores del dataframe original son 3, 1, 3 y 7, y su clasificación es 2.5, 1, 2.5 y 4, sabiendo nuevamente que el 2.5 es el valor medio de las posiciones 2 y 3 que ocuparían los valores repetidos (3) si se asignasen posiciones numéricas consecutivas.

El método **rank** tiene -ya lo hemos visto para series- el parámetro **ascending** que controla el orden de los resultados (ascendente o descendente) y el parámetro method que controla el criterio de clasificación para valores repetidos.