# **Obtención y preparación de datos**

# OD17. Ordenación de Estructuras en Pandas

Otras útiles herramientas son aquellas que permiten ordenar las estructuras de datos de pandas -ordenación según los índices o según los valores- y las que permiten clasificar cada elemento de una estructura según su valor.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**Ordenación de series por índice**</font>

El método `pandas.Series.sort_index` devuelve una copia de la serie ordenada según las etiquetas de forma ascendente.

In [None]:
s = pd.Series([0, 1, 2, 3, 4], index = [3, 1, 5, 0, 4])
s

3    0
1    1
5    2
0    3
4    4
dtype: int64

In [None]:
s.sort_index()

0    3
1    1
3    0
4    4
5    2
dtype: int64

In [None]:
s.sort_index(ascending = False)

5    2
4    4
3    0
1    1
0    3
dtype: int64

Si los índices fuesen cadenas de texto, se ordenarían de la $a$ a la $z$, dando a las mayúsculas mayor prioridad (siguiendo el criterio del estándar Unicode).

In [None]:
s = pd.Series([0, 1, 2, 3, 4], index = ["b", "d", "a", "A", "B"])
s

b    0
d    1
a    2
A    3
B    4
dtype: int64

In [None]:
s.sort_index()

A    3
B    4
a    2
b    0
d    1
dtype: int64

## <font color='blue'>**Ordenación de series por valor**</font>

Si lo que deseamos es obtener una copia de una serie tras ordenarla según sus valores, el método `pandas.Series.sort_values` hace exactamente esto, permitiéndonos -entre otras cosas- escoger si la ordenación es ascendente -valor por defecto- o descendente.

In [None]:
s = pd.Series([7, 3, 6, 1, -4], index = ["a", "b", "c", "d", "e"])
s

a    7
b    3
c    6
d    1
e   -4
dtype: int64

In [None]:
s.sort_values()

e   -4
d    1
b    3
c    6
a    7
dtype: int64

In [None]:
s.sort_values(ascending = False)

a    7
c    6
b    3
d    1
e   -4
dtype: int64

## <font color='blue'>**Ordenación de dataframes por índice**</font>

Los dataframes también tienen el mismo método que las series, `pandas.DataFrame.sort_index`, que devuelven una copia del mismo tras ordenarlo según las etiquetas a lo largo de un determinado eje.

In [None]:
df = pd.DataFrame({"C": [-3, 5, 2],
                   "A": [1, 0, 3],
                   "D": [4, 3, -4],
                   "B": [-2, 3, 1]},
                  index = ["c", "a", "b"])
df

Unnamed: 0,C,A,D,B
c,-3,1,4,-2
a,5,0,3,3
b,2,3,-4,1


Los índices del dataframe son de tipo texto y susceptibles de ser ordenados alfabéticamene, de la $a$ a la $z$ o viceversa (ya se ha comentado que las mayúsculas son situadas antes que las minúsculas en una ordenación ascendente). Ordenemos el dataframe, por lo tanto, a lo largo del eje 0 (eje vertical) -opción por defecto si no se indica otra cosa.

In [None]:
df.sort_index()

Unnamed: 0,C,A,D,B
a,5,0,3,3
b,2,3,-4,1
c,-3,1,4,-2


Efectivamente, las filas han sido ordenadas según el índice de filas. Especifiquemos que la ordenación del dataframe df sea por el eje 1 (eje horizontal).

In [None]:
df.sort_index(axis = 1)

Unnamed: 0,A,B,C,D
c,1,-2,-3,4
a,0,3,5,3
b,3,1,2,-4


En este caso vemos cómo han sido las columnas las que han sido ordenadas según sus etiquetas. Por supuesto, también tenemos la opción de recurrir al parámetro ascending para especificar el orden (ascendente o descendente).

In [None]:
df.sort_index(axis = 1, ascending = False)

Unnamed: 0,D,C,B,A
c,4,-3,-2,1
a,3,5,3,0
b,-4,2,1,3


El método `sort_index` no permite especificar más que un único eje, por lo que si deseásemos realizar una segunda ordenación a lo largo del otro eje, tendríamos que volver a aplicar el mismo método.



In [None]:
df.sort_index().sort_index(axis = 1)

Unnamed: 0,A,B,C,D
a,0,3,5,3
b,3,1,2,-4
c,1,-2,-3,4


## <font color='blue'>**Ordenación de dataframes por valor**</font>

El método `pandas.DataFrame.sort_values` asociado a todo dataframe es el que nos va a permitir ordenarlo según sus valores. En el caso de una estructura de dos dimensiones, hay dos elementos que van a definir cómo realizar la ordenación: el eje escogido (eje 0, por defecto) y, dentro de ese eje, qué fila o columna (o qué filas o columnas) van a determinar el orden de los datos.

In [None]:
df = pd.DataFrame({"A": [3, 2, 2, 0],
                   "B": [1, 2, 2, 0],
                   "C": [0, 3, 1, 5],
                   "D": [2, 4, 5, 6]},
                  index = ["a", "b", "c", "d"])
df

Unnamed: 0,A,B,C,D
a,3,1,0,2
b,2,2,3,4
c,2,2,1,5
d,0,0,5,6


Supongamos que queremos ordenar esta estructura según la columna $A$, es decir, según el eje vertical o eje 0.

In [None]:
df.sort_values(by = "A")

Unnamed: 0,A,B,C,D
d,0,0,5,6
b,2,2,3,4
c,2,2,1,5
a,3,1,0,2


Al tratarse del eje por defecto, no ha sido necesario especificarlo mediante el parámetro `axis`. Las columnas (en este caso solo una) que determinan el criterio de ordenación se han indicado mediante el parámetro `by` (si se trata de una única fila o columna basta indicar el nombre de la misma. Si se tratase de más de una, habría que agregarlas en forma de lista). Por cierto, este método exige trabajar con etiquetas, no acepta índices.

Las filas se han reordenado de forma que la columna $A$ muestre sus valores ordenados de menor a mayor. Las filas cuyas etiquetas son $b$ y $c$ , al tener el mismo valor en la columna $A$, reciben una ordenadión por defecto (la que imponga el código que, probablemente, deja el mismo orden en el que aparecen en el dataframe original). Si quisiéramos ordenar las filas también según una segunda columna, podríamos hacerlo de la siguiente manera:

In [None]:
df.sort_values(by = ["A", "C"])

Unnamed: 0,A,B,C,D
d,0,0,5,6
c,2,2,1,5
b,2,2,3,4
a,3,1,0,2


Las filas $b$ y $c$, que en el ejemplo anterior no se ordenaban entre sí pues no había criterio alguno que lo impusiese, ahora sí se muestran ordenadas según la columna $C$.

Si deseásemos ordenar el dataframe según los valores de las filas $a$ y $b$, por ejemplo, y de mayor a menor, podríamos conseguirlo del siguiente modo:

In [None]:
df.sort_values(by = ["a", "b"], axis = 1, ascending = False)

Unnamed: 0,A,D,B,C
a,3,2,1,0
b,2,4,2,3
c,2,5,2,1
d,0,6,0,5


En este caso ha sido necesario especificar el eje de ordenación, al no tratarse del eje por defecto (argumento `axis = 1`).

## <font color='blue'>**Clasificación de series**</font>

El método `pandas.Series.rank` devuelve una serie conteniendo la clasificación o posición de cada valor de la serie original si fuesen ordenados de menor a mayor.

In [None]:
s = pd.Series([4, 2, 0, 3, 6], index = ["a", "b", "c", "d", "e"])
s

a    4
b    2
c    0
d    3
e    6
dtype: int64

Si ejecutamos el método `rank` asociado a esta serie, el resultado es el siguiente:

In [None]:
print(type(s.rank()))
s.rank()

<class 'pandas.core.series.Series'>


a    4.0
b    2.0
c    1.0
d    3.0
e    5.0
dtype: float64

Vemos que la estructura devuelta es una serie pandas, y que está formada por la posición o clasificación de cada elemento en la serie original. Así, por ejemplo, el menor valor de s era el 0 correspondiente a la etiqueta $c$, de forma que, en la serie resultante de aplicar el método rank, el valor correspondiente a la etiqueta $c$ es 1. El segundo valor de la serie s era el correspondiente a la etiqueta $b$, que se muestra con el valor 2 en el resultado de `rank`, y así sucesivamente. Es decir, los valores de la serie resultante son los números desde 1 hasta n, siendo n el número de elementos de la serie original.

O, al menos, esto es así si no hay valores repetidos en la serie original pues, en ese caso, el método rank nos permite especificar cómo queremos clasificarlos, cosa que podemos hacer con el parámetro `method`. Por defecto, cada uno de los valores repetidos recibe el valor medio de las clasificaciones de cada uno de los valores suponiendo que se les aplicase como clasificación un número entero consecutivo.

In [None]:
s = pd.Series([4, 2, 2, 3, 3, 3, 6], index = ["a", "b", "c", "d", "e", "f", "g"])
s

a    4
b    2
c    2
d    3
e    3
f    3
g    6
dtype: int64

El valor 2 está repetido dos veces, y que el valor 3 está repetido tres veces. Apliquemos el método `rank` con los argumentos por defecto:

In [None]:
s.rank()

a    6.0
b    1.5
c    1.5
d    4.0
e    4.0
f    4.0
g    7.0
dtype: float64

Si ordenásemos los valores de la serie $s$ de menos a mayor, el resultado sería el siguiente:

2, 2, 3, 3, 3, 4, 5

Es decir, los valores 2 ocuparían las posiciones 1 y 2. Su valor medio es 1.5, que es el valor que les asigna el método rank. Los valores 3 ocuparían las posiciones 3, 4 y 5, cuyo valor medio es 4, y éste es el valor que les asigna el método `rank`.

En todo caso, el parámetro `method` del método nos permite escoger el criterio de asignación de la clasificación para valores repetidos: puede ser, por ejemplo, el menor valor (de los que recibirían si se asignasen valores no repetidos):

In [None]:
s.rank(method = "min")

a    6.0
b    1.0
c    1.0
d    3.0
e    3.0
f    3.0
g    7.0
dtype: float64

Vemos cómo se ha asignado a los dos valores correspondientes al menor valor (etiquetas $b$ y $c$) el valor 1 (mínimo de 1 y 2, posiciones que ocupan ambos números) y se ha asignado el valor 3 a los tres valores que ocupan las posiciones 3, 4 y 5.

## <font color='blue'>**Clasificación de dataframes**</font>

De forma semejante a las series, los dataframes tienen el método `pandas.DataFrame.rank`, que devuelve la clasificación de cada valor a lo largo de un determinado eje.

In [None]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, -1]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3,1,3,7
feb,3,5,7,2
mar,1,2,2,-1


In [None]:
ventas.rank()

Unnamed: 0,A,B,C,D
ene,2.5,1.0,2.0,3.0
feb,2.5,3.0,3.0,2.0
mar,1.0,2.0,1.0,1.0


La estructura devuelta por el método `rank` es otro dataframe, y el eje por defecto en el que se calculan las clasificaciones es el eje 0 (eje vertical). Vemos que el comportamiento es semejante al visto para las series (de hecho, podemos pensar que el método se aplica a cada columna por separado, siendo éstas, como sabemos, series). Por ejemplo, la primera columna está formada por las cifras 3, 3 y 1, y la clasificación es 2.5, 2.5 y 1 respectivamente, sabiendo que el 2.5 es la media de las posiciones 2 y 3 que dichas cifras ocuparían si la serie original se ordenase de menor a mayor.

También podemos aplicar el método a lo largo del eje 1 (eje horizonta):

In [None]:
ventas.rank(axis = 1)

Unnamed: 0,A,B,C,D
ene,2.5,1.0,2.5,4.0
feb,2.0,3.0,4.0,1.0
mar,2.0,3.5,3.5,1.0


En este caso, si consideramos la primera fila, los valores del dataframe original son 3, 1, 3 y 7, y su clasificación es 2.5, 1, 2.5 y 4, sabiendo nuevamente que el 2.5 es el valor medio de las posiciones 2 y 3 que ocuparían los valores repetidos (3) si se asignasen posiciones numéricas consecutivas.

El método `rank` tiene -ya lo hemos visto para series- el parámetro `ascending` que controla el orden de los resultados (ascendente o descendente) y el parámetro method que controla el criterio de clasificación para valores repetidos.

### <font color='green'>Actividad 1</font>

La biblioteca de una universidad ha registrado un conjunto de libros de diferentes géneros, autores y años de publicación. Se te pide analizar y clasificar este conjunto de libros utilizando diferentes criterios de ordenación en un DataFrame. Algunos de estos libros han sido prestados a estudiantes y tienen fechas de devolución.

```
# Creación del DataFrame
data = {
    'Titulo': ['Programming in Python', 'History of World War II', 'Data Structures', 'Philosophy 101', 'Advanced Calculus', 'Literature of the 20th Century', 'Physics Fundamentals', 'Chemistry Basics', 'The Art of Writing', 'Biology Concepts'],
    'Autor': ['John Smith', 'Jane Doe', 'Alan Turing', 'Sophia Loren', 'Leonhard Euler', 'Oscar Wilde', 'Richard Feynman', 'Marie Curie', 'George Orwell', 'Charles Darwin'],
    'Genero': ['Programming', 'History', 'Computer Science', 'Philosophy', 'Mathematics', 'Literature', 'Physics', 'Chemistry', 'Literature', 'Biology'],
    'Año de publicación': [2020, 2005, 1995, 2010, 2000, 1985, 1990, 1998, 2002, 1880],
    'Fecha de devolución': [np.nan, '2023-05-21', '2023-05-22', np.nan, '2023-05-15', np.nan, '2023-05-18', np.nan, '2023-05-25', '2023-05-14']
}

df = pd.DataFrame(data)
df['Fecha de devolución'] = pd.to_datetime(df['Fecha de devolución'])
```

1. Ordena el DataFrame por 'Genero' y, dentro de cada género, por 'Año de publicación' en orden descendente.
2. Crea una serie que represente la cantidad de libros por género y ordena esta serie de manera descendente.
3. Ordena el DataFrame por 'Fecha de devolución', colocando primero los libros que aún no han sido devueltos (es decir, los valores NaN).
4. Para aquellos libros que han sido prestados y devueltos, ordena primero por la cercanía de la fecha de devolución y, en caso de empate, por el título del libro en orden alfabético.
5. Crea una columna que represente el año actual menos el 'Año de publicación' (esto dará la edad del libro) y ordena el DataFrame por esta nueva columna en orden ascendente.

In [None]:
# Tu código aquí ...

data = {
    'Titulo': ['Programming in Python', 'History of World War II', 'Data Structures', 'Philosophy 101', 'Advanced Calculus', 'Literature of the 20th Century', 'Physics Fundamentals', 'Chemistry Basics', 'The Art of Writing', 'Biology Concepts'],
    'Autor': ['John Smith', 'Jane Doe', 'Alan Turing', 'Sophia Loren', 'Leonhard Euler', 'Oscar Wilde', 'Richard Feynman', 'Marie Curie', 'George Orwell', 'Charles Darwin'],
    'Genero': ['Programming', 'History', 'Computer Science', 'Philosophy', 'Mathematics', 'Literature', 'Physics', 'Chemistry', 'Literature', 'Biology'],
    'Año de publicación': [2020, 2005, 1995, 2010, 2000, 1985, 1990, 1998, 2002, 1880],
    'Fecha de devolución': [np.nan, '2023-05-21', '2023-05-22', np.nan, '2023-05-15', np.nan, '2023-05-18', np.nan, '2023-05-25', '2023-05-14']
}

df = pd.DataFrame(data)
df['Fecha de devolución'] = pd.to_datetime(df['Fecha de devolución'])


# 1. Ordena el DataFrame por 'Genero' y, dentro de cada género, por 'Año de publicación' en orden descendente.

df.sort_values(by=['Genero', 'Año de publicación'], ascending=[True, True], inplace=True)
df


Unnamed: 0,Titulo,Autor,Genero,Año de publicación,Fecha de devolución
9,Biology Concepts,Charles Darwin,Biology,1880,2023-05-14
7,Chemistry Basics,Marie Curie,Chemistry,1998,NaT
2,Data Structures,Alan Turing,Computer Science,1995,2023-05-22
1,History of World War II,Jane Doe,History,2005,2023-05-21
5,Literature of the 20th Century,Oscar Wilde,Literature,1985,NaT
8,The Art of Writing,George Orwell,Literature,2002,2023-05-25
4,Advanced Calculus,Leonhard Euler,Mathematics,2000,2023-05-15
3,Philosophy 101,Sophia Loren,Philosophy,2010,NaT
6,Physics Fundamentals,Richard Feynman,Physics,1990,2023-05-18
0,Programming in Python,John Smith,Programming,2020,NaT


In [None]:
# 2. Crea una serie que represente la cantidad de libros por género y ordena esta serie de manera descendente.

libros_por_genero = df['Genero'].value_counts().sort_values(ascending=False)
libros_por_genero

Literature          2
Biology             1
Chemistry           1
Computer Science    1
History             1
Mathematics         1
Philosophy          1
Physics             1
Programming         1
Name: Genero, dtype: int64

In [None]:
# 3. Ordena el DataFrame por 'Fecha de devolución', colocando primero los libros que aún no han sido devueltos (es decir, los valores NaN).


df.sort_values(by=['Fecha de devolución', 'Titulo'], ascending=[True, True], na_position='first', inplace=True)
df

Unnamed: 0,Titulo,Autor,Genero,Año de publicación,Fecha de devolución
7,Chemistry Basics,Marie Curie,Chemistry,1998,NaT
5,Literature of the 20th Century,Oscar Wilde,Literature,1985,NaT
3,Philosophy 101,Sophia Loren,Philosophy,2010,NaT
0,Programming in Python,John Smith,Programming,2020,NaT
9,Biology Concepts,Charles Darwin,Biology,1880,2023-05-14
4,Advanced Calculus,Leonhard Euler,Mathematics,2000,2023-05-15
6,Physics Fundamentals,Richard Feynman,Physics,1990,2023-05-18
1,History of World War II,Jane Doe,History,2005,2023-05-21
2,Data Structures,Alan Turing,Computer Science,1995,2023-05-22
8,The Art of Writing,George Orwell,Literature,2002,2023-05-25


In [None]:
# 4. Para aquellos libros que han sido prestados y devueltos, ordena primero por la cercanía de la fecha de
#    devolución y, en caso de empate, por el título del libro en orden alfabético.

# Al utilizar el codigo el punto 3, invirtiendo el orden de Fecha de devolcuión, faltaría excluir los resultados NaN.
# Motivo por el cual, realizamos lo descrito en el parrafo siguiente.
#df_devueltos = df.dropna(subset=['Fecha de devolución'])
#df.sort_values(by=['Fecha de devolución', 'Titulo'], ascending=[False, True], na_position='first', inplace=True)


# Excluimos filas donde 'Fecha de devolución' sea NaN
df_devueltos = df.dropna(subset=['Fecha de devolución'])

# Realizamos una copia del DataFrame para evitar modificar el DataFrame original
df_devueltos = df_devueltos.copy()

# Ahora podemos ordenar el DataFrame por 'Fecha de devolución' de forma descendente y por 'Titulo' de forma ascendente
df_devueltos.sort_values(by=['Fecha de devolución', 'Titulo'], ascending=[False, True], inplace=True)

# DataFrame resultante excluye los resultados NaN
df_devueltos


Unnamed: 0,Titulo,Autor,Genero,Año de publicación,Fecha de devolución
8,The Art of Writing,George Orwell,Literature,2002,2023-05-25
2,Data Structures,Alan Turing,Computer Science,1995,2023-05-22
1,History of World War II,Jane Doe,History,2005,2023-05-21
6,Physics Fundamentals,Richard Feynman,Physics,1990,2023-05-18
4,Advanced Calculus,Leonhard Euler,Mathematics,2000,2023-05-15
9,Biology Concepts,Charles Darwin,Biology,1880,2023-05-14


In [None]:
# 5. Crea una columna que represente el año actual menos el 'Año de publicación' (esto dará la edad del libro)
#    y ordena el DataFrame por esta nueva columna en orden ascendente.

# Indicar el año actual
a_actual = 2023

# Calcula la edad del libro restando el año de publicación al año actual
df['Edad del libro'] = a_actual - df['Año de publicación']

# Ordena el DataFrame por la nueva columna en orden ascendente
df.sort_values(by='Edad del libro', ascending=True, inplace=True)
df

Unnamed: 0,Titulo,Autor,Genero,Año de publicación,Fecha de devolución,Edad del libro
0,Programming in Python,John Smith,Programming,2020,NaT,3
3,Philosophy 101,Sophia Loren,Philosophy,2010,NaT,13
1,History of World War II,Jane Doe,History,2005,2023-05-21,18
8,The Art of Writing,George Orwell,Literature,2002,2023-05-25,21
4,Advanced Calculus,Leonhard Euler,Mathematics,2000,2023-05-15,23
7,Chemistry Basics,Marie Curie,Chemistry,1998,NaT,25
2,Data Structures,Alan Turing,Computer Science,1995,2023-05-22,28
6,Physics Fundamentals,Richard Feynman,Physics,1990,2023-05-18,33
5,Literature of the 20th Century,Oscar Wilde,Literature,1985,NaT,38
9,Biology Concepts,Charles Darwin,Biology,1880,2023-05-14,143


In [None]:
# 5. Otra forma de realizar el ejercicio llamando al modulo datatime

import datetime as dt

df['Edad del libro'] = dt.datetime.now().year - df['Año de publicación']
df.sort_values(by='Edad del libro', ascending=True, inplace=True)
df

Unnamed: 0,Titulo,Autor,Genero,Año de publicación,Fecha de devolución,Edad del libro
0,Programming in Python,John Smith,Programming,2020,NaT,3
3,Philosophy 101,Sophia Loren,Philosophy,2010,NaT,13
1,History of World War II,Jane Doe,History,2005,2023-05-21,18
8,The Art of Writing,George Orwell,Literature,2002,2023-05-25,21
4,Advanced Calculus,Leonhard Euler,Mathematics,2000,2023-05-15,23
7,Chemistry Basics,Marie Curie,Chemistry,1998,NaT,25
2,Data Structures,Alan Turing,Computer Science,1995,2023-05-22,28
6,Physics Fundamentals,Richard Feynman,Physics,1990,2023-05-18,33
5,Literature of the 20th Century,Oscar Wilde,Literature,1985,NaT,38
9,Biology Concepts,Charles Darwin,Biology,1880,2023-05-14,143


<font color='green'>Fin actividad 1</font>

### <font color='green'>Actividad 2</font>

Durante una competencia de atletismo a nivel nacional, se registraron los tiempos (en segundos) de varios atletas en diferentes eventos. Tu tarea es analizar el rendimiento de estos atletas y asignarles un ranking basado en sus tiempos.

```
# Creación del DataFrame
data = {
    'Atleta': ['John Doe', 'Jane Smith', 'Alan Turing', 'Sophia Loren', 'Eva Green', 'Chris Hemsworth', 'Scarlett Johansson', 'Robert Downey Jr.', 'Emma Watson', 'Tom Holland'],
    '100m': [10.5, 11.0, 10.8, 12.1, 10.6, 10.4, 12.0, 11.8, 10.9, 10.7],
    '200m': [21.5, 22.3, 21.9, 24.1, 21.7, 21.2, 24.0, 23.5, 22.0, 21.8],
    '400m': [48.5, 50.0, 49.0, 53.5, 49.2, 48.1, 54.0, 52.0, 49.5, 48.8]
}

df = pd.DataFrame(data)
```

1. Asigna un ranking a los atletas para cada evento (100m, 200m, 400m) utilizando la función rank(). Recuerda que un tiempo menor es mejor en carreras, por lo que el atleta con el menor tiempo debería tener el ranking más alto (por ejemplo, 1).
2. Calcula la suma de los rankings de cada atleta en los tres eventos.
Basado en la suma total de rankings, asigna un ranking general a cada atleta, donde el atleta con el menor score total (mejores posiciones) tiene el ranking más alto.
3. Filtra a los 3 atletas top basados en el ranking general.
4. Determina qué atleta tiene el mejor ranking promedio sin considerar sus peores y mejores performances (es decir, elimina el evento en el que tuvo su peor y mejor ranking y calcula el promedio de los rankings restantes).

In [None]:
# Tu código aquí ...

# Creación del DataFrame
data = {
    'Atleta': ['John Doe', 'Jane Smith', 'Alan Turing', 'Sophia Loren', 'Eva Green', 'Chris Hemsworth', 'Scarlett Johansson', 'Robert Downey Jr.', 'Emma Watson', 'Tom Holland'],
    '100m': [10.5, 11.0, 10.8, 12.1, 10.6, 10.4, 12.0, 11.8, 10.9, 10.7],
    '200m': [21.5, 22.3, 21.9, 24.1, 21.7, 21.2, 24.0, 23.5, 22.0, 21.8],
    '400m': [48.5, 50.0, 49.0, 53.5, 49.2, 48.1, 54.0, 52.0, 49.5, 48.8]
}

df = pd.DataFrame(data)


# 1. Asigna un ranking a los atletas para cada evento (100m, 200m, 400m) utilizando la función rank(). Recuerda que un tiempo
#    menor es mejor en carreras, por lo que el atleta con el menor tiempo debería tener el ranking más alto (por ejemplo, 1).

df['Ranking 100m'] = df['100m'].rank()
df['Ranking 200m'] = df['200m'].rank()
df['Ranking 400m'] = df['400m'].rank()
df


Unnamed: 0,Atleta,100m,200m,400m,Ranking 100m,Ranking 200m,Ranking 400m
0,John Doe,10.5,21.5,48.5,2.0,2.0,2.0
1,Jane Smith,11.0,22.3,50.0,7.0,7.0,7.0
2,Alan Turing,10.8,21.9,49.0,5.0,5.0,4.0
3,Sophia Loren,12.1,24.1,53.5,10.0,10.0,9.0
4,Eva Green,10.6,21.7,49.2,3.0,3.0,5.0
5,Chris Hemsworth,10.4,21.2,48.1,1.0,1.0,1.0
6,Scarlett Johansson,12.0,24.0,54.0,9.0,9.0,10.0
7,Robert Downey Jr.,11.8,23.5,52.0,8.0,8.0,8.0
8,Emma Watson,10.9,22.0,49.5,6.0,6.0,6.0
9,Tom Holland,10.7,21.8,48.8,4.0,4.0,3.0


In [None]:
# 2. Calcula la suma de los rankings de cada atleta en los tres eventos. Basado en la suma total de rankings, asigna un
#    ranking general a cada atleta, donde el atleta con el menor score total (mejores posiciones) tiene el ranking más alto.


df['Suma Ranking'] = df[['Ranking 100m', 'Ranking 200m', 'Ranking 400m']].sum(axis=1)
df['Ranking General'] = df['Suma Ranking'].rank(method='min')
# df['Ranking_General'] = df[['Ranking 100m', 'Ranking 200m', 'Ranking 400m']].sum(axis=1).rank(method='min')

df

Unnamed: 0,Atleta,100m,200m,400m,Ranking 100m,Ranking 200m,Ranking 400m,Suma Ranking,Ranking General
0,John Doe,10.5,21.5,48.5,2.0,2.0,2.0,6.0,2.0
1,Jane Smith,11.0,22.3,50.0,7.0,7.0,7.0,21.0,7.0
2,Alan Turing,10.8,21.9,49.0,5.0,5.0,4.0,14.0,5.0
3,Sophia Loren,12.1,24.1,53.5,10.0,10.0,9.0,29.0,10.0
4,Eva Green,10.6,21.7,49.2,3.0,3.0,5.0,11.0,3.0
5,Chris Hemsworth,10.4,21.2,48.1,1.0,1.0,1.0,3.0,1.0
6,Scarlett Johansson,12.0,24.0,54.0,9.0,9.0,10.0,28.0,9.0
7,Robert Downey Jr.,11.8,23.5,52.0,8.0,8.0,8.0,24.0,8.0
8,Emma Watson,10.9,22.0,49.5,6.0,6.0,6.0,18.0,6.0
9,Tom Holland,10.7,21.8,48.8,4.0,4.0,3.0,11.0,3.0


In [None]:
# 3. Filtra a los 3 atletas top basados en el ranking general.

atletas_top = df.nsmallest(3, 'Ranking General')
atletas_top

Unnamed: 0,Atleta,100m,200m,400m,Ranking 100m,Ranking 200m,Ranking 400m,Suma Ranking,Ranking General
5,Chris Hemsworth,10.4,21.2,48.1,1.0,1.0,1.0,3.0,1.0
0,John Doe,10.5,21.5,48.5,2.0,2.0,2.0,6.0,2.0
4,Eva Green,10.6,21.7,49.2,3.0,3.0,5.0,11.0,3.0


In [None]:
# 4. Determina qué atleta tiene el mejor ranking promedio sin considerar sus peores y mejores performances (es decir,
#    elimina el evento en el que tuvo su peor y mejor ranking y calcula el promedio de los rankings restantes).

# Calcula el promedio de los rankings eliminando el peor y mejor ranking
df['Ranking Promedio'] = (df[['Ranking 100m', 'Ranking 200m', 'Ranking 400m']].sum(axis=1) -
                           df[['Ranking 100m', 'Ranking 200m', 'Ranking 400m']].max(axis=1) -
                           df[['Ranking 100m', 'Ranking 200m', 'Ranking 400m']].min(axis=1))

# Encuentra al atleta con el mejor ranking promedio
mejor_atleta = df[df['Ranking Promedio'] == df['Ranking Promedio'].min()]

print("El atleta con el mejor ranking promedio es ")
print(mejor_atleta[['Atleta', 'Ranking Promedio']])


El atleta con el mejor ranking promedio es 
            Atleta  Ranking Promedio
5  Chris Hemsworth               1.0


<font color='green'>Fin actividad 2</font>


## <font color='purple'> __EXPERIMENTO__: </font>

### Ordenar por puntuación a jugadores de Juego de Azar

En este experimento consiste en clasificar de forma descendente el puntaje obtenido por los jugadores al lanzar un dado de seis caras. Para ello, registramos los resultados del dado lanzado al azar en un DataFrame y luego, ordenar los resultados en función de quién obtuvo la puntuación más alta.





In [None]:
# Modulo Random trabaja con números aleatorios
import random

# Crear un DataFrame con los resultados del juego de azar
data = {
    'Jugador': ['Jugador A', 'Jugador B', 'Jugador C', 'Jugador D'],
    'Tirada de Dado': [random.randint(1, 6) for _ in range(4)]
}
df_juego = pd.DataFrame(data)

# Mostrar los resultados sin ordenar
print("Resultados sin ordenar:")
print(df_juego)

# Ordenar los resultados por la tirada de dado de mayor a menor
df_sorted = df_juego.sort_values(by='Tirada de Dado', ascending=False)

# Mostrar los resultados ordenados
print("\nResultados ordenados por tirada de dado:")
print(df_sorted)

Resultados sin ordenar:
     Jugador  Tirada de Dado
0  Jugador A               3
1  Jugador B               1
2  Jugador C               5
3  Jugador D               1

Resultados ordenados por tirada de dado:
     Jugador  Tirada de Dado
2  Jugador C               5
0  Jugador A               3
1  Jugador B               1
3  Jugador D               1


<font color='purple'>Fin experimento </font>

## <font color='purple'>__Material adicional__</font>
En el siguiente video se explica que es Pandas y la introduccion al trabajo con esta libreria

https://pandas.pydata.org/docs/user_guide/dsintro.html

https://pandas.pydata.org/docs/user_guide/indexing.html

<font color='purple'>Fin material adicional </font>