# pandas

## Introducción

pandas es una librería para manipulación y análisis de datos. Se crea en 2008 ante el incremento del uso de Python en aplicaciones científicas tradicionalmente dominadas por **R**, MATLAB o SAS y fundamentándose en la madurez y estabilidad de **NumPy** y **SciPy**. Su nombre deriva de  ***Pan**el **Da**ta*, término habitual en estadística y econometría para referirse a conjuntos de datos multidimensionales.

Permite:
- Importación sencilla desde CSV, JSON, Excel, SQL, etc. 
- Operaciones de manipulación: selección, filtrado, agregación.
- Limpieza de datos (*data cleaning* o *data cleansing*).
- *Data wrangling* o *Data mungling*: transformación de datos entre formatos

Estructuras de pandas:
- Series: array de 1D
- DataFrame: array de 2D
- Panel: array de 3D


Documentación oficial: https://pandas.pydata.org/docs/

In [253]:
import pandas as pd

## Series

El tipo **Series** es un array unidimensional que contiene una secuencia de valores y una secuencia de etiquetas asociadas a los valores, denominada índice. La existencia de este índice explícito (que puede ser de cualquier tipo inmutable) es la principal diferencia con un vector de NumPy, que tiene un índice implícito (una secuencia de enteros indicando la posición). Los índices de Series son como los de un diccionario, mientras que los índices de **NumPy** son como los de una lista.

### Estructura

In [254]:
serie_ejemplo = pd.Series([1,2,3,4,5,6]) # Serie con índice implícito ya que parte de una lista
print(serie_ejemplo)
print(type(serie_ejemplo))

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
<class 'pandas.core.series.Series'>


In [255]:
# De modo análogo a como en NumPy creamos vectores partiendo de listas, en pandas podemos crear series a partir de diccionarios. En este caso, las claves del diccionario serán los índices de la serie y los valores del diccionario serán los valores de la serie.

estudiantes_con_notas = pd.Series({'Estudiante 1': 5, 'Estudiante 2': 10, 'Estudiante 3': 7, 'Estudiante 4': 8})

In [256]:
pd.Series([5,10,7,8], index=["Estudiante 1","Estudiante 2","Estudiante 3","Estudiante 4"]) # También se puede hacer así

Estudiante 1     5
Estudiante 2    10
Estudiante 3     7
Estudiante 4     8
dtype: int64

In [257]:
asientos_ocupados_teatro = pd.Series({1: "Pepe Pérez", 7: "Juan Gómez", 6: "Ana López", 2: "María García", 5: "Luisa Martínez"})
asientos_ocupados_teatro

1        Pepe Pérez
7        Juan Gómez
6         Ana López
2      María García
5    Luisa Martínez
dtype: object

### Acceso a elementos de una serie

Hay que tener cuidado con realizar operaciones sobre posiciones en lugar de índices, ya que el índice explícito puede ser una un número y no una cadena de texto. En este caso, si se realiza una operación sobre una posición, se estará refiriendo a la posición del índice implícito, no al índice explícito.

Para operar sobre posiciones se utiliza el atributo **iloc** (de *integer location*), mientras que para operar sobre índices se utiliza el atributo **loc** o directamente el operador de indexación **[]**, como en listas o diccionarios. Lo más común es utilizar el operador de indexación, ya que es más corto y legible.  

In [258]:
print(asientos_ocupados_teatro[7]) # Devuelve el valor de la primera posición del índice explícito 1
print(asientos_ocupados_teatro.loc[7]) # Equivalente a lo anterior
print(asientos_ocupados_teatro.iloc[1]) # Devuelve el valor de la posición 0
# print(asientos_ocupados_teatro[0]) # Da error por ser los índices explícitos números y no existir el indice 0 (sería una fuente de errores de permitirse)

Juan Gómez
Juan Gómez
Juan Gómez


In [259]:
print(estudiantes_con_notas["Estudiante 1"]) # Devuelve el valor de la primera posición del índice explícito 1
print(estudiantes_con_notas.loc["Estudiante 1"]) # Equivalente a lo anterior
print(estudiantes_con_notas.iloc[0]) # Devuelve el valor de la posición 0
print(estudiantes_con_notas[0]) # Devuelve el valor del índice implícito 0 (la posición 0) 
# pero lanza un warning, no debe hacerse así sino con iloc y será eliminado en futuras versiones de pandas por ser fuente de errores
# print(estudiantes_con_notas.loc[0]) # Da error por ser los índices explícitos strings y no existir el índice 0

5
5
5
5


  print(estudiantes_con_notas[0]) # Devuelve el valor del índice implícito 0 (la posición 0)


In [260]:
# Modificando valores por índices
estudiantes_con_notas['Estudiante 1'] = 10
estudiantes_con_notas['Estudiante 3':] = 5 # Modifica los valores desde el índice 3 hasta el final (slicing)
estudiantes_con_notas

Estudiante 1    10
Estudiante 2    10
Estudiante 3     5
Estudiante 4     5
dtype: int64

In [261]:
print(estudiantes_con_notas.mean()) # Media de las notas
print(estudiantes_con_notas.std()) # Desviación típica

7.5
2.886751345948129


In [262]:
print(estudiantes_con_notas.describe()) # Estadísticas descriptivas de las notas de los estudiantes

count     4.000000
mean      7.500000
std       2.886751
min       5.000000
25%       5.000000
50%       7.500000
75%      10.000000
max      10.000000
dtype: float64


## **DataFrame**



Un **DataFrame** es una estructura de datos tabular bidimensional, con filas y columnas etiquetadas. Es similar una tabla de base de datos relacional (SQL). Se puede considerar como una colección de Series que comparten el mismo índice. Es la estructura de datos más utilizada en pandas.

### Estructura de un DataFrame

In [263]:
pd.DataFrame({'Notas': estudiantes_con_notas}) # Creamos un DataFrame a partir de la serie de notas (le estamos dando nombre a la columna)

Unnamed: 0,Notas
Estudiante 1,10
Estudiante 2,10
Estudiante 3,5
Estudiante 4,5


In [264]:
# Creamos directamente un dataframe con las notas de varios alumnos en varias asignaturas
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]})

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Estudiante 1,10,5,9,10,6
Estudiante 2,10,6,8,9,7
Estudiante 3,5,7,7,8,8
Estudiante 4,5,8,6,7,9


En el caso anterior hemos utilizado los indices de ```estudiantes_con_notas``` para crear el dataframe. Fijate que estamos añadiendo un objetos Series para la primera columna y un arrays para las siguientes.

In [265]:
# Otra opción sería especificar los indices explícitos y recibir todas las notas como listas
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]}, index=['Nombre Erroneo', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4'])


Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Nombre Erroneo,,5,9,10,6
Estudiante 2,10.0,6,8,9,7
Estudiante 3,5.0,7,7,8,8
Estudiante 4,5.0,8,6,7,9


Hemos cometido un error en el nombre de un estudiante, y como el primer listado de notas (PIA) era una Serie, no encuentra la nota para el índice 'Nombre Erroneo' y nos devuelve un **NaN (Not a Number)**. Para evitar esto, podemos crear un DataFrame a partir de un diccionario de listas, en lugar de un diccionario de Series. Las otras notas son simples listas sin índice, por lo que se asume que son correctas.
Sin embargo, en este tipo de procesos es importante estar alerta. Que las notas de cada alumno solo estén identificadas por su posición en una lista es poco robusto, ya que si se añade un alumno o se cambia el orden de los alumnos, las notas se asignarán a alumnos distintos. Es mejor utilizar un diccionario de Series, ya que el índice explícito permite identificar correctamente a cada alumno.

La siguiente solución es más robusta:

In [266]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.5, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'Marvin Minsky': 8.0, 'John McCarthy': 8.5, 'Claude Shannon': 8.0, 'Alan Turing': 9.0})
notas_mia = pd.Series({'Marvin Minsky': 7.0, 'John McCarthy': 6.0, 'Claude Shannon': 6.0, 'Alan Turing': 7.0})
notas_sbd = pd.Series({'Marvin Minsky': 9.0, 'John McCarthy': 9.0, 'Claude Shannon': 9.0, 'Alan Turing': 10.0})
notas_bda = pd.Series({'John McCarthy': 7.8, 'Claude Shannon': 6.9, 'Alan Turing': 9.9, 'Marvin Minsky': 10}) # El orden no importa porque tenemos índices explícitos

notas_df = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa, 'MIA': notas_mia, 'SBD': notas_sbd, 'BDA': notas_bda})
notas_df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


Un par de problemas a tener en consideración que podríamos tener en análisis de datos al utilizar *strings* como índices strings:
- Los pueden no ser únicos (dos personas pueden tener el mismo nombre)
- Puede haber variaciones sobre cómo se escriben los nombres (por ejemplo, con mayúsculas o minúsculas) en distintas fuentes de datos.
Son dos de los motivos por los que en bases de datos relacionales se utilizan siempre claves primarias únicas indexadas, a menudo enteros autoincrementales que no tienen significado en sí mismos (claves surrogadas).

In [267]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'marvin minsky': 8.0, 'McCarthy': 8.5, 'shannon': 8.0, 'Alan-Turing': 9.0})
notas_df_liandola_parda = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa})
notas_df_liandola_parda

Unnamed: 0,PIA,SAA
Alan Turing,7.0,
Alan-Turing,,9.0
Claude Shannon,6.5,
John McCarthy,6.2,
Marvin Minsky,5.7,
McCarthy,,8.5
marvin minsky,,8.0
shannon,,8.0


### Ejercicio propuesto: Crear un DataFrame a partir de distintas estructuras de datos

In [268]:
notas_modulo1= {'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0}
notas_modulo2= [('Marvin Minsky', 8.0), ('John McCarthy', 8.5), ('Claude Shannon', 8.0), ('Alan Turing', 9.0)]
notas_modulo3= {('Marvin Minsky', 9.5), ('John McCarthy', 8.9), ('Claude Shannon', 8.7), ('Alan Turing', 9.1)}
notas_modulo4= [3.3, 4.5, 6.7, 8.9]
import numpy as np
notas_modulo5= np.array([3.5, 4.1, 2.1, 9.3])
notas_modulo6= pd.Series([8.3, 6.5, 5.7, 5.9])
notas_modulo7= pd.Series([3.3, 4.5, 6.7, 8.9], index=['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing'])
notas_modulo8= pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})


# Creación de un DataFrame con los datos anteriores de todos esos módulos
# TODO: Crear el DataFrame




## Lectura de ficheros de datos

Pandas ofrece una gran variedad de funciones para importar y exportar datos desde y hacia ficheros. Sin profundizar en ellos, a modo de ejemplo podemos almacenar el DataFrame ```notas_df``` en un **fichero CSV** con la función **to_csv** y recuperarlo con la función **read_csv**.

In [269]:
notas_df.to_csv('data/grades.csv') # el directorio data debe existir
df = pd.read_csv('data/grades.csv', index_col=0)
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


el parámetro ```index_col=0``` indica que la primera columna del fichero csv es el índice explícito del DataFrame, si no se indica se crea un índice implícito.

In [270]:
pd.read_csv('data/grades.csv')

Unnamed: 0.1,Unnamed: 0,PIA,SAA,MIA,SBD,BDA
0,Alan Turing,7.0,9.0,7.0,10.0,9.9
1,Claude Shannon,6.5,8.0,6.0,9.0,6.9
2,John McCarthy,6.5,8.5,6.0,9.0,7.8
3,Marvin Minsky,5.7,8.0,7.0,9.0,10.0


## Información sobre un DataFrame

In [271]:
notas_df.info() # Información sobre el DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Alan Turing to Marvin Minsky
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   PIA     4 non-null      float64
 1   SAA     4 non-null      float64
 2   MIA     4 non-null      float64
 3   SBD     4 non-null      float64
 4   BDA     4 non-null      float64
dtypes: float64(5)
memory usage: 192.0+ bytes


In [272]:
notas_df.head() # Primeras 5 filas (en este caso, solo hay 4, normalmente trabajaremos con datasets muchísimo más grandes y será útil poder ver solo las primeras filas para hacernos una idea de los datos)

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


In [273]:
notas_df.shape # Número de filas y columnas

(4, 5)

In [274]:
notas_df.keys() # Objeto "Index" con los nombres y tipo de las columnas

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [275]:
notas_df.columns # Equivalente al anterior pero solo para DataFrame (el método keys() funciona también para recuperar las claves de Series)

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [276]:
df.dtypes # Tipos de datos de las columnas

PIA    float64
SAA    float64
MIA    float64
SBD    float64
BDA    float64
dtype: object

In [277]:
df.index # Índices de las filas

Index(['Alan Turing', 'Claude Shannon', 'John McCarthy', 'Marvin Minsky'], dtype='object')

## Operaciones sobre un DataFrame

In [278]:
df.loc['Alan Turing', 'PIA'] = 10 # Modificamos una nota
df.at['Alan Turing', 'PIA'] = 10 # Equivalente a lo anterior
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,10.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


In [279]:
df.iloc[0, 0] = 0 # Modificamos una nota usando posiciones
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,0.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


In [280]:
df.insert(0, 'DNI', ['11222333A', '22333222B', '33222333C', '44333222D']) # Insertamos columna con DNI en la primera posición
df.insert(1, 'Edad', [23, 23, 36, 36]) # Insertamos una columna con las edades de los estudiantes
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,23,0.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0


In [281]:
df.loc['Alan Turing'] # Recuperamos una fila completa como Serie

DNI     11222333A
Edad           23
PIA           0.0
SAA           9.0
MIA           7.0
SBD          10.0
BDA           9.9
Name: Alan Turing, dtype: object

In [282]:
df.loc['Arthur Samuel'] = ['55444333E', 23, 5.5, 8.0, 7.0, 9.0, 6.0] # Añadir un nuevo estudiante
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,23,0.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,23,5.5,8.0,7.0,9.0,6.0


In [283]:
df.drop('Edad', axis=1) # Devuelve un nuevo DataFrame sin la columna Edad, pero no modifica el DataFrame original
# Podemos usar drop tanto para borrar filas como columnas (axis=0 para filas, axis=1 para columnas)

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0


In [284]:
del df['Edad'] # Borramos la columna de edad (modifica el DataFrame original)
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0


In [285]:
df[['DNI']] # Devuelve un DataFrame con la columna DNI

Unnamed: 0,DNI
Alan Turing,11222333A
Claude Shannon,22333222B
John McCarthy,33222333C
Marvin Minsky,44333222D
Arthur Samuel,55444333E


In [286]:
df['DNI'] # Devuelve una serie con la columna DNI

Alan Turing       11222333A
Claude Shannon    22333222B
John McCarthy     33222333C
Marvin Minsky     44333222D
Arthur Samuel     55444333E
Name: DNI, dtype: object

In [287]:
df[['DNI','PIA']] # Devuelve un DataFrame con las columnas DNI y PIA

Unnamed: 0,DNI,PIA
Alan Turing,11222333A,0.0
Claude Shannon,22333222B,6.5
John McCarthy,33222333C,6.5
Marvin Minsky,44333222D,5.7
Arthur Samuel,55444333E,5.5


In [288]:
df.loc['Alan Turing', ['PIA','SAA','MIA']] # Acceso a una fila y a varias columnas

PIA    0.0
SAA    9.0
MIA    7.0
Name: Alan Turing, dtype: object

In [289]:
df['SBD'].value_counts() # Devuelve el número de veces que se repite cada valor de la columna SBD
# cuatro alumnos han sacado un 9 en SBD y uno un 10

SBD
9.0     4
10.0    1
Name: count, dtype: int64

### Añadir una columna

In [302]:
df['PIA_norm'] = df['PIA'] / df['PIA'].mean() # Creamos una nueva columna con las notas normalizadas de PIA
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9,0.0
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9,1.342975
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8,1.342975
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0,1.177686
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0,1.136364


### Slicing

In [290]:
df.loc[:, 'PIA':'MIA'] # Devuelve un DataFrame de todas las filas con las columnas PIA, SAA y MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,0.0,9.0,7.0
Claude Shannon,6.5,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,5.5,8.0,7.0


In [291]:
df.iloc[:3, 0:3] # Devuelve un DataFrame de las filas anteriories a la 3, con las columnas 0, 1 y 2

Unnamed: 0,DNI,PIA,SAA
Alan Turing,11222333A,0.0,9.0
Claude Shannon,22333222B,6.5,8.0
John McCarthy,33222333C,6.5,8.5


### Creación de un nuevo DataFrame aplicando filtros

In [292]:
# Alumnos que hayan aprobado PIA y SAA
df[(df['PIA'] >= 5) & (df['SAA'] >= 5)]

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0


In [293]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)] [['PIA','SAA','MIA']] # Alumnos que hayan aprobado PIA o SAA con sus notas en esos módulos y en MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,0.0,9.0,7.0
Claude Shannon,6.5,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,5.5,8.0,7.0


In [294]:
aprobados_pia_saa = df[(df['PIA'] >= 5) & (df['SAA'] >= 5)] # Alumnos que hayan aprobado PIA y SAA
aprobados_pia_saa.set_index('DNI', inplace=True) # Establecemos el DNI como índice (el argumento inplace=True modifica el DataFrame original en lugar de devolver uno nuevo)
aprobados_pia_saa[['PIA','SAA','MIA']] #  Alumnos que hayan aprobado PIA o SAA, identificados por DNI, con sus notas en esos módulos y en MIA

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
22333222B,6.5,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,5.5,8.0,7.0


In [295]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)].set_index('DNI')[['PIA','SAA','MIA']] # Lo mismo que lo anterior pero en una sola línea

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11222333A,0.0,9.0,7.0
22333222B,6.5,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,5.5,8.0,7.0


### Ordenación

In [296]:
df.sort_values('PIA', ascending=False) # Ordena el DataFrame por la columna PIA de forma descendente

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9


In [297]:
df.sort_values(by=['PIA', 'SAA', 'MIA'], ascending=False) # Ordena el DataFrame por las columnas PIA, SAA y MIA (en ese orden de prioridad)

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9


In [298]:
df.set_index('DNI')[(df['PIA'] >= 5) | (df['SAA'] >= 5)].sort_values(['PIA', 'SAA', 'MIA'], ascending=False)[['PIA','SAA','MIA']]

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
22333222B,6.5,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,5.5,8.0,7.0
11222333A,0.0,9.0,7.0
