# Operaciones sobre DataFrames

In [2]:
import pandas as pd
df = pd.read_csv('data/grades.csv', index_col=0)
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


## Manejo de columnas

In [3]:
df.insert(0, 'DNI', ['11222333A', '22333222B', '33222333C', '44333222D']) # Insertamos columna con DNI en la primera posición
df.insert(1, 'Edad', [23, 23, 36, 36]) # Insertamos una columna con las edades de los estudiantes en la posición 1
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0


In [4]:
# O simplemente podemos añadir una columna al final
df['Otro'] = [1,1,1,1] # Si la columna no existe, la crea; si existe, la sobreescribe
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,Otro
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,1
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,1
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,1


In [5]:
# Creamos una nueva columna con las notas normalizadas de PIA
df['PIA_norm'] = (df['PIA'] - df['PIA'].min()) / (df['PIA'].max() - df['PIA'].min())
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,Otro,PIA_norm
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,1,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,1,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,1,0.0


In [6]:
df.drop('Otro', axis=1) # Devuelve un nuevo DataFrame sin la columna 'Otro', pero no modifica el DataFrame original
#df # Si mostramos el DataFrame original, vemos que la columna 'Otro' sigue estando

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0


```drop``` cuenta con el parámetro ```axis``` que por defecto es 0, lo que indica que se eliminarán filas. Si se quiere eliminar columnas, se debe especificar ```axis=1```, o su equivalente ```axis='columns'```.

In [7]:
df.drop('Otro', axis=1, inplace=True) # Borra la columna 'Otro' del DataFrame original
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0


> El argumento ```inplace=True``` indica que la modificación se realiza sobre el propio DataFrame, en lugar de devolver un nuevo DataFrame con la modificación. Es una práctica habitual en pandas (es un parámetro opcional en la mayoría de funciones de pandas), ya que permite encadenar operaciones sobre un DataFrame sin necesidad de crear variables intermedias.

También se pueden usar los parámetros ```columns``` y ```index``` para eliminar columnas o filas, respectivamente.

In [8]:
df.drop(columns='Edad') # Devuelve otro dataframe sin 'PIA_norm' ni 'Edad'

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,7.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0,0.0


In [9]:
df.drop(columns=['PIA_norm', 'Edad']) # Devuelve otro dataframe sin 'PIA_norm' ni 'Edad'

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


## Manejo de filas

In [10]:
# df.at['Alan Turing'] # Daría error; at solo sirve para acceder a un elemento concreto
df.loc['Alan Turing'] # Recuperamos una fila completa como Serie

DNI         11222333A
Edad               23
PIA               7.0
SAA               9.0
MIA               7.0
SBD              10.0
BDA               9.9
PIA_norm          1.0
Name: Alan Turing, dtype: object

In [11]:
import numpy as np
df.loc['Arthur Samuel'] = ['55444333E', 25, 8, 8.0, 7.0, 9.0, 6.0, np.nan] # Añadir un nuevo estudiante
# Dado que la columna PIA_norm require previamente de la columna PIA, no podemos añadir el valor de PIA_norm
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,


El valor de la columna "PIA_norm" tiene que calcularse procesando toda la columna "PIA" y luego asignar el resultado a la columna "PIA_norm". Por eso he optado por asignarle la **constante** ```np.nan``` **(Not A Number)** al añadir una fila nueva: para indicar que no disponemos de esa información por ahora (habrá que recalcular los valores normalizados).

In [12]:
df.drop('Arthur Samuel') # Las filas se pueden eliminar como las columnas (en este caso no uso implace=True porque no quiero modificar el DataFrame original)
#df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0


## Acceso a elementos

In [13]:
print(df.at['Alan Turing','PIA']) # Acceso a un elemento concreto del DataFrame (más eficiente que loc)
print(df.loc['Alan Turing','PIA'])
print(df.loc['Alan Turing'].at['PIA'])  # loc devuelve una serie con los datos de la fila, por lo que podemos usar at para acceder a un elemento concreto de esa serie
print(df['PIA']['Alan Turing']) 
print(df['PIA'].at['Alan Turing']) 

7.0
7.0
7.0
7.0
7.0


In [14]:
df.at['Alan Turing', 'PIA'] = 10 # Modificamos un valor mediante el índice de la fila y el nombre de la columna
df.loc['Alan Turing', 'PIA'] = 10 # Equivalente a lo anterior
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,


In [15]:
df.iloc[1, 2] = 0 # Modificamos una nota usando posiciones
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,0.0,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,


In [16]:
dict_num_keys1 = {1: 'uno', 2: 'dos', 3: 'tres'}
dict_num_keys2 = {1: 'one', 2: 'two', 3: 'three'}
dict_num_keys3 = {1: 'asdasd', 2: 'asdasd', 3: 'asdasd'}

df_ints_as_keys = pd.DataFrame({1:dict_num_keys1, 2: dict_num_keys2, 3: dict_num_keys3})
print(df_ints_as_keys.iloc[1,1])
print(df_ints_as_keys.loc[1,1])

two
uno


## Acceso a partes de un DataFrame

In [17]:
df[['DNI']] # Devuelve un DataFrame con la columna DNI

Unnamed: 0,DNI
Alan Turing,11222333A
Claude Shannon,22333222B
John McCarthy,33222333C
Marvin Minsky,44333222D
Arthur Samuel,55444333E


In [18]:
df['DNI'] # Devuelve una serie con la columna DNI

Alan Turing       11222333A
Claude Shannon    22333222B
John McCarthy     33222333C
Marvin Minsky     44333222D
Arthur Samuel     55444333E
Name: DNI, dtype: object

In [19]:
df.DNI # Equivalente a lo anterior

Alan Turing       11222333A
Claude Shannon    22333222B
John McCarthy     33222333C
Marvin Minsky     44333222D
Arthur Samuel     55444333E
Name: DNI, dtype: object

In [20]:
df[['DNI','PIA']] # Devuelve un DataFrame con las columnas DNI y PIA

Unnamed: 0,DNI,PIA
Alan Turing,11222333A,10.0
Claude Shannon,22333222B,0.0
John McCarthy,33222333C,6.5
Marvin Minsky,44333222D,5.7
Arthur Samuel,55444333E,8.0


In [21]:
df.loc['Alan Turing', ['PIA','SAA','MIA']] # Acceso a una fila y a varias columnas

PIA    10.0
SAA     9.0
MIA     7.0
Name: Alan Turing, dtype: object

## Slicing

In [22]:
df.loc[:, 'PIA':'MIA'] # Devuelve un DataFrame de todas las filas con las columnas PIA, SAA y MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,10.0,9.0,7.0
Claude Shannon,0.0,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,8.0,8.0,7.0


In [23]:
df.iloc[:3, 0:3] # Devuelve un DataFrame de las filas anteriores a la 3, con las columnas 0, 1 y 2

Unnamed: 0,DNI,Edad,PIA
Alan Turing,11222333A,23,10.0
Claude Shannon,22333222B,23,0.0
John McCarthy,33222333C,36,6.5


In [24]:
df.loc[:'Marvin Minsky'] # Devuelve un DataFrame con las filas anteriores a Marvin Minsky

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
Claude Shannon,22333222B,23,0.0,8.0,6.0,9.0,6.9,0.615385
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0


## Creación de un nuevo DataFrame aplicando filtros

In [25]:
# Alumnos que hayan aprobado PIA y SAA
df[(df['PIA'] >= 5) & (df['SAA'] >= 5)]

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,


In [26]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)] [['PIA','SAA','MIA']] # Alumnos que hayan aprobado PIA o SAA con sus notas en esos módulos y en MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,10.0,9.0,7.0
Claude Shannon,0.0,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,8.0,8.0,7.0


In [27]:
aprobados_pia_saa = df[(df['PIA'] >= 5) & (df['SAA'] >= 5)] # Alumnos que hayan aprobado PIA y SAA
aprobados_pia_saa.set_index('DNI', inplace=True) # Establecemos el DNI como índice (el argumento inplace=True modifica el DataFrame original en lugar de devolver uno nuevo)
aprobados_pia_saa[['PIA','SAA','MIA']] #  Alumnos que hayan aprobado PIA o SAA, identificados por DNI, con sus notas en esos módulos y en MIA

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11222333A,10.0,9.0,7.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,8.0,8.0,7.0


In [28]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)].set_index('DNI')[['PIA','SAA','MIA']] # Lo mismo que lo anterior pero en una sola línea

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11222333A,10.0,9.0,7.0
22333222B,0.0,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,8.0,8.0,7.0


## Ordenación

In [29]:
df.sort_values('PIA', ascending=False) # Ordena el DataFrame por la columna PIA de forma descendente

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Claude Shannon,22333222B,23,0.0,8.0,6.0,9.0,6.9,0.615385


In [30]:
df.sort_values(by=['PIA', 'SAA', 'MIA'], ascending=False) # Ordena el DataFrame por las columnas PIA, SAA y MIA (en ese orden de prioridad)

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,23,10.0,9.0,7.0,10.0,9.9,1.0
Arthur Samuel,55444333E,25,8.0,8.0,7.0,9.0,6.0,
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8,0.615385
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0,0.0
Claude Shannon,22333222B,23,0.0,8.0,6.0,9.0,6.9,0.615385


## Agrupación

In [31]:
df['PIA'].mean() # Media de la columna PIA

6.04

In [32]:
df.sum() # Suma de cada columna

DNI         11222333A22333222B33222333C44333222D55444333E
Edad                                                  143
PIA                                                  30.2
SAA                                                  41.5
MIA                                                  33.0
SBD                                                  46.0
BDA                                                  40.6
PIA_norm                                         2.230769
dtype: object

In [33]:
df.loc[:, ['PIA','SAA','MIA','BDA','SBD']].mean(axis='columns') # Nota media de cada alumno en los cinco módulos
# axis=1 indica que la media se calcula por filas

Alan Turing       9.18
Claude Shannon    5.98
John McCarthy     7.56
Marvin Minsky     7.94
Arthur Samuel     7.60
dtype: float64

In [34]:
df['SBD'].value_counts() # Devuelve el número de veces que se repite cada valor de la columna SBD
# cuatro alumnos han sacado un 9 en SBD y uno un 10

SBD
9.0     4
10.0    1
Name: count, dtype: int64

In [35]:
df.isnull() # Devuelve un DataFrame con True en las celdas que contienen NaN y False en las que no
df.isna()  # Equivalente a lo anterior ("not available")

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,False,False,False,False,False,False,False,False
Claude Shannon,False,False,False,False,False,False,False,False
John McCarthy,False,False,False,False,False,False,False,False
Marvin Minsky,False,False,False,False,False,False,False,False
Arthur Samuel,False,False,False,False,False,False,False,True


In [36]:
df.isnull().sum() # Devuelve el número de valores nulos de cada columna

DNI         0
Edad        0
PIA         0
SAA         0
MIA         0
SBD         0
BDA         0
PIA_norm    1
dtype: int64

In [37]:
df.drop('DNI', axis=1).groupby('Edad').mean() # Agrupa por edad y calcula la media de las notas de cada grupo con la misma edad.

Unnamed: 0_level_0,PIA,SAA,MIA,SBD,BDA,PIA_norm
Edad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
23,5.0,8.5,6.5,9.5,8.4,0.807692
25,8.0,8.0,7.0,9.0,6.0,
36,6.1,8.25,6.5,9.0,8.9,0.307692


Hago un drop de la columna 'DNI' porque no se puede hacer media de los valores de esa columna, así que si agrupase del mismo modo, manteniendo esa columna, me daría error. Recordemos que el método ```drop``` por defecto devuelve un nuevo DataFrame, sin modificar el original ( ```inplace=False```).