## DataFrame

### Estructura de un DataFrame


Un **DataFrame** es una estructura de datos tabular bidimensional, con filas y columnas etiquetadas. Es similar una tabla de base de datos relacional (SQL). Se puede considerar como una colección de Series que comparten el mismo índice. Es la estructura de datos más utilizada en pandas.

In [None]:
pd.DataFrame({'Notas': estudiantes_con_notas}) # Creamos un DataFrame a partir de la serie de notas (le estamos dando nombre a la columna)

Unnamed: 0,Notas
Estudiante 1,10
Estudiante 2,10
Estudiante 3,5
Estudiante 4,5


In [None]:
# Creamos directamente un dataframe con las notas de varios alumnos en varias asignaturas
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]})

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Estudiante 1,10,5,9,10,6
Estudiante 2,10,6,8,9,7
Estudiante 3,5,7,7,8,8
Estudiante 4,5,8,6,7,9


En el caso anterior hemos utilizado los indices de ```estudiantes_con_notas``` para crear el dataframe. Fijate que estamos añadiendo un objetos Series para la primera columna y un arrays para las siguientes.

In [None]:
# Otra opción sería especificar los indices explícitos y recibir todas las notas como listas
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]}, index=['Nombre Erroneo', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4'])


Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Nombre Erroneo,,5,9,10,6
Estudiante 2,10.0,6,8,9,7
Estudiante 3,5.0,7,7,8,8
Estudiante 4,5.0,8,6,7,9


Hemos cometido un error en el nombre de un estudiante, y como el primer listado de notas (PIA) era una Serie, no encuentra la nota para el índice 'Nombre Erroneo' y nos devuelve un **NaN (Not a Number)**. Para evitar esto, podemos crear un DataFrame a partir de un diccionario de listas, en lugar de un diccionario de Series. Las otras notas son simples listas sin índice, por lo que se asume que son correctas.
Sin embargo, en este tipo de procesos es importante estar alerta. Que las notas de cada alumno solo estén identificadas por su posición en una lista es poco robusto, ya que si se añade un alumno o se cambia el orden de los alumnos, las notas se asignarán a alumnos distintos. Es mejor utilizar un diccionario de Series, ya que el índice explícito permite identificar correctamente a cada alumno.

La siguiente solución es más robusta:

In [None]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.5, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'Marvin Minsky': 8.0, 'John McCarthy': 8.5, 'Claude Shannon': 8.0, 'Alan Turing': 9.0})
notas_mia = pd.Series({'Marvin Minsky': 7.0, 'John McCarthy': 6.0, 'Claude Shannon': 6.0, 'Alan Turing': 7.0})
notas_sbd = pd.Series({'Marvin Minsky': 9.0, 'John McCarthy': 9.0, 'Claude Shannon': 9.0, 'Alan Turing': 10.0})
notas_bda = pd.Series({'John McCarthy': 7.8, 'Claude Shannon': 6.9, 'Alan Turing': 9.9, 'Marvin Minsky': 10}) # El orden no importa porque tenemos índices explícitos

notas_df = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa, 'MIA': notas_mia, 'SBD': notas_sbd, 'BDA': notas_bda})
notas_df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


Un par de problemas a tener en consideración que podríamos tener en análisis de datos al utilizar *strings* como índices strings:
- Los pueden no ser únicos (dos personas pueden tener el mismo nombre)
- Puede haber variaciones sobre cómo se escriben los nombres (por ejemplo, con mayúsculas o minúsculas) en distintas fuentes de datos.
Son dos de los motivos por los que en bases de datos relacionales se utilizan siempre claves primarias únicas indexadas, a menudo enteros autoincrementales que no tienen significado en sí mismos (claves surrogadas).

In [None]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'marvin minsky': 8.0, 'McCarthy': 8.5, 'shannon': 8.0, 'Alan-Turing': 9.0})
notas_df_liandola_parda = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa})
notas_df_liandola_parda

Unnamed: 0,PIA,SAA
Alan Turing,7.0,
Alan-Turing,,9.0
Claude Shannon,6.5,
John McCarthy,6.2,
Marvin Minsky,5.7,
McCarthy,,8.5
marvin minsky,,8.0
shannon,,8.0


### Ejercicio propuesto: Crear un DataFrame a partir de distintas estructuras de datos

In [None]:
notas_modulo1= {'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0}
notas_modulo2= [('Marvin Minsky', 8.0), ('John McCarthy', 8.5), ('Claude Shannon', 8.0), ('Alan Turing', 9.0)]
notas_modulo3= {('Marvin Minsky', 9.5), ('John McCarthy', 8.9), ('Claude Shannon', 8.7), ('Alan Turing', 9.1)}
notas_modulo4= [3.3, 4.5, 6.7, 8.9]
import numpy as np
notas_modulo5= np.array([3.5, 4.1, 2.1, 9.3])
notas_modulo6= pd.Series([8.3, 6.5, 5.7, 5.9])
notas_modulo7= pd.Series([3.3, 4.5, 6.7, 8.9], index=['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing'])
notas_modulo8= pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})

#### Solución

In [None]:
# notas_modulo6.index= ['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing']
pd.DataFrame({
    'Módulo 1': notas_modulo1,
    'Módulo 2': dict(notas_modulo2),
    'Módulo 3': dict(notas_modulo3),
    'Módulo 4': pd.Series(notas_modulo4, index=['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing']),
    'Módulo 5': pd.Series(notas_modulo5, index=['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing']),
    'Módulo 6': pd.Series(notas_modulo6.values, index=['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing']),
    # 'Módulo 6': dict(zip(['Marvin Minsky', 'John McCarthy', 'Claude Shannon', 'Alan Turing'], notas_modulo6.values)),
    'Módulo 7': notas_modulo7,
    'Módulo 8': notas_modulo8
    })

Unnamed: 0,Módulo 1,Módulo 2,Módulo 3,Módulo 4,Módulo 5,Módulo 6,Módulo 7,Módulo 8
Alan Turing,7.0,9.0,9.1,8.9,9.3,5.9,8.9,7.0
Claude Shannon,6.5,8.0,8.7,6.7,2.1,5.7,6.7,6.5
John McCarthy,6.2,8.5,8.9,4.5,4.1,6.5,4.5,6.2
Marvin Minsky,5.7,8.0,9.5,3.3,3.5,8.3,3.3,5.7


### Lectura de ficheros de datos

Pandas ofrece una gran variedad de funciones para importar y exportar datos desde y hacia ficheros. Sin profundizar en ellos, a modo de ejemplo podemos almacenar el DataFrame ```notas_df``` en un **fichero CSV** con la función **to_csv** y recuperarlo con la función **read_csv**.

In [None]:
notas_df.to_csv('data/grades.csv') # el directorio data debe existir
df = pd.read_csv('data/grades.csv', index_col=0)
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


el parámetro ```index_col=0``` indica que la primera columna del fichero csv es el índice explícito del DataFrame, si no se indica se crea un índice implícito.

In [None]:
pd.read_csv('data/grades.csv')

Unnamed: 0.1,Unnamed: 0,PIA,SAA,MIA,SBD,BDA
0,Alan Turing,7.0,9.0,7.0,10.0,9.9
1,Claude Shannon,6.5,8.0,6.0,9.0,6.9
2,John McCarthy,6.5,8.5,6.0,9.0,7.8
3,Marvin Minsky,5.7,8.0,7.0,9.0,10.0


### Información sobre un DataFrame

In [None]:
notas_df.info() # Información sobre el DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Alan Turing to Marvin Minsky
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   PIA     4 non-null      float64
 1   SAA     4 non-null      float64
 2   MIA     4 non-null      float64
 3   SBD     4 non-null      float64
 4   BDA     4 non-null      float64
dtypes: float64(5)
memory usage: 192.0+ bytes


In [None]:
notas_df.head() # Primeras 5 filas (en este caso, solo hay 4, normalmente trabajaremos con datasets muchísimo más grandes y será útil poder ver solo las primeras filas para hacernos una idea de los datos)

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


In [None]:
notas_df.shape # Número de filas y columnas

(4, 5)

In [None]:
notas_df.keys() # Objeto "Index" con los nombres y tipo de las columnas

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [None]:
notas_df.columns # Equivalente al anterior pero solo para DataFrame (el método keys() funciona también para recuperar las claves de Series)

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [None]:
df.dtypes # Tipos de datos de las columnas

PIA    float64
SAA    float64
MIA    float64
SBD    float64
BDA    float64
dtype: object

In [None]:
df.index # Índices de las filas

Index(['Alan Turing', 'Claude Shannon', 'John McCarthy', 'Marvin Minsky'], dtype='object')

### Modificaciones estructurales

In [None]:
df.insert(0, 'DNI', ['11222333A', '22333222B', '33222333C', '44333222D']) # Insertamos columna con DNI en la primera posición
df.insert(1, 'Edad', [23, 23, 36, 36]) # Insertamos una columna con las edades de los estudiantes
df

Unnamed: 0,DNI,Edad,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,23,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,23,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,36,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,36,5.7,8.0,7.0,9.0,10.0


In [None]:
df.drop('Edad', axis=1) # Devuelve un nuevo DataFrame sin la columna Edad, pero no modifica el DataFrame original
# Podemos usar drop tanto para borrar filas como columnas (axis=0 para filas, axis=1 para columnas)

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


In [None]:
df.drop('Edad', axis=1, inplace=True) # Borra la columna Edad del DataFrame original
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


> El argumento ```inplace=True``` indica que la modificación se realiza sobre el propio DataFrame, en lugar de devolver un nuevo DataFrame con la modificación. Es una práctica habitual en pandas (es un parámetro opcional en la mayoría de funciones de pandas), ya que permite encadenar operaciones sobre un DataFrame sin necesidad de crear variables intermedias.

### Operaciones sobre un DataFrame

In [None]:
df.loc['Alan Turing', 'PIA'] = 10 # Modificamos una nota
df.at['Alan Turing', 'PIA'] = 10 # Equivalente a lo anterior
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,10.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


In [None]:
df.iloc[0, 0] = 0 # Modificamos una nota usando posiciones
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,0,10.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


In [None]:
df.loc['Alan Turing'] # Recuperamos una fila completa como Serie

DNI       0
PIA    10.0
SAA     9.0
MIA     7.0
SBD    10.0
BDA     9.9
Name: Alan Turing, dtype: object

In [None]:
df.loc['Arthur Samuel'] = ['55444333E', 23, 5.5, 8.0, 7.0, 9.0, 6.0] # Añadir un nuevo estudiante
df

ValueError: cannot set a row with mismatched columns

In [None]:
df[['DNI']] # Devuelve un DataFrame con la columna DNI

Unnamed: 0,DNI
Alan Turing,11222333A
Claude Shannon,22333222B
John McCarthy,33222333C
Marvin Minsky,44333222D
Arthur Samuel,55444333E


In [None]:
df['DNI'] # Devuelve una serie con la columna DNI

Alan Turing       11222333A
Claude Shannon    22333222B
John McCarthy     33222333C
Marvin Minsky     44333222D
Arthur Samuel     55444333E
Name: DNI, dtype: object

In [None]:
df.DNI # Equivalente a lo anterior

Alan Turing       11222333A
Claude Shannon    22333222B
John McCarthy     33222333C
Marvin Minsky     44333222D
Arthur Samuel     55444333E
Name: DNI, dtype: object

In [None]:
df[['DNI','PIA']] # Devuelve un DataFrame con las columnas DNI y PIA

Unnamed: 0,DNI,PIA
Alan Turing,11222333A,0.0
Claude Shannon,22333222B,6.5
John McCarthy,33222333C,6.5
Marvin Minsky,44333222D,5.7
Arthur Samuel,55444333E,5.5


In [None]:
df.loc['Alan Turing', ['PIA','SAA','MIA']] # Acceso a una fila y a varias columnas

PIA    0.0
SAA    9.0
MIA    7.0
Name: Alan Turing, dtype: object

In [None]:
df['SBD'].value_counts() # Devuelve el número de veces que se repite cada valor de la columna SBD
# cuatro alumnos han sacado un 9 en SBD y uno un 10

SBD
9.0     4
10.0    1
Name: count, dtype: int64

### Añadir una columna

In [None]:
# Creamos una nueva columna con las notas normalizadas de PIA
df['PIA_normalizada'] = (df['PIA'] - df['PIA'].min()) / (df['PIA'].max() - df['PIA'].min())
df

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA,PIA_norm
Alan Turing,11222333A,0.0,9.0,7.0,10.0,9.9,0.0
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9,1.0
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8,1.0
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0,0.876923
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0,0.846154


### Slicing

In [None]:
df.loc[:, 'PIA':'MIA'] # Devuelve un DataFrame de todas las filas con las columnas PIA, SAA y MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,0.0,9.0,7.0
Claude Shannon,6.5,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,5.5,8.0,7.0


In [None]:
df.iloc[:3, 0:3] # Devuelve un DataFrame de las filas anteriores a la 3, con las columnas 0, 1 y 2

Unnamed: 0,DNI,PIA,SAA
Alan Turing,11222333A,0.0,9.0
Claude Shannon,22333222B,6.5,8.0
John McCarthy,33222333C,6.5,8.5


### Creación de un nuevo DataFrame aplicando filtros

In [None]:
# Alumnos que hayan aprobado PIA y SAA
df[(df['PIA'] >= 5) & (df['SAA'] >= 5)]

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA,PIA_norm
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9,1.0
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8,1.0
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0,0.876923
Arthur Samuel,55444333E,5.5,8.0,7.0,9.0,6.0,0.846154


In [None]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)] [['PIA','SAA','MIA']] # Alumnos que hayan aprobado PIA o SAA con sus notas en esos módulos y en MIA

Unnamed: 0,PIA,SAA,MIA
Alan Turing,0.0,9.0,7.0
Claude Shannon,6.5,8.0,6.0
John McCarthy,6.5,8.5,6.0
Marvin Minsky,5.7,8.0,7.0
Arthur Samuel,5.5,8.0,7.0


In [None]:
aprobados_pia_saa = df[(df['PIA'] >= 5) & (df['SAA'] >= 5)] # Alumnos que hayan aprobado PIA y SAA
aprobados_pia_saa.set_index('DNI', inplace=True) # Establecemos el DNI como índice (el argumento inplace=True modifica el DataFrame original en lugar de devolver uno nuevo)
aprobados_pia_saa[['PIA','SAA','MIA']] #  Alumnos que hayan aprobado PIA o SAA, identificados por DNI, con sus notas en esos módulos y en MIA

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
22333222B,6.5,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,5.5,8.0,7.0


In [None]:
df[(df['PIA'] >= 5) | (df['SAA'] >= 5)].set_index('DNI')[['PIA','SAA','MIA']] # Lo mismo que lo anterior pero en una sola línea

Unnamed: 0_level_0,PIA,SAA,MIA
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11222333A,0.0,9.0,7.0
22333222B,6.5,8.0,6.0
33222333C,6.5,8.5,6.0
44333222D,5.7,8.0,7.0
55444333E,5.5,8.0,7.0


### Ordenación

In [None]:
df.sort_values('PIA', ascending=False) # Ordena el DataFrame por la columna PIA de forma descendente

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,0,10.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


In [None]:
df.sort_values(by=['PIA', 'SAA', 'MIA'], ascending=False) # Ordena el DataFrame por las columnas PIA, SAA y MIA (en ese orden de prioridad)

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,0,10.0,9.0,7.0,10.0,9.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0


### Agrupación

In [None]:
df.groupby('').mean() # Agrupa por edad y calcula la media de cada columna para cada grupo

Unnamed: 0,DNI,PIA,SAA,MIA,SBD,BDA
Alan Turing,11222333A,7.0,9.0,7.0,10.0,9.9
Claude Shannon,22333222B,6.5,8.0,6.0,9.0,6.9
John McCarthy,33222333C,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,44333222D,5.7,8.0,7.0,9.0,10.0
