# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [1]:
import pandas as pd
import numpy as np

array = np.random.uniform(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [2]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,-7.634577,-5.523712,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891
D,-4.208485,-6.024311,-0.582843,2.641825


In [3]:
# Representación por pantalla
print(df)

          W         X         Y         Z
A -7.634577 -5.523712  7.984803  8.490980
B  3.888425  4.560710  4.915240  3.662320
C -4.052191 -8.442302  6.083101 -8.828910
D -4.208485 -6.024311 -0.582843  2.641825


In [4]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [5]:
df['X']

A   -5.523712
B    4.560710
C   -8.442302
D   -6.024311
Name: X, dtype: float64

Como vemos una columna es en realidad una serie:

In [6]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [12]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,7.984803,8.49098
B,4.91524,3.66232
C,6.083101,-8.82891
D,-0.582843,2.641825


### Añadir una columna

In [13]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [14]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-7.634577,-5.523712,7.984803,8.49098,3.317494
B,3.888425,4.56071,4.91524,3.66232,17.026694
C,-4.052191,-8.442302,6.083101,-8.82891,-15.240302
D,-4.208485,-6.024311,-0.582843,2.641825,-8.173814


### Borrar una columna

In [16]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,-7.634577,-5.523712,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891
D,-4.208485,-6.024311,-0.582843,2.641825


In [17]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-7.634577,-5.523712,7.984803,8.49098,3.317494
B,3.888425,4.56071,4.91524,3.66232,17.026694
C,-4.052191,-8.442302,6.083101,-8.82891,-15.240302
D,-4.208485,-6.024311,-0.582843,2.641825,-8.173814


In [18]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,-7.634577,-5.523712,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891
D,-4.208485,-6.024311,-0.582843,2.641825


### Borrar una fila

In [19]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,-7.634577,-5.523712,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891


### Seleccionar filas

In [20]:
df.loc['C']

W   -4.052191
X   -8.442302
Y    6.083101
Z   -8.828910
Name: C, dtype: float64

También podemos utilizar el índice:

In [21]:
df.iloc[2]

W   -4.052191
X   -8.442302
Y    6.083101
Z   -8.828910
Name: C, dtype: float64

### Seleccionar subset

In [22]:
# Fila C y columna Z 
df.loc['C','Z']

-8.82890990903298

In [23]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,-7.634577,7.984803
B,3.888425,4.91524


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [24]:
df

Unnamed: 0,W,X,Y,Z
A,-7.634577,-5.523712,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891
D,-4.208485,-6.024311,-0.582843,2.641825


In [25]:
# Registros >0
df>0

Unnamed: 0,W,X,Y,Z
A,False,False,True,True
B,True,True,True,True
C,False,False,True,False
D,False,False,False,True


In [26]:
# Valor de los registros >0
df[df>0]

Unnamed: 0,W,X,Y,Z
A,,,7.984803,8.49098
B,3.888425,4.56071,4.91524,3.66232
C,,,6.083101,
D,,,,2.641825


In [27]:
# Valor de los registros cuando X>0
df[df['X']>0]

Unnamed: 0,W,X,Y,Z
B,3.888425,4.56071,4.91524,3.66232


In [28]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
B,4.91524,3.66232


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [32]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z
B,3.888425,4.56071,4.91524,3.66232
C,-4.052191,-8.442302,6.083101,-8.82891


In [33]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
B,3.888425,4.91524
C,-4.052191,6.083101


## Modificar índices

In [34]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [35]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.777699,-1.988882,-9.902848,-3.77184,AA
B,-4.806492,-9.720928,2.460714,-2.097629,BB
C,1.54733,8.529498,-0.910483,-1.262504,CC
D,2.906044,-9.617971,7.867299,-9.767682,DD


In [36]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.777699,-1.988882,-9.902848,-3.77184
BB,-4.806492,-9.720928,2.460714,-2.097629
CC,1.54733,8.529498,-0.910483,-1.262504
DD,2.906044,-9.617971,7.867299,-9.767682


In [37]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.777699,-1.988882,-9.902848,-3.77184,AA
B,-4.806492,-9.720928,2.460714,-2.097629,BB
C,1.54733,8.529498,-0.910483,-1.262504,CC
D,2.906044,-9.617971,7.867299,-9.767682,DD


In [38]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.777699,-1.988882,-9.902848,-3.77184
BB,-4.806492,-9.720928,2.460714,-2.097629
CC,1.54733,8.529498,-0.910483,-1.262504
DD,2.906044,-9.617971,7.867299,-9.767682


In [39]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       5.777699 -1.988882 -9.902848 -3.771840
BB      -4.806492 -9.720928  2.460714 -2.097629
CC       1.547330  8.529498 -0.910483 -1.262504
DD       2.906044 -9.617971  7.867299 -9.767682


In [40]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    5.777699
X   -1.988882
Y   -9.902848
Z   -3.771840
Name: AA, dtype: float64

### Índices por defecto

In [41]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,5.777699,-1.988882,-9.902848,-3.77184
1,-4.806492,-9.720928,2.460714,-2.097629
2,1.54733,8.529498,-0.910483,-1.262504
3,2.906044,-9.617971,7.867299,-9.767682


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).