# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [1]:
import pandas as pd
import numpy as np

array = np.random.uniform(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [2]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
C,0.166055,-7.123142,-9.082692,2.317924
D,-1.892069,1.808842,-9.455782,9.90865


In [3]:
# Representación por pantalla
print(df)

          W         X         Y         Z
A -2.242020  0.121039  2.396520 -8.148130
B  7.957636  0.599195 -9.143301 -1.378082
C  0.166055 -7.123142 -9.082692  2.317924
D -1.892069  1.808842 -9.455782  9.908650


In [4]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [5]:
df['X']

A    0.121039
B    0.599195
C   -7.123142
D    1.808842
Name: X, dtype: float64

Como vemos una columna es en realidad una serie:

In [6]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [7]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,2.39652,-8.14813
B,-9.143301,-1.378082
C,-9.082692,2.317924
D,-9.455782,9.90865


### Añadir una columna

In [8]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [9]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-2.24202,0.121039,2.39652,-8.14813,-7.872591
B,7.957636,0.599195,-9.143301,-1.378082,-1.964552
C,0.166055,-7.123142,-9.082692,2.317924,-13.721855
D,-1.892069,1.808842,-9.455782,9.90865,0.369641


### Borrar una columna

In [10]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
C,0.166055,-7.123142,-9.082692,2.317924
D,-1.892069,1.808842,-9.455782,9.90865


In [11]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-2.24202,0.121039,2.39652,-8.14813,-7.872591
B,7.957636,0.599195,-9.143301,-1.378082,-1.964552
C,0.166055,-7.123142,-9.082692,2.317924,-13.721855
D,-1.892069,1.808842,-9.455782,9.90865,0.369641


In [12]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
C,0.166055,-7.123142,-9.082692,2.317924
D,-1.892069,1.808842,-9.455782,9.90865


### Borrar una fila

In [13]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
C,0.166055,-7.123142,-9.082692,2.317924


### Seleccionar filas

In [14]:
df.loc['C']

W    0.166055
X   -7.123142
Y   -9.082692
Z    2.317924
Name: C, dtype: float64

También podemos utilizar el índice:

In [15]:
df.iloc[2]

W    0.166055
X   -7.123142
Y   -9.082692
Z    2.317924
Name: C, dtype: float64

### Seleccionar subset

In [16]:
# Fila C y columna Z 
df.loc['C','Z']

2.317924072255737

In [20]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,-2.24202,2.39652
B,7.957636,-9.143301


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [21]:
df

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
C,0.166055,-7.123142,-9.082692,2.317924
D,-1.892069,1.808842,-9.455782,9.90865


In [22]:
# Registros >0
df>0

Unnamed: 0,W,X,Y,Z
A,False,True,True,False
B,True,True,False,False
C,True,False,False,True
D,False,True,False,True


In [23]:
# Valor de los registros >0
df[df>0]

Unnamed: 0,W,X,Y,Z
A,,0.121039,2.39652,
B,7.957636,0.599195,,
C,0.166055,,,2.317924
D,,1.808842,,9.90865


In [24]:
# Valor de los registros cuando X>0
df[df['X']>0]

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
D,-1.892069,1.808842,-9.455782,9.90865


In [25]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,2.39652,-8.14813
B,-9.143301,-1.378082
D,-9.455782,9.90865


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [26]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z
A,-2.24202,0.121039,2.39652,-8.14813
B,7.957636,0.599195,-9.143301,-1.378082
D,-1.892069,1.808842,-9.455782,9.90865


In [27]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,-2.24202,2.39652
B,7.957636,-9.143301
D,-1.892069,-9.455782


## Modificar índices

In [28]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [29]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,-0.185869,-7.38695,7.429795,4.222342,AA
B,1.500138,-1.89507,-4.623463,-2.963452,BB
C,6.957012,1.107023,-0.448365,0.67771,CC
D,1.061756,6.41009,-7.975539,7.198369,DD


In [30]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-0.185869,-7.38695,7.429795,4.222342
BB,1.500138,-1.89507,-4.623463,-2.963452
CC,6.957012,1.107023,-0.448365,0.67771
DD,1.061756,6.41009,-7.975539,7.198369


In [31]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,-0.185869,-7.38695,7.429795,4.222342,AA
B,1.500138,-1.89507,-4.623463,-2.963452,BB
C,6.957012,1.107023,-0.448365,0.67771,CC
D,1.061756,6.41009,-7.975539,7.198369,DD


In [32]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-0.185869,-7.38695,7.429795,4.222342
BB,1.500138,-1.89507,-4.623463,-2.963452
CC,6.957012,1.107023,-0.448365,0.67771
DD,1.061756,6.41009,-7.975539,7.198369


In [33]:
print(df)

                W         X         Y         Z
Códigos                                        
AA      -0.185869 -7.386950  7.429795  4.222342
BB       1.500138 -1.895070 -4.623463 -2.963452
CC       6.957012  1.107023 -0.448365  0.677710
DD       1.061756  6.410090 -7.975539  7.198369


In [34]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W   -0.185869
X   -7.386950
Y    7.429795
Z    4.222342
Name: AA, dtype: float64

### Índices por defecto

In [35]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,-0.185869,-7.38695,7.429795,4.222342
1,1.500138,-1.89507,-4.623463,-2.963452
2,6.957012,1.107023,-0.448365,0.67771
3,1.061756,6.41009,-7.975539,7.198369


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).