# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [1]:
import pandas as pd
import numpy as np

array = np.random.uniform(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [2]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,5.723169,-5.944629,-6.768249,-9.249052
B,-7.073913,-0.968109,-2.884598,-2.382877
C,1.496078,5.168008,2.264019,-4.260526
D,-7.686296,-5.842456,-6.666106,-1.275657


In [3]:
# Representación por pantalla
print(df)

          W         X         Y         Z
A  5.723169 -5.944629 -6.768249 -9.249052
B -7.073913 -0.968109 -2.884598 -2.382877
C  1.496078  5.168008  2.264019 -4.260526
D -7.686296 -5.842456 -6.666106 -1.275657


In [4]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una COLUMNA mediante su nombre:

In [5]:
df['X']

A   -5.944629
B   -0.968109
C    5.168008
D   -5.842456
Name: X, dtype: float64

Como vemos una columna es en realidad una serie:

In [6]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [7]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,-6.768249,-9.249052
B,-2.884598,-2.382877
C,2.264019,-4.260526
D,-6.666106,-1.275657


### Añadir una columna

In [17]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [18]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515


In [20]:
df['PRUEBA'] = 10 + 5
df

Unnamed: 0,W,X,Y,Z,TOTAL,PRUEBA
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876,15
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497,15
C,1.496078,5.168008,2.264019,-4.260526,4.667578,15
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515,15


### Borrar una columna

In [21]:
#Si es una columna es eje(axis) es 1, también podria borrar filas
df.drop('PRUEBA', axis=1)

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515


In [22]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL,PRUEBA
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876,15
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497,15
C,1.496078,5.168008,2.264019,-4.260526,4.667578,15
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515,15


In [23]:
# A no ser que le indiquemos explícitamente("inplace")
df.drop('PRUEBA', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515


### Borrar una fila

In [24]:
#Para la fila el eje(axis) es 0
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578


### Seleccionar filas

In [25]:
#Para consultar FILAS
df.loc['C']

W        1.496078
X        5.168008
Y        2.264019
Z       -4.260526
TOTAL    4.667578
Name: C, dtype: float64

También podemos utilizar el índice:

In [26]:
df.iloc[2]

W        1.496078
X        5.168008
Y        2.264019
Z       -4.260526
TOTAL    4.667578
Name: C, dtype: float64

### Seleccionar subset

In [27]:
# Fila C y columna Z, para extraer un dato mediante las coordenadas
df.loc['C','Z']

-4.260526240878977

In [28]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,5.723169,-6.768249
B,-7.073913,-2.884598


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [29]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515


In [30]:
# Registros > 0 (EN BOOLEANOS)
df > 0

Unnamed: 0,W,X,Y,Z,TOTAL
A,True,False,False,False,False
B,False,False,False,False,False
C,True,True,True,False,True
D,False,False,False,False,False


In [31]:
# Valor de los registros > 0 (EN VALORES)
df[df > 0]

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,,,,
B,,,,,
C,1.496078,5.168008,2.264019,,4.667578
D,,,,,


In [33]:
# Valor de los registros cuando W > 0 (DEVUELVE LAS FILAS QUE EN DICHO EJE(W) ES MAYOR QUE 0)
df[df['W'] > 0]

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
C,1.496078,5.168008,2.264019,-4.260526,4.667578


In [35]:
# Valor de los registros en las columnas Y,Z si W > 0
df[df['W'] > 0][['Y','Z']]

Unnamed: 0,Y,Z
A,-6.768249,-9.249052
C,2.264019,-4.260526


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [39]:
# Valor de los registros cuando X > 0 o Z < 0
df[(df['X'] > 0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z,TOTAL
A,5.723169,-5.944629,-6.768249,-9.249052,-16.23876
B,-7.073913,-0.968109,-2.884598,-2.382877,-13.309497
C,1.496078,5.168008,2.264019,-4.260526,4.667578
D,-7.686296,-5.842456,-6.666106,-1.275657,-21.470515


In [37]:
# Valor de los registros en las columnas W e Y cuando X > 0 o Z < 0
df[(df['X'] > 0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,5.723169,-6.768249
B,-7.073913,-2.884598
C,1.496078,2.264019
D,-7.686296,-6.666106


## Modificar índices

In [41]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

df

Unnamed: 0,W,X,Y,Z
A,6.026331,-4.588844,8.988758,1.324941
B,9.075492,-9.440866,-0.276325,-7.754989
C,7.658744,-7.43692,-5.404298,9.100133
D,8.027564,5.812169,-2.988894,6.808054


In [42]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,6.026331,-4.588844,8.988758,1.324941,AA
B,9.075492,-9.440866,-0.276325,-7.754989,BB
C,7.658744,-7.43692,-5.404298,9.100133,CC
D,8.027564,5.812169,-2.988894,6.808054,DD


In [43]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,6.026331,-4.588844,8.988758,1.324941
BB,9.075492,-9.440866,-0.276325,-7.754989
CC,7.658744,-7.43692,-5.404298,9.100133
DD,8.027564,5.812169,-2.988894,6.808054


In [44]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,6.026331,-4.588844,8.988758,1.324941,AA
B,9.075492,-9.440866,-0.276325,-7.754989,BB
C,7.658744,-7.43692,-5.404298,9.100133,CC
D,8.027564,5.812169,-2.988894,6.808054,DD


In [45]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,6.026331,-4.588844,8.988758,1.324941
BB,9.075492,-9.440866,-0.276325,-7.754989
CC,7.658744,-7.43692,-5.404298,9.100133
DD,8.027564,5.812169,-2.988894,6.808054


In [46]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       6.026331 -4.588844  8.988758  1.324941
BB       9.075492 -9.440866 -0.276325 -7.754989
CC       7.658744 -7.436920 -5.404298  9.100133
DD       8.027564  5.812169 -2.988894  6.808054


In [47]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    6.026331
X   -4.588844
Y    8.988758
Z    1.324941
Name: AA, dtype: float64

### Índices por defecto

In [48]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,6.026331,-4.588844,8.988758,1.324941
1,9.075492,-9.440866,-0.276325,-7.754989
2,7.658744,-7.43692,-5.404298,9.100133
3,8.027564,5.812169,-2.988894,6.808054


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).