# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [1]:
import pandas as pd
import numpy as np

array = np.random.randint(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [2]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6
D,2,-3,-5,-7


In [3]:
# Representación por pantalla
print(df)

   W  X  Y  Z
A  4  4  9 -6
B -7 -8 -4 -8
C  3  1 -3 -6
D  2 -3 -5 -7


In [4]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [5]:
df['X']

A    4
B   -8
C    1
D   -3
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [6]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [7]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,9,-6
B,-4,-8
C,-3,-6
D,-5,-7


### Añadir una columna

In [8]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [9]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,4,4,9,-6,11
B,-7,-8,-4,-8,-27
C,3,1,-3,-6,-5
D,2,-3,-5,-7,-13


### Borrar una columna

In [10]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6
D,2,-3,-5,-7


In [11]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,4,4,9,-6,11
B,-7,-8,-4,-8,-27
C,3,1,-3,-6,-5
D,2,-3,-5,-7,-13


In [12]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6
D,2,-3,-5,-7


### Borrar una fila

In [13]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6


### Seleccionar filas

In [14]:
df.loc['C']

W    3
X    1
Y   -3
Z   -6
Name: C, dtype: int32

También podemos utilizar el índice:

In [15]:
df.iloc[2]

W    3
X    1
Y   -3
Z   -6
Name: C, dtype: int32

### Seleccionar subset

In [16]:
# Fila C y columna Z 
df.loc['C','Z']

np.int32(-6)

In [17]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,4,9
B,-7,-4


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [18]:
df

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6
D,2,-3,-5,-7


In [19]:
# Registros >0
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,False
B,False,False,False,False
C,True,True,False,False
D,True,False,False,False


In [20]:
# Valor de los registros >0
df[df>0]

Unnamed: 0,W,X,Y,Z
A,4.0,4.0,9.0,
B,,,,
C,3.0,1.0,,
D,2.0,,,


In [21]:
# Valor de los registros cuando X>0
df[df['X']>0]

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
C,3,1,-3,-6


In [22]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,9,-6
C,-3,-6


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [23]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z
A,4,4,9,-6
B,-7,-8,-4,-8
C,3,1,-3,-6
D,2,-3,-5,-7


In [24]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,4,9
B,-7,-4
C,3,-3
D,2,-5


## Modificar índices

In [25]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,-3.261918,-7.319022,7.101179,4.758676
B,-0.884729,-8.450112,-7.195084,1.152632
C,-3.500053,8.550739,8.393684,3.441382
D,-2.306269,7.637725,-4.292858,0.268874


In [26]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,-3.261918,-7.319022,7.101179,4.758676,AA
B,-0.884729,-8.450112,-7.195084,1.152632,BB
C,-3.500053,8.550739,8.393684,3.441382,CC
D,-2.306269,7.637725,-4.292858,0.268874,DD


In [27]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-3.261918,-7.319022,7.101179,4.758676
BB,-0.884729,-8.450112,-7.195084,1.152632
CC,-3.500053,8.550739,8.393684,3.441382
DD,-2.306269,7.637725,-4.292858,0.268874


In [28]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,-3.261918,-7.319022,7.101179,4.758676,AA
B,-0.884729,-8.450112,-7.195084,1.152632,BB
C,-3.500053,8.550739,8.393684,3.441382,CC
D,-2.306269,7.637725,-4.292858,0.268874,DD


In [29]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-3.261918,-7.319022,7.101179,4.758676
BB,-0.884729,-8.450112,-7.195084,1.152632
CC,-3.500053,8.550739,8.393684,3.441382
DD,-2.306269,7.637725,-4.292858,0.268874


In [30]:
print(df)

                W         X         Y         Z
Códigos                                        
AA      -3.261918 -7.319022  7.101179  4.758676
BB      -0.884729 -8.450112 -7.195084  1.152632
CC      -3.500053  8.550739  8.393684  3.441382
DD      -2.306269  7.637725 -4.292858  0.268874


In [31]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W   -3.261918
X   -7.319022
Y    7.101179
Z    4.758676
Name: AA, dtype: float64

### Índices por defecto

In [32]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,-3.261918,-7.319022,7.101179,4.758676
1,-0.884729,-8.450112,-7.195084,1.152632
2,-3.500053,8.550739,8.393684,3.441382
3,-2.306269,7.637725,-4.292858,0.268874


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).