# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [2]:
import pandas as pd
import numpy as np

array = np.random.randint(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [None]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
C,-7,-9,-9,0
D,2,-9,0,-3


In [None]:
# Representación por pantalla
print(df)# impFrame

   W   X  Y  Z
A  3   7 -3 -3
B  4 -10  3 -1
C -7  -9 -9  0
D  2  -9  0 -3


In [5]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [6]:
df['X']

A     7
B   -10
C    -9
D    -9
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [7]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [8]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,-3,-3
B,3,-1
C,-9,0
D,0,-3


### Añadir una columna

In [9]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [10]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,3,7,-3,-3,4
B,4,-10,3,-1,-4
C,-7,-9,-9,0,-25
D,2,-9,0,-3,-10


### Borrar una columna

In [None]:
df.drop('TOTAL', axis=1)# un borrado visual

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
C,-7,-9,-9,0
D,2,-9,0,-3


In [12]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,3,7,-3,-3,4
B,4,-10,3,-1,-4
C,-7,-9,-9,0,-25
D,2,-9,0,-3,-10


In [13]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
C,-7,-9,-9,0
D,2,-9,0,-3


### Borrar una fila

In [14]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
C,-7,-9,-9,0


### Seleccionar filas

In [15]:
df.loc['C']

W   -7
X   -9
Y   -9
Z    0
Name: C, dtype: int32

También podemos utilizar el índice:

In [None]:
df.iloc[2]#

W   -7
X   -9
Y   -9
Z    0
Name: C, dtype: int32

### Seleccionar subset

In [21]:
print(df)

# Fila C y columna Z 
df.loc['C','Z']

   W   X  Y  Z
A  3   7 -3 -3
B  4 -10  3 -1
C -7  -9 -9  0
D  2  -9  0 -3


np.int32(0)

In [22]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,3,-3
B,4,3


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [23]:
df

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
C,-7,-9,-9,0
D,2,-9,0,-3


In [24]:
# Registros > 50
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,False,False
B,True,False,True,False
C,False,False,False,False
D,True,False,False,False


In [25]:
# Valor de los registros >0
df[df>50]

Unnamed: 0,W,X,Y,Z
A,,,,
B,,,,
C,,,,
D,,,,


In [26]:
# Valor de los registros cuando X>0
df[df['X']>50]

Unnamed: 0,W,X,Y,Z


In [27]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,-3,-3


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [29]:
# imprime valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z
A,3,7,-3,-3
B,4,-10,3,-1
D,2,-9,0,-3


In [31]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) & (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,3,-3


## Modificar índices

In [32]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,5.133771,9.226054,-8.812147,-9.63314
B,1.063203,0.083521,3.725854,0.328583
C,-9.025621,0.293796,-6.188812,-5.002624
D,-8.958129,0.393267,-0.350488,-9.94295


In [33]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.133771,9.226054,-8.812147,-9.63314,AA
B,1.063203,0.083521,3.725854,0.328583,BB
C,-9.025621,0.293796,-6.188812,-5.002624,CC
D,-8.958129,0.393267,-0.350488,-9.94295,DD


In [34]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.133771,9.226054,-8.812147,-9.63314
BB,1.063203,0.083521,3.725854,0.328583
CC,-9.025621,0.293796,-6.188812,-5.002624
DD,-8.958129,0.393267,-0.350488,-9.94295


In [35]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.133771,9.226054,-8.812147,-9.63314,AA
B,1.063203,0.083521,3.725854,0.328583,BB
C,-9.025621,0.293796,-6.188812,-5.002624,CC
D,-8.958129,0.393267,-0.350488,-9.94295,DD


In [37]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.133771,9.226054,-8.812147,-9.63314
BB,1.063203,0.083521,3.725854,0.328583
CC,-9.025621,0.293796,-6.188812,-5.002624
DD,-8.958129,0.393267,-0.350488,-9.94295


In [38]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       5.133771  9.226054 -8.812147 -9.633140
BB       1.063203  0.083521  3.725854  0.328583
CC      -9.025621  0.293796 -6.188812 -5.002624
DD      -8.958129  0.393267 -0.350488 -9.942950


In [39]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    5.133771
X    9.226054
Y   -8.812147
Z   -9.633140
Name: AA, dtype: float64

### Índices por defecto

In [40]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,5.133771,9.226054,-8.812147,-9.63314
1,1.063203,0.083521,3.725854,0.328583
2,-9.025621,0.293796,-6.188812,-5.002624
3,-8.958129,0.393267,-0.350488,-9.94295


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).