# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [9]:
import pandas as pd
import numpy as np

array = np.random.randint(0, 100, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [10]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78
D,36,69,94,13


In [11]:
# Representación por pantalla
print(df)

    W   X   Y   Z
A  13  55  59  44
B  60  80  85  44
C  77  13  22  78
D  36  69  94  13


In [12]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [13]:
df['X']

A    55
B    80
C    13
D    69
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [14]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [15]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,59,44
B,85,44
C,22,78
D,94,13


### Añadir una columna

In [20]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [19]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,13,55,59,44,127
B,60,80,85,44,225
C,77,13,22,78,112
D,36,69,94,13,199


### Borrar una columna

In [21]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78
D,36,69,94,13


In [25]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78
D,36,69,94,13


In [23]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78
D,36,69,94,13


### Borrar una fila

In [24]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78


### Seleccionar filas

In [26]:
df.loc['C']

W    77
X    13
Y    22
Z    78
Name: C, dtype: int32

También podemos utilizar el índice:

In [None]:
df.iloc[2]

W    77
X    13
Y    22
Z    78
Name: C, dtype: int32

### Seleccionar subset

In [33]:
print(df)


# Fila C y columna Z 
df.loc['C','Z']

    W   X   Y   Z
A  13  55  59  44
B  60  80  85  44
C  77  13  22  78
D  36  69  94  13


np.int32(78)

In [34]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,13,59
B,60,85


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [35]:
df

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
C,77,13,22,78
D,36,69,94,13


In [36]:
# Registros >0
df>50

Unnamed: 0,W,X,Y,Z
A,False,True,True,False
B,True,True,True,False
C,True,False,False,True
D,False,True,True,False


In [38]:
# Valor de los registros >0
df[df>50]

Unnamed: 0,W,X,Y,Z
A,,55.0,59.0,
B,60.0,80.0,85.0,
C,77.0,,,78.0
D,,69.0,94.0,


In [39]:
# Valor de los registros cuando X>0
df[df['X']>50]

Unnamed: 0,W,X,Y,Z
A,13,55,59,44
B,60,80,85,44
D,36,69,94,13


In [40]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,59,44
B,85,44
C,22,78
D,94,13


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [44]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>50) & (df['Z'] < 30)]

Unnamed: 0,W,X,Y,Z
D,36,69,94,13


In [None]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

## Modificar índices

In [45]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,2.635943,7.315165,6.248676,-8.587987
B,0.798483,7.115891,-1.141001,2.634188
C,4.965392,-7.877685,-2.490121,4.155069
D,-0.288372,5.391808,-7.985303,9.009921


In [46]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,2.635943,7.315165,6.248676,-8.587987,AA
B,0.798483,7.115891,-1.141001,2.634188,BB
C,4.965392,-7.877685,-2.490121,4.155069,CC
D,-0.288372,5.391808,-7.985303,9.009921,DD


In [47]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,2.635943,7.315165,6.248676,-8.587987
BB,0.798483,7.115891,-1.141001,2.634188
CC,4.965392,-7.877685,-2.490121,4.155069
DD,-0.288372,5.391808,-7.985303,9.009921


In [48]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,2.635943,7.315165,6.248676,-8.587987,AA
B,0.798483,7.115891,-1.141001,2.634188,BB
C,4.965392,-7.877685,-2.490121,4.155069,CC
D,-0.288372,5.391808,-7.985303,9.009921,DD


In [49]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,2.635943,7.315165,6.248676,-8.587987
BB,0.798483,7.115891,-1.141001,2.634188
CC,4.965392,-7.877685,-2.490121,4.155069
DD,-0.288372,5.391808,-7.985303,9.009921


In [50]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       2.635943  7.315165  6.248676 -8.587987
BB       0.798483  7.115891 -1.141001  2.634188
CC       4.965392 -7.877685 -2.490121  4.155069
DD      -0.288372  5.391808 -7.985303  9.009921


In [51]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    2.635943
X    7.315165
Y    6.248676
Z   -8.587987
Name: AA, dtype: float64

### Índices por defecto

In [52]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,2.635943,7.315165,6.248676,-8.587987
1,0.798483,7.115891,-1.141001,2.634188
2,4.965392,-7.877685,-2.490121,4.155069
3,-0.288372,5.391808,-7.985303,9.009921


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).