# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [36]:
import pandas as pd
import numpy as np

array = np.random.randint(0, 100, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [37]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
B,4,23,78,10
C,62,58,90,29
D,9,74,66,99


In [38]:
# Representación por pantalla
print(df)

    W   X   Y   Z
A  99  60  60  99
B   4  23  78  10
C  62  58  90  29
D   9  74  66  99


In [39]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [40]:
df['X']

A    60
B    23
C    58
D    74
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [41]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [42]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,60,99
B,78,10
C,90,29
D,66,99


### Añadir una columna

In [43]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [44]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,99,60,60,99,318
B,4,23,78,10,115
C,62,58,90,29,239
D,9,74,66,99,248


### Borrar una columna

In [45]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
B,4,23,78,10
C,62,58,90,29
D,9,74,66,99


In [46]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,99,60,60,99,318
B,4,23,78,10,115
C,62,58,90,29,239
D,9,74,66,99,248


In [47]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
B,4,23,78,10
C,62,58,90,29
D,9,74,66,99


### Borrar una fila

In [48]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
B,4,23,78,10
C,62,58,90,29


### Seleccionar filas

In [49]:
df.loc['C']

W    62
X    58
Y    90
Z    29
Name: C, dtype: int32

También podemos utilizar el índice:

In [50]:
df.iloc[2]

W    62
X    58
Y    90
Z    29
Name: C, dtype: int32

### Seleccionar subset

In [51]:
print(df)


# Fila C y columna Z 
df.loc['C','Z']

    W   X   Y   Z
A  99  60  60  99
B   4  23  78  10
C  62  58  90  29
D   9  74  66  99


np.int32(29)

In [52]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,99,60
B,4,78


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [53]:
df

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
B,4,23,78,10
C,62,58,90,29
D,9,74,66,99


In [54]:
# Registros >0
df>50

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,False,False,True,False
C,True,True,True,False
D,False,True,True,True


In [55]:
# Valor de los registros >0
df[df>50]

Unnamed: 0,W,X,Y,Z
A,99.0,60.0,60,99.0
B,,,78,
C,62.0,58.0,90,
D,,74.0,66,99.0


In [56]:
# Valor de los registros cuando X>0
df[df['X']>50]

Unnamed: 0,W,X,Y,Z
A,99,60,60,99
C,62,58,90,29
D,9,74,66,99


In [57]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,60,99
B,78,10
C,90,29
D,66,99


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [58]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>50) & (df['Z'] < 30)]

Unnamed: 0,W,X,Y,Z
C,62,58,90,29


In [59]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,99,60
B,4,78
C,62,90
D,9,66


## Modificar índices

In [60]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,-1.922725,-0.053625,7.018502,9.083021
B,-6.566413,-9.20461,9.648115,3.993646
C,7.398561,-2.181631,-0.714837,-4.548857
D,5.470003,3.524703,-7.199952,5.983039


In [61]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,-1.922725,-0.053625,7.018502,9.083021,AA
B,-6.566413,-9.20461,9.648115,3.993646,BB
C,7.398561,-2.181631,-0.714837,-4.548857,CC
D,5.470003,3.524703,-7.199952,5.983039,DD


In [62]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-1.922725,-0.053625,7.018502,9.083021
BB,-6.566413,-9.20461,9.648115,3.993646
CC,7.398561,-2.181631,-0.714837,-4.548857
DD,5.470003,3.524703,-7.199952,5.983039


In [63]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,-1.922725,-0.053625,7.018502,9.083021,AA
B,-6.566413,-9.20461,9.648115,3.993646,BB
C,7.398561,-2.181631,-0.714837,-4.548857,CC
D,5.470003,3.524703,-7.199952,5.983039,DD


In [64]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,-1.922725,-0.053625,7.018502,9.083021
BB,-6.566413,-9.20461,9.648115,3.993646
CC,7.398561,-2.181631,-0.714837,-4.548857
DD,5.470003,3.524703,-7.199952,5.983039


In [65]:
print(df)

                W         X         Y         Z
Códigos                                        
AA      -1.922725 -0.053625  7.018502  9.083021
BB      -6.566413 -9.204610  9.648115  3.993646
CC       7.398561 -2.181631 -0.714837 -4.548857
DD       5.470003  3.524703 -7.199952  5.983039


In [66]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W   -1.922725
X   -0.053625
Y    7.018502
Z    9.083021
Name: AA, dtype: float64

### Índices por defecto

In [67]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,-1.922725,-0.053625,7.018502,9.083021
1,-6.566413,-9.20461,9.648115,3.993646
2,7.398561,-2.181631,-0.714837,-4.548857
3,5.470003,3.524703,-7.199952,5.983039


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).