# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [26]:
import pandas as pd
import numpy as np

array = np.random.randint(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [27]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,-8,5,4,3
B,-6,-10,6,3
C,8,3,-7,9
D,1,1,-2,-3


In [28]:
# Representación por pantalla
print(df)

   W   X  Y  Z
A -8   5  4  3
B -6 -10  6  3
C  8   3 -7  9
D  1   1 -2 -3


In [None]:
# Tipo de un df
type(df)

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [29]:
df['X']

A     5
B   -10
C     3
D     1
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [30]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [31]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,4,3
B,6,3
C,-7,9
D,-2,-3


### Añadir una columna

In [32]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [33]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
B,-6,-10,6,3,-7
C,8,3,-7,9,13
D,1,1,-2,-3,-3


### Borrar una columna

In [34]:
df.drop('TOTAL', axis=1)

Unnamed: 0,W,X,Y,Z
A,-8,5,4,3
B,-6,-10,6,3
C,8,3,-7,9
D,1,1,-2,-3


In [35]:
# No se modifica el df original
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
B,-6,-10,6,3,-7
C,8,3,-7,9,13
D,1,1,-2,-3,-3


In [None]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

### Borrar una fila

In [36]:
df.drop('D', axis=0)

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
B,-6,-10,6,3,-7
C,8,3,-7,9,13


### Seleccionar filas

In [None]:
df.loc['C']

También podemos utilizar el índice:

In [37]:
df.iloc[2]

W         8
X         3
Y        -7
Z         9
TOTAL    13
Name: C, dtype: int32

### Seleccionar subset

In [40]:
print(df)

# Fila C y columna Z 
df.loc['C','Z']

   W   X  Y  Z  TOTAL
A -8   5  4  3      4
B -6 -10  6  3     -7
C  8   3 -7  9     13
D  1   1 -2 -3     -3


np.int32(9)

In [39]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,-8,4
B,-6,6


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [41]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
B,-6,-10,6,3,-7
C,8,3,-7,9,13
D,1,1,-2,-3,-3


In [42]:
# Registros >0
df>0

Unnamed: 0,W,X,Y,Z,TOTAL
A,False,True,True,True,True
B,False,False,True,True,False
C,True,True,False,True,True
D,True,True,False,False,False


In [43]:
# Valor de los registros >0
df[df>0]

Unnamed: 0,W,X,Y,Z,TOTAL
A,,5.0,4.0,3.0,4.0
B,,,6.0,3.0,
C,8.0,3.0,,9.0,13.0
D,1.0,1.0,,,


In [46]:
# Valor de los registros cuando X>0
df[df['X']>0]

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
C,8,3,-7,9,13
D,1,1,-2,-3,-3


In [45]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,4,3
C,-7,9
D,-2,-3


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [47]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

Unnamed: 0,W,X,Y,Z,TOTAL
A,-8,5,4,3,4
C,8,3,-7,9,13
D,1,1,-2,-3,-3


In [48]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

Unnamed: 0,W,Y
A,-8,4
C,8,-7
D,1,-2


## Modificar índices

In [49]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,5.603268,-0.35055,2.972766,-4.92047
B,-3.502274,-8.326497,-5.865316,8.025992
C,5.323168,-9.949437,-3.386734,6.637333
D,-6.929874,8.27961,3.689674,-6.353792


In [50]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.603268,-0.35055,2.972766,-4.92047,AA
B,-3.502274,-8.326497,-5.865316,8.025992,BB
C,5.323168,-9.949437,-3.386734,6.637333,CC
D,-6.929874,8.27961,3.689674,-6.353792,DD


In [51]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.603268,-0.35055,2.972766,-4.92047
BB,-3.502274,-8.326497,-5.865316,8.025992
CC,5.323168,-9.949437,-3.386734,6.637333
DD,-6.929874,8.27961,3.689674,-6.353792


In [52]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,5.603268,-0.35055,2.972766,-4.92047,AA
B,-3.502274,-8.326497,-5.865316,8.025992,BB
C,5.323168,-9.949437,-3.386734,6.637333,CC
D,-6.929874,8.27961,3.689674,-6.353792,DD


In [53]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,5.603268,-0.35055,2.972766,-4.92047
BB,-3.502274,-8.326497,-5.865316,8.025992
CC,5.323168,-9.949437,-3.386734,6.637333
DD,-6.929874,8.27961,3.689674,-6.353792


In [54]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       5.603268 -0.350550  2.972766 -4.920470
BB      -3.502274 -8.326497 -5.865316  8.025992
CC       5.323168 -9.949437 -3.386734  6.637333
DD      -6.929874  8.279610  3.689674 -6.353792


In [55]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    5.603268
X   -0.350550
Y    2.972766
Z   -4.920470
Name: AA, dtype: float64

### Índices por defecto

In [56]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,5.603268,-0.35055,2.972766,-4.92047
1,-3.502274,-8.326497,-5.865316,8.025992
2,5.323168,-9.949437,-3.386734,6.637333
3,-6.929874,8.27961,3.689674,-6.353792


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).