# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [3]:
import pandas as pd
import numpy as np

array = np.random.uniform(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['1','2','3','4'], columns=['A','B','C','D'])

In [4]:
# Representación en jupyter
df

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


In [5]:
# Representación por pantalla
print(df)

          A         B         C         D
1  8.754744  5.373829 -2.450479  1.742206
2  8.140510 -7.287648 -4.740193  1.202309
3 -0.862980  5.361897 -9.720268  5.248737
4  2.794269 -8.851378 -9.997275 -9.324661


In [6]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [8]:
df['A']

1    8.754744
2    8.140510
3   -0.862980
4    2.794269
Name: A, dtype: float64

Como vemos una columna es en realidad una serie:

In [10]:
type(df['A'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [12]:
df[['A','B']]

Unnamed: 0,A,B
1,8.754744,5.373829
2,8.14051,-7.287648
3,-0.86298,5.361897
4,2.794269,-8.851378


### Añadir una columna

In [14]:
df['TOTAL'] = df['A'] + df['B'] + df['C'] + df['D']

df

Unnamed: 0,A,B,C,D,TOTAL
1,8.754744,5.373829,-2.450479,1.742206,13.4203
2,8.14051,-7.287648,-4.740193,1.202309,-2.685021
3,-0.86298,5.361897,-9.720268,5.248737,0.027387
4,2.794269,-8.851378,-9.997275,-9.324661,-25.379046


### Borrar una columna

In [15]:
df.drop('TOTAL', axis=1)

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


In [16]:
# No se modifica el df original
df

Unnamed: 0,A,B,C,D,TOTAL
1,8.754744,5.373829,-2.450479,1.742206,13.4203
2,8.14051,-7.287648,-4.740193,1.202309,-2.685021
3,-0.86298,5.361897,-9.720268,5.248737,0.027387
4,2.794269,-8.851378,-9.997275,-9.324661,-25.379046


In [17]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


### Borrar una fila

In [19]:
df.drop('1', axis=0)

Unnamed: 0,A,B,C,D
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


### Seleccionar filas

In [21]:
df.loc['1']

A    8.754744
B    5.373829
C   -2.450479
D    1.742206
Name: 1, dtype: float64

También podemos utilizar el índice:

In [22]:
df.iloc[2]

A   -0.862980
B    5.361897
C   -9.720268
D    5.248737
Name: 3, dtype: float64

### Seleccionar subset

In [24]:
# Fila 2 y columna B
df.loc['2','B']

-7.287647654873355

In [25]:
# Filas 1,2 y columnas A,B
df.loc[['1','2'],['A','B']]

Unnamed: 0,A,B
1,8.754744,5.373829
2,8.14051,-7.287648


## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [26]:
df

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


In [27]:
# Registros >0
df>0

Unnamed: 0,A,B,C,D
1,True,True,False,True
2,True,False,False,True
3,False,True,False,True
4,True,False,False,False


In [28]:
# Valor de los registros >0
df[df>0]

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,,1.742206
2,8.14051,,,1.202309
3,,5.361897,,5.248737
4,2.794269,,,


In [31]:
# Valor de los registros cuando X>0
df[df['A']>0]

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
4,2.794269,-8.851378,-9.997275,-9.324661


In [32]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['A']>0][['B','C']]

Unnamed: 0,B,C
1,5.373829,-2.450479
2,-7.287648,-4.740193
4,-8.851378,-9.997275


Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [36]:
# Valor de los registros cuando X>0 o Z<0
df[(df['A']>0) | (df['D'] > 0)]

Unnamed: 0,A,B,C,D
1,8.754744,5.373829,-2.450479,1.742206
2,8.14051,-7.287648,-4.740193,1.202309
3,-0.86298,5.361897,-9.720268,5.248737
4,2.794269,-8.851378,-9.997275,-9.324661


In [37]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['A']>0) | (df['B'] < 0)][['C','D']]

Unnamed: 0,C,D
1,-2.450479,1.742206
2,-4.740193,1.202309
4,-9.997275,-9.324661


## Modificar índices

In [38]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [39]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,7.357028,2.221931,-6.32026,7.56334,AA
B,7.776084,4.321811,1.271533,-9.51688,BB
C,-8.47217,-1.44049,-2.519578,-7.044604,CC
D,-8.363755,3.791077,-6.345098,0.991048,DD


In [40]:
# Substituimos los índices de las filas
df.set_index('Códigos')

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,7.357028,2.221931,-6.32026,7.56334
BB,7.776084,4.321811,1.271533,-9.51688
CC,-8.47217,-1.44049,-2.519578,-7.044604
DD,-8.363755,3.791077,-6.345098,0.991048


In [41]:
# No se guardan por defecto
df

Unnamed: 0,W,X,Y,Z,Códigos
A,7.357028,2.221931,-6.32026,7.56334,AA
B,7.776084,4.321811,1.271533,-9.51688,BB
C,-8.47217,-1.44049,-2.519578,-7.044604,CC
D,-8.363755,3.791077,-6.345098,0.991048,DD


In [42]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

Unnamed: 0_level_0,W,X,Y,Z
Códigos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,7.357028,2.221931,-6.32026,7.56334
BB,7.776084,4.321811,1.271533,-9.51688
CC,-8.47217,-1.44049,-2.519578,-7.044604
DD,-8.363755,3.791077,-6.345098,0.991048


In [43]:
print(df)

                W         X         Y         Z
Códigos                                        
AA       7.357028  2.221931 -6.320260  7.563340
BB       7.776084  4.321811  1.271533 -9.516880
CC      -8.472170 -1.440490 -2.519578 -7.044604
DD      -8.363755  3.791077 -6.345098  0.991048


In [44]:
# consultamos una fila con el nuevo índice
df.loc['AA']

W    7.357028
X    2.221931
Y   -6.320260
Z    7.563340
Name: AA, dtype: float64

### Índices por defecto

In [45]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Unnamed: 0,W,X,Y,Z
0,7.357028,2.221931,-6.32026,7.56334
1,7.776084,4.321811,1.271533,-9.51688
2,-8.47217,-1.44049,-2.519578,-7.044604
3,-8.363755,3.791077,-6.345098,0.991048


Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).