# La clase DataFrame

Un `DataFrame` es una agrupación de `Series` unidas bajo los mismos índices dando como resultado estructuras similares a tablas donde representar todo tipo de información.

Cada serie del `DataFrame` se puede considerar una columna a la cuál podemos establecer un nombre:

In [1]:
import pandas as pd
import numpy as np

array = np.random.randint(-10, 10, size=[4,4])

df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])

In [2]:
# Representación en jupyter
df

Unnamed: 0,W,X,Y,Z
A,7,-4,-3,0
B,9,3,9,5
C,-3,2,6,-2
D,-6,6,6,1


In [3]:
# Representación por pantalla
print(df)

    W  X   Y  Z
A   0  4   1 -2
B  -4 -5 -10 -9
C   0  3   9 -8
D -10 -5  -8  6


In [4]:
# Tipo de un df
type(df)

pandas.core.frame.DataFrame

## Trabajando con DataFrames

Podemos consultar una columna mediante su nombre:

In [2]:
df['X']

A    4
B   -5
C    3
D   -5
Name: X, dtype: int32

Como vemos una columna es en realidad una serie:

In [4]:
type(df['X'])

pandas.core.series.Series

También podemos consultar varias columnas pasando una lista con los nombres:

In [5]:
df[['Y','Z']]

Unnamed: 0,Y,Z
A,1,-2
B,-10,-9
C,9,-8
D,-8,6


### Añadir una columna

In [6]:
df['TOTAL'] = df['W'] + df['X'] + df['Y'] + df['Z']

In [7]:
df

Unnamed: 0,W,X,Y,Z,TOTAL
A,0,4,1,-2,3
B,-4,-5,-10,-9,-28
C,0,3,9,-8,4
D,-10,-5,-8,6,-17


### Borrar una columna

In [None]:
df.drop('TOTAL', axis=1)

In [None]:
# No se modifica el df original
df

In [None]:
# A no ser que le indiquemos explícitamente
df.drop('TOTAL', axis=1, inplace=True)

df

### Borrar una fila

In [None]:
df.drop('D', axis=0)

### Seleccionar filas

In [8]:
df.loc['C']

W        0
X        3
Y        9
Z       -8
TOTAL    4
Name: C, dtype: int32

También podemos utilizar el índice:

In [None]:
df.iloc[2]

### Seleccionar subset

In [None]:
# Fila C y columna Z 
df.loc['C','Z']

In [None]:
# Filas A,B y columnas W,Y
df.loc[['A','B'],['W','Y']]

## Selección condicionada

Una de las mayores utilidades de los `DataFrames` es su capacidad para realizar consultas condicionadas:

In [None]:
df

In [None]:
# Registros >0
df>0

In [None]:
# Valor de los registros >0
df[df>0]

In [9]:
# Valor de los registros cuando X>0
df[df['X']>0]

Unnamed: 0,W,X,Y,Z,TOTAL
A,0,4,1,-2,3
C,0,3,9,-8,4


In [None]:
# Valor de los registros en las columnas Y,Z si X>0
df[df['X']>0][['Y','Z']]

Podemos unir condiciones usando los operadores `or` con `|` y `and` con `&`:

In [None]:
# Valor de los registros cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)]

In [None]:
# Valor de los registros en las columnas W e Y cuando X>0 o Z<0
df[(df['X']>0) | (df['Z'] < 0)][['W','Y']]

## Modificar índices

In [10]:
# Creamos de nuevo el dataframe
array = np.random.uniform(-10, 10, size=[4,4])
df = pd.DataFrame(array, index=['A','B','C','D'], columns=['W','X','Y','Z'])
df

Unnamed: 0,W,X,Y,Z
A,-3.718305,-9.22585,-8.291935,-6.056252
B,3.374982,-3.999189,-6.778701,-4.623279
C,4.014445,2.279674,2.076673,-5.109499
D,-7.058058,-5.776865,9.993721,-7.661114


In [11]:
# Añadimos una nueva Serie con el nombre de los índices
df['Códigos'] = ['AA','BB','CC','DD']

df

Unnamed: 0,W,X,Y,Z,Códigos
A,-3.718305,-9.22585,-8.291935,-6.056252,AA
B,3.374982,-3.999189,-6.778701,-4.623279,BB
C,4.014445,2.279674,2.076673,-5.109499,CC
D,-7.058058,-5.776865,9.993721,-7.661114,DD


In [None]:
# Substituimos los índices de las filas
df.set_index('Códigos')

In [None]:
# No se guardan por defecto
df

In [None]:
# A no ser que lo especifiquemos explícitamente
df.set_index('Códigos', inplace=True)

df

In [None]:
print(df)

In [None]:
# consultamos una fila con el nuevo índice
df.loc['AA']

### Índices por defecto

In [None]:
# Reiniciamos los índices y borramos los anteriores explícitamente
df.reset_index(drop=True, inplace=True)

df

Esto es solo la punta del iceberg, para más información sobre la clase `DataFrame` tenéis la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).