# DataFrames

Los DataFrames son el caballo de batalla de Pandas y están directamente inspirados en el lenguaje de programación R. 

** Podemos entender un DataFrame como un conjunto de Series que comparten el mismo índice. ** 

In [None]:
import pandas as pd
import numpy as np

In [None]:
from numpy.random import randn
np.random.seed(101)

In [None]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [None]:
df

## Selección e índices

A continuación se presentan varias formas de acceder a los datos de un DataFrame:

In [None]:
df['W']

In [None]:
# SQL Syntax (NO RECOMENDADO!)
# Aunque también podríamos acceder a una columna directamente como df.W, 
# no se recomienda porque podría confundirse con el nombre de un método

df.W

** Las columnas de los DataFrame son simplemetne Series **

In [None]:
type(df['W'])

In [None]:
type(df)

In [None]:
# Es posible acceder a varias columnas a la vez pasando una lista de nombres de columnas
df[['W','Z']]

In [None]:
df[['Z','X']]

** Creando una columna nueva:**

In [None]:
df['new'] = df['W'] + df['Y']

In [None]:
df

** Eliminando columnas**

In [None]:
df.drop('new',axis=1)   # axis=1 indica que queremos eliminar una columna; si fuera 0 sería una fila (por defecto axis es 0)

In [None]:
# No modifica el DataFrame a menos que sea especificado!
df

In [None]:
df.drop('new',axis=1,inplace=True)

In [None]:
df

También se pueden eliminar filas, así:

In [None]:
# El parámetro axis por defecto es igual a 0 (fila)

df.drop('E',axis=0)

In [None]:
# No modifica el objeto porque no se le pasa el parámetro inplace=True
df

** Selección de filas **

In [None]:
# En los dataframes no solo las columnas pueden ser consideradas Series, las filas también.
# Es posible acceder a una fila específica usando la propiedad loc (location)

df.loc['A']

In [None]:
df.loc['D']

O puede ser seleccionado mediante la pripiedad iloc (index location):

In [None]:
df.iloc[3]

** Seleccionando un subconjunto de filas y columnas**

In [None]:
df

In [None]:
df.loc['B','Y']

In [None]:
df.loc[['A','B'],['W','Y']]

### Selección condicional

Similar a Numpy, en Pandas también se soporta selección condicional usando corchetes cuadrados:

In [None]:
df

In [None]:
df>0

In [None]:
booldf = df > 0

In [None]:
booldf

In [None]:
df [booldf]

In [None]:
# Directamente
df[df>0]

In [None]:
df['W']

In [None]:
df['W']>0

In [None]:
df[df['W']>0]

In [None]:
df

In [None]:
df [df['Z']>0.8]

In [None]:
df [df['W']> 0]

In [None]:
resultdf = df [df['W']> 0]

In [None]:
resultdf['Y']

In [None]:
df[df['W']>0]

In [None]:
df[df['W']>0]['Y']

In [None]:
df[df['W']>0][['Y','X']]

In [None]:
# Si hicieramos lo anterior paso a paso:
boolSer = df['W']>0
result = df[boolSer]
myCols = ['Y', 'X']
result[myCols]

### Condiciones múltiples

Para más de un condicional es posible usar los operadores | (o) y & (y) con paréntesis:

In [None]:
df[(df['X']>0) & (df['Y']>0)]

In [None]:
df[(df['X']>0) | (df['Y']>0)]

## Más detalles de los índices


In [None]:
df

In [None]:
# El método reset_index reinicia los índices de un DataFrame como número 
# y deja los índices anteriores como una columna adicional

df.reset_index()

In [None]:
# Si queremos que el cambio sea permanente, el parámetro inplace debe ser True 

# df.reset_index(inplace=true)

In [None]:
# Podemos crear una nueva lista, cuyo elementos más adelante usaremos como nuevos índices
newind = 'Colombia Perú Ecuador Venezuela Brasil'.split()

In [None]:
df['País'] = newind

In [None]:
df

In [None]:
# Se asigna la lista de países como nuevo índice
df.set_index('País')

In [None]:
df

In [None]:
# Si queremos que el cambio sea permanente, inplace=True
df.set_index('País',inplace=True)

In [None]:
df

## Multi-índices y jerarquía de índices



In [None]:
# Niveles de índices
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))


In [None]:
hier_index

In [None]:
# Multi-índice
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [None]:
hier_index

In [None]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Ahora vamos a mostrar cómo indexar esto! 
Para la jerarquía de índice en las filas usamos df.loc[]. 
Si la jerarquía de índices estuviera en el eje de columnas, solo sería necesaria la notación de corchete normal df[]. 

Llamar a un nivel del índice devuelve el sub-DataFrame de datos:

In [None]:
df.loc['G1']

In [None]:
df.loc['G1'].loc[1]

In [None]:
df.index.names

In [None]:
df.index.names = ['Grupo','Num']

In [None]:
df

In [None]:
# Para seleccionar un dato específico 
df.loc['G2'].loc[3]['B']

### Cross-Section

La función **xs** retorna la sección transversal de un DataFrame que usa multi-índices.

Por ejemplo, es útil cuando queremos filtrar todos los elementos de un determinado "Num" en el DataFrame anterior, independientemente de su Grupo.

In [None]:
# En este caso seleccionamos el Num=1
df.xs(1,level='Num')

In [None]:
df.loc['G1']

In [None]:
# También, se puede hacer lo siguiente (sin usar loc):
df.xs('G1')

In [None]:
df.xs(['G1',1])

In [None]:
# Para lo anterior, usando loc hubieramos tenido que hacer lo siguiente:
df.loc['G1'].loc[1]