# DATAFRAME:
Un `dataframe` es una estructura de datos compuesta por filas y columnas.
- Para entender mejor dataframes, se empieza con un objeto que contiene el nombre, apellido y el email de una persona:

In [1]:
person = {
    'first': 'Edward',
    'last': 'Ramírez',
    'email': 'edal_ramirez@hotmail.com'
}

Un dataframe en Python tiene el aspecto de un diccionario donde *la llave es el nombre de la columna* y esta tiene como valor una lista de datos, donde *cada dato es una fila*

> * **Llaves**: Columnas del dataframe
> * **Valor**: Listas de datos
    - La lista de datos es una representación de las filas

In [2]:
people = {
    'first': ['Edward', 'John', 'Luisito'],
    'last': ['Ramírez', 'Doe', 'Herreño'], 
    'email': ['edal_ramirez@hotmail.com', 'johndoe@hotmail.com', 'luisitoyedward@hotmail.com']
}

In [7]:
import pandas as pd

Para crear un dataframe con base en objetos de Python, uso la clase `Dataframe` de Pandas.

In [5]:
df = pd.DataFrame(people)

In [6]:
df

Unnamed: 0,first,last,email
0,Edward,Ramírez,edal_ramirez@hotmail.com
1,John,Doe,johndoe@hotmail.com
2,Luisito,Herreño,luisitoyedward@hotmail.com


Para acceder a todos los datos correspondientes a una columna uso la notación de Python para acceder a una llave de un diccionario.
> Acceder a los datos de una columna devuelve un objeto de Python tipo `Series`. Los objetos de este tipo son listas de datos o también corresponden a *todas las filas de una sola columna*.
> Con base en la anterior definición de `Series`, podemos ver los *dataframes como contenedores de multiples Series.*

In [9]:
people['first']

['Edward', 'John', 'Luisito']

In [10]:
df['first']

0     Edward
1       John
2    Luisito
Name: first, dtype: object

## Obtener multiples columnas

Para acceder a multiples columnas de un dataframe se usa la misma notación de corchetes, pero esta vez, se pasa una lista con cada uno de los campos deseados
> Debido a que obtengo multiples columnas, el objeto devuelto por esta operación es un dataframe y no Series

In [11]:
df[['first', 'email']]

Unnamed: 0,first,email
0,Edward,edal_ramirez@hotmail.com
1,John,johndoe@hotmail.com
2,Luisito,luisitoyedward@hotmail.com


## Obtener el nombre de las columnas de mi dataframe

Para obtener una lista con el nombre de todas las columnas de mi dataframe, uso el atributo `columns`

In [12]:
df.columns

Index(['first', 'last', 'email'], dtype='object')

## Filtrar un Dataframe por filas
Hay dos formas para filtrar las columnas de un dataframe:
* Indice `loc`: Me permite filtrar por etiquetas `(labels)`
* Indice `iloc`: Me permite filtrar por localización numérica `(integer location)`
> Se debe usar la notación de corchetes, pasando el respectivo filtro dentro de estos. En el siguiente ejemplo se accede a la primer fila del dataframe, la cual devuelve un objeto `Series` cuyos indices usados para identificar el valor de la serie son los nombres de las columnas

In [14]:
# Para filtrar la primera fila, se accede a la fila cero (primera) del dataframe
# En este caso obtengo una Serie con los valores de una fila
df.iloc[0]

first                      Edward
last                      Ramírez
email    edal_ramirez@hotmail.com
Name: 0, dtype: object

## OBTENER MULTIPLES FILAS Y COLUMNAS

Para obtener multiples filas y columnas, se debe pasar una `lista` con los *filas* que se desean obtener, y en caso de filtrar las columnas, se pasa otra lista **separada por coma**
> Se debe tener en cuenta que usando el indice iloc solo se pasa la posición en forma de integers, y en el caso de usar loc, se debe pasar la respectiva etiqueta de filtro

In [15]:
# Filtrar las filas 2 y 0, tomano solo la columna 0 (first name)
df.iloc[[2, 0], 0]

2    Luisito
0     Edward
Name: first, dtype: object

In [17]:
# Filtrar columnas 0 y 1, tomando las columnas 0 y 2 (first y el email)
df.iloc[[0, 1], [0, 2]]

Unnamed: 0,first,email
0,Edward,edal_ramirez@hotmail.com
1,John,johndoe@hotmail.com


In [21]:
# El mismo filtro anterior, pero mostrando en primer lugar la columna con el dato respectivo al email
# Notar que el label para las filas es el mismo indice por default
df.loc[[0, 1], ['email', 'first']]

Unnamed: 0,email,first
0,edal_ramirez@hotmail.com,Edward
1,johndoe@hotmail.com,John


## SLICING
Se puede usar el slicing que trae Python por default para listas, teniendo en cuenta de que no se debe colocar los corchetes de la lista y que el último dato del slice es inclusivo

In [22]:
df.loc[0:1, 'last':'email']

Unnamed: 0,last,email
0,Ramírez,edal_ramirez@hotmail.com
1,Doe,johndoe@hotmail.com
