# 2018-09-06 (Jueves)

## Proyectos

## NLP -- revisar clase pasada

---

## Que estamos haciendo?


## Bases de datos

Lo que usualmente se entiende por "base de datos" es un objeto que tiene filas (registros) y columnas (variables). Cada fila, en este paradigma, es un conjunto de información referida a algún registro único.

Existen bases de datos más complejas, que nos permiten almacenar y administrar datos basados en relaciones de distintos tipos de registros ("Relational Model"). En las siguientes clases veremos un poco más sobre esto.

### Bases de datos en Python

Ya trabajamos con algunas estructuras de datos básicas en python (listas, tuplas, diccionarios), pero dichas estructuras no nos permiten realizar operaciones que comúnmente quisieramos hacer (por ejemplo, calcular promedios, agrupar resultados bajo alguna lógica, obtener estadísticas descriptivas, etc).

Para facilitar lo anterior, utilizaremos una librería muy potente de Python llamada "Pandas".

In [2]:
from IPython.display import display

#importamos la librería pandas, asignandole el nombre "pd", sólo para facilitar el uso de la librería
import pandas as pd

df = pd.DataFrame([(10, 20, 15), (30, 40, 5)])

display(df)


Unnamed: 0,0,1,2
0,10,20,15
1,30,40,5


In [None]:
print('Este dataframe tiene')

print(len(df), 'filas')

print(len(df.columns), 'columnas')


## Objetos importantes de la librería Pandas

### 1. "Series"

Es la "base de datos" más simple de Pandas. Una serie puede ser entendida como un vector de datos (1 dimensión). En general no trabajamos directamente con objetos "Series", sino que accedemos a ellos a través de "DataFrames".


### 2. "DataFrame"

Un objeto más potente de datos son los "DataFrame". Este objeto es muy similar a lo que entendemos nosotros por "base de datos", donde tenemos N filas y K columnas. Cada columna en este objeto es un objeto "Serie".

Para realizar ciertas operaciones sobre las columnas, debemos entender los atributos y métodos disponibles en el objeto "Serie".

Documentación sobre atributos y métodos de DataFrames: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Documentación sobre atributos y métodos de Series: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html


### 3. "GroupBy"

Un objeto "GroupBy" es un objeto intermedio entre una base de datos "desagrupada" y otra base de datos "agrupada", según reglas agrupación que podemos definir al construir este objeto, o después de construido el objeto.

Documentación completa aquí: http://pandas.pydata.org/pandas-docs/stable/groupby.html

Funciones disponibles: http://pandas.pydata.org/pandas-docs/stable/api.html?highlight=groupby#groupby

### 4. "MultiIndex"

Este es un objeto un poco más complejo de datos, donde los índices, tanto de filas como de columnas, pueden tener múltiples "niveles". No utilizaremos este objeto por ahora.

## Ejemplo 1. Carga de datos desde Stata

Lea los datos de la Casen 2017, y calcule el promedio (simple) de ingreso del hogar (ytoth).

** Antes de comenzar **

- Funciones para leer datos:
    - read_stata: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_stata.html
    - read_excel: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html
    - read_csv: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
    - read_sql: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html


In [3]:
# lectura información: función "read_stata"

#lectura desde Stata es lenta...
df_casen = pd.read_stata('Casen 2017.dta', convert_categoricals=False)

** Detour.. usamos pickle para guardar objetos de Python en nuestro disco duro **

Esto nos permitira cargar objetos de Python (por ej, bases de datos en Pandas) mucho mas rapido

In [5]:
# CODIGO PARA GUARDAR OBJETOS DE PYTHON

import pickle

pickle.dump(df_casen , open("casen_df.pkl", "wb"))   

In [6]:
# CODIGO PARA CARGAR OBJETOS DE PYTHON

df_casen = pickle.load(open("casen_df.pkl", "rb"))

# Ahora podemos seguir trabajando con el DataFrame

In [7]:
# accedemos a las columnas del dataframe como si fueran "atributos" de la base de datos
ingreso = df_casen.ytoth

ingreso.mean()

1099657.9843651098

** Quiz: que tipo de objeto es "ingreso" **

## Ejemplo 2. Creación de un DataFrame desde Python

Carguemos los datos de lista de alumnos (clase X) y guardemoslos en un DataFrame

In [None]:
# codigo clase 4

#leemos archivo de otra carpeta
archivo = open('../clase4_20180821/nombres.txt', 'r', encoding='utf-8')

cols = archivo.readline()

data_nombres = []
for line in archivo:
    num, rut, ape, nom, cur = line.strip().split('\t')
    data_nombres.append((num, rut, ape, nom, cur))

archivo.close()

print(data_nombres)


In [None]:
#pero mejor ocupemos pandas!

df_nombres = pd.DataFrame(data_nombres)
df_nombres

** Quiz: como podemos calcular ahora el numero de alumnos por curriculo?**

In [None]:
df_nombres.count(axis=1)

## Ejemplo 3. Manipulacion basica de DataFrames

In [8]:
#seleccionar ciertas filas, segun numero de fila

df_casen[1:3]



Unnamed: 0,folio,o,id_vivienda,hogar,region,provincia,comuna,zona,expr,expc,...,hh_d_estado,hh_d_servbas,hh_d_entorno,hh_d_accesi,hh_d_medio,hh_d_appart,hh_d_tsocial,hh_d_seg,pobreza_multi_4d,pobreza_multi_5d
1,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0
2,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,,


In [25]:
#tambien podemos usar la funcion "iloc"

df_casen.iloc[1:3]

Unnamed: 0,folio,o,id_vivienda,hogar,region,provincia,comuna,zona,expr,expc,...,hh_d_estado,hh_d_servbas,hh_d_entorno,hh_d_accesi,hh_d_medio,hh_d_appart,hh_d_tsocial,hh_d_seg,pobreza_multi_4d,pobreza_multi_5d
1,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0
2,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,,


In [12]:
#seleccionar ciertas columnas, segun "numero" de columna

df_casen.iloc[:, 1:3]

Unnamed: 0,o,id_vivienda
0,1.0,1.101100e+09
1,1.0,1.101100e+09
2,1.0,1.101100e+09
3,2.0,1.101100e+09
4,1.0,1.101100e+09
5,2.0,1.101100e+09
6,3.0,1.101100e+09
7,1.0,1.101100e+09
8,2.0,1.101100e+09
9,1.0,1.101100e+09


In [20]:
#iloc tambien sirve para filas.. 

#seleccione las filas 10, 20 y 30, para las columnas 5 7 y 9

df_casen.iloc[[10, 20, 30], [5, 7, 9]]

#uso general de iloc:   df.iloc[row_indexer,column_indexer]

Unnamed: 0,provincia,zona,expc
10,11.0,1.0,33.0
20,11.0,1.0,8.0
30,11.0,1.0,8.0


In [19]:
# un uso mas "razonable" es usar los nombres de los indices (no la posicion)

df_casen.loc[[10, 20, 30], ['provincia', 'zona']]


Unnamed: 0,provincia,zona
10,11.0,1.0
20,11.0,1.0
30,11.0,1.0


In [21]:
#Tambien podemos seleccionar columnas de una forma mas directa

df_casen[['region', 'ytoth']].head()


Unnamed: 0,region,ytoth
0,1.0,250000.0
1,1.0,211091.0
2,1.0,593500.0
3,1.0,593500.0
4,1.0,341667.0


In [None]:
# y podemos seleccionar multiples Series con algun criterio particular

#por ej, aqui seleccionamos las columnas cuyo nombre parta con "yt"

#primero creamos una lista con los nombres que nos interesan
sel_cols = [y for y in df_casen.columns if y.startswith('yt')]

#seleccionamos las columnas correspondientes a esos nombres
df_casen[sel_cols].describe()

In [22]:
# finalmente, podemos seleccionar ciertos datos usando criterios de busqueda

seleccion = df_casen.region == 1

df_region1 = df_casen[seleccion]

df_region1.head()

Unnamed: 0,folio,o,id_vivienda,hogar,region,provincia,comuna,zona,expr,expc,...,hh_d_estado,hh_d_servbas,hh_d_entorno,hh_d_accesi,hh_d_medio,hh_d_appart,hh_d_tsocial,hh_d_seg,pobreza_multi_4d,pobreza_multi_5d
0,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,,
1,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0
2,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,,
3,110110000000.0,2.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,,
4,110110000000.0,1.0,1101100000.0,1.0,1.0,11.0,1101.0,1.0,39.0,33.0,...,1.0,1.0,1.0,0.0,1.0,,1.0,0.0,0.0,


In [23]:
df_new = df_casen.copy()


In [24]:
del df_new

## Ejemplos de Groupby

In [None]:
import numpy as np

df = pd.DataFrame({'Comuna' : ['foo', 'foo', 'foo', 'foo',
                              'bar', 'bar', 'bar', 'bar'],
                       'Año' : [1, 2, 3, 4,
                              1, 2, 3, 4],
                       'C' : np.random.randn(8),
                       'D' : np.random.randn(8)})
print(df)

In [None]:
grouped = df.groupby('Comuna')
print(grouped)

In [None]:
grouped.groups

In [None]:
#nos entrega la primera "fila" de cada comuna
primera_fila = grouped.first()
primera_fila

In [None]:
#nos entrega la suma de las columnas Año, C y D
grouped.sum()

Los métodos antes señalados entregan un "DataFrame", donde el índice ahora no son número de fila, sino que son las etiquetas de la variable que usamos en el "groupby". Para deshacer esto, ocupamos la función "reset_index()" de los DataFrame:

In [None]:
data_colapsada = grouped.sum()
print(data_colapsada)

data_colapsada.reset_index()

## Operaciones con DataFrames

### Equivalente al "merge n:1" de Stata

Hay un par de formas de hacer esto, la más simple es ocupar la función "merge" de los DataFrame

Documentación: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

In [None]:
#ejemplo "merge n:1" 


### Equivalente al "append" de Stata

Hay varias formas de hacer esto, la más simple es ocupar la función "concat" de la librería pandas

Documentación: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html



In [None]:
#ejemplo "append" 

df1 = 
df2 = 

df3 = pd.concat([df1, df2])

## Gráficos en Pandas