# 2018-09-06 (Jueves)

## Proyectos
---

## NLP -- revisar clase pasada

## Bases de datos

Lo que usualmente se entiende por "base de datos" es un objeto que tiene filas (registros) y columnas (variables). Cada fila, en este paradigma, es un conjunto de información referida a algún registro único.

Existen bases de datos más complejas, que nos permiten almacenar y administrar datos basados en relaciones de distintos tipos de registros ("Relational Model"). En las siguientes clases veremos un poco más sobre esto.

### Bases de datos en Python

Ya trabajamos con algunas estructuras de datos básicas en python (listas, tuplas, diccionarios), pero dichas estructuras no nos permiten realizar operaciones que comúnmente quisieramos hacer (por ejemplo, calcular promedios, agrupar resultados bajo alguna lógica, obtener estadísticas descriptivas, etc).

Para facilitar lo anterior, utilizaremos una librería muy potente de Python llamada "Pandas".

## Objetos importantes de la librería Pandas

### 1. "Series"

Es la "base de datos" más simple de Pandas. Una serie puede ser entendida como un vector de datos (1 dimensión). En general no trabajamos directamente con objetos "Series", sino que accedemos a ellos a través de "DataFrames".


### 2. "DataFrame"

Un objeto más potente de datos son los "DataFrame". Este objeto es muy similar a lo que entendemos nosotros por "base de datos", donde tenemos N filas y K columnas. Cada columna en este objeto es un objeto "Serie".

Para realizar ciertas operaciones sobre las columnas, debemos entender los atributos y métodos disponibles en el objeto "Serie".

Documentación sobre atributos y métodos de DataFrames: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Documentación sobre atributos y métodos de Series: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html



### 3. "GroupBy"

Un objeto "GroupBy" es un objeto intermedio entre una base de datos "desagrupada" y otra base de datos "agrupada", según reglas agrupación que podemos definir al construir este objeto, o después de construido el objeto.

Documentación completa aquí: http://pandas.pydata.org/pandas-docs/stable/groupby.html

Funciones disponibles: http://pandas.pydata.org/pandas-docs/stable/api.html?highlight=groupby#groupby

### 4. "MultiIndex"

Este es un objeto un poco más complejo de datos, donde los índices, tanto de filas como de columnas, pueden tener múltiples "niveles". No utilizaremos este objeto por ahora.

In [1]:
#importamos la librería pandas, asignandole el nombre "pd", sólo para facilitar el uso de la librería
import pandas as pd

- Funciones para leer datos:
    - read_stata: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_stata.html
    - read_excel: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html
    - read_csv: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
    - read_sql: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html


## Ejemplo 1. Carga de datos desde Stata

Lea los datos de la Casen 2017, y calcule el promedio (simple) de ingreso.



In [None]:
# lectura información: función "read_stata"

df = pd.read_stata

## Ejemplo 2. Creación de un DataFrame desde Python


## Ejemplo 3. Carga desde txt

Cargue los datos UF y grafique

In [None]:
# seleccionar columnas


In [None]:
# seleccionar filas


In [None]:
# crear nuevas columnas

## Ejemplo 3. GroupBy

Con el DataFrame de la Casen, construya un objeto GroupBy que le permita calcular estadísticas por region

### Otros ejemplos de Groupby

In [12]:
import numpy as np

df = pd.DataFrame({'Comuna' : ['foo', 'foo', 'foo', 'foo',
                              'bar', 'bar', 'bar', 'bar'],
                       'Año' : [1, 2, 3, 4,
                              1, 2, 3, 4],
                       'C' : np.random.randn(8),
                       'D' : np.random.randn(8)})
print(df)

  Comuna  Año         C         D
0    foo    1 -0.148646 -0.509872
1    foo    2  0.524538  0.731311
2    foo    3 -0.550413  0.154322
3    foo    4 -0.717528 -1.321542
4    bar    1 -0.458771 -1.991990
5    bar    2 -0.815806  0.686046
6    bar    3 -0.528622 -0.386959
7    bar    4 -0.053201 -2.380666


In [13]:
grouped = df.groupby('Comuna')
print(grouped)

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000025668C91CC0>


In [16]:
grouped.groups

{'bar': Int64Index([4, 5, 6, 7], dtype='int64'),
 'foo': Int64Index([0, 1, 2, 3], dtype='int64')}

In [19]:
#nos entrega la primera "fila" de cada comuna
primera_fila = grouped.first()
primera_fila

Unnamed: 0_level_0,Año,C,D
Comuna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,1,-0.458771,-1.99199
foo,1,-0.148646,-0.509872


In [21]:
#nos entrega la suma de las columnas Año, C y D
grouped.sum()

Unnamed: 0_level_0,Año,C,D
Comuna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,10,-1.8564,-4.073569
foo,10,-0.892049,-0.945781


Los métodos antes señalados entregan un "DataFrame", donde el índice ahora no son número de fila, sino que son las etiquetas de la variable que usamos en el "groupby". Para deshacer esto, ocupamos la función "reset_index()" de los DataFrame:

In [24]:
data_colapsada = grouped.sum()
print(data_colapsada)

data_colapsada.reset_index()

        Año         C         D
Comuna                         
bar      10 -1.856400 -4.073569
foo      10 -0.892049 -0.945781


Unnamed: 0,Comuna,Año,C,D
0,bar,10,-1.8564,-4.073569
1,foo,10,-0.892049,-0.945781


## Operaciones con DataFrames

### Equivalente al "merge n:1" de Stata

Hay un par de formas de hacer esto, la más simple es ocupar la función "merge" de los DataFrame

Documentación: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

In [None]:
#ejemplo "merge n:1" 


### Equivalente al "append" de Stata

Hay varias formas de hacer esto, la más simple es ocupar la función "concat" de la librería pandas

Documentación: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html



In [None]:
#ejemplo "append" 

df1 = 
df2 = 

df3 = pd.concat([df1, df2])

## Gráficos en Pandas