<center><img src="img/title.png" alt="Title" style="width: 850px; height: 650px"></center>

### Binder
Binder es una plataforma donde se puede acceder a Jupyter Notebooks desde internet. El link para poder acceder al notebook de esta presentación es: https://mybinder.org/v2/gh/ndharari/DataAnalisisPython/master 

<center><h1>https://goo.gl/qbWVKi</h1></center>  

<center><img src="img/qrcode.png" style="height: 200px"></center>

# Hoja de ruta clase 2:

- Repaso
- Paquetes
- Análisis de datos

## Repaso
- Listas
- Tipo de variables 

## Paquetes
- ¿Qué es un paquete?
- Instalación e importación
- Pandas
- Matplotlib
- Statsmodels
- Seaborn

## Analisis de Datos
- Importación de datos y manejo con Pandas
- Manipulación y limpieza de Datos con Pandas
- Simples operaciones estadísticas con Pandas
- Graficos simples con Matplotlib
- Problemas econométricos con Statsmodels
- Graficos complejos con Seaborn

## Repaso: Listas
1. Ordenamiento de datos que puede incluir números, strings, variables, entre otros.
2. Los datos no deben ser homogéneos.
3. Las listas son editables [ lista.append(); lista.remove() ].
4. Slice Notation: **lista[m:n]** devuelve los n-m items empezando desde **lista[m]**.

## Paquetes
En este contexto un paquete es una parte de código escrto por la *comunidad* específico para cumplir una función determinada. 
Para poder utilizarlo, se debe **instalar** e **importar**. Por suerte, al utilizar Anaconda ya tenemos instalados varios paquetes escenciales y todos los que vamos a utilzar en esta clase. Sin embargo, sigue siendo necesario **importarlos**


### Importar  paquetes
Anaconda tiene muchos paquetes. Para usarlos es necesario importarlos porque si fueran cargados con todos los programas sería un gasto inútil de computación.
Para importarlo, se utiliza la siguiente sintaxis:

In [None]:
import math

Y para usar las funciones dentro del paquete (o librería) se utiliza:

In [None]:
math.sqrt(2)

Ahora bien, hay algunos paquetes con nombres muy largos y con funciones largas dentro de ellos. Es posible (y va a pasar) que queramos usar un alias más reducido para llamar al paquete dentro de nuestro código. Para esto, se utiliza:

In [None]:
import math as m
m.sqrt(2)

Los paquetes que trataremos de utilizar en esa clase son:

### Paquetes a usar

### Pandas

Pandas es un paquete que provee una forma simple de manejar estructuras de datos en Python. https://pandas.pydata.org/

#### Data Frames
Los data frames son estructuras de datos que permite lectura y escritura de bases de datos en CSV, txt, SQL y Excel. El manejo de estos datos es simple. Cuenta además con formas simples de manejar datos faltantes

<center><img src="img/pandas_logo.png"></center>

### Matplotlib

Matplotlib ofrece la posibilidad de hacer graficos en Python desde histogramas, graficos de barra, de disperción, entre otros. 
Funciona especialmente bien con jupyter notebook. https://matplotlib.org/

In [None]:
import matplotlib
import matplotlib.pyplot as plt
a = 10 ; x = [i for i in range (-a,a+1)] ; y = [x**2 for x in range (-a,a+1)]
plt.plot(x, y) ; plt.ylim(-2*a, a**2); ax = plt.gca()
ax.spines['left'].set_position('zero') ; ax.spines['bottom'].set_position('zero')
ax.spines['top'].set_color('none') ;ax.spines['right'].set_color('none')
plt.show()

### Statsmodels

Statsmodels es un paquete que facilita el uso de modelos, tests y manejo de datos estadísticos. Lo utilizaremos para correr las regresiones de la clase de hoy.
https://www.statsmodels.org/stable/index.html

### Seaborn

Seaborn es un paquete para realizar gráficos científicos en Python.

In [None]:
import numpy as np
import seaborn as sns
n = 100
x = np.random.rand(n)
u = np.random.rand(n)
y = x + u
sns.regplot(x,y)

## Análisis de datos
### Importar base de datos.
Para los siguientes ejercicios usaremos la base de datos *bwght* del libro *Introductory Econometrics: A Modern Approach* de J.  Wooldrige que se pueden encontrar en la siguiente página web:
https://goo.gl/rgJxBN
En nuestro caso este archivo en Excel se encuentra aquí:

<center><img src="img/data_location.png" style = "height: 300px" ></center>


Es importante saber la ubicación del archivo para poder importarlo. Hay dos formas de importar un archivo por su **ubicación objetiva** (ejemplo: C:Windows//Users//Amantedepython) o por su **ubicación relativa** a la carpeta desde la cual se corre el programa. Esta presentación utiliza la segunda alternativa por lo que la dirección del archivo es: **"data\\bwght.xls"**

### Importando desde Pandas
Para comenzar, importaremos la base de datos como un DataFrame de pandas: un a tabla bidimensional de datos estructurada que acepta varios tipos de inputs:

In [None]:
import pandas as pd
dataFrame = pd.read_excel("data\\bwght.xls", sheet_name  = 0)
desc = pd.read_excel("data\\bwght.xls", sheet_name  = 1)
dataFrame.index.name = "id"

In [None]:
dataFrame ; desc

### Administrando los datos
Hay distintas funciones que se pueden usar para administrar los datos desde Pandas. Se pueden obtener los *n* primeros o últimos elementos del DaataFrame mediante data.head(n) y data.tail(n)

In [None]:
dataFrame.head(2)
dataFrame.tail(3)

Como también se puede llamar valores por nombre de columna:

In [None]:
dataFrame["faminc"]
dataFrame[["faminc", "bwght", "cigs"]]

También es posible obtener datos usando la función, similar a Slice Notation: **data.iloc[m:n,p:q] m,n = filas ; p,q = columnas**.
O usando la función **data.loc[ïd]** para buscar una entrada por su id.

In [None]:
dataFrame.loc[4] 
dataFrame.iloc[:,1]

### Matrix de correlaciones y estadísticos
Para conseguir la Matrix de correlaciones y diversos estadísticos dentro de Pandas las funciones necesarias son:

In [None]:
dataFrame.corr()

In [None]:
dataFrame.mean()

In [None]:
dataFrame.var()

In [None]:
dataFrame.kurtosis()

In [None]:
dataFrame.skew()

#### Regresiónes Simples e Histogramas
Vamos a continuar realizando la siguiente regresión lineal:
$$ bwght = \beta_{0} + \beta_{1}faminc + u $$ 
Donde *bwght* es el peso al nacer en libras y *faminc* el ingreso anual de la familia. 

In [None]:
from statsmodels.formula.api import ols
formula = "bwght ~ faminc"
results = ols(formula, dataFrame).fit()
results.summary()

También es posible realizar un histograma de los datos:

In [None]:
plt.hist(dataFrame["bwght"], label = "bwght" )

In [None]:
plt.hist(dataFrame["faminc"], label = "faminc" )

### Regresiónes múltiples y tests F
A continuación vamos a realizar la regresión siguiente regresión múltiple:
$$ bwght = \beta_{0} + \beta_{1}cigs + \beta_{2}parity + \beta_{3}faminc + \beta_{4}motheduc + \beta_{5}fatheduc + u $$ 

Donde:
*bwght* es el peso al nacer en libras ; *cigs*, el número promedio de cigarros diarios que fumó la madre durante el embarazo. *Parity* es el orden de nacimiento del niño ; *faminc*,  el ingreso anual de la familia, *motheduc*, años de escolaridad de la madre y *fatheduc*, años de escolaridad del padre.

In [None]:
formula = "bwght ~ cigs + parity + faminc + motheduc + fatheduc "
results = ols(formula, dataFrame).fit()
results.summary()

### ¿Cuál es el problema?
Para encontrar el problema entremos a la variable *fatheduc*

In [None]:
dataFrame["fatheduc"]

#### Hay valores que son NaN!
El problema es que está considerando los valores de *motheduc* y *fatheduc* como objetos porque estamos en presencia de NaNs
<center><img src="img/meme.jpg" alt="Title" style="width: 250px; height: 250px"></center>

Para salvar los valores que son NaN, debemos utilizar la siguiente expresión para editar nuestros datos:
    
- **.transform(pd.to_numeric, errors='coerce')** Convierte los valores a int y fuerza NaN
- **.dropna(how="any")** Elimina los valores con NaN

In [None]:
dataFrameNaN = dataFrame.transform(pd.to_numeric, errors='coerce').dropna(how="any")

In [None]:
ex_formula = "bwght ~ cigs + parity + faminc + motheduc + fatheduc"
ex_results = ols(ex_formula, dataFrameNaN).fit()
ex_results.summary()

A continuación se quiere testear la la hipótesis nula de que una vez controlados cigs, parity y faminc, la educación de los padres no tiene efecto sobre el peso al nacer. Para eso utilizamos la siguiente sintaxis:

In [None]:
hypotheses = ("motheduc = fatheduc = 0")
f_test = ex_results.f_test(hypotheses)
f_test.summary()

### Matriz de dispersión
Finalmente, para concluir el análisis se puede realizar con seaborn una matriz de dispersión. Esta muestra las relaciones de correlacion entre todas las variables.

In [None]:
rDataFrame = dataFrameNaN[["bwght", "cigs", "parity", "faminc", "motheduc", "fatheduc"]]
sns.pairplot(rDataFrame, kind = "reg")