# Clase 13: taller final
### Herramientas de programación para el análisis de datos | Universidad de los Andes

## 0. Program set up

Importando las librerías necesarias, si no están instaladas podemos usar<br>
**pip install matplotlib**

In [1]:
# Pandas para manipular los DataFrames
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

## 1. Consolidar datos

**Noten:** ¡Pandas nos permite cargar archivos en formato nativo de STATA (.dta)!

In [3]:
# Cargamos los datos urbanos a DataFrames de Pandas
Upersonas = pd.read_stata('Upersonas.dta')
Uhogar = pd.read_stata('Uhogar.dta')

In [4]:
# Cargamos los rurales a DataFrames de Pandas
# TODO importar Rpersonas y Rhogar
Rpersonas = pd.read_stata('Rpersonas.dta')
Rhogar = pd.read_stata('Rhogar.dta')

In [5]:
Upersonas.head(6)

Unnamed: 0,ola,zona,consecutivo,llave,hogar,llave_n16,hogar_n16,orden,seguimiento,llave_ID_lb,...,acepta_dinero,vr_aleatorio,vende_voto,valor_voto,voto_secreto,voto_ofrecido,nom_partido,fexpers_2010,fpers_2010,fpers_2016
0,3,Urbano,111001,11100101,1,1110010000.0,1,1,Si,11100101.0,...,,,Sí,$150.000,"No, el voto no es secreto",No,,1.095778,1552.98691,1543.77002
1,3,Urbano,111001,11100101,1,1110010000.0,1,6,,,...,,,,,,,,,,1543.77002
2,3,Urbano,111001,11100101,1,1110010000.0,1,7,,,...,,,,,,,,,,3213.040039
3,3,Urbano,111001,11100101,1,1110010000.0,1,8,,,...,,,,,,,,,,3175.810059
4,3,Urbano,111003,11100305,5,1110031000.0,1,1,Si,11100301.0,...,,,Sí,$30.000,"Si, el voto es secreto",No,MOVIMIENTO SIGNIFICATIVO DE CIUDADANOS PROGRES...,1.095778,1552.98691,
5,3,Urbano,111003,11100305,5,1110031000.0,1,2,No,11100302.0,...,,,,,,,,0.839851,1190.275252,


In [6]:
Uhogar.head(6)

Unnamed: 0,ola,RegionLb,zona_2010,id_dpto,id_mpio,zona_2016,consecutivo_c,consecutivo,llave,hogar,...,cuantos_obr,meses_obrero,vr_obrero,relacion_predio,relacion_cual,fhog_2010,fexhog_2010,riqueza_pca,tercil2016,fhog_2016
0,3,Bogotá,Urbano,21,102.0,Urbano,8888888.0,111001,11100101.0,1.0,...,,,,,,1451.944061,0.398601,2.359846,3,1974.060059
1,3,Bogotá,Urbano,21,102.0,Urbano,11001.0,111003,11100305.0,5.0,...,,,,,,1451.944061,0.398601,1.907835,3,2666.669922
2,3,Bogotá,Urbano,21,102.0,Urbano,11002.0,111004,11100402.0,2.0,...,,,,,,1451.944061,0.425398,0.063195,2,2666.669922
3,3,Bogotá,Urbano,21,102.0,Urbano,8888888.0,111006,11100601.0,1.0,...,,,,,,1451.944061,0.398601,0.525653,2,2666.669922
4,3,Bogotá,Urbano,21,102.0,Urbano,11004.0,111009,11100901.0,1.0,...,,,,,,483.981318,0.398601,-0.25715,2,888.890015
5,3,Bogotá,Urbano,21,102.0,Urbano,11003.0,111010,11101001.0,1.0,...,,,,,,483.981318,0.850796,0.043374,2,888.890015


### Uniones horizontales internas (inner joins) de las bases Rural y Urbana
Inner porque nos interesan las observaciones que se encuentran en ambas bases, tanto personas como hogares.

llave_n16 es sólo la llave que une personas con hogares para 2016. Eso indica el diccionario de la base.

In [7]:
Urbano = Upersonas.merge(Uhogar, on='llave_n16')
Rural = Rpersonas.merge(Rhogar, on='llave_n16')

### Base consolidada agregando verticalmente Rural y Urbano

In [8]:
Datos = Rural.append(Urbano)

In [9]:
# Observamos la cantidad de filas y columnas
Datos.shape

(33016, 1347)

### Visualizamos

In [10]:
Datos.head(10)

Unnamed: 0,ola_x,consecutivo_x,llave_x,hogar_x,llave_n16,hogar_n16_x,orden,seguimiento,llave_ID_lb,llaveper,...,fechai_mes_11,fechai_ano_11,vr_inicial_11,cuota_11,period_cuota_11,pacto_meses_11,meses_plazo_11,vr_saldo_11,cred_anombre_11,cred_aldia_11
0,3,111207,11120702.0,2.0,1112070000.0,2,2,Si,11120702.0,1112070000.0,...,,,,,,,,,,
1,3,111207,11120702.0,2.0,1112070000.0,2,5,Si,11120705.0,1112070000.0,...,,,,,,,,,,
2,3,114200,11420001.0,1.0,1142000000.0,1,1,Si,11420001.0,1142000000.0,...,,,,,,,,,,
3,3,114200,11420001.0,1.0,1142000000.0,1,3,,,1142000000.0,...,,,,,,,,,,
4,3,114200,,,1142000000.0,1,4,,,,...,,,,,,,,,,
5,3,114220,,,1142201000.0,7,7,No,11422007.0,,...,,,,,,,,,,
6,3,114220,,,1142201000.0,7,8,,,,...,,,,,,,,,,
7,3,114220,,,1142201000.0,7,9,,,,...,,,,,,,,,,
8,3,115655,11565501.0,1.0,1156550000.0,1,1,Si,11565501.0,1156550000.0,...,,,,,,,,,,
9,3,115655,11565501.0,1.0,1156550000.0,1,4,,,1156550000.0,...,,,,,,,,,,


### Dejar las variables importantes

In [11]:
Datos = Datos.rename(columns={'sexo': 'mujer'})

In [12]:
columnas = ['hoy_fuma', 'come_paquete', 'come_fritos', 'hospital_veces', 'ehace_deporte', 'zona', 'edad', 'mujer', 'hijos_vivos', 'sp_estrato', 't_personas', 'tercil2016', 'ha_fumado', 'dias_noasistio', 'afiliacion']
Datos = Datos[columnas]

### Revisamos finalmente la base consolidada

In [13]:
Datos.head()

Unnamed: 0,hoy_fuma,come_paquete,come_fritos,hospital_veces,ehace_deporte,zona,edad,mujer,hijos_vivos,sp_estrato,t_personas,tercil2016,ha_fumado,dias_noasistio,afiliacion
0,,No,Sí,,,,36,MUJER,Sí,1,2,1,No,,Sí
1,,,,,,,8,MUJER,,1,2,1,,,
2,Todos los días,No,Sí,,,,48,MUJER,Sí,1,3,1,Sí,10.0,No
3,,,,,,,4,HOMBRE,,1,3,1,,,Sí
4,,,,,,,20,HOMBRE,,1,3,1,,,Sí


In [14]:
Datos.shape

(33016, 15)

In [15]:
Datos.dtypes

hoy_fuma          category
come_paquete      category
come_fritos       category
hospital_veces     float64
ehace_deporte     category
zona                object
edad                 int16
mujer               object
hijos_vivos       category
sp_estrato            int8
t_personas            int8
tercil2016            int8
ha_fumado         category
dias_noasistio     float64
afiliacion        category
dtype: object

## 2. Editar variables

### Codificar valores

Primero construimos la columna completamente numérica

In [16]:
# Una columna de verdaderos y falsos donde se cumple la condición: zona es missing value
seleccionDeFilas = Datos['zona'].isnull()
# Indicamos como Rural las filas donde se cumple la selección
Datos.loc[seleccionDeFilas, 'zona'] = 0

In [17]:
# Una columna de verdaderos y falsos donde se cumple la condición: zona es missing value
seleccionDeFilas = (Datos['zona']=='Urbano')
# Indicamos como Rural las filas donde se cumple la selección
Datos.loc[seleccionDeFilas, 'zona'] = 1

**Tenemos:** los siguientes valores

In [20]:
Datos['zona'].value_counts()

1    16601
0    16415
Name: zona, dtype: int64

*********
**Note:** En Pandas sólo es necesario asignar el tipo categórico a la columna y así la base tendrá menor tamaño y las operaciones ocurrirán con mayor velocidad. Ahora mismo, zona no es categórica.
*********

In [21]:
Datos.dtypes

hoy_fuma          category
come_paquete      category
come_fritos       category
hospital_veces     float64
ehace_deporte     category
zona                object
edad                 int16
mujer               object
hijos_vivos       category
sp_estrato            int8
t_personas            int8
tercil2016            int8
ha_fumado         category
dias_noasistio     float64
afiliacion        category
dtype: object

**Así que:** la asignamos categórica y generamos un diccionario

In [22]:
Datos["zona"] = Datos["zona"].astype('category')
label_zona = dict(enumerate(Datos['zona'].cat.categories))
print(label_zona)

{0: 0, 1: 1}


**Luego:** podemos editar ese diccionario como nos parezca mejor

In [23]:
label_zona = {0: 'Rural', 1: 'Urbano'}
label_zona

{0: 'Rural', 1: 'Urbano'}

### Así, para ir de números a etiquetas:

In [24]:
Datos['zona_cat'] = Datos['zona'].map(label_zona)
Datos["zona_cat"] = Datos["zona_cat"].astype('category')

In [25]:
Datos[['zona', 'zona_cat']]

Unnamed: 0,zona,zona_cat
0,0,Rural
1,0,Rural
2,0,Rural
3,0,Rural
4,0,Rural
...,...,...
16596,1,Urbano
16597,1,Urbano
16598,1,Urbano
16599,1,Urbano


**Note que las dos son categóricas**

In [26]:
Datos[['zona', 'zona_cat']].dtypes

zona        category
zona_cat    category
dtype: object

### Y, para ir de etiquetas a números:

In [27]:
Datos['zona_num'] = Datos['zona_cat'].astype('category').cat.codes
Datos['zona_num']= Datos['zona_num'].astype('category')

In [28]:
Datos[['zona', 'zona_cat', 'zona_num']]

Unnamed: 0,zona,zona_cat,zona_num
0,0,Rural,0
1,0,Rural,0
2,0,Rural,0
3,0,Rural,0
4,0,Rural,0
...,...,...,...
16596,1,Urbano,1
16597,1,Urbano,1
16598,1,Urbano,1
16599,1,Urbano,1


In [29]:
Datos[['zona', 'zona_cat', 'zona_num']].dtypes

zona        category
zona_cat    category
zona_num    category
dtype: object

### Respecto a categóricas siguentes

In [32]:
# TODO Defina una lista llamada "columnas" que incluya las columnas 
# 'ha_fumado', 'come_paquete', 'come_fritos', 'hijos_vivos'
columnas = ['ha_fumado', 'come_paquete', 'come_fritos', 'hijos_vivos']

In [33]:
for col in columnas:
    print(Datos[col].value_counts())
    print('missing', Datos[col].isna().sum())
    print()

No    7629
Sí    5523
Name: ha_fumado, dtype: int64
missing 19864

No    9989
Sí    3163
Name: come_paquete, dtype: int64
missing 19864

Sí    10367
No     2785
Name: come_fritos, dtype: int64
missing 19864

Sí    5514
No    2944
Name: hijos_vivos, dtype: int64
missing 24558



### Recodificamos Sí a 1, No a 0

In [34]:
for col in columnas:
    label_temp = dict(enumerate(Datos[col].cat.categories))
    print(label_temp)

{0: 'Sí', 1: 'No'}
{0: 'Sí', 1: 'No'}
{0: 'Sí', 1: 'No'}
{0: 'Sí', 1: 'No'}


### Las convertimos en números

In [35]:
for col in columnas:
    Datos[col] = Datos[col].astype('category').cat.codes

In [36]:
for col in columnas:
    print(Datos[col].value_counts())
    print('missing', Datos[col].isna().sum())
    print()

-1    19864
 1     7629
 0     5523
Name: ha_fumado, dtype: int64
missing 0

-1    19864
 1     9989
 0     3163
Name: come_paquete, dtype: int64
missing 0

-1    19864
 0    10367
 1     2785
Name: come_fritos, dtype: int64
missing 0

-1    24558
 0     5514
 1     2944
Name: hijos_vivos, dtype: int64
missing 0



**Convirtió:** No en 1, Sí en 0, y NaN en -1

In [None]:
for col in columnas:
    sel = (Datos[col]==1)
    Datos.loc[sel, col] = 2
    
    sel = (Datos[col]==0)
    Datos.loc[sel, col] = 1
    
    # TODO a cada columna que tenga el valor 2, de vuelta a 0 (igual que aquí arriba)
    
    
    sel = (Datos[col]==-1)
    Datos.loc[sel, col] = np.NaN

In [None]:
for col in columnas:
    print(Datos[col].value_counts())
    print('missing', Datos[col].isna().sum())
    print()

### Ya solo sería mapearlo según una etiqueta para 0 y 1 como está en las siguientes dos celdas

### PERO: no vamos a hacerlo porque vamos a usar los valores numéricos después

In [None]:
# No ejecutar
label_booleano = {0: 'No', 1: 'Sí'}
for col in columnas:
    Datos[col] = Datos[col].map(label_booleano)
    Datos[col] = Datos[col].astype('category')

In [None]:
# No ejecutar
Datos[columnas]

### Y para mujer:

In [None]:
Datos['mujer'].value_counts()

In [None]:
Datos['mujer'].isna().sum()

### Renombramos mujer

In [None]:
# Una columna de verdaderos y falsos donde se cumple la condición: es igual a 'Mujer'
seleccionDeFilas = (Datos['mujer'] == 'Mujer')
Datos.loc[seleccionDeFilas, 'mujer'] = 'Sí'

In [None]:
# Una columna de verdaderos y falsos donde se cumple la condición: es igual a 'MUJER'
seleccionDeFilas = (Datos['mujer'] == 'MUJER')
Datos.loc[seleccionDeFilas, 'mujer'] = 'Sí'

In [None]:
# Una columna de verdaderos y falsos donde se cumple la condición: es igual a 'Hombre'
seleccionDeFilas = (Datos['mujer'] == 'Hombre')
Datos.loc[seleccionDeFilas, 'mujer'] = 'No'

In [None]:
# Una columna de verdaderos y falsos donde se cumple la condición: es igual a 'HOMBRE'
seleccionDeFilas = (Datos['mujer'] == 'HOMBRE')
Datos.loc[seleccionDeFilas, 'mujer'] = 'No'

In [None]:
Datos['mujer'].value_counts()

In [None]:
Datos["mujer"] = Datos["mujer"].astype('category')
Datos.dtypes

***
¿Suman las mujeres y hombres iniciales lo mismo que el total después de renombrar?
***

In [None]:
(8737 + 7981 == 16718) & (8434 + 7864 == 16298)

## 3. Estadísticas descriptivas

### Tablas

In [30]:
Datos.mean()

hospital_veces     1.553782
edad              32.966531
sp_estrato         1.673401
t_personas         4.968137
tercil2016         1.997607
dias_noasistio     3.613828
dtype: float64

In [31]:
Datos.std()

hospital_veces     1.517509
edad              21.493230
sp_estrato         0.767255
t_personas         2.654138
tercil2016         0.817624
dias_noasistio     6.933556
dtype: float64

In [None]:
Datos.min()

In [None]:
Datos.max()

In [None]:
print('Número de observaciones (no missing):')
for col in Datos:
    print(col,'   ', Datos[col].notna().sum() )


### Tablas de frecuencias

In [None]:
for col in Datos:
    print()
    print('COLUMNA:', col)
    print()
    print(Datos[col].value_counts())


### Gráficos: barras 1

In [None]:
# Definimos un grupo por los valores de hoy_fuma primero
x1 = Datos.groupby('hoy_fuma').mean().reset_index()
x1

In [None]:
# Graficamos con variable vertical los números de 0 hasta cuantos grupos haya,
## cruzado con el valor de (el promedio de) edad en cada grupo 
plt.bar(range(len(x1)), x1['edad'])
## Configuraciones gráficas: las etiquetas del eje horizontal y vertical
plt.xticks(range(len(x1)), x1['hoy_fuma'])
plt.ylabel('Promedio de edad')

### Gráficos: barras 2

In [None]:
# Graficamos con variable vertical los números de 0 hasta cuantos grupos haya,
## cruzado con el valor de (el promedio de) días que no asistió en cada grupo 
plt.bar(range(len(x1)), x1['dias_noasistio'])
## Configuraciones gráficas: las etiquetas del eje horizontal y vertical
plt.xticks(range(len(x1)), x1['hoy_fuma'])
plt.ylabel('Promedio de días')

### Gráficos: boxplot

In [None]:
plt.boxplot(Datos['t_personas'])

## 4. Regresión

### Correlación

In [None]:
columnas=['dias_noasistio', 'ha_fumado', 'tercil2016', 'edad', 'mujer', 't_personas']
Datos[columnas].corr()

### Regresión

La columna tercil2016 tiene los siguientes valores:

In [None]:
# TODO contar cuántos registros tiene cada uno de los valores de tercil2016

**Vamos a crear tres columnas que indiquen si la observación presenta o no cada valor con 1 o 0**

In [None]:
Datos['tercil20161']=np.NaN
sel = Datos['tercil2016'] == 1
Datos.loc[sel, 'tercil20161'] = 1

sel = Datos['tercil2016'] == 2
Datos.loc[sel, 'tercil20161'] = 0

sel = Datos['tercil2016'] == 3
Datos.loc[sel, 'tercil20161'] = 0

In [None]:
Datos['tercil20162']=np.NaN
sel = Datos['tercil2016'] == 2
Datos.loc[sel, 'tercil20162'] = 1

sel = Datos['tercil2016'] == 1
Datos.loc[sel, 'tercil20162'] = 0

sel = Datos['tercil2016'] == 3
Datos.loc[sel, 'tercil20162'] = 0

In [None]:
Datos['tercil20163']=np.NaN
sel = Datos['tercil2016'] == 3
Datos.loc[sel, 'tercil20163'] = 1

sel = Datos['tercil2016'] == 2
Datos.loc[sel, 'tercil20163'] = 0

sel = Datos['tercil2016'] == 1
Datos.loc[sel, 'tercil20163'] = 0

In [None]:
col=['tercil2016','tercil20161','tercil20162','tercil20163']
Datos[col]

In [None]:
for var in col:
    Datos[var] = Datos[var].astype('int16')

### El modelo

In [None]:
mod = sm.OLS.from_formula('dias_noasistio ~ 1 + ha_fumado + tercil20161 + tercil20162 + tercil20163 + edad + mujer + t_personas', data=Datos)
res = mod.fit()
print(res.summary())