# Open Stata from Python + Jupyter Notebooks

## The following code is for Stata verions < 17. The (now) most recent 17 version makes it easier by using PyStata: https://www.stata.com/stata-news/news36-3/pystata-and-jupyter-notebook/ 

#### Author: Angelo Cozzubo
#### Date creation: Jan28th, 2022
#### Last update: Jan28th, 2022

In [1]:
!pip install ipystata



In [80]:
import ipystata
import pandas as pd 
import math

## 0. Make sure Stata works
### More help here: https://github.com/TiesdeKok/ipystata 

In [3]:
%%stata
display "Hello, I am printed by Stata."


Hello, I am printed by Stata.



# 1. Load sample data

In [4]:
%%stata -o car_df
sysuse auto.dta, clear 

(1978 Automobile Data)



# 2. Stata commands

In [5]:
%%stata -d car_df
tabulate foreign headroom


           |                                   headroom
   foreign |       1.5          2        2.5          3        3.5          4        4.5 |     Total
-----------+-----------------------------------------------------------------------------+----------
  Domestic |         3         10          4          7         13         10          4 |        52 
   Foreign |         1          3         10          6          2          0          0 |        22 
-----------+-----------------------------------------------------------------------------+----------
     Total |         4         13         14         13         15         10          4 |        74 

           |  headroom
   foreign |         5 |     Total
-----------+-----------+----------
  Domestic |         1 |        52 
   Foreign |         0 |        22 
-----------+-----------+----------
     Total |         1 |        74 



# 3. Pandas command

In [6]:
car_df.head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic


# Tarea 1 – Teoría de Muestreo

### Parte I
#### 1. Indique a qué enfoque (diseño o modelo) corresponde cada una de las siguientes características:

a.	Asume población finita: <div style="text-align: center"> </br>Enfoque basado en el diseño </br> </div> 
b.	Asume que la variable objetivo es aleatoria: <div style="text-align: center"> </br> Enfoque basado en el modelo </br> </div> 
c.	Asume un proceso generador de datos: <div style="text-align: center"> </br> Enfoque basado en el modelo </br> </div> 
d.	Asume que el componente aleatorio viene de cómo seleccionamos las observaciones: <div style="text-align: center"> </br> Enfoque basado en el diseño </br> </div> 

#### 2.	Responda dos de las siguientes preguntas. La respuesta a cada pregunta no debe pasar de 75 palabras.

##### a. ¿Qué esperaría que suceda con el error estándar de la media de una variable conforme se toman muestras de mayor tamaño?

A medida que se toman muestras de mayor tamaño, se espera que el error estándar de la media de una variable se reduzca. Esto se relacionaría con la ley de los grandes números, la cual indica que a medida que el tamaño de la muestra se acerca a la poblacional, el valor de la media estimada tambien se acerca al valor de la media poblacional.

##### c. ¿Qué es el factor de expansión y cómo se construye?

El factor de expansión indica cuantos individuos de la población representa un individuo de la muestra extraida, por lo cual también son denominados pesos muestrales. Esta se construye como la inversa de la probabilidad de selección, la cual puede ser corregida por tasas de no respuesta, calibración, posestratificactón, etc.

### Parte II
#### Utilizando la base de datos del CENAGRO que ha sido colgada en paideia, realizar los siguientes ejercicios:



In [119]:
import ipystata
import pandas as pd
import math

In [106]:
%%stata -o Cenagro_df
use "C:\Users\haguirre\Documents\GitHub\Big-Data-Pucp\Assignment 1\cenagro2012_mod.dta", clear

One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.


#### 1.	Calcular las siguientes variables: 


1.1.	Una variable categórica que identifique los siguientes grupos etarios: de 12 a 24 inclusive, de 25 a 64 inclusive, de 65 a más. Llamar a esta variable “rango_edad”.

In [107]:
%%stata
gen rango_edad=0 if edad>=12 & edad<=24
replace rango_edad=1 if edad>=25 & edad<=64
replace rango_edad=2 if edad>=65

label define rangos 0 "[12-24]" 1 "[25-64]" 2 "[>65]"
label values rango_edad rangos

1.2.	Una variable dicotómica que identifique a las Unidades Agropecuarias (UAs) que son dirigidas por personas cuya lengua materna es el quechua. Llamar a esta variable “ppquechua”.

In [108]:
%%stata
gen ppquechua=(lengua<=1)
label define Lengua 0 "No quechua" 1 "Quechua"
label values ppquechua Lengua

#### 2.	Establecer una semilla (“seed”) usando los dígitos del cumpleaños de alguno de los miembros de la pareja.

In [109]:
%%stata
set seed 2702

#### 3.	Extraer una Muestra Aleatoria Simple (MAS) de 2247 observaciones de la población total (base completa). Con esta muestra, utilizar la variable “sup_total” y obtener los siguientes estadísticos.

Extraemos una MAS de 2247 observaciones de la base completa

In [110]:
%%stata
preserve
sample 2247, count
total sup_total
mean sup_total
sum sup_total, d
restore

3.1. La suma de todos los valores

In [111]:
print ( "La suma total es 14822.43" )

La suma total es 14822.43


3.2. La media

In [112]:
mean = 6.596541
print ( f"La media es {mean}" )

La media es 6.596541


3.3. La fracción muestral

In [113]:
N = Cenagro_df['sup_total'].count()
n = 2247
frac_m = n/N
print( f'La fracción muestral es {frac_m}')

La fracción muestral es 0.0010001326388635432


3.4. La corrección de población finita (fpc)

In [114]:
fpc = 1 - frac_m
print( f'El factor de corrección de población finita es {fpc}')

El factor de corrección de población finita es 0.9989998673611364


3.5. La suma de desviaciones al cuadrado

In [115]:
var_muestra = 1449.136
sum_desv = var_muestra*(n - 1)
print( f'La suma de las desviaciones al cuadrado es {sum_desv}')

La suma de las desviaciones al cuadrado es 3254759.456


3.6. La varianza de la muestra

In [116]:
print( f'La varianza de la muestra es {var_muestra}')

La varianza de la muestra es 1449.136


3.7. La varianza muestral de la media

In [117]:
var_muestr_media = fpc*(var_muestra/n)
print( f'La varianza muestral de la media es {var_muestr_media}')

La varianza muestral de la media es 0.6442753323490199


3.8. El error estándar de la media

In [120]:
error_std_mean = math.sqrt(var_muestr_media)
print( f'El error estándar de la media es {error_std_mean}')

El error estándar de la media es 0.8026676350451786


3.9. El factor de expansión de cada observación

In [121]:
fac_pob = 1/frac_m
print( f'El factor de expansión de cada observación es {fac_pob}, cuya suma equivale a la totalidad de la población censal de unidades agripecuarias, ello debido a que en MAS el factor de expansión de cada observación es la inversa de la probabilidad de selección, que en este caso es la fracción muestral')

El factor de expansión de cada observación es 999.8673787271917, cuya suma equivale a la totalidad de la población censal de unidades agripecuarias, ello debido a que en MAS el factor de expansión de cada observación es la inversa de la probabilidad de selección, que en este caso es la fracción muestral


#### 4.	Extraer una Muestra Aleatoria Estratificada (MAE) de 2247 observaciones utilizando la variable “rango_edad” como estrato. Con esta muestra, utilizar la variable “ppquechua” y: 

In [123]:
%%stata
set seed 2702
sample 0.1, by(rango_edad)
browse

4.1.	Obtener los mismos estadísticos de las preguntas 3.1-3.9 según la variable de estratificación (intra estrato).

In [131]:
%%stata
global N 2246702

egen Suma=total(ppquechua), by(rango_edad)
table rango_edad, c(mean Suma)

egen Media=mean(ppquechua), by(rango_edad)
table rango_edad, c(mean Media)

egen n=count(ppquechua), by(rango_edad)
table rango_edad, c(mean n)

gen f=n/$N
table rango_edad, c(mean f)

gen fpc=1-f
table rango_edad, c(mean fpc)

gen varianza=Media*(1-Media)
table rango_edad, c(mean varianza)

gen varianza_m=(1-f)*(varianza/n)
table rango_edad, c(mean varianza_m)

gen des_estándar=sqrt(varianza_m)
table rango_edad, c(mean des_estándar)

*
gen fac_pob = 1/f
table rango_edad, c(mean fac_pob)
browse

4.2. Declare el diseño muestral y obtenga el promedio de la variable “ppquechua” para toda la muestra utilizando el diseño muestral

In [129]:
%%stata
svyset , strata(ppquechua)
svy: mean ppquechua

4.3.	Discuta como pueden utilizarse los resultados obtenidos en 4.1 para poder calcular el promedio de la variable “ppquechua” para toda la muestra.

Se puede generar el promedio de la 