<a href="https://colab.research.google.com/github/JLuceroVasquez/estadistica-con-python-probabilidad-y-muestreo/blob/main/notebook_proyecto_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

***
# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 2</font>
***

## Trabajo de Probabilidades, Muestreo y Estimación

Utilizando los conocimientos adquiridos en nuestra formación, realice las siguientes tareas. Siga el guión propuesto y complete las celdas vacías.

# <font color=green>DATASET DEL PROYECTO</font>
***

### Encuesta Nacional por Muestreo de Hogares - 2015

La <b>Encuesta Nacional por Muestreo de Hogares</b> anualmente investiga, de manera permanente, características generales de la población, educación, trabajo, ingresos y vivienda y otras, con frecuencia variable, de acuerdo a las necesidades de información del país, tales como las características de migración, fecundidad, nupcialidad, salud, seguridad alimentaria, entre otros temas. La recopilación de estas estadísticas constituye, durante los 49 años de realización de la investigación, un importante instrumento para la formulación, validación y evaluación de políticas orientadas al desarrollo socioeconómico y la mejora de las condiciones de vida en Brasil.

### Fuente de los Datos

Instituto Brasileño de Geografía y Estadística (IBGE) Encuesta Nacional por Muestreo de Hogares(PNAD) en el 2015

### Variables utilizadas

> ### Ingreso
> ***

Ingresos mensuales del trabajo principal para personas de 10 años y más.

> ### Edad
> ***

Edad del residente en la fecha de referencia en años.

> ### Altura (elaboración propia)
> ***

Altura del habitante en metros.

> ### UF
> ***
Unidad Federal


|Código|Descripción|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo
> ***

|Código|Descripción|
|---|---|
|0|Masculino|
|1|Femenino|

> ### Años de Estudio
> ***

|Código|Descripción|
|---|---|
|1|Sin educación o menos de 1 año|
|2|1 año|
|3|2 años|
|4|3 años|
|5|4 años|
|6|5 años|
|7|6 años|
|8|7 años|
|9|8 años|
|10|9 años|
|11|10 años|
|12|11 años|
|13|12 años|
|14|13 años|
|15|14 años|
|16|15 años o más|
|17|No determinado|
||No aplicable|

> ### Color
> ***

|Código|Descripción|
|---|---|
|0|Indígena|
|2|Blanco|
|4|Negro|
|6|Amarillo|
|8|Pardo|
|9|Sin declaración|

#### <font color='red'>Nota</font>
***
> Se realizaron los siguientes tratamientos sobre los datos originales:
> 1. Se eliminaron los registros en los que **Ingreso** no era válido. (999 999 999 999);
> 2. Se eliminaron los registros en los que **Ingreso** eran missing;
> 3. Solo se consideraron los registros de **Personas de Referencia** de cada hogar (responsable del hogar).

***
***

### Use la celda a continuación para importar las bibliotecas que necesita para realizar las tareas
#### <font color='red'>Sugerencias: pandas, numpy, scipy etc.</font>

In [4]:
#Se importan las librerías.
import pandas as pd
import numpy as np
from scipy.special import comb
from scipy.special import factorial
from scipy.stats import binom
from scipy.stats import norm
from scipy.stats import poisson
import matplotlib.pyplot as plt
from matplotlib.axes import Axes

### Importe el dataset y almacenar el contenido en un DataFrame

In [5]:
#Se importa el archivo csv desde Github.

url = "https://github.com/JLuceroVasquez/estadistica-con-python-probabilidad-y-muestreo/raw/refs/heads/main/datos.csv"

datos = pd.read_csv(url, encoding="ISO-8859-1")

### Ver el contenido del DataFrame

In [6]:
datos.head()

Unnamed: 0,Ciudad,Sexo,Edad,Color,Años de Estudio,Ingreso,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font>

Al evaluar nuestro conjunto de datos, es posible verificar que la **proporción de hombres** como jefes de hogar es casi del **70%**. Necesitamos **seleccionar al azar grupos de 10 individuos** para verificar las diferencias entre las ganancias en cada grupo. ¿Cuál es la **probabilidad de seleccionar un grupo que presente la misma proporción de la población**, es decir, seleccionar un grupo que esté **compuesto por 7 hombres y 3 mujeres**?

#### <font color='blue'>Como tarea adicional, verifique la proporción real de hombres y mujeres en nuestro conjunto de datos (vimos cómo hacer esto en nuestro primer curso de estadística).</font>

#### <font color='red'>Compruebe qué tipo de distribución de probabilidad se ajusta a este experimento.</font>

### Solución

El experimento se ajusta a una distribución binomial. Debido a que:

* Se realizan pruebas idénticas: Seleccionar a una persona.

* Las pruebas son independientes: Se seleccionan personas diferentes en cada prueba.

* Solo son posibles dos resultados: Sexo masculino y sexo femenino.

* La probabilidad de éxito y la probabilidad de fracaso no cambian de una prueba para otra.

## Proporción de real de hombres y mujeres

In [18]:
#Se calcula la proporción por sexo, redondeando a 2 decimales.
proporcion_sexo = datos.Sexo.value_counts(normalize=True).round(4)*100

#Se nombra la serie resultante como Proporcion.
proporcion_sexo.name = 'Proporcion'

#Se renombra los valores del índice.
proporcion_sexo = proporcion_sexo.set_axis(['Masculino', 'Femenino'])

proporcion_sexo

Unnamed: 0,Proporcion
Masculino,69.3
Femenino,30.7


## Total de eventos que se desea obtener éxito (k)

In [20]:
#k: Seleccionar a un individuo con sexo masculino.
k = 7

## Total de ensayos

In [21]:
#n: Seleccionar 10 inidividuos.
n = 10

## Probabilidad de éxito

In [22]:
#p: Probabilidad de que ocurra "k".
p = 0.693

## Solución

In [28]:
#p_7: Probabilidad de seleccionar 7 individuos con sexo masculino en un total de 10 selecciones.
probabilidad_seleccionar_siete_hombres = binom.pmf(k, n, p)
probabilidad_seleccionar_siete_hombres

np.float64(0.266519515291015)

# <font color='green'>Problema B</font>

Aún en la pregunta anterior, **¿cuántos grupos de 10 individuos** tendríamos que seleccionar, al azar, para obtener **100 grupos formados por 7 hombres y 3 mujeres**?

#### <font color='red'>Recuerde la forma de promediar una distribución binomial</font>

### Solución

### Media de la distribución binomial

# $$\mu=nXp$$

* n: Total de grupos de 10 individuos conformados.
* p: Probabilidad de conformar un grupo de 10 individuos, donde 7 son hombres.
* $\mu$: Cantidad promedio de grupos de 10 individuos conformados, donde 7 son hombres.  

In [29]:
#Se declaran las variables.
promedio_grupos_de_siete_hombres = 100
probabilidad_grupos_de_siete_hombres = probabilidad_seleccionar_siete_hombres

#Se calcula la cantidad total de grupos conformados.
total_grupos = promedio_grupos_de_siete_hombres / probabilidad_grupos_de_siete_hombres #Se calcula n = u/p
total_grupos = int(total_grupos.round()) #Se expresa en entero.
total_grupos

375

# <font color='green'>Problema C</font>

Un cliente nos encargó la realización de un estudio para evaluar **los ingresos de los jefes de hogar en Brasil**. Para eso, necesitamos realizar una nueva recolección de datos, es decir, una nueva investigación de campo. Después de reunirse con el cliente, fue posible enumerar el siguiente conjunto de informaciones:

> A. El resultado de la búsqueda debe estar listo en **2 meses**;

> B. Solo tendremos **R$\$$ 150.000,00** de fondos para realizar la investigación de campo; y
    
> C. Sería interesante tener un **margen de error que no supere el 10% en relación a la media estimada**.

En nuestra experiencia con estudios de este tipo, sabemos que el **costo promedio por entrevistado ronda los R$\$$ 100,00**. Con este conjunto de hechos, evalúe y obtenga el siguiente conjunto de información para transmitir al cliente:

> 1. Para obtener una estimación de los parámetros de la población (ingresos de los jefes de hogar en Brasil), realice un muestreo aleatorio simple en nuestro conjunto de datos. Esta muestra debe contener 200 elementos (use random_state = 101 para asegurarse de que se pueda volver a realizar el mismo experimento). Obtenga la media y la desviación estándar de esta muestra.

> 2. Para el **margen de error** especificado por el cliente, obtenga los **tamaños de muestra** necesarios para garantizar **niveles de confianza del 90%, 95% y 99%**.
    
> 3. Obtenga el **costo de la encuesta** para los tres niveles de confianza.
    
> 4. Para obtener el nivel más alto de confianza viable (dentro del presupuesto disponible), obtenga un **intervalo de confianza para el promedio de la población**.
    
> 5. Suponiendo el **nivel de confianza elegido en el ítem anterior**, ¿qué **margen de error** se puede considerar utilizando todos los recursos proporcionados por el cliente?
    
> 6. Suponiendo un **nivel de confianza del 95%**, **¿cuánto costaría la encuesta al cliente** si se considerara un **margen de error de solo el 5%** en relación con el promedio estimado?


# <font color='blue'>Solución del punto 1</font>

### Selección de una muestra aleatoria simple

#### <font color='red'>Recuerde usar *random_state = 101*</font>

In [34]:
muestra_200_ingresos = datos.sample(n=200, random_state=101).Ingreso
muestra_200_ingresos.reset_index(drop=True,inplace=True)

muestra_200_ingresos.head()

Unnamed: 0,Ingreso
0,480
1,250
2,788
3,1680
4,2500


In [35]:
media_200_ingresos = muestra_200_ingresos.mean()
media_200_ingresos

np.float64(1964.205)

In [36]:
desviacion_200_ingresos = muestra_200_ingresos.std()
desviacion_200_ingresos

3139.8855167452157

### Datos del problema

In [37]:
presupuesto_cliente = 150000
margen_error_cliente = 0.10
costo_promedio_entrevista = 100

# <font color='blue'>Solución del punto 2</font>

### Obtenga el margen de error

#### <font color='red'>Recuerde que el margen de error debe estar en la misma unidad que la variable en estudio (R$)</font>

In [38]:
error_cliente = margen_error_cliente * media_200_ingresos
error_cliente

np.float64(196.4205)

### Fórmula empleada
Con desviación estándar desconocida

## $$n = \left(z\frac{s}{e}\right)^2$$

Donde:

$z$ = variable normal estandarizada

$\sigma$ = desviación estándar poblacional

$s$ = desviación estándar de la muestra

$e$ = error inferencial

### Tamaño de la muestra ($1 - \alpha = 90\%$)

In [42]:
nivel_confianza_90 = 0.90
z_90 = norm.isf((1-nivel_confianza_90)/2)
z_90

np.float64(1.6448536269514729)

In [45]:
n_confianza_90 = ((z_90 * desviacion_200_ingresos) / error_cliente)**2
n_confianza_90 = int(n_confianza_90.round())
n_confianza_90

691

### Tamaño de la muestra ($1 - \alpha = 95\%$)

In [43]:
nivel_confianza_95 = 0.95
z_95 = norm.isf((1-nivel_confianza_95)/2)
z_95

np.float64(1.959963984540054)

In [113]:
n_confianza_95 = ((z_95 * desviacion_200_ingresos) / error_cliente)**2
n_confianza_95 = int(n_confianza_95.round())
n_confianza_95

982

### Tamaño de la muestra ($1 - \alpha = 99\%$)

In [44]:
nivel_confianza_99 = 0.99
z_99 = norm.isf((1-nivel_confianza_99)/2)
z_99

np.float64(2.5758293035489004)

In [47]:
n_confianza_99 = ((z_99 * desviacion_200_ingresos) / error_cliente)**2
n_confianza_99 = int(n_confianza_99.round())
n_confianza_99

1695

### Tamaño de la muestra por nivel de confianza

In [53]:
#Se crea una lista con los niveles de confianza expresados en números enteros.
indice_tabla_comparativa = ["{:.0f}".format(i*100) for i in [nivel_confianza_90, nivel_confianza_95, nivel_confianza_99]]

#Se crea el dataframe tabla comparativa, donde los índices corresponden a los niveles de confianza y la única columna contiene los tamaño de muestra.
tabla_comparativa = pd.DataFrame(data={'Tamaño de muestra':[n_confianza_90, n_confianza_95, n_confianza_99]},
                                 index = indice_tabla_comparativa)
#Se renombra el índice las columnas a "Nivel de confianza %".
tabla_comparativa.columns.name = 'Nivel de confianza %'

tabla_comparativa

Nivel de confianza %,Tamaño de muestra
90,691
95,982
99,1695


# <font color='blue'>Solución del punto 3</font>

### Costo de investigación para el nivel de confianza de 90%

In [54]:
costo_confianza_90 = n_confianza_90 * costo_promedio_entrevista
costo_confianza_90

69100

### Costo de investigación para el nivel de confianza de 95%

In [55]:
costo_confianza_95 = n_confianza_95 * costo_promedio_entrevista
costo_confianza_95

98200

### Costo de investigación para el nivel de confianza de 99%

In [71]:
costo_confianza_99 = n_confianza_99 * costo_promedio_entrevista
costo_confianza_99

169500

### Costo del estudio por nivel de confianza

In [104]:
#Se crea una nueva columna en el dataframe que contendrá el costo de estudio para cada nivel de confianza.
tabla_comparativa.loc[:,"Costo de estudio (R$)"] = [round(float(i),2) for i in [costo_confianza_90, costo_confianza_95, costo_confianza_99]] #Se formatea los valores a 2 decimales.
tabla_comparativa["Costo de estudio (R$)"] = tabla_comparativa["Costo de estudio (R$)"].astype(dtype='float64') #Se establece el tipo de datos de la columna a float64.
tabla_comparativa

Nivel de confianza %,Tamaño de muestra,Costo de estudio (R$)
90,691,69100.0
95,982,98200.0
99,1695,169500.0


# <font color='blue'>Solución del punto 4</font>

In [106]:
#Según el costo de estudio, se filtra los niveles de confianza que pueden usarse.
filtro = tabla_comparativa.query('`Costo de estudio (R$)` <= @presupuesto_cliente')

filtro.tail(1)

Nivel de confianza %,Tamaño de muestra,Costo de estudio (R$)
95,982,98200.0


In [109]:
#Se calcula el intervalo de confianza para un nivel del 95%.
intervalo_confianza_95 = norm.interval(confidence=nivel_confianza_95, loc=media_200_ingresos, scale=desviacion_200_ingresos/np.sqrt(n_confianza_95))
"({:.2f}; {:.2f})".format(intervalo_confianza_95[0], intervalo_confianza_95[1])

'(1767.82; 2160.59)'

# <font color='blue'>Solución del punto 5</font>

Se usó la siguiente fórmula:

# $$e = z \frac{\sigma}{\sqrt{n}}$$

In [110]:
#Se calcula el tamaño máximo de la muestra con base al presupuesto disponible.
n_maximo = presupuesto_cliente / costo_promedio_entrevista

#Se calcula el error mínimo para el estudio del cliente al considerar el máximo de encuestados y un nivel de confianza del 95%.
error_minimo_cliente = z_95 * desviacion_200_ingresos / np.sqrt(n_maximo)
error_minimo_cliente

np.float64(158.89721122673734)

# <font color='blue'>Solución del punto 6</font>

In [111]:
#Se calcula el nuevo error del cliente, considerando un margen del 5%.
margen_error_cliente_2 = 0.05
error_cliente_2 = margen_error_cliente_2 * media_200_ingresos
error_cliente_2

np.float64(98.21025)

In [112]:
#Se calcula el tamaño de muestra para un nive de confianza del 95% y un margen de error del 5%.
n_confianza_95_error_5 = ((z_95 * desviacion_200_ingresos) / error_cliente_2)**2
n_confianza_95_error_5 = int(n_confianza_95_error_5.round())
n_confianza_95_error_5

3927

In [114]:
#Se calcula el costo del estudio para un tamaño de muestra de 3927.
costo_confianza_95_error_5 = n_confianza_95_error_5 * costo_promedio_entrevista
costo_confianza_95_error_5

392700