### <font color=#E6ae1d size=8>Projeto Final 📊</font>

---

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('dados.csv')
df.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font>

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?  

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

 <font color='orange'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

 <font color='orange'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

In [3]:
df['Sexo'].value_counts(normalize=True)

Sexo
0    0.692998
1    0.307002
Name: proportion, dtype: float64

In [None]:
# Escolha binária => Distribuição Binomial  
from scipy.stats import binom

> 
> $$
> P(k) = \binom{n}{k}p^k (1-p)^{n-k} 
> $$
>
> $p$ : probabilidade de sucesso  
> $q = 1 - p$ : probabilidade de fracasso  
> $n$ : número de eventos estudados  
> $k$ : número de eventos desejados que tenham sucesso

In [5]:
# número de eventos
n = 10
# probabilidade de sucesso
p = 70/100
# total de eventos que se deseja ter sucesso (7 homens)
k = 7

probabilidade = binom.pmf(k, n, p)
print(f'Probabilidade: {probabilidade:.2%}')

Probabilidade: 26.68%


# <font color='green'>Problema B</font>

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

Solução $\mu = n \cdot p$

In [6]:
# média da dist. binomial
mu = 100

n = mu / probabilidade
print(f"Deverão ser selecionados {round(n)} grupos")

Deverão ser selecionados 375 grupos


# <font color='green'>Problema C</font>

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


# <font color='blue'>Solução do item 1</font>

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

In [13]:
# 1. 
num_amostras: int = 200
amostra = df.sample(num_amostras, random_state=101)
display(amostra.head())


media = amostra["Renda"].mean()
desvio_padrao = amostra["Renda"].std()

print(f'{media = }')
print(f'{desvio_padrao = }')


recursos = 150_000
custo_entrevista = 100

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
29042,29,0,39,8,5,480,1.719128
62672,43,0,55,2,6,250,1.639205
29973,29,1,36,2,12,788,1.654122
22428,26,0,46,8,8,1680,1.62245
55145,41,0,37,2,9,2500,1.625268


media = 1964.205
desvio_padrao = 3139.8855167452157


In [21]:
from scipy.stats import norm

In [30]:
# 2. 
erro: float = 0.10 * media # em relacao a media
print(f'Erro de R${erro:.2f} para mais ou para menos.')

niveis_de_confianca: list[float] = [0.9, 0.95, 0.99]
quantis = [0.5 + (confianca/2) for confianca in niveis_de_confianca]

print(f"{quantis = }")

z = [norm.ppf(quantil) for quantil in quantis ]

# n = (z * (desvio/e) )**2

tamanhos = [round((zz * desvio_padrao/erro)**2) for zz in z]
print(f"Para os níveis de confiança {niveis_de_confianca}, foram obtidos os tamanhos de amostra {tamanhos}")


Erro de R$196.42 para mais ou para menos.
quantis = [0.95, 0.975, 0.995]
Para os níveis de confiança [0.9, 0.95, 0.99], foram obtidos os tamanhos de amostra [691, 982, 1695]


In [36]:
# 3. Custo da pesquisa
custos = [custo_entrevista * tamanho_amostra for tamanho_amostra in tamanhos]
print(f"{custos}")

print('Para a confiança de 99% o orçamento estoura')

[69100, 98200, 169500]
Para a confiança de 99% o orçamento estoura


In [41]:
# 4. Intervalo de confiança
escala = desvio_padrao / np.sqrt(tamanhos[1])
norm.interval(
    confidence=niveis_de_confianca[1],
    loc=media,
    scale=escala
)

(1767.820973280509, 2160.589026719491)

In [50]:
# 5. Assumindo o nível de confiança do item anterior, qual erro pode ser utilizado utilizando todo recurso?
# Aumentar a amostra, diminuindo o erro usando todo o 150_000

num_amostras= recursos / custo_entrevista # => intuitivo
z = norm.ppf(quantis[1]) # 95%
novo_erro = z * (desvio_padrao/np.sqrt(num_amostras))
print(f'Novo erro de R${novo_erro:.2f}')


erro_percentual = novo_erro / media
print(f"A nova margem de erro é de {erro_percentual:.2%}")

Novo erro de R$158.90
A nova margem de erro é de 8.09%


In [59]:
# 6. Custo para erro de 5%
e = 0.05 * media
print(f"Erro -- R${e:.2f}")

z = norm.ppf(quantis[1])
tamanho_amostra = (z * (desvio_padrao/e))**2
print(f"O novo tamanho da amostra seria de {round(tamanho_amostra)} indivíduos")

novo_custo = round(tamanho_amostra) * custo_entrevista
print(f"Necessitaria de R${novo_custo} para realizar a pesquisa com o erro de 5%")
 

Erro -- R$98.21
O novo tamanho da amostra seria de 3927 indivíduos
Necessitaria de R$392700 para realizar a pesquisa com o erro de 5%
