# <font color=green size=10>Pesquisa Nacional por Amostra de Domicílios - 2015</font>
***

A Pesquisa Nacional por Amostra de Domicílios - PNAD 2015 é uma importante fonte de informações sobre a população brasileira, abrangendo uma ampla gama de características socioeconômicas, como renda, educação, trabalho, idade, entre outras. Por meio dessa pesquisa, o Instituto Brasileiro de Geografia e Estatística (IBGE) coleta dados essenciais para a formulação e avaliação de políticas públicas destinadas ao desenvolvimento socioeconômico do país.

Este projeto utiliza o conjunto de dados da PNAD 2015 para explorar informações relevantes e responder a questões específicas, destacando a análise de renda, a probabilidade de selecionar grupos com determinada composição e a estimativa do tamanho da amostra necessário para atingir diferentes níveis de confiança. Além disso, é abordada a questão do custo envolvido na realização de uma pesquisa de campo para avaliar o rendimento dos chefes de domicílio no Brasil, considerando restrições de tempo, orçamento e margem de erro.

## <font color=green>DATASET DO PROJETO</font>
***

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Bibliotecas

In [3]:
import pandas as pd
import numpy as np
from scipy.stats import binom
from scipy.stats import norm

### Dataset 

In [4]:
df = pd.read_csv('dados\dados.csv')

In [5]:
df.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## <font color='green'>Selecionando aleatoriamente grupos de 10 indivíduos. Qual a probabilidade de selecionamos um grupo que apresente a mesma proporção da população.</font>

In [8]:
# Proporção de homens e mulheres
p = len(df[df.Sexo == 0]) / len(df)
p

0.6929984383133785

In [9]:
n = 10  # tamanho da amostra
p = p  # probabilidade de sucesso (homem)
k = 7  # número de sucessos desejados

In [10]:
# Probabilidade usando a distribuição binomial
probabilidade = binom.pmf(k, n, p)

format_probabilidade = f"{(probabilidade*100):.2f}"

print("Probabilidade de selecionar exatamente 7 homens e 3 mulheres: ", format_probabilidade, "%")

Probabilidade de selecionar exatamente 7 homens e 3 mulheres:  26.65 %


## <font color='green'>Quantos grupos de 10 indivíduos nós precisaríamos selecionar, de forma aleatória, para conseguir 100 grupos compostos por 7 homens e 3 mulheres?</font>

In [11]:
# número de sucessos desejados (100 grupos com 7 homens e 3 mulheres)
k = 100 

# probabilidade de sucesso em uma tentativa individual
p = probabilidade 

# número total de tentativas
n = k / p 

print('Tentativas necessárias: ', int(round(n)))

Tentativas necessárias:  375


# <font color='green'>Rendimento dos chefes de domicílio no Brasil</font>

Estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. 

Informações:

> A. O resultado da pesquisa precisa estar pronto em 2 meses;

> B. R$\$$ 150.000,00 de recursos para realização da pesquisa de campo;
    
> C. Margem de erro não superior a 10% em relação a média estimada.

> D. Custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00.


### <font color='blue'>Obtendo uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realizei uma amostragem aleatória simples, contendo 200 elementos.</font>

### Seleção de uma amostra aleatória simples

In [12]:
#  amostra com 200 elementos
sample_renda_200 = df.Renda.sample(200, random_state = 101)
sample_renda_200.head()

29042     480
62672     250
29973     788
22428    1680
55145    2500
Name: Renda, dtype: int64

In [13]:
# média da amostra
sample_renda_200.mean()

1964.205

In [14]:
# desvio-padrão da amostra
sample_renda_200.std()

3139.8855167452157

### Dados obtidos

In [15]:
media = sample_renda_200.mean()
desvio_padrao = sample_renda_200.std()
recursos = 150000
custo_entrevista = 100

## <font color='blue'>Obtendo os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.</font>

### Margem de erro

In [16]:
# margem de erro não superior a 10%

margem_erro = 0.1 * media  # 10% da média
margem_erro

196.4205

### Tamanho da amostra ($1 - \alpha = 90\%$)

In [17]:
# nível de confiança
confianca = 0.9

# calculando a distribuição normal padrão (Z)
z = norm.ppf(1 - ((1 - confianca) / 2))

# tamanho da amostra
n_90 = (z * (desvio_padrao / margem_erro)) ** 2
n_90 = int(n_90.round())

print(f'Tamanho da amostra: {n_90}')

Tamanho da amostra: 691


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [18]:
# nível de confiança
confianca = 0.95

# calculando a distribuição normal padrão (Z)
z = norm.ppf(1 - ((1 - confianca) / 2))

# tamanho da amostra
n_95 = (z * (desvio_padrao / margem_erro)) ** 2
n_95 = int(n_95.round())

print(f'Tamanho da amostra: {n_95}' )

Tamanho da amostra: 982


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [19]:
# nível de confiança
confianca = 0.99

# calculando a distribuição normal padrão (Z)
z = norm.ppf(1 - ((1 - confianca) / 2))

# tamanho da amostra
n_99 = (z * (desvio_padrao / margem_erro)) ** 2
n_99 = int(n_99.round())

print(f'Tamanho da amostra: {n_99}')

Tamanho da amostra: 1695


## <font color='blue'>**Custo da pesquisa** para os três níveis de confiança.</font>

### Custo da pesquisa para o nível de confiança de 90%

In [20]:
custo_90 = custo_entrevista * n_90
print(f'Para um nível de confiança de 90% o custo de pesquisa seria de: R$ {custo_90:.2f}.')

Para um nível de confiança de 90% o custo de pesquisa seria de: R$ 69100.00.


### Custo da pesquisa para o nível de confiança de 95%

In [21]:
custo_95 = custo_entrevista * n_95
print(f'Para um nível de confiança de 95% o custo de pesquisa seria de: R$ {custo_95:.2f}.')

Para um nível de confiança de 95% o custo de pesquisa seria de: R$ 98200.00.


### Custo da pesquisa para o nível de confiança de 99%

In [22]:
custo_99 = custo_entrevista * n_99
print(f'Para um nível de confiança de 99% o custo de pesquisa seria de: R$ {custo_99:.2f}.')

Para um nível de confiança de 99% o custo de pesquisa seria de: R$ 169500.00.


## <font color='blue'>Obtendo um **intervalo de confiança para a média da população**, para o maior nível de confiança viável dentro do orçamento disponível</font>

In [23]:
# maior nível de confiança viável dentro do orçamento disponível
custos = [custo_90, custo_95, custo_99]
lista = []

for custo in custos:
    if custo < recursos:
        lista.append(custo)
        
print(max(lista))

98200


In [24]:
# intervalo de confiança para a média da população
intervalo_de_confianca = norm.interval(confidence=0.95, 
                                       loc=media, 
                                       scale=(desvio_padrao / np.sqrt(n_95)))
intervalo_de_confianca

(1767.820973280509, 2160.589026719491)

# <font color='blue'>Margem de erro a ser considerada utilizando todo o recurso disponibilizado</font>

In [25]:
# Assumindo o nível de confiança escolhido no item anterior, qual margem de erro pode 
# ser considerada utilizando todo o recurso disponibilizado pelo cliente?

n_confianca_95 = recursos / custo_entrevista
n_confianca_95

1500.0

In [26]:
# nível de confiança
confianca = 0.95

# calculando a distribuição normal padrão (Z)
z = norm.ppf(1 - ((1 - confianca) / 2))

# calculando erro
e = z * (desvio_padrao / np.sqrt(n_confianca_95))

print(f'Erro de: R${e:.2f}')

Erro de: R$158.90


In [27]:
e_percentual = e / media

print(f'Nova margem de erro: {e_percentual*100:.2f}%')

Nova margem de erro: 8.09%


## <font color='blue'>Assumindo um nível de confiança de 95%, quanto a pesquisa custaria caso fosse considerada uma margem de erro de apenas 5% em relação a média estimada</font>

In [24]:
# margem de erro
e = 0.05 * media

# nível de confiança
confianca = 0.95

# calculando a distribuição normal padrão (Z)
z = norm.ppf(1 - ((1 - confianca) / 2))

# tamanho da amostra
n = ((z * (desvio_padrao/ e)) ** 2)
n = int(n.round())

print(f'Tamanho da amostra: {n}')

Tamanho da amostra: 3927


In [25]:
# custo da pesquisa
custo = n * custo_entrevista

print(f'Considerando uma margem de erro de 5%, a pesquisa custaria: \nR$ {custo:.2f}')

Considerando uma margem de erro de 5%, a pesquisa custaria: 
R$ 392700.00


## <font color=green>Conclusão</font>
***

Neste projeto, exploramos o rico conjunto de dados da Pesquisa Nacional por Amostra de Domicílios - 2015, que fornece informações cruciais sobre a população brasileira em áreas como renda, educação, idade e muito mais. Ao longo do projeto, realizamos análises estatísticas para responder a questões específicas, como a probabilidade de selecionar grupos com composições específicas e a determinação do tamanho da amostra necessário para atingir diferentes níveis de confiança.

Além disso, abordamos a questão do custo e da margem de erro em uma pesquisa de campo destinada a avaliar o rendimento dos chefes de domicílio no Brasil. Essa análise demonstrou a importância de equilibrar os recursos disponíveis, o nível de confiança desejado e a margem de erro aceitável ao planejar uma pesquisa.

Em resumo, este projeto exemplifica como os dados da PNAD 2015 podem ser explorados e analisados para obter insights significativos sobre a população brasileira e destaca a importância de considerar fatores como custo e margem de erro ao projetar pesquisas de campo.