***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 2</font>
***

## Trabalho sobre Probabilidades, Amostragem e Estimações

Utilizando os conhecimentos adquiridos em nosso treinamento execute as tarefas abaixo. Siga o roteiro proposto e vá completando as células vazias.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as bibliotecas que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy etc.</font>

In [59]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.special import comb
from scipy.stats import binom
from scipy.stats import norm

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [60]:
dados = pd.read_csv('dados.csv', sep = ',')

### Visualize o conteúdo do DataFrame

In [61]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font>

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

#### <font color='blue'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

#### <font color='red'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

### Solução - Binomial

In [62]:
#probabilidade
p = 0.70
p

0.7

In [63]:
#tamanho do grupo
n = 10
n

10

In [64]:
#quantos queremos que sejam homens
k = 7
k

7

In [65]:
#probabilidade de acontecimento
probabilidade = binom.pmf(k, n, p)
print('A probabilidade de ter 7 homens num grupo de 10 pessoas é de {:.02f}%'.format(probabilidade*100))

A probabilidade de ter 7 homens num grupo de 10 pessoas é de 26.68%


In [66]:
#proporção de homens e mulheres na base
proporcao = dados['Sexo'].value_counts(normalize = True)
print('Temos na nossa base {:.02f}% homens e {:.02f}% mulheres'.format(proporcao[0]*100, proporcao[1]*100))

Temos na nossa base 69.30% homens e 30.70% mulheres


# <font color='green'>Problema B</font>

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

### Solução

In [67]:
# Média = tamanho do grupo (n) * probabilidade, como precisamos de quantos grupos precisamos formar, 
# pegamos a média que precisamos encontrar (100) / a probabilidade conhecida, alterando a função para:
# tamanho do grupo (n) = Média (100) / probabilidade de acontecer (0.2668)
x = 100
probabilidade = binom.pmf(k, n, p)
x / probabilidade
print('Para conseguir 100 grupos composto por 7 homens e 3 mulheres, precisamos selecionar de forma aleatória {:.0f} grupos'.format(int((x / probabilidade).round())))

Para conseguir 100 grupos composto por 7 homens e 3 mulheres, precisamos selecionar de forma aleatória 375 grupos


# <font color='green'>Problema C</font>

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


# <font color='blue'>Solução do item 1</font>

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

In [68]:
#coletando a amostra do tamanho desejado
amostra_dados = dados.sample(n = 200, random_state = 101)

In [69]:
#calculando a renda média da amostra
media_amostra = amostra_dados['Renda'].mean()
print('A média de renda da nossa amostra é de {:.02f}'.format(media_amostra))

A média de renda da nossa amostra é de 1964.20


In [70]:
#calculando o desvio padrão da renda da nossa amostra
sigma = amostra_dados['Renda'].std()
print('O desvio padrão de renda da nossa amostra é de {:.02f}'.format(sigma))

O desvio padrão de renda da nossa amostra é de 3139.89


# <font color='blue'>Solução do item 2</font>

#### Com desvio padrão conhecido

## $$n = \left(z\frac{\sigma}{e}\right)^2$$

#### Com desvio padrão desconhecido

## $$n = \left(z\frac{s}{e}\right)^2$$

Onde:

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

### Obtenha a margem de erro

#### <font color='red'>Lembre-se que a margem de erro deve estar na mesma unidade da variável que está sendo estudada (R$)</font>

In [86]:
# O erro é 10% do valor da média da amostra, definido pelo cliente
erro = media_amostra * 0.10
print('A margem de erro deve ser de R$ {:.02f}'.format(erro))

A margem de erro deve ser de R$ 196.42


### Tamanho da amostra ($1 - \alpha = 90\%$)

In [72]:
#vamos padronizar Z para 90%
valor_z_90 = 0.5 + (0.90 / 2)
z_90 = norm.ppf(valor_z_90)
z_90

1.6448536269514722

In [89]:
#calculando N pela fórmula dele acima
n_90 = (z_90 * (sigma / erro)) ** 2
print('Para um nível de confiança de 90% teremos que ter uma amostra de {:.02f}'.format(int(n_90.round())))

Para um nível de confiança de 90% teremos que ter uma amostra de 691.00


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [74]:
#vamos padronizar Z para 95%
valor_z_95 = 0.5 + (0.95 / 2)
z_95 = norm.ppf(valor_z_95)
z_95

1.959963984540054

In [90]:
#calculando N pela fórmula dele acima
n_95 = (z_95 * (sigma / erro)) ** 2
print('Para um nível de confiança de 95% teremos que ter uma amostra de {:.02f}'.format(int(n_95.round())))

Para um nível de confiança de 95% teremos que ter uma amostra de 982.00


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [76]:
#vamos padronizar Z para 99%
valor_z_99 = 0.5 + (0.99 / 2)
z_99 = norm.ppf(valor_z_99)
z_99

2.5758293035489004

In [92]:
#calculando N pela fórmula dele acima
n_99 = (z_99 * (sigma / erro)) ** 2
print('Para um nível de confiança de 99% teremos que ter uma amostra de {:.02f}'.format(int(n_99.round())))

Para um nível de confiança de 99% teremos que ter uma amostra de 1695.00


# <font color='blue'>Solução do item 3</font>

### Custo da pesquisa para o nível de confiança de 90%

In [98]:
#preço unitário da pesquisa * tamanho da amostra
custo_pesquisa_90 = 100 * n_90
print('Para um nível de confiança de 90% teremos um custo de R$ {:,.02f}'.format(custo_pesquisa_90.round(2)))

Para um nível de confiança de 90% teremos um custo de R$ 69,136.68


### Custo da pesquisa para o nível de confiança de 95%

In [99]:
#preço unitário da pesquisa * tamanho da amostra
custo_pesquisa_95 = 100 * n_95
print('Para um nível de confiança de 95% teremos um custo de R$ {:,.02f}'.format(custo_pesquisa_95.round(2)))

Para um nível de confiança de 95% teremos um custo de R$ 98,163.53


### Custo da pesquisa para o nível de confiança de 99%

In [100]:
#preço unitário da pesquisa * tamanho da amostra
custo_pesquisa_99 = 100 * n_99
print('Para um nível de confiança de 99% teremos um custo de R$ {:,.02f}'.format(custo_pesquisa_99.round(2)))

Para um nível de confiança de 99% teremos um custo de R$ 169,546.24


# <font color='blue'>Solução do item 4</font>

In [104]:
# O valor que cabe no orçamento e que tem o maior significância é de 95%
intervalo = norm.interval(alpha = 0.95, loc = media_amostra, scale = sigma / np.sqrt(n_95))
print('O intervalo de confiança varia de {:.02f} até {:.02f}'.format(intervalo[0].round(2), intervalo[1].round(2)))

O intervalo de confiança varia de 1767.78 até 2160.63


# <font color='blue'>Solução do item 5</font>

In [107]:
#primeiro calculamos o número de entrevistas que podemos fazer com o recurso que temos de 150 mil
#sendo o número de entrevistas, o novo N
n_novo_95 = 150000/100
n_novo_95

1500.0

In [114]:
#depois calculamos o novo erro com base no novo N
z_new = norm.ppf(0.975)
e_new = z_new * (sigma / np.sqrt(n_novo_95))
e_new

158.89721122673703

In [116]:
#agora calculamos a nova margem de erro
e_percentual = e_new / media_amostra
print('A margem de erro é de {:.02f}%'.format(e_percentual*100))

A margem de erro é de 8.09%


# <font color='blue'>Solução do item 6</font>

In [120]:
erro = media_amostra * 0.05
erro
sigma = amostra_dados['Renda'].std()
z = norm.ppf(0.5 + (0.95 / 2))
n = (z * (sigma / erro)) ** 2
print('Iremos entrevistar {} pessoas'.format(int(n)))
custo = 100 * n
custo
print('Com uma margem de erro de 5.00% o custo para o cliente ficaria em R$ {:,.02f}'.format(custo))

Iremos entrevistar 3926 pessoas
Com uma margem de erro de 5.00% o custo para o cliente ficaria em R$ 392,654.14
