***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 2</font>
***

## Trabalho sobre Probabilidades, Amostragem e Estimações

Utilizando os conhecimentos adquiridos em nosso treinamento execute as tarefas abaixo. Siga o roteiro proposto e vá completando as células vazias.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as bibliotecas que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy etc.</font>

In [166]:
import pandas as pd

In [167]:
import numpy as np
from scipy.stats import norm

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [168]:
dados = pd.read_csv('dados.csv')

### Visualize o conteúdo do DataFrame

In [169]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font>

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

#### <font color='blue'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

#### <font color='red'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

### Solução

Utilizando a distribuição binomial...

In [170]:
#Vamos utilizar como taxa de sucesso a chance da amostra ser homem
p = 0.7
p

0.7

In [171]:
#sendo q a chance da amostra ser mulher
q = 1-p
q

0.30000000000000004

In [172]:
#ensaios idênticos será a quantidade de indivídios descritos no problema
n = 10
n

10

In [173]:
#eventos para obter sucesso, neste caso, vai ser a quantidade de vezes que 
#a amostra que eu considerei como sucesso deve aparecer
k = 7
k

7

In [174]:
#Utilizando a biblioteca do scipy 
from scipy.stats import binom

probabilidade = binom.pmf(k,n,p)
print("{0:.2%}".format(probabilidade))

26.68%


# <font color='green'>Problema B</font>

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

### Solução

In [175]:
probabilidade 

0.26682793200000016

In [205]:
grupos_aleatorios = round(100/probabilidade)
print(f'A quantidade de grupos aleatórios que devem ser criados para obter 100 grupos compostos exatamente por 7 homens e 3 mulheres é de {grupos_aleatorios}.')

A quantidade de grupos aleatórios que devem ser criados para obter 100 grupos compostos exatamente por 7 homens e 3 mulheres é de 375.


# <font color='green'>Problema C</font>

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


# <font color='blue'>Solução do item 1</font>

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.

In [177]:
amostra = dados.sample(n=200,random_state = 101)
amostra

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
29042,29,0,39,8,5,480,1.719128
62672,43,0,55,2,6,250,1.639205
29973,29,1,36,2,12,788,1.654122
22428,26,0,46,8,8,1680,1.622450
55145,41,0,37,2,9,2500,1.625268
...,...,...,...,...,...,...,...
50497,35,0,39,2,12,3400,1.736021
3668,13,1,66,8,1,780,1.753201
4872,14,1,46,8,12,1000,1.783724
38670,31,0,53,8,12,1000,1.753985


In [178]:
print('Média de Idade: '+ str(round(amostra['Idade'].mean())))
print('Média dos Anos de Estudo: ' + str(round(amostra['Anos de Estudo'].mean())))
print('Média de Renda em R$: '+ str(round(amostra['Renda'].mean(),2)))
print('Média de Altura em metros: '+ str(round(amostra['Altura'].mean(),3)))

Média de Idade: 44
Média dos Anos de Estudo: 9
Média de Renda em R$: 1964.2
Média de Altura em metros: 1.699


In [179]:
print('Desvio Padrão da Idade: '+ str(round(amostra['Idade'].std())))
print('Desvio Padrão dos Anos de Estudo: ' + str(round(amostra['Anos de Estudo'].std())))
print('Desvio Padrão da Renda em R$: '+ str(round(amostra['Renda'].std(),2)))
print('Desvio Padrão da Altura em metros: '+ str(round(amostra['Altura'].std(),5)))

Desvio Padrão da Idade: 13
Desvio Padrão dos Anos de Estudo: 4
Desvio Padrão da Renda em R$: 3139.89
Desvio Padrão da Altura em metros: 0.08072


### Dados do problema

# <font color='blue'>Solução do item 2</font>

### Obtenha a margem de erro

#### <font color='red'>Lembre-se que a margem de erro deve estar na mesma unidade da variável que está sendo estudada (R$)</font>

Para a margem de erro especificada pelo cliente obtenha os tamanhos de amostra necessários para garantir os níveis de confiança de 90%, 95% e 99%.

In [180]:
sigma= amostra.Renda.std() #sigma é o desvio padrão da variável Renda na amostra
sigma

3139.8855167452157

In [181]:
# aqui eu considerei o n (tamanho da amostra total) para calcular o erro
n = 200
n

200

In [207]:
e = amostra.Renda.mean()*0.10
print(f'O erro iferencial em relação a renda é R${e:.2f}')

O erro iferencial em relação a renda é R$200.01


### Tamanho da amostra ($1 - \alpha = 90\%$)

In [183]:
#obtendo z para o nível de confiança = 90%
z_90 = norm.ppf((0.90/2)+.5)
z_90

1.6448536269514722

In [184]:
n_90 =round((z_90* (sigma / e ))**2)
print(f'O tamanho da amostra necessário para obter um nível de confiança de 90% será de {n_90} entrevistados.')

O tamanho da amostra necessário para obter um nível de confiança de 90% será de 691 entrevistados.


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [185]:
#obtendo z para o nível de confiança = 95%
z_95 = norm.ppf((0.95/2)+.5)
z_95

1.959963984540054

In [186]:
n_95 = round((z_95* (sigma / e ))**2)
print(f'O tamanho da amostra necessário para obter um nível de confiança de 95% será de {n_95} entrevistados.')

O tamanho da amostra necessário para obter um nível de confiança de 95% será de 982 entrevistados.


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [187]:
#obtendo z para o nível de confiança = 99%
z_99 = norm.ppf((0.99/2)+.5)
z_99

2.5758293035489004

In [188]:
n_99 = round((z_99* (sigma / e ))**2)
print(f'O tamanho da amostra necessário para obter um nível de confiança de 99% será de {n_99} entrevistados.')

O tamanho da amostra necessário para obter um nível de confiança de 99% será de 1695 entrevistados.


# <font color='blue'>Solução do item 3</font>

Obtenha o custo da pesquisa para os três níveis de confiança

In [203]:
custo_por_resposta = 100.00
custo_por_resposta

100.0

### Custo da pesquisa para o nível de confiança de 90%

In [190]:
custo_pesquisa_com_confianca_90 = round(custo_por_resposta * n_90, 2)
print('Custo para uma pesquisa com o nível de confiança de 90% é R$'
+ str(custo_pesquisa_com_confianca_90)+',00')

Custo para uma pesquisa com o nível de confiança de 90% é R$69100,00


### Custo da pesquisa para o nível de confiança de 95%

In [191]:
custo_pesquisa_com_confianca_95 = round(custo_por_resposta * n_95, 2)
print('Custo para uma pesquisa com o nível de confiança de 95% é R$'
+ str(custo_pesquisa_com_confianca_95)+',00')

Custo para uma pesquisa com o nível de confiança de 95% é R$98200,00


### Custo da pesquisa para o nível de confiança de 99%

In [192]:
custo_pesquisa_com_confianca_99 = round(custo_por_resposta * n_99, 2)
print('Custo para uma pesquisa com o nível de confiança de 99% é R$'
+ str(custo_pesquisa_com_confianca_99)+',00')

Custo para uma pesquisa com o nível de confiança de 99% é R$169500,00


# <font color='blue'>Solução do item 4</font>

Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um intervalo de confiança para a média da população.

In [193]:
#puxando uma amostra com a quantidade referente ao intervalo de confiança de 95% calculada no item 2
amostra = dados.sample(n=n_95,random_state = 101)
amostra

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
29042,29,0,39,8,5,480,1.719128
62672,43,0,55,2,6,250,1.639205
29973,29,1,36,2,12,788,1.654122
22428,26,0,46,8,8,1680,1.622450
55145,41,0,37,2,9,2500,1.625268
...,...,...,...,...,...,...,...
57232,41,0,61,2,5,1150,1.808693
57982,41,1,29,2,16,2000,1.720453
70847,51,0,38,8,16,1500,1.904713
25900,28,0,60,8,2,500,1.787635


In [194]:
media_amostral = amostra.Renda.mean()
media_amostral

2000.1191446028513

In [195]:
# descobrindo o intervalo de confiança 
intervalo = norm.interval(alpha = 0.95, loc = media_amostral, scale = sigma/np.sqrt(n_95))
intervalo = [round(intervalo[0]),round(intervalo[1])]
print('Para o nível de confiança de 95% teremos um intervalo de confiança de R$'+ str(intervalo[0])+' a R$'+str(intervalo[1])+ '.')

Para o nível de confiança de 95% teremos um intervalo de confiança de R$1804 a R$2197.


# <font color='blue'>Solução do item 5</font>

Assumindo o nível de confiança escolhido no item anterior, qual margem de erro pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?

Para calcular o erro inferencial precisaremos do z referente ao intervalo de confiação de 95%. (z_95)
Além disso, precisaremos do sigma referente ao número de respostas utilizando todo o recurso de R$150.000,00.
E claro, precisaremos também da raiz do número de respostas.


In [196]:
z_95
orcamento_total = 150000
custo_por_resposta = 100
sigma
n_repostas_do_orcamento_total = orcamento_total / custo_por_resposta
n_repostas_do_orcamento_total

1500.0

In [197]:
e = z_95*(sigma/np.sqrt(n_repostas_do_orcamento_total))
e

158.89721122673737

In [198]:
e_percentual = e/media_amostral
print('A nova margem de erro é {:.2f}%.'.format(e_percentual * 100))

A nova margem de erro é 7.94%.


# <font color='blue'>Solução do item 6</font>

Assumindo um nível de confiança de 95%, quanto a pesquisa custaria ao cliente caso fosse considerada uma margem de erro de apenas 5% em relação a média estimada?

In [199]:
e = media_amostral*0.05
e

100.00595723014257

In [200]:
n_95 = round((z_95* (sigma / e ))**2)
print(f'Para um nível de confiança de 95% teríamos que entrevistar {n_95} elementos.')

Para um nível de confiança de 95% teríamos que entrevistar 3787 elementos.


In [202]:
custo_confianca_95 = n_95 * custo_por_resposta
print(f'Para um nível de confiança de 95% o custo da pesquisa seria de R${custo_confianca_95:,.2f}.')

Para um nível de confiança de 95% o custo da pesquisa seria de R$378,700.00.
