***
# CURSO DE ESTATÍSTICA - PARTE 2
***

## Trabalho sobre Probabilidades, Amostragem e Estimações

Utilizando os conhecimentos adquiridos em nosso treinamento execute as tarefas abaixo. Siga o roteiro proposto e vá completando as células vazias.

# DATASET DO PROJETO
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Observação
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as bibliotecas que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy etc.</font>

In [1]:
import pandas as pd
import numpy as np

In [2]:
from scipy.stats import norm
from scipy.stats import binom

### Importe o dataset e armazene o conteúdo em um DataFrame

In [3]:
dados = pd.read_csv('dados.csv')

### Visualize o conteúdo do DataFrame

In [4]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


#### Analisando um pouco mais o DataFrame

In [5]:
dados.dtypes

UF                  int64
Sexo                int64
Idade               int64
Cor                 int64
Anos de Estudo      int64
Renda               int64
Altura            float64
dtype: object

In [6]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76840 entries, 0 to 76839
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   UF              76840 non-null  int64  
 1   Sexo            76840 non-null  int64  
 2   Idade           76840 non-null  int64  
 3   Cor             76840 non-null  int64  
 4   Anos de Estudo  76840 non-null  int64  
 5   Renda           76840 non-null  int64  
 6   Altura          76840 non-null  float64
dtypes: float64(1), int64(6)
memory usage: 4.1 MB


In [7]:
dados.describe()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
count,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0
mean,31.912962,0.307002,44.071421,5.032613,9.469664,2000.383199,1.699512
std,11.14783,0.461253,12.480583,2.857118,4.539929,3323.38773,0.079717
min,11.0,0.0,13.0,0.0,1.0,0.0,1.339245
25%,25.0,0.0,34.0,2.0,6.0,788.0,1.645785
50%,31.0,0.0,43.0,4.0,11.0,1200.0,1.699325
75%,41.0,1.0,53.0,8.0,12.0,2000.0,1.753062
max,53.0,1.0,99.0,8.0,17.0,200000.0,2.028497


In [8]:
dados.Sexo.value_counts(normalize = True)

0    0.692998
1    0.307002
Name: Sexo, dtype: float64

In [9]:
dados.Cor.value_counts(normalize = True)

8    0.467530
2    0.414042
4    0.109201
0    0.004646
6    0.004581
Name: Cor, dtype: float64

# Problema A

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

#### <font color='blue'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

#### <font color='red'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

### Solução

O tipo de distribuição de probabilidade que se encaixa neste experimento é a binominal.

In [10]:
n = 10 #número de ensaios
k = 7 #eventos de sucesso
p = 0.7 #probabilidade

In [11]:
probabilidade = binom.pmf(k, n, p)

In [12]:
probabilidade

0.26682793200000016

Resposta:

In [13]:
print('A probabilidade de selecionarmos um grupo que seja composto por 7 homens e 3 mulheres',
       f'é de {probabilidade:.7f}.')

A probabilidade de selecionarmos um grupo que seja composto por 7 homens e 3 mulheres é de 0.2668279.


# Problema B

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

### Solução

In [14]:
#media = n * p
#n = media / p

n = 100 / probabilidade
n = int(n.round())
n

375

In [15]:
print(f'O total de grupos que precisamos selecionar é: {n}')

O total de grupos que precisamos selecionar é: 375


# Problema C

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


# Solução do item 1

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

In [16]:
amostra = dados.sample(n = 200, random_state = 101)
amostra.reset_index(inplace = True, drop = True)
amostra

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,29,0,39,8,5,480,1.719128
1,43,0,55,2,6,250,1.639205
2,29,1,36,2,12,788,1.654122
3,26,0,46,8,8,1680,1.622450
4,41,0,37,2,9,2500,1.625268
...,...,...,...,...,...,...,...
195,35,0,39,2,12,3400,1.736021
196,13,1,66,8,1,780,1.753201
197,14,1,46,8,12,1000,1.783724
198,31,0,53,8,12,1000,1.753985


In [17]:
amostra.mean()

UF                  31.435000
Sexo                 0.290000
Idade               43.685000
Cor                  4.830000
Anos de Estudo       9.455000
Renda             1964.205000
Altura               1.698605
dtype: float64

In [18]:
amostra.std()

UF                  10.571402
Sexo                 0.454901
Idade               12.731703
Cor                  2.900546
Anos de Estudo       4.361547
Renda             3139.885517
Altura               0.080720
dtype: float64

### Dados do problema

In [19]:
media_amostra = amostra.Renda.mean()
desvio_padrao = amostra.Renda.std()
total_recursos = 150000
cada_entrevistado = 100

# Solução do item 2

### Obtenha a margem de erro

#### <font color='red'>Lembre-se que a margem de erro deve estar na mesma unidade da variável que está sendo estudada (R$)</font>

In [20]:
margem_de_erro = 0.1 * media_amostra
print(f'A margem de erro é de R${margem_de_erro:.2f}')

A margem de erro é de R$196.42


### Tamanho da amostra ($1 - \alpha = 90\%$)

In [21]:
tamanho_90 = 0.5 + (0.9 / 2)

In [22]:
z = norm.ppf(tamanho_90)
n_confianca_90 = (z * (desvio_padrao / margem_de_erro)) ** 2
n_confianca_90 = int(n_confianca_90.round())
print(f'Para um nível de confiança de 90%, devemos ter uma amostra de {n_confianca_90} elementos')

Para um nível de confiança de 90%, devemos ter uma amostra de 691 elementos


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [23]:
tamanho_95 =  0.5 + (0.95 / 2)

In [24]:
z = norm.ppf(tamanho_95)
n_confianca_95 = (z * (desvio_padrao / margem_de_erro)) ** 2
n_confianca_95 = int(n_confianca_95.round())
print(f'Para um nível de confiança de 95%, devemos ter uma amostra de {n_confianca_95} elementos')

Para um nível de confiança de 95%, devemos ter uma amostra de 982 elementos


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [25]:
tamanho_99 =  0.5 + (0.99 / 2)

In [26]:
z = norm.ppf(tamanho_99)
n_confianca_99 = (z * (desvio_padrao / margem_de_erro)) ** 2
n_confianca_99 = int(n_confianca_99.round())
print(f'Para um nível de confiança de 99%, devemos ter uma amostra de {n_confianca_99} elementos')

Para um nível de confiança de 99%, devemos ter uma amostra de 1695 elementos


# Solução do item 3

### Custo da pesquisa para o nível de confiança de 90%

In [27]:
custo_90 = n_confianca_90 * cada_entrevistado
print(f'O custo da pesquisa para o nível de confinaça de 90% foi R${custo_90:,.2f}')

O custo da pesquisa para o nível de confinaça de 90% foi R$69,100.00


### Custo da pesquisa para o nível de confiança de 95%

In [28]:
custo_95 = n_confianca_95 * cada_entrevistado
print(f'O custo da pesquisa para o nível de confinaça de 95% foi R${custo_95:,.2f}')

O custo da pesquisa para o nível de confinaça de 95% foi R$98,200.00


### Custo da pesquisa para o nível de confiança de 99%

In [29]:
custo_99 = n_confianca_99 * cada_entrevistado
print(f'O custo da pesquisa para o nível de confinaça de 99% foi R${custo_99:,.2f}')

O custo da pesquisa para o nível de confinaça de 99% foi R$169,500.00


# Solução do item 4

In [30]:
intervalo = norm.interval(alpha = 0.95, loc = media_amostra, scale = desvio_padrao / np.sqrt(n_confianca_95))
print(f'O intervalo de confiança para 95% é {intervalo}')

O intervalo de confiança para 95% é (1767.820973280509, 2160.589026719491)


# Solução do item 5

In [31]:
n_confianca_95 = total_recursos / cada_entrevistado
n_confianca_95

1500.0

In [32]:
z_95 = norm.ppf(0.975)
e = z_95 * (desvio_padrao / np.sqrt(n_confianca_95))
e

158.89721122673737

In [33]:
e_perc = (e / media_amostra) * 100
print(f'A nova margem de erro é {e_perc:.2f}%')

A nova margem de erro é 8.09%


# Solução do item 6

In [34]:
z_95

1.959963984540054

In [35]:
cada_entrevistado

100

In [36]:
e = 0.05 * media_amostra
e

98.21025

In [37]:
n_confianca_95 = (z_95 * (desvio_padrao / e)) ** 2
n_confianca_95 = int(n_confianca_95.round())
n_confianca_95

3927

In [38]:
custo_95 = n_confianca_95 * cada_entrevistado
print(f'O custo da pesquisa para o nível de confinaça de 95% seria de R${custo_95:,.2f}')

O custo da pesquisa para o nível de confinaça de 95% seria de R$392,700.00
