***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 2</font>
***

## Trabalho sobre Probabilidades, Amostragem e Estimações

Utilizando os conhecimentos adquiridos em nosso treinamento execute as tarefas abaixo. Siga o roteiro proposto e vá completando as células vazias.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as bibliotecas que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy etc.</font>

In [1]:
import pandas as pd 
import numpy as np 
import scipy 
from scipy.stats import binom
from scipy.stats import norm
from scipy.special import comb

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [2]:
dados = pd.read_csv('dados.csv')

### Visualize o conteúdo do DataFrame

In [3]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76840 entries, 0 to 76839
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   UF              76840 non-null  int64  
 1   Sexo            76840 non-null  int64  
 2   Idade           76840 non-null  int64  
 3   Cor             76840 non-null  int64  
 4   Anos de Estudo  76840 non-null  int64  
 5   Renda           76840 non-null  int64  
 6   Altura          76840 non-null  float64
dtypes: float64(1), int64(6)
memory usage: 4.1 MB


# <font color='green'>Problema A</font>

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

#### <font color='blue'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

#### <font color='red'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

### Solução

In [4]:
# Criando a tabela de frequências
frequencia = dados['Sexo'].value_counts()
porcentagem = dados['Sexo'].value_counts(normalize = True)
df_sexo = pd.DataFrame({'Frequencia' : frequencia, 'Porcentagem': porcentagem})
df_sexo.rename(index = {0 : 'Masculino', 1 : 'Feminino'}, inplace = True)
df_sexo.rename_axis('Sexo', axis = 'columns', inplace = True )
df_sexo

Sexo,Frequencia,Porcentagem
Masculino,53250,0.692998
Feminino,23590,0.307002


In [5]:
# Probabilidade de um grupo ter 7h e 3m 
# Aplicação de uma distribuição binomial
# Separação dos dados
proporcao_de_homens = (df_sexo.Porcentagem['Masculino'])
total_de_individuos = df_sexo.Frequencia.sum()
total_de_equipes = total_de_individuos / 10
tamanho_da_equipe = 10
chance_acerto = 0.5
eventos_sucesso = 7

In [6]:
# p é chance de acerto, um acerto em duas possibilidades
# n é o tamanho da equipe, o número de ensaios
# k é a quantidade de acertos dentro de N
p = proporcao_de_homens
n = tamanho_da_equipe
q = 1 - proporcao_de_homens
k = eventos_sucesso

In [7]:
# Conferindo variáveis
print('Total de individuos: ' + '%0.0f' % total_de_individuos)
print('Proporção de homens: p: ' + '%0.1f' %  proporcao_de_homens)
print('Tamanho da equipe: n: ' + '%0.0f' % tamanho_da_equipe)
print('Chance de acerto: q: ' + '%0.1f' % q)
print('Evento de sucesso: k: ' + '%0.0f' % eventos_sucesso)

Total de individuos: 76840
Proporção de homens: p: 0.7
Tamanho da equipe: n: 10
Chance de acerto: q: 0.3
Evento de sucesso: k: 7


In [8]:
# Cálculo com numpy  de distribuição binomial
probabilidade = binom.pmf(k,n,p)
print(probabilidade)
print('%0.2f' % (probabilidade * 100))
ne1 = (total_de_equipes * probabilidade).round(0)
print('Total de equipes com formato 7h e 3m: ' + '%0.0f' % ne1)

0.2665193783299737
26.65
Total de equipes com formato 7h e 3m: 2048


In [9]:
# Cálculo completo de distribuição binomial
# ERRADO
a1 = comb(n, k)
a2 = p ** k
a3 = q ** (n - k)
probabilidade2 = (a1 * a2 * a3 )
print('%0.8f' % probabilidade2)

0.26651938


# <font color='green'>Problema B</font>

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

### Solução

In [10]:
# O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.
# média  = numero de ensaios * probabilidade | u = n * p
# 100(valor objetivo) = n (a descobrir quantos necessários) * probabilidade já calculada de grupos 7h3m
media_binomial = 100/(probabilidade)
media_binomial.round(0)
print('Serão necessários: ' + '%0.0f' % media_binomial + ' grupos!')

Serão necessários: 375 grupos!


# <font color='green'>Problema C</font>

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


## Dados do problema

In [11]:
# A e B  Unidade: R$
# Unidade: meses
# Erro maximo da média estimada
orcamento = 150000
custo_individual = 100
tempo = 2
erro_max = 0.1

# <font color='blue'>Solução do item 1</font>

### Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

In [12]:
# Criando o data frame das amostras
amostra = dados.Renda.sample(n = 200, random_state= 101)
amostra

29042     480
62672     250
29973     788
22428    1680
55145    2500
         ... 
50497    3400
3668      780
4872     1000
38670    1000
71730     600
Name: Renda, Length: 200, dtype: int64

In [13]:
# Calculando média e desvio padrão
media = amostra.mean()
desvio = amostra.std()
print(media)
print(desvio)

1964.205
3139.8855167452093


# <font color='blue'>Solução do item 2</font>
### Para a margem de erro especificada pelo cliente obtenha os tamanhos de amostra necessários para garantir os níveis de confiança de 90%, 95% e 99%.

### Obtenha a margem de erro

#### <font color='red'>Lembre-se que a margem de erro deve estar na mesma unidade da variável que está sendo estudada (R$)</font>

### Tamanho da amostra ($1 - \alpha = 90\%$)

In [14]:
# função Z
confianca = 0.9
erro_max = 0.1
area = confianca /2 
area_z = area + 0.5 
z = norm.ppf(area_z)

# erro percentual
erro_percentual = media * erro_max

# Tamanho
amostra90 = (z * (desvio/erro_percentual)) ** 2
amostra90.round(0)

691.0

### Tamanho da amostra ($1 - \alpha = 95\%$)

In [15]:
# função Z
confianca = 0.95
erro_max = 0.1
area = confianca /2 
area_z = area + 0.5 
z = norm.ppf(area_z)

# erro percentual
erro_percentual = media * erro_max

# Tamanho
amostra95 = (z * (desvio/erro_percentual)) ** 2
amostra95.round(0)

982.0

### Tamanho da amostra ($1 - \alpha = 99\%$)

In [16]:
# função Z
confianca = 0.99
erro_max = 0.10
area = confianca /2 
area_z = area + 0.5 
z = norm.ppf(area_z)

# erro percentual
erro_percentual = media * erro_max

# Tamanho
amostra99 = (z * (desvio/erro_percentual)) ** 2
amostra99.round(0)

1695.0

# <font color='blue'>Solução do item 3</font>
### Obtenha o custo da pesquisa para os três níveis de confiança.

### Custo da pesquisa para o nível de confiança de 90%

In [17]:
custo_90 = amostra90 * custo_individual
custo_90.round(2)

69136.68

### Custo da pesquisa para o nível de confiança de 95%

In [18]:
custo_95 = amostra95 * custo_individual
custo_95.round(2)

98163.53

### Custo da pesquisa para o nível de confiança de 99%

In [19]:
custo_99 = amostra99 * custo_individual
custo_99.round(2)

169546.24

# <font color='blue'>Solução do item 4</font>
### Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um intervalo de confiança para a média da população.

In [20]:
# Cálculo z
area95 = 0.95 / 2
area_z95 = area95 + 0.5
z95 = norm.ppf(area_z95)

In [21]:
# Erro inferencial
raiz = np.sqrt(amostra)
sigma = desvio / raiz 
erro_inferencial = z95 * sigma

In [22]:
# Intervalo de confiança - a escala é o desvio padrão pela divisão de n
escala = desvio / np.sqrt(amostra95)
intervalo95 = norm.interval(alpha = 0.95, loc = media, scale = escala)
intervalo95

(1767.7845, 2160.6255)

# <font color='blue'>Solução do item 5</font>

### Assumindo o nível de confiança escolhido no item anterior, qual margem de erro pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?

In [25]:
# Nível 95% - erro
total_entrevistas_possiveis = orcamento / custo_individual
tep = total_entrevistas_possiveis
z = norm.ppf(.975)
erro = z * (desvio/ np.sqrt(tep))
erro

158.89721122673703

In [30]:
# Erro percentual
erro_percentual = erro / media
erro_percentual = erro_percentual * 100
print('Nova margem de erro: ' + '%0.2f' % erro_percentual + '%')

Nova margem de erro: 8.09%


# <font color='blue'>Solução do item 6</font>
### Assumindo um nível de confiança de 95%, quanto a pesquisa custaria ao cliente caso fosse considerada uma margem de erro de apenas 5% em relação a média estimada?

In [31]:
erro = 0.05 * media
print('A margem de erro é de R$' + '%0.2f' % erro + ' para mais ou menos reais')

A margem de erro é de R$98.21 para mais ou menos reais


In [32]:
z = norm.ppf(.975)
nivel95 = (z * (desvio / erro)) ** 2
nivel95 = int(nivel95.round(0))
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' %nivel95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 3927 elementos.


In [34]:
custo_confianca95 = nivel95 * custo_individual
print('O custo para uma pesquisa com 95% de confiança seria:R$ ' + '%0.2f' % custo_confianca95 )

O custo para uma pesquisa com 95% de confiança seria:R$ 392700.00
