# Importação de bibliotecas e base de dados:

In [1]:
import pandas as pd
import numpy as np

In [2]:
dados = pd.read_csv('dados/dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# Problema A:
### Probabilidade de extração de dados: 70% homens e 30% mulheres.

Avaliando esse dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

In [3]:
# Confirmando se a proporção homens-mulheres no dataset é 70-30:
proporcao_sexo = dados['Sexo'].value_counts(normalize=True)*100
proporcao_sexo

0    69.299844
1    30.700156
Name: Sexo, dtype: float64

In [4]:
# Importando biblioteca para realizar combinações:
from scipy.special import comb 

In [45]:
n = 10 # Número de indivíduos escolhidos para compor a amostra.
p = 0.7 # Probabilidade de ser homem.
q = 1-p # Probabilidade de ser mulher.
k = 7 # Total de homens selecionados em uma amostra desejado.
probabilidade_a = ((comb(n,k))*(p**k)*(q**(n-k)))
print('A probabilidade de selecionarmos um grupo com a mesma proporção da população (70-30) é de: %0.2f.' % probabilidade_a)

A probabilidade de selecionarmos um grupo com a mesma proporção da população (70-30) é de: 0.27.


# Problema B:

**Quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

In [46]:
# media = n*p
# n = media/p

n_a = 100/probabilidade_a
n_a
print(f'O número de grupos que devem ser selecionados para se obter de forma aleatória 100 grupos compostos por 7 homens e 3 mulheres é de {n_a.round()}.')

O número de grupos que devem ser selecionados para se obter de forma aleatória 100 grupos compostos por 7 homens e 3 mulheres é de 375.0.


# Problema C:

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


In [47]:
#Seleção de uma amostra aleatória simples:
amostra = dados.sample(n=200, random_state=101)
media_amostra = amostra['Renda'].mean()
dp_amostra = amostra['Renda'].std()

In [48]:
media_amostra

1964.205

In [49]:
dp_amostra

3139.8855167452157

In [50]:
from scipy.stats import norm
# Tamanho da amostra para garantir níveis de confiança iguais a: 90%,
# 90%
z_90 = norm.ppf(0.5 + (0.9/2))
sigma_90 = dp_amostra
e_90 = (media_amostra*0.10)

n_90 = ((z_90*(sigma_90/e_90))**2).round()

# 95%
z_95 = norm.ppf(0.5 + (0.95/2))
sigma_95 = dp_amostra
e_95 = (media_amostra*0.10)

n_95 = ((z_95*(sigma_95/e_95))**2).round()

# 99%
z_99 = norm.ppf(0.5 + (0.99/2))
sigma_99 = dp_amostra
e_99 = (media_amostra*0.10)

n_99 = ((z_99*(sigma_99/e_99))**2).round()

In [51]:
print('Para um nível de confiança de 90%% devemos selecionar uma amostra de %s elementos.' % n_90)

Para um nível de confiança de 90% devemos selecionar uma amostra de 691.0 elementos.


In [53]:
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 982.0 elementos.


In [54]:
print('Para um nível de confiança de 99%% devemos selecionar uma amostra de %s elementos.' % n_99)

Para um nível de confiança de 99% devemos selecionar uma amostra de 1695.0 elementos.


In [55]:
# Obtendo os custos de pesquisa para os três níveis de confiança:
custo_90 = (n_90*100)
custo_95 = (n_95*100)
custo_99 = (n_99*100)

In [59]:
print('Para um nível de confiança de 90% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_90))

Para um nível de confiança de 90% o custo da pesquisa seria de R$ 69,100.00.


In [60]:
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_95))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 98,200.00.


In [61]:
print('Para um nível de confiança de 99% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_99))

Para um nível de confiança de 99% o custo da pesquisa seria de R$ 169,500.00.


In [62]:
# Níveis de confiança viáveis:
recurso = 150000

In [63]:
custo_90 <= recurso

True

In [64]:
custo_95 <= recurso

True

In [65]:
custo_99 <= recurso

False

In [66]:
print('Apenas os custos para os níveis de confiança de 90% e 95% são viáveis.')

Apenas os custos para os níveis de confiança de 90% e 95% são viáveis.


In [69]:
# Intervalo de confiança da média para o maior nível de confiança viável:
intervalo = norm.interval(alpha = 0.95, loc=media_amostra, scale=sigma_95/np.sqrt(n_95))
intervalo

(1767.820973280509, 2160.589026719491)

In [70]:
# Margem de erro com todo recurso disponibilizado e com nível de confiança de 95%:
# Número de entrevistas que podem ser realizadas com o recurso disponível:
custo = 100
n_recurso = recurso/custo
e_recurso = z_95 * (sigma_95/np.sqrt(n_recurso))

e_recurso

158.89721122673737

In [72]:
e_percentual = (e_recurso/media_amostra)*100
print('A nova margem de erro é {:.2f}%.'.format(e_percentual))

A nova margem de erro é 8.09%.


In [74]:
# Custo de margem de erro de 5%:
erro_novo = 0.05 * media_amostra
n_novo = (z_95 * (dp_amostra/erro_novo))**2
n_novo = int(n_novo.round())
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_novo)

Para um nível de confiança de 95% devemos selecionar uma amostra de 3927 elementos.


In [75]:
custo_novo = n_novo*100
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_novo))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 392,700.00.
