In [1]:
import pandas as pd
import numpy as np

In [2]:
dados = pd.read_csv('dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


### Problema A:
Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?


>*Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset*

>*verifique que tipo de distribuição de probabilidade se encaixa neste experimento*

In [3]:
dados.Sexo.value_counts(normalize=True)

Sexo
0    0.692998
1    0.307002
Name: proportion, dtype: float64

Esse é um problema de distribuição binomial. Vemos claramente, que o temos apenas duas opções é homem ou mulher.

In [4]:
from scipy.stats import binom
p = 0.7
n = 10
k = 7

prob = binom.pmf(k,n,p)
prob

0.26682793200000005

### Problema B
Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

In [5]:
n = 100 / prob
int(n.round())

375

### Problema C
Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


#### Item 1
***

In [6]:
#Prob 1
amostra = dados.Renda.sample(n=200, random_state = 101)
media_amostra = amostra.mean()
dp_amostra = amostra.std()
custo_entrevista = 100

#### Item 2
***

In [7]:
#Prob 2
#Para 90%
from scipy.stats import norm 
z = norm.ppf(0.95)
e = 0.1 * media_amostra
n = (z * (dp_amostra/e))**2
int(n.round())

691

In [8]:
#Para 95%
z2 = norm.ppf(0.975)
e = 0.1 * media_amostra
n2 = (z2 * (dp_amostra/e))**2
int(n2.round())

982

In [9]:
#Para 99%
z3 = norm.ppf(0.995)
e = 0.1 * media_amostra
n3 = (z3 * (dp_amostra/e))**2
int(n3.round())

1695

#### Item 3 
***

In [10]:
print(f"Pesquisa 1:{round(n*100)}\nPesquisa 2:{round(n2*100)}\nPesquisa 3:{round(n3*100)}")

Pesquisa 1:69137
Pesquisa 2:98164
Pesquisa 3:169546


#### Item 4
***

In [29]:
confidence_level = 0.95
intervalo = norm.interval(confidence_level, loc=media_amostra, scale=dp_amostra / np.sqrt(n2))
intervalo

(1767.7845, 2160.6255)

#### Item 5
***

In [11]:
n_95 = (150000)/(100)
n_95

1500.0

In [12]:
e = z2 * (dp_amostra/(np.sqrt(n_95)))
e

158.89721122673703

In [13]:
e_pecentual = e/media_amostra
e_pecentual

0.08089644982409526

#### Item 6
***

In [18]:
z4 = norm.ppf(0.975)
e4 = 0.05 * media_amostra
n4 = (z4 * (dp_amostra/e4))**2
print('O custo da pesquisa seria de R${:,.2f}.'.format(n4*100))


O custo da pesquisa seria de R$392,654.14.
