***
# <font color=green size=10>ESTATÍSTICA</font>
***



# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

---

### Bibliotecas para executar as tarefas


In [30]:
import pandas as pd
import numpy as np
from scipy.stats import binom
from scipy.stats import norm

In [31]:
# Leitura dos dados
dados = pd.read_csv('/content/dados.csv')

In [32]:
# Exibição inicial
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font>

Ao observar os dados, percebi que cerca de 70% dos chefes de domicílio são homens. O objetivo aqui é simular sorteios aleatórios de grupos de 10 pessoas e calcular a probabilidade de um desses grupos conter exatamente 7 homens e 3 mulheres.

Nesse caso, o experimento segue uma Distribuição Binomial, pois temos tentativas independentes, com apenas dois resultados possíveis (homem ou mulher).

### Solução

In [33]:
k = 7

In [34]:
n = 10

In [35]:
p = 0.70

In [36]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % (probabilidade))

0.26682793


# <font color='green'>Problema B</font>

Agora, quero saber quantos grupos de 10 pessoas eu precisaria sortear, em média, para obter 100 grupos com a composição desejada (7 homens e 3 mulheres).

### Média da distribuição binomial

# $$\mu=nXp$$

In [37]:
# media = n * p
# n = media / p

n = 100 / probabilidade
n = int(n.round())
n

375

# <font color='green'>Problema C</font>

Estimando a renda média dos chefes de domicílio no Brasil. Com os seguintes requisitos:

Prazo máximo: 2 meses

Orçamento: R$ 150.000,00

Custo por entrevista: R$ 100,00

Margem de erro desejada: 10% da média

### Seleção de uma amostra aleatório simples


In [38]:
dataset = dados.Renda.sample(n = 200, random_state = 101)

In [39]:
dataset.mean()

np.float64(1964.205)

In [40]:
dataset.std()

3139.8855167452157

### Dados do problema

In [41]:
media_amostra = dataset.mean()
desvio_padrao_amostra = dataset.std()
recursos = 150000
custo_entrevista = 100

# <font color='blue'>Solução do item 2</font>

### Margem de erro

In [42]:
e = 0.10 * media_amostra
print('A margem de erro é de R$ %0.2f para mais ou para menos' % (e))

A margem de erro é de R$ 196.42 para mais ou para menos


### Tamanho da amostra ($1 - \alpha = 90\%$)

In [43]:
0.5 + (0.9 / 2)

0.95

In [44]:
z = norm.ppf(.95)
n_confianca_90 = (z * (desvio_padrao_amostra / e)) ** 2
n_confianca_90 = int(n_confianca_90.round())
print('Para um nível de confiança de 90%% devemos selecionar uma amostra de %s elementos.' % n_confianca_90)

Para um nível de confiança de 90% devemos selecionar uma amostra de 691 elementos.


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [45]:
0.5 + (0.95 / 2)

0.975

In [46]:
z = norm.ppf(.975)
n_confianca_95 = (z * (desvio_padrao_amostra / e)) ** 2
n_confianca_95 = int(n_confianca_95.round())
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_confianca_95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 982 elementos.


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [47]:
0.5 + (0.99 / 2)

0.995

In [48]:
z = norm.ppf(.995)
n_confianca_99 = (z * (desvio_padrao_amostra / e)) ** 2
n_confianca_99 = int(n_confianca_99.round())
print('Para um nível de confiança de 99%% devemos selecionar uma amostra de %s elementos.' % n_confianca_99)

Para um nível de confiança de 99% devemos selecionar uma amostra de 1695 elementos.


# <font color='blue'>Solução do item 3</font>

### Custo da pesquisa para o nível de confiança de 90%

In [49]:
custo_confianca_90 = n_confianca_90 * custo_entrevista
print('Para um nível de confiança de 90% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_confianca_90))

Para um nível de confiança de 90% o custo da pesquisa seria de R$ 69,100.00.


### Custo da pesquisa para o nível de confiança de 95%

In [50]:
custo_confianca_95 = n_confianca_95 * custo_entrevista
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_confianca_95))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 98,200.00.


### Custo da pesquisa para o nível de confiança de 99%

In [51]:
custo_confianca_99 = n_confianca_99 * custo_entrevista
print('Para um nível de confiança de 99% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_confianca_99))

Para um nível de confiança de 99% o custo da pesquisa seria de R$ 169,500.00.


# <font color='blue'>Solução do item 4</font>

In [52]:
intervalo = norm.interval(confidence = 0.95, loc = media_amostra, scale = desvio_padrao_amostra / np.sqrt(n_confianca_95))
intervalo

(np.float64(1767.820973280509), np.float64(2160.589026719491))

# <font color='blue'>Solução do item 5</font>

In [53]:
n_confianca_95 = recursos / custo_entrevista
n_confianca_95

1500.0

In [54]:
z = norm.ppf(.975)
e = z * (desvio_padrao_amostra / np.sqrt(n_confianca_95))
e

np.float64(158.89721122673737)

In [55]:
e_percentual = e / media_amostra
e_percentual * 100
print('A nova margem de erro é {:.2f}%.'.format(e_percentual * 100))

A nova margem de erro é 8.09%.


# <font color='blue'>Solução do item 6</font>

In [56]:
e = 0.05 * media_amostra
print('A margem de erro é de R$ %0.2f para mais ou para menos' % (e))

A margem de erro é de R$ 98.21 para mais ou para menos


In [57]:
z = norm.ppf(.975)
n_confianca_95 = (z * (desvio_padrao_amostra / e)) ** 2
n_confianca_95 = int(n_confianca_95.round())
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_confianca_95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 3927 elementos.


In [58]:
custo_confianca_95 = n_confianca_95 * custo_entrevista
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo_confianca_95))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 392,700.00.


Simulei situações reais que envolvem tomada de decisão estatística baseada em dados amostrais. Abordei a distribuição binomial em um contexto de proporções e planejei uma pesquisa estatística, considerando custos, margem de erro e nível de confiança.

A prática reforçou conceitos essenciais de amostragem, distribuição de probabilidade e cálculo de intervalo de confiança — habilidades fundamentais para qualquer cientista de dados que trabalhe com análise de dados reais.