<a href="https://colab.research.google.com/github/ClarisseAlvarenga/data_science_alura_cursos/blob/master/Estimativas_Clarisse_Estatistica2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 2</font>
***

## Trabalho sobre Probabilidades, Amostragem e Estimações

Utilizando os conhecimentos adquiridos em nosso treinamento execute as tarefas abaixo. Siga o roteiro proposto e vá completando as células vazias.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as bibliotecas que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy etc.</font>

In [0]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.special import comb
from scipy.stats import binom
from scipy.stats import poisson
import seaborn as sns
import numpy as np

### Importando as funções que criei durante o curso (todas baseadas em distribuição normal dos dados)

In [0]:
#criar uma função para calcular Z em uma distribuição normal
def calcula_z(x, media,desvio_padrao):
  return (x-media)/desvio_padrao

In [0]:
#cria uma função para criar probabilidade  entre dois valores numa distribuição normal
#usar o limite superior e o limite inferior que você quer calcular(pensa nos pontos no gráfico de distribuição normal)
def calcula_probabilidade_entre_Zs(Z_superior,Z_inferior): 
  return norm.cdf(Z_superior) - norm.cdf(Z_inferior)

In [0]:
#depende do numpy
#uma função para calcular erro inferencial, já calculando o sigma. O n é o tamanho da amostra, o Z é definido pelo intervalo de confiança (tabelado)
#o desvio padrão e o erro são devolvidos na mesma medida da variável da amostra (reais, gramas, anos, etc)
def calcula_erro_inferencial(z, desvio_padrao, n):
  sigma = desvio_padrao /np.sqrt(n)
  return  z * sigma

In [0]:
#depende do numpy
#uma função separada para calcular o sigma
#sigma = desvio_padrao /np.sqrt(n)
def calcula_sigma(desvio_padrao, n):
  return desvio_padrao /np.sqrt(n)

In [0]:
#distribuição normal
#depende do norm
#o nível de confiança é o percentual de acerto desejado, deve ser informado entre 0 e 1 (exemplo comum, 95% de confiança = 0.95)
def calcula_z_pelo_nivel_de_confianca(confianca):
  probabilidade = (0.5 + (confianca/2))
  return norm.ppf(probabilidade)

In [0]:
#depende do norm do scipy
#função para calcular o n mínimo para uma população FINITA, dados o tamanho da população, a variável normal padronizada, o desvio padrão amostral ou populacional e o erro inferencial desejado)
#informar s para desvio padrão amostral ou sigma para desvio padrão populacional no lugar do s na função

def calcula_n_populacao_finita(z, s, N, erro):
  return (((z**2)*(s**2)* (N))/ (((z**2)*(s**2)) + ((erro**2 )* (N-1)))).round()

In [0]:
#depende do norm do scipy
#função para calcular o n mínimo para uma população Infinita, dados  a variável normal padronizada, o desvio padrão amostral (ou populacional) e o erro inferencial desejado)
#informar s para desvio padrão amostral ou sigma para desvio padrão populacional no lugar do s na função
def calcula_n_populacao_infinita(z, sigma,erro):
  return (z * (sigma/erro))**2

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [0]:
dados = pd.read_csv('/content/dados.csv')

### Visualize o conteúdo do DataFrame

In [160]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color='green'>Problema A</font> - Distribuição

Avaliando nosso dataset é possível verificar que a **proporção de homens** como chefes de domicílios é de quase **70%**. Precisamos **selecionar aleatoriamente grupos de 10 indivíduos** para verificar as diferenças entre os rendimentos em cada grupo. Qual a **probabilidade de selecionamos um grupo que apresente a mesma proporção da população**, ou seja, selecionarmos um grupo que seja **composto por 7 homens e 3 mulheres**?

#### <font color='blue'>Como tarefa extra, verifique a real proporção de homens e mulheres em nosso dataset (vimos como fazer isso em nosso primeiro curso de estatística).</font>

#### <font color='red'>Verifique que tipo de distribuição de probabilidade se encaixa neste experimento.</font>

### Solução - binomial

In [0]:
#quantidade de eventos
n = 10


In [162]:
#propabilidade de sucesso de tirar homem
p = 7/10
p

0.7

In [163]:
# probabilidade de fracasso ( ou a probabilidade de sucesso de tirar mulher)
q = 1 - p
q

0.30000000000000004

In [164]:
# quantidade de sucessos desejada
k = 7
probabilidade_h = binom.pmf(k, n, p)
print('%0.8f' % probabilidade_h)

0.26682793


In [165]:
#probabilidade de sairem 3 mulheres
k = 3
probabilidade_m = binom.pmf(k, n, q)
print('%0.8f' % probabilidade_m)

0.26682793


# <font color='green'>Problema B</font> - Média de distribuição binomial

Ainda sobre a questão anterior, **quantos grupos de 10 indivíduos** nós precisaríamos selecionar, de forma aleatória, para conseguir **100 grupos compostos por 7 homens e 3 mulheres**?

#### <font color='red'>Lembre-se da forma de cálculo da média de uma distribuição binomial</font>

### Solução

In [0]:
#descobrindo o experimento - a Seleção de uma pessoa para ser integrante da equipe e a probabilidade de sucesso
n = 10
p = 0.7 #percentual de sucesso, quantidade de mulheres
k = 7 #quantos homens queremos na equipe

In [167]:
#probabilidade de UMA equipe de 10 pessoas ter 7 homens.
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.26682793


In [168]:
#quantas de 100 equipes podem ter 7 integrantes masculinos, usando a média binomial.
equipes = 100* probabilidade
equipes

26.682793200000017

In [169]:
#equipes= N * probabilidade
#N = equipes /probabilidade
N = 100 / probabilidade
N.round()
print(f'A quantidade de equipes necessária para termos 100 equipes com 7 homens e três mulheres é: {N.round()}')

A quantidade de equipes necessária para termos 100 equipes com 7 homens e três mulheres é: 375.0


In [170]:
#tirando a prova
equipes = N * probabilidade
equipes

100.00000000000001

# <font color='green'>Problema C</font>

Um cliente nos encomendou um estudo para avaliar o **rendimento dos chefes de domicílio no Brasil**. Para isso precisamos realizar uma nova coleta de dados, isto é, uma nova pesquisa de campo. Após reunião com o cliente foi possível elencar o seguinte conjunto de informações:

> A. O resultado da pesquisa precisa estar pronto em **2 meses**;

> B. Teremos somente **R$\$$ 150.000,00** de recursos para realização da pesquisa de campo; e
    
> C. Seria interessante uma **margem de erro não superior a 10% em relação a média estimada**.

Em nossa experiência com estudos deste tipo, sabemos que o **custo médio por indivíduo entrevistado fica em torno de R$\$$ 100,00**. Com este conjunto de fatos avalie e obtenha o seguinte conjunto de informações para passar ao cliente:


> 1. Para obter uma estimativa para os parâmetros da população (renda dos chefes de domicílio no Brasil), realize uma amostragem aleatória simples em nosso conjunto de dados. Essa amostra deve conter 200 elementos (utilize random_state = 101 para garantir que o mesmo experimento posso ser realizado novamente). Obtenha a média e o desvio-padrão dessa amostra.
    
> 2. Para a **margem de erro** especificada pelo cliente obtenha os **tamanhos de amostra** necessários para garantir os **níveis de confiança de 90%, 95% e 99%**.
    
> 3. Obtenha o **custo da pesquisa** para os três níveis de confiança.
    
> 4. Para o maior nível de confiança viável (dentro do orçamento disponível), obtenha um **intervalo de confiança para a média da população**.
    
> 5. Assumindo o **nível de confiança escolhido no item anterior**, qual **margem de erro** pode ser considerada utilizando todo o recurso disponibilizado pelo cliente?
    
> 6. Assumindo um **nível de confiança de 95%**, **quanto a pesquisa custaria ao cliente** caso fosse considerada uma **margem de erro de apenas 5%** em relação a média estimada?


# <font color='blue'>Solução do item 1</font>

### Seleção de uma amostra aleatório simples

#### <font color='red'>Lembre-se de utilizar *random_state = 101*</font>

In [171]:
amostra_aleatoria = dados.sample(200, random_state=101)
amostra_aleatoria.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
29042,29,0,39,8,5,480,1.719128
62672,43,0,55,2,6,250,1.639205
29973,29,1,36,2,12,788,1.654122
22428,26,0,46,8,8,1680,1.62245
55145,41,0,37,2,9,2500,1.625268


In [172]:
#média da renda da amostra
media_aleatorio = amostra_aleatoria.Renda.mean()
media_aleatorio

1964.205

In [173]:
#desvio padrão da amostra
desvio_padrao_aleatorio = amostra_aleatoria.Renda.std()
desvio_padrao_aleatorio

3139.8855167452157

### Dados do problema

In [174]:
print(f'A média da renda do DS original é:{dados.Renda.mean()}')
print(f'o desvio padrão de renda do DS original é:{dados.Renda.std()}')

A média da renda do DS original é:2000.3831988547631
o desvio padrão de renda do DS original é:3323.3877303470294


In [0]:
prazo = 2 #meses
orcamento = 150000 #reais
custo_medio_por_entrevista = 100 #reais
erro_percentual = 0.1 #porcentagem

# <font color='blue'>Solução do item 2</font>

### Obtenha a margem de erro

#### <font color='red'>Lembre-se que a margem de erro deve estar na mesma unidade da variável que está sendo estudada (R$)</font>

In [176]:
erro = erro_percentual * dados.Renda.mean()
erro #em reais

200.0383198854763

In [177]:
erro_amostral = erro_percentual *amostra_aleatoria.Renda.mean()
erro_amostral
print('A margem de erro é de R$ %0.2f para mais ou para menos' % (erro_amostral))

A margem de erro é de R$ 196.42 para mais ou para menos


### Tamanho da amostra ($1 - \alpha = 90\%$)

In [178]:
z_90 = calcula_z_pelo_nivel_de_confianca(0.90)
z_90

1.6448536269514722

In [179]:
#usando o DATASET original
sigma = dados.Renda.std()
n_dados_90  = (calcula_n_populacao_infinita(z_90,sigma,erro)).round()
n_dados_90

747.0

In [180]:
#usando dados desvio padrão e média amostral
n_amostra_90 = (calcula_n_populacao_infinita(z_90, desvio_padrao_aleatorio, erro_amostral)).round()
n_amostra_90
print('Para um nível de confiança de 90%% devemos selecionar uma amostra de %s elementos.' % n_amostra_90)


Para um nível de confiança de 90% devemos selecionar uma amostra de 691.0 elementos.


### Tamanho da amostra ($1 - \alpha = 95\%$)

In [181]:
z_95 = calcula_z_pelo_nivel_de_confianca(0.95)
z_95

1.959963984540054

In [182]:
#usando o DATASET original
n_dados_95 = (calcula_n_populacao_infinita(z_95,sigma,erro)).round()
n_dados_95

1060.0

In [183]:
#usando desvio padrão e média amostral
n_amostra_95 = (calcula_n_populacao_infinita(z_95, desvio_padrao_aleatorio, erro_amostral)).round()
n_amostra_95
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_amostra_95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 982.0 elementos.


### Tamanho da amostra ($1 - \alpha = 99\%$)

In [184]:
z_99 = calcula_z_pelo_nivel_de_confianca(0.99)
z_99

2.5758293035489004

In [185]:
#usando o DATASET original
n_dados_99 = (calcula_n_populacao_infinita(z_99,sigma,erro)).round()
n_dados_99

1831.0

In [186]:
#usando desvio padrão e média amostral
n_amostra_99 = (calcula_n_populacao_infinita(z_99, desvio_padrao_aleatorio, erro_amostral)).round()
n_amostra_99
print('Para um nível de confiança de 99%% devemos selecionar uma amostra de %s elementos.' % n_amostra_99)

Para um nível de confiança de 99% devemos selecionar uma amostra de 1695.0 elementos.


# <font color='blue'>Solução do item 3</font>

### Custo da pesquisa para o nível de confiança de 90%

In [187]:
#usando os dados
custo = n_dados_90 * custo_medio_por_entrevista
custo

74700.0

In [188]:
#usando a amostra como média e desvio padrão
custo = n_amostra_90 * custo_medio_por_entrevista
custo
print('Para um nível de confiança de 90% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo))

Para um nível de confiança de 90% o custo da pesquisa seria de R$ 69,100.00.


In [189]:
#saldo do orçamento
print (f'O saldo do orçamento para o custo de uma pesquisa com 90% de confiança é:{orcamento - custo }')

O saldo do orçamento para o custo de uma pesquisa com 90% de confiança é:80900.0


### Custo da pesquisa para o nível de confiança de 95%

In [190]:
#usando os dados
custo = n_dados_95 * custo_medio_por_entrevista
custo

106000.0

In [191]:
#usando a amostra como média e desvio padrão
custo = n_amostra_95 * custo_medio_por_entrevista
custo
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 98,200.00.


In [192]:
#saldo do orçamento
print (f'O saldo do orçamento para o custo de uma pesquisa com 95% de confiança é:{orcamento - custo }')

O saldo do orçamento para o custo de uma pesquisa com 95% de confiança é:51800.0


### Custo da pesquisa para o nível de confiança de 99%

In [193]:
#usando os dados
custo = n_dados_99 * custo_medio_por_entrevista
custo

183100.0

In [194]:
#usando a amostra como média e desvio padrão
custo = n_amostra_99 * custo_medio_por_entrevista
custo
print('Para um nível de confiança de 99% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo))

Para um nível de confiança de 99% o custo da pesquisa seria de R$ 169,500.00.


In [195]:
#saldo do orçamento
print (f'O saldo do orçamento para o custo de uma pesquisa com 99% de confiança é:{orcamento - custo }')

O saldo do orçamento para o custo de uma pesquisa com 99% de confiança é:-19500.0


# <font color='blue'>Solução do item 4</font>

In [196]:
#calculando o intervalo usando os dados da amostra (o último viável)
intervalo = norm.interval(alpha = 0.95, loc=media_aleatorio, scale = desvio_padrao_aleatorio/np.sqrt(n_amostra_95))
intervalo

(1767.820973280509, 2160.589026719491)

In [197]:
#calculando o intervalo usando os dados originais
intervalo_dados = norm.interval(alpha=0.95, loc=dados.Renda.mean(), scale= dados.Renda.std()/np.sqrt(n_dados_95))
intervalo_dados

(1800.3158715047973, 2200.4505262047287)

# <font color='blue'>Solução do item 5</font>

In [198]:
#custo = n_dados_90 * custo_medio_por_entrevista
n_maximo = orcamento/custo_medio_por_entrevista
n_maximo

1500.0

In [199]:
z = calcula_z_pelo_nivel_de_confianca(0.95)
e = z*(desvio_padrao_aleatorio/np.sqrt(n_maximo))
e_percentual = e/media_aleatorio
e_percentual = e_percentual * 100
print('A nova margem de erro é {:.2f}%.'.format(e_percentual))


A nova margem de erro é 8.09%.


# <font color='blue'>Solução do item 6</font>

In [200]:
erro_percentual = 0.05
erro_amostral = erro_percentual *amostra_aleatoria.Renda.mean()
erro_amostral
print('A margem de erro é de R$ %0.2f para mais ou para menos' % (erro_amostral))

A margem de erro é de R$ 98.21 para mais ou para menos


In [201]:
erro = erro_percentual * dados.Renda.mean()
erro #em reais

100.01915994273816

In [202]:
#usando o DATASET original
n_dados_95 = (calcula_n_populacao_infinita(z_95,sigma,erro)).round()
n_dados_95

4241.0

In [203]:
custo = n_dados_95 * custo_medio_por_entrevista
custo

424100.0

In [204]:
#usando desvio padrão e média amostral
n_amostra_95 = (calcula_n_populacao_infinita(z_95, desvio_padrao_aleatorio, erro_amostral)).round()
n_amostra_95
print('Para um nível de confiança de 95%% devemos selecionar uma amostra de %s elementos.' % n_amostra_95)

Para um nível de confiança de 95% devemos selecionar uma amostra de 3927.0 elementos.


In [205]:
custo = n_amostra_95 * custo_medio_por_entrevista
custo
print('Para um nível de confiança de 95% o custo da pesquisa seria de R$ {:,.2f}.'.format(custo))

Para um nível de confiança de 95% o custo da pesquisa seria de R$ 392,700.00.
