<a href="https://colab.research.google.com/github/crislanecas/python/blob/main/Alura%26WoMakersCode/05_Resumo_probabilidade_e_amostra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Importação das bibliotecas

In [2]:
# Importa as bibliotecas.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy

In [3]:
# importa parte da bibilioteca scipy.
from scipy.special import comb
from scipy.stats import binom
from scipy.stats import poisson
from scipy.stats import norm

# Importação dos dados

In [4]:
# Importa parte da biblioteca do Google Colab para te acesso ao Google Drive, utilizando o método drive.mount().
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
# Cria um dataframe para receber os dados do arquivo CSV.
dados = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Bootcamp Data Analytics - WoMakersCode/Estatística - Alura/dados.csv')

# Distribuição binomial

### Características:
1. Realização de $n$ ensaios idênticos.

2. Os ensaios são independentes.

3. Somente dois resultados são possíveis, exemplo: Verdadeiro ou falso; Cara ou coroa; Sucesso ou fracasso.

4. A probabilidade de sucesso é representada por $p$ e a de fracasso por $1-p=q$. Estas probabilidades não se modificam de ensaio para ensaio.

In [6]:
# Variáveis envolvidas.
# n = # Número de eventos/ocorrencias estudados.
# p = # Probabilidade de sucesso.
# q = # Probabilidade de fracasso.
# k = # Número de eventos desejados que tenham sucesso.

## Exemplo: Concurso para cientista de dados

Em um concurso para preencher uma vaga de cientista de dados temos um total de **10 questões** de múltipla escolha com **3 alternativas possíveis** em cada questão. **Cada questão tem o mesmo valor.** Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova **vale 10 pontos e a nota de corte seja 5**, obtenha a probabilidade deste candidato **acertar 5 questões** e também a probabilidade deste candidato **passar para a próxima etapa do processo seletivo**.

In [7]:
# Variáveis envolvidas.
n = 10 # Número de ocorrencias
numero_de_alternativas_por_questao = 3
p = 1 / numero_de_alternativas_por_questao # Probabilidade de sucesso.
q = 1 - p # Probablidade de fracasso.
k = 5 # Número de questões com acerto.

In [8]:
# Calcula a probabilidade utilizando a função binom.pmf(), usando como parâmetro as variáveis do problema definidas acima.
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.13656455


## Obter a probabilidade do candidato passar

In [9]:
# Calcula a probabilidade com a função binom.pmf(), com uma lista com os evento com sucesso.
binom.pmf([5, 6, 7, 8, 9, 10], n, p).sum()

0.21312808006909476

In [10]:
# Subtrai do total de eventos, 1 (100%) a probabilidade cumulativa, para obter o resultado do total probabilidade de eventos com sucesso.
# Total de eventos - eventos de sucesso cumulativa.
# 1 - 0,4 = 0,5
1 - binom.cdf(4, n, p)

0.21312808006909523

In [11]:
# Calcula a probabilidade com a função binom.sf(), recebendo os mesmos parâmetros e faz subtação acima.
binom.sf(4, n, p)

0.21312808006909525

# Distribuição de Poisson

### Características:
1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.

2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.

3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

In [12]:
# Variáveis envolvidas.
# media =  # Representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço.
# k =   # Número de sucesso do intervalo.
# e =   # constante cujo valor aproximado é 2,718281828459045

In [13]:
# Método para receber o valor da constante e.
np.e

2.718281828459045

## Exemplo: Delivery

Um restaurante recebe em média **20 pedidos por hora**. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba **15 pedidos**?

In [14]:
# Variáveis envolvidas.
media = 20
k = 15

In [15]:
# Calcula com a função poisson.pmf().
probabilidade = poisson.pmf(k, media)
print('%0.8f' % probabilidade)

0.05164885


# Distribuição Normal

### Características:

1. É simétrica em torno da média;

2. A área sob a curva corresponde à proporção 1 ou 100%;

3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;

4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo $x$;

5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;

6. A distribuição é definida por sua média e desvio padrão;

7. A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.

## Tabela normal padronizada

In [16]:
# Cria uma dataframe com os valores da tabela normalizada de Z.
tabela_normal_padronizada = pd.DataFrame(
    [],
    index=["{0:0.2f}".format(i / 100) for i in range(0, 400, 10)],
    columns = ["{0:0.2f}".format(i / 100) for i in range(0, 10)])

for index in tabela_normal_padronizada.index:
    for column in tabela_normal_padronizada.columns:
        Z = np.round(float(index) + float(column), 2)
        tabela_normal_padronizada.loc[index, column] = "{0:0.4f}".format(norm.cdf(Z))

tabela_normal_padronizada.rename_axis('Z', axis = 'columns', inplace = True)

tabela_normal_padronizada

Z,0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09
0.0,0.5,0.504,0.508,0.512,0.516,0.5199,0.5239,0.5279,0.5319,0.5359
0.1,0.5398,0.5438,0.5478,0.5517,0.5557,0.5596,0.5636,0.5675,0.5714,0.5753
0.2,0.5793,0.5832,0.5871,0.591,0.5948,0.5987,0.6026,0.6064,0.6103,0.6141
0.3,0.6179,0.6217,0.6255,0.6293,0.6331,0.6368,0.6406,0.6443,0.648,0.6517
0.4,0.6554,0.6591,0.6628,0.6664,0.67,0.6736,0.6772,0.6808,0.6844,0.6879
0.5,0.6915,0.695,0.6985,0.7019,0.7054,0.7088,0.7123,0.7157,0.719,0.7224
0.6,0.7257,0.7291,0.7324,0.7357,0.7389,0.7422,0.7454,0.7486,0.7517,0.7549
0.7,0.758,0.7611,0.7642,0.7673,0.7704,0.7734,0.7764,0.7794,0.7823,0.7852
0.8,0.7881,0.791,0.7939,0.7967,0.7995,0.8023,0.8051,0.8078,0.8106,0.8133
0.9,0.8159,0.8186,0.8212,0.8238,0.8264,0.8289,0.8315,0.834,0.8365,0.8389


## Exemplo: Qual sua altura?

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma **distribuição aproximadamente normal**, com **média 1,70** e **desvio padrão de 0,1**. Com estas informações obtenha o seguinte conjunto de probabilidades:

> **A.** probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

> **B.** probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.    

> **C.** probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

In [17]:
# Variáveis envolvidas.
# desvio_padrao =
# media =
# x =  # Variável normal
# Z =

## Problema A - Identificação da área sob a curva

### Solução 1 - Utilizando tabela

In [18]:
# Defini o valor da probabilidade, encontrando na tabela normal padronizada o valor correspondente a Z.
probabilidade = 0.8413
probabilidade

0.8413

### Solução 2 - Utilizando Scipy

In [19]:
# Variáveis envolvidas.
media = 1.7
desvio_padrao = 0.1
# Calculando Z.
Z = (1.8 - media) / desvio_padrao
Z

1.0000000000000009

In [20]:
# Calcula a probabilidade com a função norm.cdf().
norm.cdf(Z)

0.8413447460685431

# Amostra

In [21]:
# Calcula o percentual da variável sexo.
dados.Sexo.value_counts(normalize = True)

0    0.692998
1    0.307002
Name: Sexo, dtype: float64

In [22]:
# Cria uma variável para receber o valor do dataframe que será criado com método sample().
# O parâmetro n = 100, determina o tamanho da nossa amostra.
# O parâmetro random_state = 101, gera número aleatórios idênticos para que possa ser comparado.
amostra = dados.sample(n = 100, random_state = 101)

In [23]:
# Calcula o percentual da variável sexo da amostra.
amostra.Sexo.value_counts(normalize = True)

0    0.69
1    0.31
Name: Sexo, dtype: float64

## Exemplo: estimação

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatório de 20 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**. Construa um intervalo de confiança para a **média populacional** assumindo um **nível de significância de 5%**.

In [24]:
# Variáveis envolvidas, conforme problema.
# media_amostra = # Média da amostra.
# significancia = # Nível de signigicância.
# confianca = 1 - significancia # Nível de confiança.
# desvio_padrao =
# n =

In [25]:
# Variáveis envolvidas, conforme problema.
media_amostra = 5050
significancia = 0.05
confianca = 1 - significancia
desvio_padrao = 150
n = 20

In [27]:
# Calculando o valor a área a partir do ponto que divide a área de aceitação e rejeição por 2, por ser assimetrica.
0.5 + (0.95 / 2)

0.975

In [28]:
# Encontra o valor z para 0.975, com o auxilo da tabela.
z = 1.9 + 0.06
z

1.96

In [37]:
# Calcula o valor da variável normal padronizada (z), com a função norm.ppf().
z = norm.ppf((0.5 + (0.95 / 2)))
z

1.959963984540054

In [30]:
# Calcula o desvio padrão das médias (sigma).
sigma = desvio_padrao / np.sqrt(n)
sigma

33.54101966249684

In [31]:
# Calcula o erro (e).
e = z * sigma
e

65.73919054324361

In [32]:
# Calcula o intevalo  de confiança usando a função norm.interval().
norm.interval(confidence = 0.95, loc = media_amostra, scale = sigma)

(4984.260809456757, 5115.739190543243)

## Exemplo: Rendimento médio (calculo de tamanho de amostra com população infinita)

Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 100,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 3.323,39**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo?

In [33]:
# Defini o valor das variáveis envolvidas, conforme problema.
e = 100
sigma = 3323.39

In [36]:
# Calcula o valor da variável normal padronizada (z), com a função norm.ppf().
z = norm.ppf((0.5 + (0.95 / 2)))
z

1.959963984540054

In [35]:
# Calcula o valor de número de observações (n), conforme fórmula matemática.
n = (z * (sigma /e)) ** 2
int(n.round())

4243

## Exemplo: xxxx (calculo de tamanho de amostra com população finita)

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

In [38]:
# Defini o valor das variáveis envolvidas, conforme problema.
N = 10000
s = 12
e = 5

In [39]:
# Calcula o valor da variável normal padronizada (z), com a função norm.ppf().
z = norm.ppf((0.5 + (0.95 / 2)))
z

1.959963984540054

In [40]:
# Calcula o valor de número de observações (n), conforme fórmula matemática.
n = ((z**2) * (s**2) * (N)) / (((z**2) * (s**2)) + ((e**2) * (N - 1)))
int(n.round())

22