In [9]:
import pandas as pd
import numpy as np

In [10]:
dados = pd.read_csv("dados/dados.csv")
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## Distribuição Binominal

<img src="dist_binominal.png
    " width=60%>

Evento caracterizado por haver possibilidade de ocorrência de apenas 2 categorias, onde uma anularia a outra se ocorressem. Geralmente é usada para caracterizar SUCESSO e FRACASSO

p = probabilidade de sucesso
q = (1 - p) = probabilidade de fracasso
n = número de eventos estudados
k = números de eventos desejados que tenham sucesso

### Problema da aula 

Em um concurso para preencher uma vaga de Cientista de Dados, temos um total de 80 questões de múltipla escolha, cada uma com três alternativas possíveis. Estas têm o mesmo valor, e suporemos que um candidato que não tenha estudado absolutamente nada resolva fazer a prova e chute todos os resultados. Assumindo que a prova vale 10 pontos e que a nota de corte é 5, ou seja, passará se sua nota for 5 ou mais e reprovará se for menos que 5, qual seria a chance deste candidato passar para próxima etapa do processo seletivo?

In [11]:
# Qual o números de ensaios?
n = 10

# Os ensaios são idependentes?
# Sim, uma questão não influencia a outra

# Somente dois resultados são possíveis  em cada questão?
# Sim, só se pode ACERTAR ou ERRAR uma questão

In [12]:
# Qual a probabilidade de sucesso? (p)
numero_de_alternativas_por_questao = 3
p = 1 / numero_de_alternativas_por_questao
p

0.3333333333333333

In [13]:
# Qual a probabilidade de fracasso? (q = 1 - p)
q = 1 - p
q

0.6666666666666667

In [14]:
# Qual o total de eventos que se deseja obter sucesso? (k)
k = 5
k

5

In [15]:
# Solução 1
probabilidade = (comb(n, k)) * (p ** k) * (q ** (n - k))
print("%0.8f" % probabilidade)

NameError: name 'comb' is not defined

In [16]:
# Solução 2 (usando python)
from scipy.stats import binom

probabilidade = binom.pmf(k, n, p)
print("%0.8f" % probabilidade)

0.13656455


In [17]:
# Qual a probabilidade de acertos dele?
binom.pmf([5, 6, 7, 8, 9, 10], n, p).sum() # Usando listas para solucionar o problema

0.21312808006909492

In [18]:
# Qual a probabilidade de acertos dele?
1 - binom.cdf(4, n, p) # soma a probabilidade do 1 ao 4

0.21312808006909523

In [19]:
binom.sf(4, n, p) # soma a probabilidade do 5 ao 10

0.21312808006909525

## Exemplo da mega-sena 

Em um exemplo prático bem simples da loteria Mega Sena que tem 60 números, descobriremos a probabilidade de ganhar este prêmio. Já que temos um total de 1 a 60 números para escolher onde a aposta mínima é 6 números, deveremos descobrir o Espaço Amostral e as possibilidades por meio da Combinação. Temos apenas uma chance de ganhar na Mega Sena, e precisamos calcular "1" dividido pelo Espaço Amostral, o qual é justamente a combinação de 60 números de 6 em 6.

In [20]:
from scipy.special import comb

In [21]:
combinacoes = comb(60, 6)
combinacoes

50063860.0

In [22]:
probabilidade = 1 / combinacoes # Probabilidade de ganhar na mega-sena
print('%0.15f' % probabilidade)

0.000000019974489


## Exercicio

1. Suponha que acabamos de criar um jogo de loteria, chamado Show de prêmios da Alura. Neste nosso novo jogo, o apostador marca 20 números, dentre os 25 disponíveis no bilhete, e pode ganhar até 1 milhão de reais. Determine qual o número de combinações possíveis (espaço amostral) e a probabilidade de se ganhar o prêmio jogando apenas um bilhete (considere apenas quinze casas decimais).

In [23]:
combinacoes = comb(25, 20)
combinacoes

53130.0

In [24]:
probabilidade = 1 / combinacoes
print('%0.15f' % probabilidade)

0.000018821757952


2. Uma moeda, perfeitamente equilibrada, é lançada para o alto quatro vezes. Utilizando a distribuição binomial, obtenha a probabilidade de a moeda cair com a face coroa voltada para cima duas vezes.

In [25]:
k = 2 # Eventos que queremos obter sucesso
n = 4 # Numero de ensaios
p = 1 / 2 # Probrabilidade de acordo com o numero possiveis de casos
probabilidade = binom.pmf(k, n, p)
probabilidade

0.375

3. Um dado, perfeitamente equilibrado, é lançado para o alto dez vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com o número cinco voltado para cima pelo menos três vezes.

In [26]:
k = 3
n = 10
p = 1 / 6
probabilidade = binom.sf(2, n, p) 
probabilidade

0.22477320212874055

## Exemplo: Gincana
Temos uma cidade do interior que realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última, a proporção de participantes do sexo feminino foi de 60% e o total foi de 30 equipes com 12 integrantes cada uma.

Com as informações acima, deveremos responder quantas equipes são formadas por 8 mulheres.

In [27]:
k = 8 # número de equipes que devem ter mulheres
n = 12 # Número de integrantes das equipes
p = 0.6 # Pois temos 60% de chance de sortear uma mulher

In [28]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.21284094


In [29]:
equipes = 30 * probabilidade # com isso teremos o resultado de 6 equipes com 8 mulheres
equipes

6.3852281856

## Exercicio

Suponha que a probabilidade de um casal ter filhos com olhos azuis seja de 22%. Em 50 famílias, com 3 crianças cada uma, quantas podemos esperar que tenham dois filhos com olhos azuis?

In [30]:
k = 2
n = 3
p = 0.22
N = 50
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

familias = N * probabilidade
familias

0.11325600


5.662799999999996

## Distribuição Poisson

<img src="poisson.jpg
    " width=60%>
- É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. 
--------------------------------------------------------------------------------------------------------------------------------
- e = Constante aproximado cujo valor é 2,718281828459045
- u = representa o numero medio de ocorrencia em um determinado intervalo
- k = número de sucessos no intervalo desejado

### PROBLEMA DELIVERY: Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, e determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?

In [31]:
# QUAL O NÚMERO MÉDIO DE OCORRÊNCIAS POR HORA? (u)
media = 20
media

20

In [32]:
# QUAL O NÚMERO DE OCORRÊNCIAS QUE QUEREMOS OBTER NO PERÍODO? (k)

k

2

In [33]:
# Resolvendo com scipy.stats
from scipy.stats import poisson 

media = 20
k = 15
probabilidade = poisson.pmf(k, media)
print("%0.8f" % probabilidade)

0.05164885


## Exercício
O número médio de clientes que entram em uma padaria por hora é igual a 20. Obtenha a probabilidade de, na próxima hora, entrarem exatamente 25 clientes.

In [34]:
media = 20
k = 25
probabilidade = poisson.pmf(k, media)
print("%0.8f" % probabilidade)

0.04458765
