# Simula√ß√£o da Distribui√ß√£o Binomial

Este notebook apresenta simula√ß√µes pr√°ticas e interativas da **Distribui√ß√£o Binomial**, permitindo que voc√™ experimente e visualize os conceitos em a√ß√£o.

## üìö Revis√£o Te√≥rica

A **distribui√ß√£o binomial** modela situa√ß√µes onde:
- Realizamos **n** experimentos independentes
- Cada experimento tem apenas **2 resultados poss√≠veis** (sucesso ou fracasso)
- A **probabilidade de sucesso** √© constante (**p**) em todos os experimentos
- Queremos calcular a probabilidade de obter exatamente **k** sucessos

### F√≥rmula:
$$P(X = k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k}$$

### Propriedades:
- **M√©dia**: $E[X] = n \cdot p$
- **Vari√¢ncia**: $Var(X) = n \cdot p \cdot (1-p)$
- **Desvio Padr√£o**: $\sigma = \sqrt{n \cdot p \cdot (1-p)}$

## üõ†Ô∏è Importando as Bibliotecas

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import binom
import pandas as pd

# Configura√ß√£o dos gr√°ficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Bibliotecas importadas com sucesso!")

## üéØ Exemplo 1: Simulando Lan√ßamentos de Moeda

Vamos come√ßar com um exemplo cl√°ssico: **lan√ßar uma moeda 10 vezes** e contar quantas vezes sai "cara".

- **n = 10** (n√∫mero de lan√ßamentos)
- **p = 0.5** (probabilidade de "cara")
- **k** pode variar de 0 a 10 (n√∫mero de "caras")

In [None]:
# Par√¢metros do exemplo
n = 10  # n√∫mero de lan√ßamentos
p = 0.5  # probabilidade de cara

# Valores poss√≠veis de k (sucessos)
k_valores = np.arange(0, n + 1)

# Calculando as probabilidades para cada valor de k
probabilidades = binom.pmf(k_valores, n, p)

# Propriedades te√≥ricas
media_teorica = n * p
variancia_teorica = n * p * (1 - p)
desvio_teorico = np.sqrt(variancia_teorica)

print(f"üìä Propriedades Te√≥ricas:")
print(f"   M√©dia: {media_teorica:.2f} caras")
print(f"   Vari√¢ncia: {variancia_teorica:.2f}")
print(f"   Desvio Padr√£o: {desvio_teorico:.2f}")
print()
print(f"üìà Probabilidades:")
for i, prob in enumerate(probabilidades):
    print(f"   P(X = {i:2d}) = {prob:.4f} ({prob*100:5.2f}%)")

In [None]:
# Visualiza√ß√£o da distribui√ß√£o
plt.figure(figsize=(12, 6))

# Gr√°fico de barras
plt.subplot(1, 2, 1)
plt.bar(k_valores, probabilidades, alpha=0.8, color='skyblue', edgecolor='navy')
plt.axvline(media_teorica, color='red', linestyle='--', linewidth=2, label=f'M√©dia = {media_teorica:.1f}')
plt.xlabel('N√∫mero de Caras (k)')
plt.ylabel('Probabilidade P(X = k)')
plt.title('Distribui√ß√£o Binomial (n=10, p=0.5)\nLan√ßamento de Moedas')
plt.legend()
plt.grid(True, alpha=0.3)

# Gr√°fico de probabilidades acumuladas
plt.subplot(1, 2, 2)
prob_acumuladas = binom.cdf(k_valores, n, p)
plt.plot(k_valores, prob_acumuladas, 'o-', color='orange', linewidth=2, markersize=6)
plt.xlabel('N√∫mero de Caras (k)')
plt.ylabel('Probabilidade Acumulada P(X ‚â§ k)')
plt.title('Fun√ß√£o de Distribui√ß√£o Acumulada')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üß™ Exemplo 2: Simula√ß√£o com Dados Reais

Agora vamos **simular** o experimento 1000 vezes e comparar com a teoria:

In [None]:
# Simula√ß√£o: realizar o experimento 1000 vezes
num_simulacoes = 1000
np.random.seed(42)  # Para reprodutibilidade

# Gerando dados simulados
resultados_simulados = binom.rvs(n, p, size=num_simulacoes)

# Estat√≠sticas da simula√ß√£o
media_simulada = np.mean(resultados_simulados)
desvio_simulado = np.std(resultados_simulados)
variancia_simulada = np.var(resultados_simulados)

print(f"üî¨ Resultados da Simula√ß√£o ({num_simulacoes} experimentos):")
print(f"   M√©dia Simulada: {media_simulada:.2f} caras")
print(f"   Desvio Simulado: {desvio_simulado:.2f}")
print(f"   Vari√¢ncia Simulada: {variancia_simulada:.2f}")
print()
print(f"üìä Compara√ß√£o Teoria vs Simula√ß√£o:")
print(f"   M√©dia - Teoria: {media_teorica:.2f} | Simula√ß√£o: {media_simulada:.2f} | Diferen√ßa: {abs(media_teorica - media_simulada):.2f}")
print(f"   Desvio - Teoria: {desvio_teorico:.2f} | Simula√ß√£o: {desvio_simulado:.2f} | Diferen√ßa: {abs(desvio_teorico - desvio_simulado):.2f}")

In [None]:
# Compara√ß√£o visual: Teoria vs Simula√ß√£o
plt.figure(figsize=(14, 6))

# Histograma dos resultados simulados vs teoria
plt.subplot(1, 2, 1)
frequencias_sim, _, _ = plt.hist(resultados_simulados, bins=np.arange(-0.5, n+1.5, 1), 
                                 alpha=0.7, color='lightgreen', density=True, 
                                 label='Simula√ß√£o', edgecolor='black')
plt.bar(k_valores, probabilidades, alpha=0.6, color='red', 
        label='Teoria', width=0.8)
plt.xlabel('N√∫mero de Caras (k)')
plt.ylabel('Probabilidade')
plt.title('Compara√ß√£o: Teoria vs Simula√ß√£o')
plt.legend()
plt.grid(True, alpha=0.3)

# Converg√™ncia das m√©dias
plt.subplot(1, 2, 2)
medias_acumuladas = np.cumsum(resultados_simulados) / np.arange(1, num_simulacoes + 1)
plt.plot(range(1, num_simulacoes + 1), medias_acumuladas, color='blue', alpha=0.7)
plt.axhline(media_teorica, color='red', linestyle='--', linewidth=2, label=f'M√©dia Te√≥rica = {media_teorica}')
plt.xlabel('N√∫mero de Simula√ß√µes')
plt.ylabel('M√©dia Acumulada')
plt.title('Converg√™ncia para a M√©dia Te√≥rica\n(Lei dos Grandes N√∫meros)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üé≤ Exemplo 3: Efeito dos Par√¢metros n e p

Vamos explorar como diferentes valores de **n** (n√∫mero de tentativas) e **p** (probabilidade de sucesso) afetam a forma da distribui√ß√£o:

In [None]:
# Configura√ß√µes para compara√ß√£o
configs = [
    {'n': 10, 'p': 0.1, 'label': 'n=10, p=0.1', 'color': 'blue'},
    {'n': 10, 'p': 0.5, 'label': 'n=10, p=0.5', 'color': 'green'},
    {'n': 10, 'p': 0.8, 'label': 'n=10, p=0.8', 'color': 'red'},
    {'n': 30, 'p': 0.2, 'label': 'n=30, p=0.2', 'color': 'orange'},
]

plt.figure(figsize=(15, 10))

for i, config in enumerate(configs):
    n_conf = config['n']
    p_conf = config['p']
    
    # Valores de k poss√≠veis
    k_vals = np.arange(0, n_conf + 1)
    
    # Probabilidades
    probs = binom.pmf(k_vals, n_conf, p_conf)
    
    # Propriedades
    media = n_conf * p_conf
    desvio = np.sqrt(n_conf * p_conf * (1 - p_conf))
    
    # Subplot para cada configura√ß√£o
    plt.subplot(2, 2, i + 1)
    plt.bar(k_vals, probs, alpha=0.7, color=config['color'], edgecolor='black')
    plt.axvline(media, color='red', linestyle='--', linewidth=2, 
                label=f'Œº={media:.1f}, œÉ={desvio:.1f}')
    plt.xlabel('N√∫mero de Sucessos (k)')
    plt.ylabel('Probabilidade')
    plt.title(f'Distribui√ß√£o Binomial\n{config["label"]}')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Limitar eixo x para melhor visualiza√ß√£o
    if n_conf > 20:
        plt.xlim(max(0, media - 3*desvio), min(n_conf, media + 3*desvio))

plt.tight_layout()
plt.show()

## üè≠ Exemplo 4: Aplica√ß√£o Pr√°tica - Controle de Qualidade

**Cen√°rio**: Uma f√°brica produz componentes eletr√¥nicos. Sabemos que 5% dos componentes s√£o defeituosos. Em um lote de 20 componentes, qual a probabilidade de encontrar exatamente 2 defeituosos?

In [None]:
# Par√¢metros do problema
n_componentes = 20
p_defeituoso = 0.05
k_defeituosos = 2

# C√°lculo da probabilidade espec√≠fica
prob_exatos_2 = binom.pmf(k_defeituosos, n_componentes, p_defeituoso)

# Probabilidades de interesse para controle de qualidade
prob_0_defeituosos = binom.pmf(0, n_componentes, p_defeituoso)
prob_1_defeituoso = binom.pmf(1, n_componentes, p_defeituoso)
prob_ate_1_defeituoso = binom.cdf(1, n_componentes, p_defeituoso)
prob_2_ou_mais = 1 - prob_ate_1_defeituoso

print("üè≠ AN√ÅLISE DE CONTROLE DE QUALIDADE")
print("=" * 40)
print(f"Lote: {n_componentes} componentes")
print(f"Taxa de defeito: {p_defeituoso*100}%")
print()
print("üìä PROBABILIDADES:")
print(f"   P(exatamente {k_defeituosos} defeituosos) = {prob_exatos_2:.4f} ({prob_exatos_2*100:.2f}%)")
print(f"   P(nenhum defeituoso) = {prob_0_defeituosos:.4f} ({prob_0_defeituosos*100:.2f}%)")
print(f"   P(1 defeituoso) = {prob_1_defeituoso:.4f} ({prob_1_defeituoso*100:.2f}%)")
print(f"   P(at√© 1 defeituoso) = {prob_ate_1_defeituoso:.4f} ({prob_ate_1_defeituoso*100:.2f}%)")
print(f"   P(2 ou mais defeituosos) = {prob_2_ou_mais:.4f} ({prob_2_ou_mais*100:.2f}%)")
print()

# M√©dia e desvio esperados
media_defeituosos = n_componentes * p_defeituoso
desvio_defeituosos = np.sqrt(n_componentes * p_defeituoso * (1 - p_defeituoso))

print("üìà ESTAT√çSTICAS ESPERADAS:")
print(f"   N√∫mero m√©dio de defeituosos: {media_defeituosos:.2f}")
print(f"   Desvio padr√£o: {desvio_defeituosos:.2f}")

In [None]:
# Visualiza√ß√£o da distribui√ß√£o para o problema de controle de qualidade
k_vals_cq = np.arange(0, 8)  # Focar nos valores mais prov√°veis
probs_cq = binom.pmf(k_vals_cq, n_componentes, p_defeituoso)

plt.figure(figsize=(12, 6))

# Gr√°fico principal
plt.subplot(1, 2, 1)
cores = ['lightgreen' if k <= 1 else 'orange' if k == 2 else 'red' for k in k_vals_cq]
bars = plt.bar(k_vals_cq, probs_cq, alpha=0.8, color=cores, edgecolor='black')

# Destacar a barra de k=2
bars[2].set_color('gold')
bars[2].set_edgecolor('red')
bars[2].set_linewidth(3)

plt.axvline(media_defeituosos, color='red', linestyle='--', linewidth=2, 
            label=f'M√©dia = {media_defeituosos:.1f}')
plt.xlabel('N√∫mero de Componentes Defeituosos')
plt.ylabel('Probabilidade')
plt.title('Controle de Qualidade - Distribui√ß√£o Binomial\n(n=20, p=0.05)')
plt.legend()
plt.grid(True, alpha=0.3)

# Adicionar anota√ß√µes
plt.annotate(f'P(X=2) = {prob_exatos_2:.3f}', 
            xy=(2, prob_exatos_2), xytext=(4, prob_exatos_2 + 0.05),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=12, fontweight='bold')

# Simula√ß√£o para verifica√ß√£o
plt.subplot(1, 2, 2)
simulacao_cq = binom.rvs(n_componentes, p_defeituoso, size=5000)
plt.hist(simulacao_cq, bins=np.arange(-0.5, 8.5, 1), alpha=0.7, 
         density=True, color='lightblue', edgecolor='black', label='Simula√ß√£o')
plt.bar(k_vals_cq, probs_cq, alpha=0.6, color='red', width=0.6, label='Teoria')
plt.xlabel('N√∫mero de Componentes Defeituosos')
plt.ylabel('Probabilidade')
plt.title('Verifica√ß√£o por Simula√ß√£o\n(5000 lotes)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# An√°lise da simula√ß√£o
freq_2_defeituosos = np.sum(simulacao_cq == 2) / len(simulacao_cq)
print(f"\nüî¨ VERIFICA√á√ÉO POR SIMULA√á√ÉO:")
print(f"   Frequ√™ncia de exatamente 2 defeituosos: {freq_2_defeituosos:.4f} ({freq_2_defeituosos*100:.2f}%)")
print(f"   Diferen√ßa da teoria: {abs(freq_2_defeituosos - prob_exatos_2):.4f}")

## üéØ Exerc√≠cio Interativo: Teste seus Conhecimentos

Modifique os par√¢metros abaixo e observe como a distribui√ß√£o muda:

In [None]:
# MODIFIQUE ESTES PAR√ÇMETROS E EXECUTE A C√âLULA
n_exercicio = 15     # N√∫mero de tentativas (0 < n ‚â§ 50)
p_exercicio = 0.3    # Probabilidade de sucesso (0 < p < 1)
k_interesse = 5      # N√∫mero de sucessos de interesse (0 ‚â§ k ‚â§ n)

# Valida√ß√£o dos par√¢metros
if not (0 < n_exercicio <= 50):
    print("‚ö†Ô∏è ERRO: n deve estar entre 1 e 50")
elif not (0 < p_exercicio < 1):
    print("‚ö†Ô∏è ERRO: p deve estar entre 0 e 1")
elif not (0 <= k_interesse <= n_exercicio):
    print(f"‚ö†Ô∏è ERRO: k deve estar entre 0 e {n_exercicio}")
else:
    # C√°lculos
    k_vals_ex = np.arange(0, n_exercicio + 1)
    probs_ex = binom.pmf(k_vals_ex, n_exercicio, p_exercicio)
    
    prob_k_interesse = binom.pmf(k_interesse, n_exercicio, p_exercicio)
    prob_ate_k = binom.cdf(k_interesse, n_exercicio, p_exercicio)
    
    media_ex = n_exercicio * p_exercicio
    desvio_ex = np.sqrt(n_exercicio * p_exercicio * (1 - p_exercicio))
    
    # Resultados
    print("üéØ RESULTADOS DO SEU EXERC√çCIO:")
    print("=" * 35)
    print(f"Par√¢metros: n={n_exercicio}, p={p_exercicio}")
    print(f"M√©dia esperada: {media_ex:.2f}")
    print(f"Desvio padr√£o: {desvio_ex:.2f}")
    print()
    print(f"P(X = {k_interesse}) = {prob_k_interesse:.4f} ({prob_k_interesse*100:.2f}%)")
    print(f"P(X ‚â§ {k_interesse}) = {prob_ate_k:.4f} ({prob_ate_k*100:.2f}%)")
    print(f"P(X > {k_interesse}) = {1-prob_ate_k:.4f} ({(1-prob_ate_k)*100:.2f}%)")
    
    # Gr√°fico
    plt.figure(figsize=(10, 6))
    cores_ex = ['gold' if k == k_interesse else 'lightblue' for k in k_vals_ex]
    plt.bar(k_vals_ex, probs_ex, alpha=0.8, color=cores_ex, edgecolor='navy')
    plt.axvline(media_ex, color='red', linestyle='--', linewidth=2, 
                label=f'M√©dia = {media_ex:.1f}')
    
    # Destacar k de interesse
    plt.annotate(f'P(X={k_interesse})\n= {prob_k_interesse:.3f}', 
                xy=(k_interesse, prob_k_interesse), 
                xytext=(k_interesse + n_exercicio*0.15, prob_k_interesse + max(probs_ex)*0.2),
                arrowprops=dict(arrowstyle='->', color='red', lw=2),
                fontsize=11, fontweight='bold',
                bbox=dict(boxstyle="round,pad=0.3", facecolor='yellow', alpha=0.8))
    
    plt.xlabel('N√∫mero de Sucessos (k)')
    plt.ylabel('Probabilidade')
    plt.title(f'Distribui√ß√£o Binomial - Seu Exerc√≠cio\nn={n_exercicio}, p={p_exercicio}')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()

## üìù Resumo e Conclus√µes

### ‚úÖ O que aprendemos:

1. **Conceito**: A distribui√ß√£o binomial modela experimentos com resultados bin√°rios repetidos
2. **Par√¢metros**: n (tentativas) e p (probabilidade de sucesso)
3. **Propriedades**: M√©dia = np, Vari√¢ncia = np(1-p)
4. **Aplica√ß√µes**: Controle de qualidade, pesquisas, jogos, etc.
5. **Simula√ß√£o**: A Lei dos Grandes N√∫meros confirma a teoria

### üîç Observa√ß√µes importantes:

- Quando **p = 0.5**, a distribui√ß√£o √© **sim√©trica**
- Quando **p < 0.5**, a distribui√ß√£o √© **assim√©trica √† direita**
- Quando **p > 0.5**, a distribui√ß√£o √© **assim√©trica √† esquerda**
- Quanto **maior n**, mais a distribui√ß√£o se aproxima da **normal** (Teorema Central do Limite)

### üí° Dicas pr√°ticas:

- Use a distribui√ß√£o binomial quando tiver **experimentos independentes** com **dois resultados**
- Verifique sempre se a **probabilidade √© constante** em todas as tentativas
- Para **n grande** e **p pr√≥ximo de 0.5**, considere aproximar pela distribui√ß√£o normal
- Para **n grande** e **p pequeno**, considere usar a distribui√ß√£o de Poisson