# üéØ Probabilidade Condicional e Teorema de Bayes: Atualizando a Cren√ßa

## M√≥dulo 3 - Estat√≠stica para IA

### Pedro Nunes Guth

---

E a√≠, pessoal! Bora para mais uma jornada no mundo da estat√≠stica? üöÄ

Hoje vamos falar sobre um dos conceitos mais **poderosos** da estat√≠stica: a **Probabilidade Condicional** e o famoso **Teorema de Bayes**!

T√°, mas o que isso tem a ver com IA? TUDO! Desde filtros de spam at√© diagn√≥sticos m√©dicos, o Teorema de Bayes est√° por toda parte. √â literalmente a matem√°tica por tr√°s de "atualizar nossas cren√ßas" com novas evid√™ncias.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_01.png)

In [None]:
# Imports necess√°rios para nossa jornada bayesiana!
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
import warnings

warnings.filterwarnings('ignore')

# Configura√ß√µes para gr√°ficos mais bonitos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("üéâ Bibliotecas carregadas! Bora descobrir os segredos de Bayes!")

## ü§î O que √© Probabilidade Condicional?

**Probabilidade Condicional** √© a probabilidade de um evento acontecer, dado que outro evento j√° aconteceu.

Pensa assim: voc√™ t√° no shopping e v√™ que t√° chovendo l√° fora. Qual a probabilidade de voc√™ ter esquecido o guarda-chuva em casa, **dado que** t√° chovendo?

A nota√ß√£o matem√°tica √©:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

Onde:
- $P(A|B)$ = Probabilidade de A acontecer dado que B j√° aconteceu
- $P(A \cap B)$ = Probabilidade de A E B acontecerem juntos
- $P(B)$ = Probabilidade de B acontecer

**Dica do Pedro:** L√™ como "Probabilidade de A dado B". O s√≠mbolo | significa "dado que" ou "condicionado a".

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_02.png)

In [None]:
# Vamos criar um exemplo pr√°tico de probabilidade condicional
# Cen√°rio: Estudantes aprovados em matem√°tica e f√≠sica

# Dados simulados de 1000 estudantes
np.random.seed(42)
n_estudantes = 1000

# Probabilidades base
prob_matematica = 0.7  # 70% passam em matem√°tica
prob_fisica = 0.6      # 60% passam em f√≠sica
prob_ambas = 0.5       # 50% passam em ambas

# Simulando os dados
passou_matematica = np.random.choice([0, 1], size=n_estudantes, p=[1-prob_matematica, prob_matematica])
passou_fisica = np.random.choice([0, 1], size=n_estudantes, p=[1-prob_fisica, prob_fisica])

# Ajustando para ter correla√ß√£o realista
# Se passou em matem√°tica, tem mais chance de passar em f√≠sica
for i in range(n_estudantes):
    if passou_matematica[i] == 1:
        passou_fisica[i] = np.random.choice([0, 1], p=[0.2, 0.8])
    else:
        passou_fisica[i] = np.random.choice([0, 1], p=[0.7, 0.3])

# Criando DataFrame
df_estudantes = pd.DataFrame({
    'matematica': passou_matematica,
    'fisica': passou_fisica
})

print("üìä Dados dos estudantes:")
print(df_estudantes.head(10))
print(f"\nüìà Total de estudantes: {len(df_estudantes)}")

In [None]:
# Calculando probabilidades condicionais na pr√°tica

# Probabilidades b√°sicas
prob_mat = df_estudantes['matematica'].mean()
prob_fis = df_estudantes['fisica'].mean()
prob_ambas = ((df_estudantes['matematica'] == 1) & (df_estudantes['fisica'] == 1)).mean()

print("üéØ PROBABILIDADES B√ÅSICAS:")
print(f"P(Matem√°tica) = {prob_mat:.3f}")
print(f"P(F√≠sica) = {prob_fis:.3f}")
print(f"P(Matem√°tica E F√≠sica) = {prob_ambas:.3f}")

# Probabilidade condicional: P(F√≠sica | Matem√°tica)
estudantes_mat = df_estudantes[df_estudantes['matematica'] == 1]
prob_fisica_dado_mat = estudantes_mat['fisica'].mean()

print("\nüî• PROBABILIDADES CONDICIONAIS:")
print(f"P(F√≠sica | Matem√°tica) = {prob_fisica_dado_mat:.3f}")
print(f"Usando a f√≥rmula: P(F√≠sica | Matem√°tica) = {prob_ambas/prob_mat:.3f}")

# Probabilidade condicional: P(Matem√°tica | F√≠sica)
estudantes_fis = df_estudantes[df_estudantes['fisica'] == 1]
prob_mat_dado_fisica = estudantes_fis['matematica'].mean()

print(f"P(Matem√°tica | F√≠sica) = {prob_mat_dado_fisica:.3f}")
print(f"Usando a f√≥rmula: P(Matem√°tica | F√≠sica) = {prob_ambas/prob_fis:.3f}")

print("\nüí° Viu a diferen√ßa? A ordem importa na probabilidade condicional!")

In [None]:
# Visualizando probabilidades condicionais
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Tabela de conting√™ncia
tabela_contingencia = pd.crosstab(df_estudantes['matematica'], df_estudantes['fisica'], 
                                 rownames=['Matem√°tica'], colnames=['F√≠sica'])

# Heatmap da tabela de conting√™ncia
sns.heatmap(tabela_contingencia, annot=True, fmt='d', cmap='Blues', 
            ax=axes[0], cbar_kws={'label': 'N√∫mero de Estudantes'})
axes[0].set_title('Tabela de Conting√™ncia\n(Contagem de Estudantes)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Passou em F√≠sica')
axes[0].set_ylabel('Passou em Matem√°tica')

# Probabilidades condicionais visualizadas
prob_data = {
    'P(F√≠sica|Matem√°tica=1)': [prob_fisica_dado_mat, 1-prob_fisica_dado_mat],
    'P(F√≠sica|Matem√°tica=0)': [df_estudantes[df_estudantes['matematica'] == 0]['fisica'].mean(),
                              1-df_estudantes[df_estudantes['matematica'] == 0]['fisica'].mean()]
}

x = np.arange(2)
width = 0.35

axes[1].bar(x - width/2, prob_data['P(F√≠sica|Matem√°tica=1)'], width, 
           label='P(F√≠sica|Matem√°tica=1)', alpha=0.8)
axes[1].bar(x + width/2, prob_data['P(F√≠sica|Matem√°tica=0)'], width, 
           label='P(F√≠sica|Matem√°tica=0)', alpha=0.8)

axes[1].set_xlabel('Resultado em F√≠sica')
axes[1].set_ylabel('Probabilidade')
axes[1].set_title('Probabilidades Condicionais\nP(F√≠sica | Matem√°tica)', fontsize=14, fontweight='bold')
axes[1].set_xticks(x)
axes[1].set_xticklabels(['Reprovou', 'Passou'])
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üìä Liiindo! V√™ como a probabilidade de passar em f√≠sica muda dependendo se passou em matem√°tica!")

## üß† O Teorema de Bayes: A F√≥rmula M√°gica

Agora vem a parte mais **sensacional**! O Teorema de Bayes √© uma extens√£o da probabilidade condicional que nos permite "virar o jogo".

**Cen√°rio:** Voc√™ tem uma cren√ßa inicial sobre algo (probabilidade a priori) e recebe uma nova evid√™ncia. O Teorema de Bayes te ajuda a atualizar sua cren√ßa (probabilidade a posteriori).

### A F√≥rmula Sagrada:

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Ou na vers√£o mais completa:

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B|A) \cdot P(A) + P(B|\neg A) \cdot P(\neg A)}$$

Onde:
- $P(A|B)$ = **Posteriori** (o que queremos descobrir)
- $P(B|A)$ = **Verossimilhan√ßa** (qu√£o prov√°vel √© a evid√™ncia dado A)
- $P(A)$ = **Priori** (nossa cren√ßa inicial)
- $P(B)$ = **Evid√™ncia** (probabilidade marginal)

**Dica do Pedro:** Pensa assim: "Eu tinha uma opini√£o, recebi uma informa√ß√£o nova, agora preciso atualizar minha opini√£o de forma inteligente!"

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_03.png)

In [None]:
# Exemplo cl√°ssico: Teste m√©dico
# Vamos simular um teste para detectar uma doen√ßa

def teorema_bayes(prob_priori, prob_verossimilhanca, prob_evidencia_total):
    """
    Calcula a probabilidade posteriori usando o Teorema de Bayes
    
    Args:
        prob_priori: P(A) - Probabilidade a priori
        prob_verossimilhanca: P(B|A) - Probabilidade da evid√™ncia dado A
        prob_evidencia_total: P(B) - Probabilidade total da evid√™ncia
    
    Returns:
        Probabilidade a posteriori P(A|B)
    """
    return (prob_verossimilhanca * prob_priori) / prob_evidencia_total

# Dados do problema m√©dico
print("üè• CEN√ÅRIO: Teste para detectar uma doen√ßa rara")
print("="*50)

# Probabilidades conhecidas
prob_doenca = 0.001  # 0.1% da popula√ß√£o tem a doen√ßa (muito rara!)
prob_teste_positivo_com_doenca = 0.99  # Teste tem 99% de sensibilidade
prob_teste_positivo_sem_doenca = 0.02  # 2% de falsos positivos

print(f"üìä P(Doen√ßa) = {prob_doenca:.3f} ({prob_doenca*100:.1f}% da popula√ß√£o)")
print(f"üéØ P(Teste+|Doen√ßa) = {prob_teste_positivo_com_doenca:.3f} (Sensibilidade)")
print(f"‚ö†Ô∏è  P(Teste+|Sem Doen√ßa) = {prob_teste_positivo_sem_doenca:.3f} (Falsos positivos)")

# Calculando P(Teste+) - probabilidade total de teste positivo
prob_teste_positivo = (prob_teste_positivo_com_doenca * prob_doenca + 
                      prob_teste_positivo_sem_doenca * (1 - prob_doenca))

print(f"\nüßÆ P(Teste+) = {prob_teste_positivo:.4f}")

# Aplicando Bayes: P(Doen√ßa|Teste+)
prob_doenca_dado_teste_positivo = teorema_bayes(
    prob_doenca, 
    prob_teste_positivo_com_doenca, 
    prob_teste_positivo
)

print(f"\nüéØ RESULTADO USANDO BAYES:")
print(f"P(Doen√ßa|Teste+) = {prob_doenca_dado_teste_positivo:.4f} ({prob_doenca_dado_teste_positivo*100:.2f}%)")
print(f"\nü§Ø SURPRESA! Mesmo com teste positivo, s√≥ tem {prob_doenca_dado_teste_positivo*100:.2f}% de chance de ter a doen√ßa!")
print("   Isso acontece porque a doen√ßa √© muito rara!")

In [None]:
# Visualizando o impacto da preval√™ncia no resultado de Bayes

# Testando diferentes preval√™ncias da doen√ßa
prevalencias = np.logspace(-4, -1, 50)  # De 0.01% a 10%
prob_posteriores = []

for prev in prevalencias:
    prob_teste_pos_total = (prob_teste_positivo_com_doenca * prev + 
                           prob_teste_positivo_sem_doenca * (1 - prev))
    
    prob_post = teorema_bayes(prev, prob_teste_positivo_com_doenca, prob_teste_pos_total)
    prob_posteriores.append(prob_post)

# Criando o gr√°fico
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Probabilidade posterior vs preval√™ncia
ax1.semilogx(prevalencias * 100, np.array(prob_posteriores) * 100, 'b-', linewidth=3)
ax1.axhline(y=50, color='r', linestyle='--', alpha=0.7, label='50% (Linha de Refer√™ncia)')
ax1.axvline(x=0.1, color='g', linestyle='--', alpha=0.7, label='Preval√™ncia Original (0.1%)')
ax1.set_xlabel('Preval√™ncia da Doen√ßa (%)', fontsize=12)
ax1.set_ylabel('P(Doen√ßa | Teste+) (%)', fontsize=12)
ax1.set_title('Como a Preval√™ncia Afeta o\nResultado do Teorema de Bayes', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3)
ax1.legend()

# Gr√°fico 2: Barras mostrando o caso espec√≠fico
categorias = ['P(Doen√ßa)\n(Priori)', 'P(Doen√ßa|Teste+)\n(Posteriori)']
valores = [prob_doenca * 100, prob_doenca_dado_teste_positivo * 100]
cores = ['lightblue', 'darkblue']

bars = ax2.bar(categorias, valores, color=cores, alpha=0.8)
ax2.set_ylabel('Probabilidade (%)', fontsize=12)
ax2.set_title('Atualizando a Cren√ßa\ncom o Teorema de Bayes', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3, axis='y')

# Adicionando valores nas barras
for bar, valor in zip(bars, valores):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + 0.1,
            f'{valor:.3f}%', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("üìà Liiindo! V√™ como a preval√™ncia (probabilidade a priori) influencia MUITO o resultado!")
print("üí° Dica do Pedro: Em doen√ßas raras, mesmo testes precisos podem ter baixo valor preditivo positivo!")

## üìß Aplica√ß√£o Cl√°ssica: Filtro de Spam Bayesiano

Bora para o exemplo mais **cl√°ssico** e √∫til do Teorema de Bayes: filtrar spam! üéØ

A ideia √© simples:
1. Temos emails que s√£o spam e n√£o-spam
2. Cada palavra tem uma probabilidade de aparecer em spam vs n√£o-spam
3. Quando chega um email novo, usamos Bayes para calcular a probabilidade de ser spam

### Como funciona:

Para cada palavra $w_i$ no email:

$$P(\text{Spam}|w_1, w_2, ..., w_n) = \frac{P(w_1, w_2, ..., w_n|\text{Spam}) \cdot P(\text{Spam})}{P(w_1, w_2, ..., w_n)}$$

**Assumindo independ√™ncia** (Naive Bayes):

$$P(\text{Spam}|\text{palavras}) = \frac{\prod_{i=1}^{n} P(w_i|\text{Spam}) \cdot P(\text{Spam})}{P(\text{palavras})}$$

**Dica do Pedro:** "Naive" porque assume que as palavras s√£o independentes (sabemos que n√£o s√£o, mas funciona bem na pr√°tica!).

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_04.png)

In [None]:
# Criando um dataset de emails simulado para demonstrar o filtro de spam

# Emails de spam (caracter√≠sticas t√≠picas)
emails_spam = [
    "GANHE DINHEIRO R√ÅPIDO! CLIQUE AQUI AGORA! OFERTA LIMITADA!",
    "Voc√™ ganhou um pr√™mio! Clique para resgatar seu dinheiro gr√°tis!",
    "PROMO√á√ÉO IMPERD√çVEL! Dinheiro f√°cil! Ganhe muito agora!",
    "Oferta exclusiva! Clique aqui e ganhe dinheiro sem trabalhar!",
    "URGENTE! Seu pr√™mio expira hoje! Clique agora para ganhar!",
    "Dinheiro gr√°tis! N√£o perca essa oportunidade √∫nica! Clique j√°!",
    "PARAB√âNS! Voc√™ foi selecionado para ganhar R$ 10.000! Clique!",
    "Oferta por tempo limitado! Ganhe dinheiro r√°pido e f√°cil!",
    "ATEN√á√ÉO! Promo√ß√£o especial! Clique e receba seu pr√™mio!",
    "Oportunidade √∫nica! Ganhe dinheiro trabalhando em casa!"
]

# Emails leg√≠timos (ham)
emails_ham = [
    "Reuni√£o agendada para amanh√£ √†s 14h na sala de confer√™ncias.",
    "Obrigado pelo seu trabalho excelente no projeto. Parab√©ns pela dedica√ß√£o.",
    "Lembrete: prazo de entrega do relat√≥rio √© sexta-feira.",
    "Oi, tudo bem? Vamos almo√ßar juntos hoje? Que tal aquele restaurante?",
    "Confirma√ß√£o do seu pedido. Produto ser√° entregue em 3 dias √∫teis.",
    "Feliz anivers√°rio! Desejo muito sucesso e felicidade sempre!",
    "Reuni√£o cancelada devido ao feriado. Reagendaremos para pr√≥xima semana.",
    "Relat√≥rio mensal est√° pronto. Favor revisar e aprovar quando poss√≠vel.",
    "Convite para apresenta√ß√£o do novo produto na pr√≥xima segunda-feira.",
    "Obrigado pela sua participa√ß√£o na reuni√£o. Suas ideias foram valiosas."
]

# Criando DataFrame
emails_data = []

# Adicionando emails spam
for email in emails_spam:
    emails_data.append({'texto': email.lower(), 'spam': 1})

# Adicionando emails ham
for email in emails_ham:
    emails_data.append({'texto': email.lower(), 'spam': 0})

df_emails = pd.DataFrame(emails_data)

print("üìß DATASET DE EMAILS CRIADO:")
print(f"Total de emails: {len(df_emails)}")
print(f"Emails spam: {df_emails['spam'].sum()}")
print(f"Emails leg√≠timos: {len(df_emails) - df_emails['spam'].sum()}")

print("\nüìù EXEMPLOS:")
print("\nSPAM:")
print(f'"{
f"}"')
print("\nLEG√çTIMO:")
print(f'"{
f"}"')

# Mostrando estat√≠sticas b√°sicas
print(f"\nüìä Distribui√ß√£o: {df_emails['spam'].value_counts().to_dict()}")

In [None]:
# Implementando um classificador Naive Bayes do zero!
from collections import defaultdict, Counter
import math

class NaiveBayesSpam:
    def __init__(self):
        self.palavras_spam = defaultdict(int)
        self.palavras_ham = defaultdict(int)
        self.total_palavras_spam = 0
        self.total_palavras_ham = 0
        self.prob_spam = 0
        self.prob_ham = 0
        self.vocabulario = set()
        
    def preprocessar_texto(self, texto):
        """Remove pontua√ß√£o e divide em palavras"""
        import re
        # Remove pontua√ß√£o e converte para min√∫sculas
        texto = re.sub(r'[^\w\s]', '', texto.lower())
        return texto.split()
    
    def treinar(self, emails, labels):
        """Treina o classificador com emails e seus r√≥tulos"""
        print("üß† Treinando o classificador Naive Bayes...")
        
        # Contando emails spam vs ham
        total_emails = len(emails)
        spam_count = sum(labels)
        ham_count = total_emails - spam_count
        
        # Probabilidades a priori
        self.prob_spam = spam_count / total_emails
        self.prob_ham = ham_count / total_emails
        
        print(f"üìä P(Spam) = {self.prob_spam:.3f}")
        print(f"üìä P(Ham) = {self.prob_ham:.3f}")
        
        # Contando palavras em cada classe
        for email, label in zip(emails, labels):
            palavras = self.preprocessar_texto(email)
            self.vocabulario.update(palavras)
            
            if label == 1:  # Spam
                for palavra in palavras:
                    self.palavras_spam[palavra] += 1
                    self.total_palavras_spam += 1
            else:  # Ham
                for palavra in palavras:
                    self.palavras_ham[palavra] += 1
                    self.total_palavras_ham += 1
        
        print(f"üìö Vocabul√°rio: {len(self.vocabulario)} palavras √∫nicas")
        print(f"üìù Total palavras spam: {self.total_palavras_spam}")
        print(f"üìù Total palavras ham: {self.total_palavras_ham}")
    
    def calcular_probabilidade_palavra(self, palavra, classe):
        """Calcula P(palavra|classe) com suaviza√ß√£o de Laplace"""
        if classe == 'spam':
            count = self.palavras_spam[palavra]
            total = self.total_palavras_spam
        else:
            count = self.palavras_ham[palavra]
            total = self.total_palavras_ham
        
        # Suaviza√ß√£o de Laplace (adiciona 1 ao numerador e vocabul√°rio ao denominador)
        return (count + 1) / (total + len(self.vocabulario))
    
    def classificar(self, email):
        """Classifica um email como spam ou ham"""
        palavras = self.preprocessar_texto(email)
        
        # Calculando log-probabilidades (para evitar underflow)
        log_prob_spam = math.log(self.prob_spam)
        log_prob_ham = math.log(self.prob_ham)
        
        for palavra in palavras:
            log_prob_spam += math.log(self.calcular_probabilidade_palavra(palavra, 'spam'))
            log_prob_ham += math.log(self.calcular_probabilidade_palavra(palavra, 'ham'))
        
        # Convertendo de volta para probabilidades (aproxima√ß√£o)
        if log_prob_spam > log_prob_ham:
            return 1, math.exp(log_prob_spam) / (math.exp(log_prob_spam) + math.exp(log_prob_ham))
        else:
            return 0, math.exp(log_prob_ham) / (math.exp(log_prob_spam) + math.exp(log_prob_ham))

# Testando nosso classificador
classificador = NaiveBayesSpam()
classificador.treinar(df_emails['texto'].tolist(), df_emails['spam'].tolist())

print("\n‚úÖ Classificador treinado com sucesso!")

In [None]:
# Testando o classificador com novos emails

emails_teste = [
    "Ganhe muito dinheiro! Oferta imperd√≠vel! Clique agora!",
    "Oi, como vai? Vamos nos encontrar para o almo√ßo?",
    "PR√äMIO URGENTE! Voc√™ ganhou! Clique para resgatar!",
    "Reuni√£o de trabalho cancelada. Reagendaremos em breve.",
    "Oferta limitada! Dinheiro gr√°tis! N√£o perca!"
]

print("üß™ TESTANDO O CLASSIFICADOR:")
print("="*60)

for i, email in enumerate(emails_teste, 1):
    predicao, confianca = classificador.classificar(email)
    classe = "SPAM" if predicao == 1 else "HAM"
    
    print(f"\nüìß Email {i}: \"{email}\"")
    print(f"üéØ Classifica√ß√£o: {classe} (Confian√ßa: {confianca:.3f})")
    
    if classe == "SPAM":
        print("üö® ‚ö†Ô∏è  Este email foi identificado como SPAM!")
    else:
        print("‚úÖ üì¨ Este email parece leg√≠timo.")

print("\nüí° Dica do Pedro: V√™ como o classificador capturou os padr√µes das palavras!")
print("   Palavras como 'ganhe', 'dinheiro', 'clique' aumentam a probabilidade de spam!")

In [None]:
# Analisando as palavras mais "spam" e "ham"

# Calculando "spamicidade" de cada palavra
palavras_importantes = {}

for palavra in classificador.vocabulario:
    if len(palavra) > 2:  # Ignorando palavras muito pequenas
        prob_spam = classificador.calcular_probabilidade_palavra(palavra, 'spam')
        prob_ham = classificador.calcular_probabilidade_palavra(palavra, 'ham')
        
        # Raz√£o spam/ham (maior = mais spam)
        razao_spam = prob_spam / prob_ham if prob_ham > 0 else float('inf')
        
        if razao_spam != 1:  # Ignorando palavras neutras
            palavras_importantes[palavra] = {
                'razao_spam': razao_spam,
                'prob_spam': prob_spam,
                'prob_ham': prob_ham,
                'count_spam': classificador.palavras_spam[palavra],
                'count_ham': classificador.palavras_ham[palavra]
            }

# Ordenando por raz√£o spam/ham
palavras_ordenadas = sorted(palavras_importantes.items(), 
                           key=lambda x: x[1]['razao_spam'], reverse=True)

print("üîç AN√ÅLISE DE PALAVRAS MAIS INDICATIVAS:")
print("="*70)

print("\nüö® TOP 10 PALAVRAS MAIS 'SPAM':")
for palavra, stats in palavras_ordenadas[:10]:
    print(f"{palavra:15} | Raz√£o: {stats['razao_spam']:6.2f} | "
          f"P(spam): {stats['prob_spam']:5.3f} | P(ham): {stats['prob_ham']:5.3f}")

print("\n‚úÖ TOP 10 PALAVRAS MAIS 'HAM':")
for palavra, stats in palavras_ordenadas[-10:]:
    print(f"{palavra:15} | Raz√£o: {stats['razao_spam']:6.2f} | "
          f"P(spam): {stats['prob_spam']:5.3f} | P(ham): {stats['prob_ham']:5.3f}")

print("\nüí° Dica do Pedro: Raz√£o > 1 = mais prov√°vel em spam, Raz√£o < 1 = mais prov√°vel em ham!")

In [None]:
# Visualizando o desempenho do classificador

# Testando em todo o dataset (s√≥ para demonstra√ß√£o)
predicoes = []
confiancas = []

for email in df_emails['texto']:
    pred, conf = classificador.classificar(email)
    predicoes.append(pred)
    confiancas.append(conf)

df_emails['predicao'] = predicoes
df_emails['confianca'] = confiancas

# Calculando m√©tricas
acuracia = (df_emails['spam'] == df_emails['predicao']).mean()

print(f"üéØ Acur√°cia no dataset: {acuracia:.3f} ({acuracia*100:.1f}%)")

# Criando visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Matriz de Confus√£o
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(df_emails['spam'], df_emails['predicao'])
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[0,0],
           xticklabels=['Ham', 'Spam'], yticklabels=['Ham', 'Spam'])
axes[0,0].set_title('Matriz de Confus√£o', fontsize=14, fontweight='bold')
axes[0,0].set_xlabel('Predi√ß√£o')
axes[0,0].set_ylabel('Real')

# 2. Distribui√ß√£o de Confian√ßa
spam_conf = df_emails[df_emails['spam'] == 1]['confianca']
ham_conf = df_emails[df_emails['spam'] == 0]['confianca']

axes[0,1].hist(spam_conf, alpha=0.7, label='Spam Real', bins=10, color='red')
axes[0,1].hist(ham_conf, alpha=0.7, label='Ham Real', bins=10, color='blue')
axes[0,1].set_xlabel('Confian√ßa da Predi√ß√£o')
axes[0,1].set_ylabel('Frequ√™ncia')
axes[0,1].set_title('Distribui√ß√£o de Confian√ßa', fontsize=14, fontweight='bold')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# 3. Palavras mais spam
top_spam_words = [palavra for palavra, _ in palavras_ordenadas[:8]]
top_spam_ratios = [stats['razao_spam'] for _, stats in palavras_ordenadas[:8]]

axes[1,0].barh(range(len(top_spam_words)), top_spam_ratios, color='red', alpha=0.7)
axes[1,0].set_yticks(range(len(top_spam_words)))
axes[1,0].set_yticklabels(top_spam_words)
axes[1,0].set_xlabel('Raz√£o Spam/Ham')
axes[1,0].set_title('Palavras Mais Indicativas de Spam', fontsize=14, fontweight='bold')
axes[1,0].grid(True, alpha=0.3)

# 4. Evolu√ß√£o das probabilidades
prob_priori_spam = df_emails['spam'].mean()
prob_posteriori_spam = df_emails[df_emails['predicao'] == 1]['spam'].mean() if len(df_emails[df_emails['predicao'] == 1]) > 0 else 0

categorias = ['P(Spam)\nPriori', 'P(Spam|Palavras)\nPosteriori']
probs = [prob_priori_spam * 100, prob_posteriori_spam * 100]

bars = axes[1,1].bar(categorias, probs, color=['lightcoral', 'darkred'], alpha=0.8)
axes[1,1].set_ylabel('Probabilidade (%)')
axes[1,1].set_title('Atualiza√ß√£o Bayesiana', fontsize=14, fontweight='bold')
axes[1,1].grid(True, alpha=0.3, axis='y')

for bar, prob in zip(bars, probs):
    height = bar.get_height()
    axes[1,1].text(bar.get_x() + bar.get_width()/2., height + 1,
                  f'{prob:.1f}%', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("üìä Liiindo! V√™ como o Teorema de Bayes nos ajuda a atualizar nossas cren√ßas!")

## üöÄ Comparando com Scikit-learn

Bora ver como nossa implementa√ß√£o se compara com a vers√£o profissional do scikit-learn!

**Dica do Pedro:** √â sempre bom implementar do zero para entender, mas na pr√°tica usamos bibliotecas otimizadas!

In [None]:
# Comparando com sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

# Criando pipeline do sklearn
pipeline_sklearn = Pipeline([
    ('vectorizer', CountVectorizer(lowercase=True, stop_words=None)),
    ('classifier', MultinomialNB())
])

# Treinando
pipeline_sklearn.fit(df_emails['texto'], df_emails['spam'])

# Fazendo predi√ß√µes
predicoes_sklearn = pipeline_sklearn.predict(df_emails['texto'])
probabilidades_sklearn = pipeline_sklearn.predict_proba(df_emails['texto'])[:, 1]

# Comparando resultados
acuracia_sklearn = (df_emails['spam'] == predicoes_sklearn).mean()
acuracia_nossa = (df_emails['spam'] == df_emails['predicao']).mean()

print("ü•ä COMPARA√á√ÉO NOSSA IMPLEMENTA√á√ÉO vs SKLEARN:")
print("="*55)
print(f"üìä Acur√°cia Nossa Implementa√ß√£o: {acuracia_nossa:.3f} ({acuracia_nossa*100:.1f}%)")
print(f"üìä Acur√°cia Sklearn:             {acuracia_sklearn:.3f} ({acuracia_sklearn*100:.1f}%)")

# Testando nos emails de teste
print("\nüß™ TESTANDO NOS EMAILS NOVOS:")
print("="*50)

for i, email in enumerate(emails_teste, 1):
    # Nossa implementa√ß√£o
    pred_nossa, conf_nossa = classificador.classificar(email)
    
    # Sklearn
    pred_sklearn = pipeline_sklearn.predict([email])[0]
    prob_sklearn = pipeline_sklearn.predict_proba([email])[0]
    conf_sklearn = max(prob_sklearn)
    
    print(f"\nüìß Email {i}: \"{email[:50]}...\"")
    print(f"   Nossa:   {'SPAM' if pred_nossa == 1 else 'HAM':4} (conf: {conf_nossa:.3f})")
    print(f"   Sklearn: {'SPAM' if pred_sklearn == 1 else 'HAM':4} (conf: {conf_sklearn:.3f})")
    print(f"   Acordo:  {'‚úÖ' if pred_nossa == pred_sklearn else '‚ùå'}")

print("\nüí° Dica do Pedro: Pequenas diferen√ßas s√£o normais devido a implementa√ß√µes ligeiramente diferentes!")

## üéØ Exerc√≠cio Pr√°tico 1: Diagn√≥stico M√©dico

Agora √© sua vez! Vamos aplicar o Teorema de Bayes em um cen√°rio m√©dico.

**Cen√°rio:** Um teste para detectar COVID-19 tem:
- Sensibilidade: 95% (detecta corretamente 95% dos casos positivos)
- Especificidade: 98% (detecta corretamente 98% dos casos negativos)
- Preval√™ncia na popula√ß√£o: 2%

**Sua miss√£o:**
1. Calcule P(COVID | Teste+) usando Bayes
2. Varie a preval√™ncia de 0.1% a 10% e veja como muda o resultado
3. Explique por que isso √© importante para pol√≠ticas de sa√∫de p√∫blica

In [None]:
# üéØ EXERC√çCIO 1: Complete o c√≥digo abaixo

def diagnostico_covid_bayes(sensibilidade, especificidade, prevalencia):
    """
    Calcula P(COVID | Teste+) usando Teorema de Bayes
    
    Args:
        sensibilidade: P(Teste+ | COVID) 
        especificidade: P(Teste- | Sem COVID)
        prevalencia: P(COVID)
    
    Returns:
        P(COVID | Teste+)
    """
    # TODO: Implementar o c√°lculo de Bayes
    # P(Teste+ | Sem COVID) = 1 - especificidade
    prob_teste_pos_sem_covid = None  # COMPLETE AQUI
    
    # P(Teste+) = P(Teste+|COVID) * P(COVID) + P(Teste+|Sem COVID) * P(Sem COVID)
    prob_teste_positivo = None  # COMPLETE AQUI
    
    # P(COVID | Teste+) usando Bayes
    prob_covid_dado_teste_pos = None  # COMPLETE AQUI
    
    return prob_covid_dado_teste_pos

# Par√¢metros do teste
sensibilidade = 0.95
especificidade = 0.98
prevalencia_base = 0.02

# TODO: Calcule o resultado para a preval√™ncia base
resultado = None  # COMPLETE AQUI

print(f"üè• DIAGN√ìSTICO COVID-19:")
print(f"Sensibilidade: {sensibilidade*100}%")
print(f"Especificidade: {especificidade*100}%")
print(f"Preval√™ncia: {prevalencia_base*100}%")
print(f"\nüéØ P(COVID | Teste+) = {resultado:.4f} ({resultado*100:.2f}%)")

# TODO: Teste com diferentes preval√™ncias e crie um gr√°fico
# prevalencias = np.linspace(0.001, 0.1, 100)
# resultados = [diagnostico_covid_bayes(sensibilidade, especificidade, p) for p in prevalencias]
# Fa√ßa um gr√°fico mostrando como a preval√™ncia afeta o resultado!

## üéØ Exerc√≠cio Pr√°tico 2: Melhorando o Filtro de Spam

Vamos aprimorar nosso filtro de spam!

**Sua miss√£o:**
1. Adicione mais emails ao dataset (pelo menos 5 de cada tipo)
2. Implemente uma fun√ß√£o para remover stop words (a, de, para, etc.)
3. Teste diferentes t√©cnicas de pr√©-processamento
4. Compare a performance antes e depois das melhorias

In [None]:
# üéØ EXERC√çCIO 2: Aprimore o filtro de spam

# TODO: Adicione mais emails ao dataset
emails_spam_extras = [
    # ADICIONE PELO MENOS 5 EMAILS DE SPAM AQUI
]

emails_ham_extras = [
    # ADICIONE PELO MENOS 5 EMAILS LEG√çTIMOS AQUI
]

# TODO: Implemente remo√ß√£o de stop words
stop_words_pt = ['a', 'de', 'do', 'da', 'em', 'para', 'com', 'por', 'e', 'o', 'os', 'as', 'um', 'uma']

def remover_stop_words(texto, stop_words):
    """
    Remove stop words do texto
    """
    palavras = texto.split()
    # TODO: IMPLEMENTE A REMO√á√ÉO DE STOP WORDS
    palavras_filtradas = None  # COMPLETE AQUI
    return ' '.join(palavras_filtradas)

# TODO: Crie uma vers√£o melhorada da classe NaiveBayesSpam
class NaiveBayesSpamMelhorado(NaiveBayesSpam):
    def __init__(self, usar_stop_words=True):
        super().__init__()
        self.usar_stop_words = usar_stop_words
        self.stop_words = stop_words_pt
    
    def preprocessar_texto(self, texto):
        # TODO: IMPLEMENTE O PR√â-PROCESSAMENTO MELHORADO
        # 1. Limpar pontua√ß√£o
        # 2. Converter para min√∫sculas  
        # 3. Remover stop words se usar_stop_words=True
        # 4. Retornar lista de palavras
        pass

# TODO: Teste e compare os resultados
print("üöß Implemente as melhorias e teste o desempenho!")
print("üí° Dica: Compare acur√°cia antes e depois das melhorias")

## üß† Conceitos Avan√ßados: Por que Bayes Funciona?

### A Matem√°tica por Tr√°s da Magia

O Teorema de Bayes √© **poderoso** porque:

1. **Combina evid√™ncias**: Une informa√ß√£o pr√©via com nova evid√™ncia
2. **√â √≥timo**: Matematicamente provado como classificador √≥timo sob certas condi√ß√µes
3. **√â robusto**: Funciona bem mesmo com dados imperfeitos
4. **√â interpret√°vel**: Podemos entender **por que** uma decis√£o foi tomada

### Conex√£o com IA Moderna

- **Redes Bayesianas**: Grafos que modelam depend√™ncias probabil√≠sticas
- **Infer√™ncia Variacional**: Aproxima√ß√µes para Bayes em problemas complexos  
- **Aprendizado Bayesiano**: Quantifica incerteza nas predi√ß√µes
- **GANs**: Usam princ√≠pios bayesianos implicitamente

**Dica do Pedro:** Bayes est√° por toda parte na IA, mesmo quando n√£o percebemos!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_05.png)

In [None]:
# Demonstrando a evolu√ß√£o das cren√ßas com m√∫ltiplas evid√™ncias

def atualizar_crenca_sequencial(crenca_inicial, evidencias, verossimilhancas):
    """
    Mostra como Bayes atualiza cren√ßas sequencialmente
    """
    crenca_atual = crenca_inicial
    historico = [crenca_atual]
    
    print(f"üéØ Cren√ßa inicial: {crenca_atual:.4f}")
    
    for i, (evidencia, verossim) in enumerate(zip(evidencias, verossimilhancas), 1):
        # Aplicando Bayes
        # P(H|E) = P(E|H) * P(H) / P(E)
        # Assumindo P(E) = P(E|H)*P(H) + P(E|¬¨H)*P(¬¨H)
        # E P(E|¬¨H) = 1 - P(E|H) para simplificar
        
        prob_evidencia = (verossim * crenca_atual + 
                         (1 - verossim) * (1 - crenca_atual))
        
        crenca_atual = (verossim * crenca_atual) / prob_evidencia
        historico.append(crenca_atual)
        
        print(f"üìä Evid√™ncia {i}: {evidencia}")
        print(f"   Verossimilhan√ßa: {verossim:.3f}")
        print(f"   Nova cren√ßa: {crenca_atual:.4f}")
        print()
    
    return historico

# Exemplo: Investiga√ß√£o criminal
print("üïµÔ∏è INVESTIGA√á√ÉO CRIMINAL - ATUALIZANDO SUSPEITAS:")
print("="*60)

crenca_inicial = 0.1  # 10% de chance inicial de ser culpado
evidencias = [
    "Estava no local do crime",
    "N√£o tem √°libi", 
    "Tinha motivo",
    "Impress√£o digital encontrada",
    "Testemunha o viu fugindo"
]
verossimilhancas = [0.8, 0.7, 0.6, 0.95, 0.9]  # P(evid√™ncia | culpado)

historico = atualizar_crenca_sequencial(crenca_inicial, evidencias, verossimilhancas)

# Visualizando a evolu√ß√£o
plt.figure(figsize=(12, 6))
plt.plot(range(len(historico)), historico, 'bo-', linewidth=3, markersize=8)
plt.xlabel('N√∫mero de Evid√™ncias', fontsize=12)
plt.ylabel('P(Culpado | Evid√™ncias)', fontsize=12)
plt.title('Evolu√ß√£o da Cren√ßa com Teorema de Bayes\n(Investiga√ß√£o Criminal)', 
         fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.ylim(0, 1)

# Adicionando anota√ß√µes
for i, (prob, evidencia) in enumerate(zip(historico[1:], evidencias), 1):
    plt.annotate(f'{prob:.3f}', 
                xy=(i, prob), 
                xytext=(10, 10), 
                textcoords='offset points',
                fontweight='bold')

plt.axhline(y=0.5, color='r', linestyle='--', alpha=0.7, label='Limiar 50%')
plt.legend()
plt.tight_layout()
plt.show()

print(f"üéØ Resultado final: {historico[-1]:.4f} ({historico[-1]*100:.2f}% de certeza)")
print("\nüí° V√™ como cada evid√™ncia atualiza nossa cren√ßa de forma matem√°tica!")

## üìà Conex√£o com os Pr√≥ximos M√≥dulos

O que aprendemos aqui vai ser **fundamental** para os pr√≥ximos m√≥dulos:

### üîó M√≥dulo 4 - Regress√£o Linear:
- Interpreta√ß√£o probabil√≠stica da regress√£o
- Maximum Likelihood Estimation (MLE)
- Incerteza nas predi√ß√µes

### üîó M√≥dulo 6 - Regress√£o Log√≠stica:
- Regress√£o Log√≠stica como classificador Bayesiano
- Odds ratio e probabilidades
- Interpreta√ß√£o das probabilidades de classe

### üîó M√≥dulo 8 - Testes de Hip√≥tese:
- Probabilidades condicionais em testes estat√≠sticos
- P-valores como probabilidades condicionais
- Erro Tipo I e Tipo II

**Dica do Pedro:** Bayes √© a base de MUITA coisa em estat√≠stica e IA. Dominar esses conceitos vai te dar uma vantagem enorme!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_06.png)

## üéØ Resumo: O que Aprendemos Hoje

### ‚úÖ Conceitos Dominados:

1. **Probabilidade Condicional**: P(A|B) = Como eventos se relacionam
2. **Teorema de Bayes**: A f√≥rmula para atualizar cren√ßas com evid√™ncias
3. **Classifica√ß√£o Bayesiana**: Aplica√ß√£o pr√°tica em filtros de spam
4. **Naive Bayes**: Assumindo independ√™ncia para simplificar c√°lculos
5. **Interpretabilidade**: Entendendo POR QUE um modelo toma decis√µes

### üßÆ F√≥rmulas Essenciais:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

### üí° Insights Importantes:

- **Preval√™ncia importa**: Em doen√ßas raras, testes podem ter baixo valor preditivo
- **Evid√™ncias se acumulam**: Cada nova informa√ß√£o atualiza nossa cren√ßa
- **Simplicidade funciona**: Naive Bayes √© "ing√™nuo" mas muito eficaz
- **Interpretabilidade √© poder**: Conseguimos explicar as decis√µes do modelo

### üöÄ Pr√≥ximos Passos:

No **M√≥dulo 4**, vamos mergulhar na **Regress√£o Linear** e ver como ela se conecta com os conceitos probabil√≠sticos que aprendemos hoje!

**Dica do Pedro:** Continue praticando! Bayes est√° por toda parte - desde filtros de email at√© carros aut√¥nomos. Quanto mais voc√™ usar, mais natural vai ficar!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-03_img_07.png)