# üìß Filtr Antyspamowy: Naiwny Klasyfikator Bayesa

Naiwny Bayes to algorytm, kt√≥ry uwielbia pracowaƒá z tekstem. Jest prosty, szybki i zaskakujƒÖco skuteczny.

**Dlaczego "Naiwny"?**
Bo patrzy na ka≈ºde s≈Çowo w SMS-ie oddzielnie. Nie rozumie kontekstu (nie wie, ≈ºe "Bia≈Çy" i "Dom" to co innego ni≈º "Dom" i "Bia≈Çy"). Traktuje s≈Çowa jak sk≈Çadniki wrzucone do worka.

**Cel:**
Stworzymy model, kt√≥ry nauczy siƒô rozr√≥≈ºniaƒá **SPAM** (≈õmieci) od **HAM** (normalnych wiadomo≈õci).

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer # Do zamiany s≈Ç√≥w na liczby
from sklearn.naive_bayes import MultinomialNB # Nasz Naiwny Model

# 1. TWORZYMY DANE TRENINGOWE (Ma≈Ça baza SMS-√≥w)
# 1 = SPAM, 0 = HAM (Normalne)
dane = {
    'tekst': [
        "Wygra≈Çe≈õ darmowe pieniƒÖdze kliknij",  # Spam
        "Kup teraz super oferta promocja",     # Spam
        "Odbierz nagrodƒô darmowe leki",        # Spam
        "Cze≈õƒá idziemy jutro na kawƒô",         # Normalne
        "Spotkanie w biurze o 10 rano",        # Normalne
        "Mama dzwoni≈Ça pytaƒá o obiad"          # Normalne
    ],
    'kategoria': [1, 1, 1, 0, 0, 0]
}

df = pd.DataFrame(dane)

print("--- NASZA BAZA DANYCH ---")
display(df)

--- NASZA BAZA DANYCH ---


Unnamed: 0,tekst,kategoria
0,Wygra≈Çe≈õ darmowe pieniƒÖdze kliknij,1
1,Kup teraz super oferta promocja,1
2,Odbierz nagrodƒô darmowe leki,1
3,Cze≈õƒá idziemy jutro na kawƒô,0
4,Spotkanie w biurze o 10 rano,0
5,Mama dzwoni≈Ça pytaƒá o obiad,0


## Krok 2: Zamiana s≈Ç√≥w na liczby (Bag of Words)

Model matematyczny nie umie czytaƒá. Nie rozumie s≈Çowa "Wygra≈Çe≈õ".
Musimy zamieniƒá tekst na macierz liczb. U≈ºyjemy techniki **Bag of Words (Worek S≈Ç√≥w)**.

Komputer zrobi tabelƒô:
*   Kolumny to wszystkie znane mu s≈Çowa (Wygra≈Çe≈õ, Kawa, Mama...).
*   Warto≈õci to liczba wystƒÖpie≈Ñ s≈Çowa w zdaniu.

In [2]:
# 1. Przygotowujemy "T≈Çumacza" (Vectorizer)
vectorizer = CountVectorizer()

# 2. Uczymy t≈Çumacza naszych s≈Ç√≥w i zamieniamy tekst na liczby
X_matrix = vectorizer.fit_transform(df['tekst'])

# Zobaczmy, jak komputer "widzi" nasze zdania
# (Zamieniamy to z powrotem na DataFrame tylko po to, ≈ºeby≈õ to ≈Çadnie widzia≈Ç)
tabela_liczbow = pd.DataFrame(X_matrix.toarray(), columns=vectorizer.get_feature_names_out())

print("--- TAK KOMPUTER WIDZI ZDANIA (Bag of Words) ---")
display(tabela_liczbow)
print("\nKa≈ºda kolumna to jedno s≈Çowo. 1 oznacza 's≈Çowo wystƒôpuje', 0 'brak s≈Çowa'.")

--- TAK KOMPUTER WIDZI ZDANIA (Bag of Words) ---


Unnamed: 0,10,biurze,cze≈õƒá,darmowe,dzwoni≈Ça,idziemy,jutro,kawƒô,kliknij,kup,...,odbierz,oferta,pieniƒÖdze,promocja,pytaƒá,rano,spotkanie,super,teraz,wygra≈Çe≈õ
0,0,0,0,1,0,0,0,0,1,0,...,0,0,1,0,0,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,1,...,0,1,0,1,0,0,0,1,1,0
2,0,0,0,1,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,1,0,0,0
5,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0



Ka≈ºda kolumna to jedno s≈Çowo. 1 oznacza 's≈Çowo wystƒôpuje', 0 'brak s≈Çowa'.


## Krok 3: Trening i Testowanie Naiwnego Bayesa

Teraz wrzucamy te zera i jedynki do algorytmu `MultinomialNB`.
Model policzy statystykƒô:
*   "Skoro s≈Çowo 'Darmowe' pojawi≈Ço siƒô 2 razy w Spamie i 0 razy w Normalnych, to jak zobaczƒô je znowu, to na 99% bƒôdzie Spam".

Przetestujemy go na nowych zdaniach, kt√≥rych nigdy wcze≈õniej nie widzia≈Ç!

In [3]:
# 1. Trenujemy model
model = MultinomialNB()
model.fit(X_matrix, df['kategoria'])

# 2. NOWE WIADOMO≈öCI DO SPRAWDZENIA
nowe_smsy = [
    "Wygra≈Çe≈õ darmowe spotkanie",  # Podchwytliwe: "Wygra≈Çe≈õ" (spam) + "Spotkanie" (normalne)
    "Cze≈õƒá mamo idziemy na obiad", # Normalne
    "Kliknij po nagrodƒô"           # Spam
]

# Zamieniamy nowe SMS-y na liczby (u≈ºywajƒÖc TEGO SAMEGO t≈Çumacza co wcze≈õniej)
nowe_X = vectorizer.transform(nowe_smsy)

# Robimy predykcjƒô
wynik = model.predict(nowe_X)
prawdopodobienstwo = model.predict_proba(nowe_X)

print("--- WYNIKI TESTU ---")
for i, sms in enumerate(nowe_smsy):
    werdykt = "üö® SPAM" if wynik[i] == 1 else "‚úÖ NORMALNA"
    pewnosc_spamu = prawdopodobienstwo[i][1] * 100 # Szansa ≈ºe to spam
    
    print(f"SMS: '{sms}'")
    print(f"Werdykt: {werdykt}")
    print(f"Pewno≈õƒá modelu, ≈ºe to SPAM: {pewnosc_spamu:.2f}%")
    print("-" * 30)

--- WYNIKI TESTU ---
SMS: 'Wygra≈Çe≈õ darmowe spotkanie'
Werdykt: üö® SPAM
Pewno≈õƒá modelu, ≈ºe to SPAM: 75.00%
------------------------------
SMS: 'Cze≈õƒá mamo idziemy na obiad'
Werdykt: ‚úÖ NORMALNA
Pewno≈õƒá modelu, ≈ºe to SPAM: 5.88%
------------------------------
SMS: 'Kliknij po nagrodƒô'
Werdykt: üö® SPAM
Pewno≈õƒá modelu, ≈ºe to SPAM: 80.00%
------------------------------


## üß† Podsumowanie: Geniusz czy Idiota?

Dlaczego ten algorytm nazywamy "Naiwnym" i dlaczego mimo to rzƒÖdzi w filtrach antyspamowych?

**Tu jest haczyk.**
Nazywamy go naiwnym, bo zachowuje siƒô jak dziecko, kt√≥re my≈õli, ≈ºe **≈õwiat sk≈Çada siƒô z niepowiƒÖzanych klock√≥w**.

*   Dla Bayesa zdanie *"Wygra≈Çe≈õ darmowe pieniƒÖdze"* to po prostu worek trzech s≈Ç√≥w: [Wygra≈Çe≈õ, Darmowe, PieniƒÖdze].
*   Nie rozumie, ≈ºe *"Darmowe"* i *"PieniƒÖdze"* wystƒôpujƒÖce obok siebie to znacznie silniejszy sygna≈Ç ni≈º ka≈ºde z osobna. Traktuje je jak niezale≈ºne rzuty monetƒÖ.

**Dlaczego wiƒôc to dzia≈Ça?**
Wyobra≈∫ sobie g≈Çosowanie.
Je≈õli w zdaniu masz 10 s≈Ç√≥w typowych dla spamu (g≈ÇosujƒÖ na "SPAM") i 2 s≈Çowa typowe dla normalnej rozmowy (g≈ÇosujƒÖ na "HAM"), to nie musisz rozumieƒá gramatyki ani kontekstu. **Si≈Ça g≈Ços√≥w przewa≈ºa.**

**Wniosek:**
Naiwny Bayes jest jak **szybki czytacz**, kt√≥ry nie wnika w sens ksiƒÖ≈ºki, ale skanuje s≈Çowa kluczowe. Mo≈ºe nie zrozumie ironii, ale b≈Çyskawicznie wrzuci ≈õmieci do kosza. Dlatego jest standardem w pracy z tekstem.