# Dzie≈Ñ 1 - Warsztaty Praktyczne

## Cele warsztat√≥w:
- Zastosowanie poznanych technik w praktycznych projektach
- Tokenizacja i analiza danych tekstowych
- Eksploracja i przygotowanie danych
- Budowa prostego modelu klasyfikacji tekstu

## Projekty do realizacji:
1. Analiza sentymentu recenzji
2. Klasyfikacja tekst√≥w (spam detection)
3. Eksploracja korpusu tekstowego
4. Mini-projekt: Budowa klasyfikatora

In [None]:
# Import wszystkich potrzebnych bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from wordcloud import WordCloud

import nltk
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Konfiguracja
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Pobierz zasoby NLTK
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)

print("‚úÖ Biblioteki za≈Çadowane!")

## Projekt 1: Analiza Sentymentu Recenzji

### Cel:
Przeanalizuj recenzje produkt√≥w i okre≈õl ich sentyment (pozytywny/negatywny).

In [None]:
# Stw√≥rzmy zbi√≥r przyk≈Çadowych recenzji
recenzje = [
    ("≈öwietny produkt! Bardzo jestem zadowolony. Polecam!", "pozytywny"),
    ("Okropne. Nie dzia≈Ça tak jak powinno. Zwracam.", "negatywny"),
    ("Ca≈Çkiem niez≈Çy, ale cena mog≈Çaby byƒá ni≈ºsza.", "neutralny"),
    ("Najlepszy zakup w tym roku! Fantastyczna jako≈õƒá!", "pozytywny"),
    ("Totalna pora≈ºka. Strata pieniƒôdzy.", "negatywny"),
    ("Produkt jest OK, nic specjalnego.", "neutralny"),
    ("Rewelacja! Dok≈Çadnie to czego szuka≈Çem!", "pozytywny"),
    ("Nie polecam. S≈Çaba jako≈õƒá wykonania.", "negatywny"),
    ("Za tƒô cenƒô spodziewa≈Çem siƒô wiƒôcej.", "negatywny"),
    ("Solidny produkt. Spe≈Çnia oczekiwania.", "pozytywny"),
]

# Utw√≥rz DataFrame
df = pd.DataFrame(recenzje, columns=['tekst', 'sentyment'])

print("=== ZBI√ìR DANYCH ===")
print(df)
print(f"\nRozk≈Çad klas:")
print(df['sentyment'].value_counts())

In [None]:
# Analiza eksploracyjna
print("\n=== STATYSTYKI PODSTAWOWE ===")

# D≈Çugo≈õƒá tekst√≥w
df['dlugosc'] = df['tekst'].apply(len)
df['liczba_slow'] = df['tekst'].apply(lambda x: len(x.split()))

print(df[['tekst', 'sentyment', 'dlugosc', 'liczba_slow']].head())

# Statystyki
print("\n≈örednia d≈Çugo≈õƒá tekstu:", df['dlugosc'].mean())
print("≈örednia liczba s≈Ç√≥w:", df['liczba_slow'].mean())

In [None]:
# Wizualizacja rozk≈Çadu sentymentu
plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
df['sentyment'].value_counts().plot(kind='bar')
plt.title('Rozk≈Çad sentymentu')
plt.xlabel('Sentyment')
plt.ylabel('Liczba recenzji')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
df.groupby('sentyment')['liczba_slow'].mean().plot(kind='bar', color='coral')
plt.title('≈örednia liczba s≈Ç√≥w wed≈Çug sentymentu')
plt.xlabel('Sentyment')
plt.ylabel('≈örednia liczba s≈Ç√≥w')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Analiza najczƒôstszych s≈Ç√≥w
from collections import Counter

# Tokenizacja i liczenie s≈Ç√≥w
wszystkie_slowa = []
stop_words = set(stopwords.words('polish'))

for tekst in df['tekst']:
    tokens = word_tokenize(tekst.lower(), language='polish')
    tokens = [t for t in tokens if t.isalpha() and t not in stop_words]
    wszystkie_slowa.extend(tokens)

# Najczƒôstsze s≈Çowa
najczestsze = Counter(wszystkie_slowa).most_common(15)

print("\n=== 15 NAJCZƒòSTSZYCH S≈Å√ìW ===")
for slowo, liczba in najczestsze:
    print(f"{slowo:20} : {liczba}")

In [None]:
# WordCloud - chmura s≈Ç√≥w
try:
    tekst_caly = ' '.join(wszystkie_slowa)
    
    wordcloud = WordCloud(width=800, height=400, 
                          background_color='white',
                          colormap='viridis').generate(tekst_caly)
    
    plt.figure(figsize=(12, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title('Chmura s≈Ç√≥w z recenzji', fontsize=16)
    plt.show()
except Exception as e:
    print(f"B≈ÇƒÖd generowania chmury s≈Ç√≥w: {e}")
    print("Zainstaluj: pip install wordcloud")

## Projekt 2: Klasyfikacja Spam vs Ham (SMS)

### Cel:
Zbuduj prosty klasyfikator do rozr√≥≈ºniania spamu od prawid≈Çowych wiadomo≈õci.

In [None]:
# Przyk≈Çadowy dataset SMS
sms_data = [
    ("Wygra≈Çe≈õ 1000 z≈Ç! Kliknij link aby odebraƒá nagrodƒô!", "spam"),
    ("Cze≈õƒá, spotkamy siƒô jutro o 18?", "ham"),
    ("GRATULACJE! Zosta≈Çe≈õ wybrany do otrzymania iPhone'a!", "spam"),
    ("Pamiƒôtaj o spotkaniu z klientem w czwartek", "ham"),
    ("Kup teraz! Wielka promocja tylko dzi≈õ! -90%", "spam"),
    ("Dziƒôki za wczorajsze spotkanie. Pozdrawiam", "ham"),
    ("Pilne! Twoje konto zosta≈Ço zablokowane. Kliknij tutaj", "spam"),
    ("Mama dzwoni≈Ça, oddzwo≈Ñ jak bƒôdziesz mia≈Ç czas", "ham"),
    ("DARMOWE PIENIƒÑDZE! Nie czekaj, zarejestruj siƒô!", "spam"),
    ("Kupi≈Çem mleko, wracam za godzinƒô", "ham"),
    ("Ostatnia szansa! Oferta wygasa za 2 godziny!!!", "spam"),
    ("Spotkanie przeniesione na piƒÖtek o 14:00", "ham"),
]

df_sms = pd.DataFrame(sms_data, columns=['wiadomosc', 'kategoria'])

print("=== DATASET SMS ===")
print(df_sms)
print(f"\nRozk≈Çad klas:")
print(df_sms['kategoria'].value_counts())

In [None]:
# Preprocessing - pipeline
def preprocess_text(text):
    """
    Przetwarzanie tekstu przed klasyfikacjƒÖ.
    """
    # Lowercase
    text = text.lower()
    
    # Tokenizacja
    tokens = word_tokenize(text, language='polish')
    
    # Usu≈Ñ znaki specjalne i liczby
    tokens = [t for t in tokens if t.isalpha()]
    
    # Usu≈Ñ stop words
    stop_words = set(stopwords.words('polish'))
    tokens = [t for t in tokens if t not in stop_words]
    
    return ' '.join(tokens)

# Zastosuj preprocessing
df_sms['wiadomosc_przetworzona'] = df_sms['wiadomosc'].apply(preprocess_text)

print("=== PRZYK≈ÅADY PRZETWARZANIA ===")
for idx in [0, 1, 4]:
    print(f"\nOrygina≈Ç: {df_sms.iloc[idx]['wiadomosc']}")
    print(f"Przetworzone: {df_sms.iloc[idx]['wiadomosc_przetworzona']}")

In [None]:
# Feature Engineering - TF-IDF
vectorizer = TfidfVectorizer(max_features=50)

X = vectorizer.fit_transform(df_sms['wiadomosc_przetworzona'])
y = df_sms['kategoria']

print("=== FEATURE ENGINEERING ===")
print(f"Shape macierzy cech: {X.shape}")
print(f"\nNajwa≈ºniejsze cechy (s≈Çowa):")
print(vectorizer.get_feature_names_out()[:20])

In [None]:
# Podzia≈Ç na zbi√≥r treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print("=== PODZIA≈Å DANYCH ===")
print(f"Zbi√≥r treningowy: {X_train.shape[0]} pr√≥bek")
print(f"Zbi√≥r testowy: {X_test.shape[0]} pr√≥bek")

In [None]:
# Trening modelu - Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

# Predykcja
y_pred = model.predict(X_test)

print("=== WYNIKI MODELU ===")
print(f"\nDok≈Çadno≈õƒá: {accuracy_score(y_test, y_pred):.2%}")
print("\nRaport klasyfikacji:")
print(classification_report(y_test, y_pred))

In [None]:
# Test modelu na nowych danych
nowe_wiadomosci = [
    "Wygra≈Çe≈õ milion z≈Çotych! Kliknij teraz!",
    "Spotkamy siƒô w kawiarni o 16?",
    "PROMOCJA! Kup teraz ze zni≈ºkƒÖ 99%",
]

print("\n=== TEST NA NOWYCH DANYCH ===")
for wiadomosc in nowe_wiadomosci:
    przetworzona = preprocess_text(wiadomosc)
    wektor = vectorizer.transform([przetworzona])
    predykcja = model.predict(wektor)[0]
    prawdopodobienstwo = model.predict_proba(wektor)[0]
    
    print(f"\nWiadomo≈õƒá: {wiadomosc}")
    print(f"Predykcja: {predykcja}")
    print(f"Prawdopodobie≈Ñstwo: ham={prawdopodobienstwo[0]:.2%}, spam={prawdopodobienstwo[1]:.2%}")

## Projekt 3: Eksploracja korpusu tekstowego

### Cel:
Przeanalizuj wiƒôkszy zbi√≥r tekst√≥w i wyciƒÖgnij interesujƒÖce wnioski.

In [None]:
# Utw√≥rz wiƒôkszy korpus (symulacja artyku≈Ç√≥w)
artykuly = [
    {
        'tytul': 'Sztuczna inteligencja w medycynie',
        'tekst': 'Sztuczna inteligencja rewolucjonizuje medycynƒô. Algorytmy uczenia maszynowego pomagajƒÖ w diagnostyce chor√≥b. Systemy AI analizujƒÖ obrazy medyczne z dok≈Çadno≈õciƒÖ przewy≈ºszajƒÖcƒÖ ludzkich ekspert√≥w.',
        'kategoria': 'technologia'
    },
    {
        'tytul': 'Nowe odkrycie archeologiczne',
        'tekst': 'Archeolodzy odkryli staro≈ºytne miasto. Znaleziska obejmujƒÖ ceramikƒô, narzƒôdzia i ruiny budynk√≥w. Odkrycie rzuca nowe ≈õwiat≈Ço na historiƒô staro≈ºytnych cywilizacji.',
        'kategoria': 'historia'
    },
    {
        'tytul': 'Przysz≈Ço≈õƒá transportu',
        'tekst': 'Pojazdy autonomiczne to przysz≈Ço≈õƒá transportu. Samochody bez kierowcy bƒôdƒÖ bezpieczniejsze i bardziej efektywne. Technologia ta zmieni spos√≥b w jaki siƒô przemieszczamy.',
        'kategoria': 'technologia'
    },
    {
        'tytul': 'Zmiany klimatyczne',
        'tekst': 'Globalne ocieplenie wp≈Çywa na ekosystemy. Naukowcy ostrzegajƒÖ przed konsekwencjami zmian klimatycznych. Konieczne sƒÖ pilne dzia≈Çania aby chroniƒá naszƒÖ planetƒô.',
        'kategoria': '≈õrodowisko'
    },
]

df_artykuly = pd.DataFrame(artykuly)
print("=== KORPUS ARTYKU≈Å√ìW ===")
print(df_artykuly[['tytul', 'kategoria']])

In [None]:
# Analiza z u≈ºyciem spaCy
try:
    nlp = spacy.load("pl_core_news_sm")
except:
    print("‚ö†Ô∏è Zainstaluj model polski: python -m spacy download pl_core_news_sm")
    nlp = None

if nlp:
    print("\n=== ANALIZA LINGUISTYCZNA ===")
    
    for idx, row in df_artykuly.iterrows():
        doc = nlp(row['tekst'])
        
        print(f"\n{row['tytul']}")
        print("-" * 50)
        
        # Rzeczowniki
        rzeczowniki = [token.lemma_ for token in doc if token.pos_ == 'NOUN']
        print(f"Kluczowe rzeczowniki: {list(set(rzeczowniki))[:5]}")
        
        # Nazwane encje
        if doc.ents:
            encje = [(ent.text, ent.label_) for ent in doc.ents]
            print(f"Encje: {encje}")
        
        # Statystyki
        print(f"Liczba zda≈Ñ: {len(list(doc.sents))}")
        print(f"Liczba token√≥w: {len(doc)}")

## ƒÜwiczenie finalne: Mini-projekt

### Zadanie:
Stw√≥rz kompletny pipeline klasyfikacji tekstu:
1. Za≈Çaduj lub stw√≥rz dane
2. Wykonaj eksploracyjnƒÖ analizƒô danych (EDA)
3. Przetw√≥rz tekst (preprocessing)
4. Wyekstraktuj cechy (TF-IDF lub inne)
5. Wytrenuj model (wybierz algorytm)
6. Oce≈Ñ model (metryki, confusion matrix)
7. Przetestuj na nowych danych

### Wskaz√≥wki:
- U≈ºywaj poznanych technik z ca≈Çego dnia
- Eksperymentuj z r√≥≈ºnymi parametrami
- Por√≥wnaj r√≥≈ºne modele (Naive Bayes, Logistic Regression)
- Wizualizuj wyniki

In [None]:
# TWOJA IMPLEMENTACJA
# Rozpocznij tutaj swojƒÖ pracƒô nad mini-projektem

# Przyk≈Çadowa struktura:

# 1. Za≈Çaduj dane
# data = ...

# 2. EDA
# ...

# 3. Preprocessing
# ...

# 4. Feature extraction
# ...

# 5. Model training
# ...

# 6. Evaluation
# ...

# 7. Testing
# ...

print("üöÄ Powodzenia w realizacji projektu!")

## Dodatkowe wyzwania (opcjonalne)

### Wyzwanie 1: Por√≥wnanie modeli
Por√≥wnaj wydajno≈õƒá r√≥≈ºnych algorytm√≥w:
- Naive Bayes
- Logistic Regression
- SVM
- Random Forest

### Wyzwanie 2: Feature engineering
Spr√≥buj r√≥≈ºnych metod ekstrakcji cech:
- Bag of Words
- TF-IDF
- N-gramy (bigrams, trigrams)
- Word embeddings

### Wyzwanie 3: Optymalizacja
U≈ºyj GridSearchCV do znalezienia najlepszych hiperparametr√≥w.

### Wyzwanie 4: Analiza b≈Çƒôd√≥w
Przeanalizuj przypadki w kt√≥rych model siƒô myli - co mo≈ºna poprawiƒá?

## Podsumowanie Dnia 1

### Czego siƒô nauczyli≈õmy:
‚úÖ Podstawy NLP i jego zastosowa≈Ñ

‚úÖ Narzƒôdzia: NLTK, spaCy, Hugging Face, OpenAI

‚úÖ Operacje: tokenizacja, lematyzacja, POS tagging

‚úÖ Praktyczne projekty: analiza sentymentu, spam detection

‚úÖ Pipeline ML: od danych do modelu

### Na jutro:
üöÄ Nowoczesne modele NLP (Transformery)

üöÄ BERT, GPT i fine-tuning

üöÄ Generowanie i rozumienie tekstu

üöÄ Zastosowania biznesowe (chatboty, automatyzacja)

---

**Dobra robota! üéâ Do zobaczenia jutro!**