# Dzień 1 - Moduł 1: Wprowadzenie do NLP i jego zastosowań

## Cele modułu:
- Zrozumienie czym jest przetwarzanie języka naturalnego (NLP)
- Poznanie głównych zastosowań NLP w praktyce
- Porównanie klasycznych i nowoczesnych podejść do NLP

## 1.1 Czym jest NLP (Natural Language Processing)?

**Natural Language Processing (NLP)** to dziedzina sztucznej inteligencji, która zajmuje się interakcją między komputerami a językiem ludzkim.

### Główne cele NLP:
- **Rozumienie** - analiza i interpretacja tekstu
- **Generowanie** - tworzenie naturalnie brzmiącego tekstu
- **Przekształcanie** - tłumaczenia, podsumowania, parafrazy

### Wyzwania w NLP:
- Wieloznaczność (ambiguity)
- Kontekst i znaczenie ukryte
- Idiomy i wyrażenia kulturowe
- Zróżnicowanie językowe (dialekty, slang)
- Błędy ortograficzne i gramatyczne

## 1.2 Przegląd zastosowań NLP

### 1. Chatboty i Asystenci Wirtualni
- Obsługa klienta 24/7
- Automatyczne odpowiedzi na FAQ
- Rezerwacje i zamówienia
- Przykłady: ChatGPT, Alexa, Siri, Google Assistant

### 2. Analiza Sentymentu (Sentiment Analysis)
- Analiza opinii klientów
- Monitoring marki w social media
- Analiza nastrojów na rynku
- Ocena produktów i usług

### 3. Tłumaczenia Maszynowe
- Google Translate, DeepL
- Tłumaczenia dokumentów
- Tłumaczenia w czasie rzeczywistym

### 4. Podsumowania Tekstu
- Automatyczne streszczenia artykułów
- Analiza dokumentów prawnych
- Agregacja wiadomości

### 5. Rozpoznawanie Nazwanych Encji (NER)
- Ekstrakcja informacji z dokumentów
- Identyfikacja osób, miejsc, organizacji
- Analiza CV i ofert pracy

### 6. Systemy Pytań i Odpowiedzi (Q&A)
- Wyszukiwanie informacji w bazach wiedzy
- Systemy help desk
- Edukacyjne platformy e-learningowe

In [None]:
# Prosty przykład - analiza sentymentu z użyciem biblioteki TextBlob
# (instalacja: pip install textblob)

from textblob import TextBlob

# Przykładowe teksty w języku angielskim
teksty = [
    "I love this product! It's amazing and works perfectly.",
    "This is the worst experience I've ever had. Terrible!",
    "The product is okay. Nothing special but does the job."
]

for tekst in teksty:
    analiza = TextBlob(tekst)
    sentiment = analiza.sentiment
    
    # Polarity: -1 (negatywny) do 1 (pozytywny)
    if sentiment.polarity > 0.1:
        kategoria = "POZYTYWNY"
    elif sentiment.polarity < -0.1:
        kategoria = "NEGATYWNY"
    else:
        kategoria = "NEUTRALNY"
    
    print(f"Tekst: {tekst}")
    print(f"Sentyment: {kategoria} (polarity: {sentiment.polarity:.2f})")
    print("-" * 80)

## 1.3 Modele NLP: Klasyczne podejścia vs Nowoczesne architektury

### Klasyczne podejścia (do ~2017)

#### 1. Metody oparte na regułach
- Ręcznie tworzone reguły gramatyczne
- Słowniki i wzorce
- **Zalety**: Przewidywalne, łatwe do debugowania
- **Wady**: Trudne w skalowaniu, wymagają ekspertów

#### 2. Bag of Words (BoW) i TF-IDF
- Reprezentacja tekstu jako zbioru słów
- Utrata informacji o kolejności
- **Zalety**: Proste, szybkie
- **Wady**: Brak kontekstu, duża wymiarowość

#### 3. N-gramy
- Sekwencje n kolejnych słów
- Częściowe zachowanie kontekstu
- **Zalety**: Proste, działają lokalnie
- **Wady**: Eksplozja wymiarowości

#### 4. Word2Vec, GloVe (Word Embeddings)
- Reprezentacja słów jako wektorów
- Podobieństwo semantyczne
- **Zalety**: Znaczenie słów, podobieństwo
- **Wady**: Jedno znaczenie na słowo

### Nowoczesne architektury (od ~2017)

#### 1. Architektury RNN/LSTM
- Przetwarzanie sekwencyjne
- Pamięć kontekstu
- **Wady**: Wolne, problem z długimi sekwencjami

#### 2. Transformery (2017 - Attention is All You Need)
- Mechanizm uwagi (attention)
- Przetwarzanie równoległe
- **Zalety**: Szybkie, skalowalne, potężne

#### 3. BERT (2018)
- Bidirectional Encoder Representations
- Rozumienie kontekstu z obu stron
- Pre-training + Fine-tuning

#### 4. GPT (2018-2024)
- Generative Pre-trained Transformer
- Generowanie tekstu
- GPT-3, GPT-4 - modele ogólnego przeznaczenia

#### 5. T5, BART, inne modele Seq2Seq
- Wszystko jako zadanie text-to-text
- Uniwersalne podejście

## Porównanie: Klasyczne vs Nowoczesne

| Aspekt | Klasyczne | Nowoczesne (Transformery) |
|--------|-----------|---------------------------|
| Wydajność | Średnia | Wysoka |
| Zrozumienie kontekstu | Ograniczone | Doskonałe |
| Wymagania obliczeniowe | Niskie | Wysokie |
| Ilość potrzebnych danych | Mała-Średnia | Duża (ale transfer learning!) |
| Interpretowalność | Wysoka | Niska |
| Czas treningu | Krótki | Długi |
| Wszechstronność | Niska | Wysoka |

In [None]:
# Przykład: Porównanie klasycznego i nowoczesnego podejścia

# KLASYCZNE: Bag of Words z sklearn
from sklearn.feature_extraction.text import CountVectorizer

dokumenty = [
    "Lubię programować w Pythonie",
    "Python to świetny język programowania",
    "Uczę się sztucznej inteligencji"
]

vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(dokumenty)

print("=== KLASYCZNE: Bag of Words ===")
print("Słownik:", vectorizer.get_feature_names_out())
print("Reprezentacja macierzowa:")
print(X_bow.toarray())
print()

In [None]:
# NOWOCZESNE: Embeddingi z Hugging Face
# Uwaga: To tylko demonstracja - szczegóły w Module 2!

# from transformers import AutoTokenizer, AutoModel
# import torch

# # Załaduj model i tokenizer (HerBERT dla języka polskiego)
# model_name = "allegro/herbert-base-cased"
# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModel.from_pretrained(model_name)

# tekst = "Lubię programować w Pythonie"

# # Tokenizacja
# inputs = tokenizer(tekst, return_tensors="pt")

# # Uzyskanie embeddingów
# with torch.no_grad():
#     outputs = model(**inputs)
#     embeddings = outputs.last_hidden_state

# print("=== NOWOCZESNE: Transformer Embeddings ===")
# print(f"Shape embeddingów: {embeddings.shape}")
# print(f"Każde słowo reprezentowane przez wektor {embeddings.shape[-1]} wymiarów")

print("\n📝 Nowoczesne modele przeanalizujemy szczegółowo w kolejnych modułach!")

## Ćwiczenie praktyczne

**Zadanie**: Zastanów się nad własnym projektem NLP

1. Jakie zastosowanie NLP byłoby przydatne w Twojej pracy/firmie?
2. Jakie dane tekstowe są dostępne?
3. Czy potrzebujesz rozumienia czy generowania tekstu?
4. Jakie metryki sukcesu byłyby ważne?

Zapisz swoje przemyślenia poniżej:

In [None]:
# Miejsce na Twoje notatki i pomysły

moj_projekt = {
    "zastosowanie": "...",
    "dostepne_dane": "...",
    "typ_zadania": "...",  # np. klasyfikacja, generowanie, NER, itp.
    "metryki": "..."  # np. dokładność, precyzja, satysfakcja użytkowników
}

print(moj_projekt)

## Podsumowanie Modułu 1

✅ Poznaliśmy definicję i cele NLP

✅ Przejrzeliśmy główne zastosowania (chatboty, sentiment, tłumaczenia, itp.)

✅ Zrozumieliśmy ewolucję od klasycznych metod do Transformerów

✅ Zobaczyliśmy proste przykłady w praktyce

---

**Następny krok**: Moduł 2 - Narzędzia i biblioteki do NLP