# Dzień 1 - Moduł 2: Narzędzia i biblioteki do NLP

## Cele modułu:
- Poznanie najpopularniejszych bibliotek NLP w Pythonie
- Instalacja i konfiguracja narzędzi
- Praktyczne porównanie NLTK, spaCy i Hugging Face
- Integracja z OpenAI API

## 2.1 Przegląd ekosystemu bibliotek NLP w Pythonie

### Główne biblioteki:

| Biblioteka | Zastosowanie | Poziom | Szybkość |
|------------|--------------|--------|----------|
| **NLTK** | Edukacja, prototypy | Początkujący | Wolna |
| **spaCy** | Produkcja, pipeline'y | Średniozaawansowany | Szybka |
| **Hugging Face** | Transformery, ML | Zaawansowany | Zależna od modelu |
| **TextBlob** | Proste analizy | Początkujący | Średnia |
| **Gensim** | Topic modeling | Średniozaawansowany | Średnia |
| **OpenAI API** | LLM, generowanie | Wszystkie | Szybka |

## 2.2 NLTK (Natural Language Toolkit)

### Charakterystyka:
- 📚 Najbardziej edukacyjna biblioteka
- 🧰 Ponad 50 korpusów i zasobów leksykalnych
- 🎓 Świetna do nauki podstaw NLP
- ⚠️ Wolniejsza niż spaCy

### Instalacja:
```bash
pip install nltk
```

In [None]:
# Instalacja i pobieranie zasobów NLTK
import nltk

# Pobierz podstawowe zasoby (wykonaj raz)
resources = ['punkt', 'stopwords', 'averaged_perceptron_tagger', 'wordnet', 'omw-1.4']

for resource in resources:
    try:
        nltk.download(resource, quiet=True)
    except:
        print(f"Nie można pobrać: {resource}")

print("✅ NLTK zasoby pobrane!")

In [None]:
# Przykład użycia NLTK - tokenizacja
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

tekst = """
Natural Language Processing to fascynująca dziedzina sztucznej inteligencji.
Pozwala komputerom rozumieć i generować ludzki język.
"""

# Tokenizacja zdań
zdania = sent_tokenize(tekst)
print("=== Zdania ===")
for i, zdanie in enumerate(zdania, 1):
    print(f"{i}. {zdanie.strip()}")

print("\n=== Słowa ===")
# Tokenizacja słów
slowa = word_tokenize(tekst)
print(slowa[:15])

In [None]:
# NLTK - Part of Speech Tagging (dla angielskiego)
from nltk import pos_tag

tekst_en = "The quick brown fox jumps over the lazy dog."
slowa_en = word_tokenize(tekst_en)
tagged = pos_tag(slowa_en)

print("=== POS Tagging (angielski) ===")
for slowo, tag in tagged:
    print(f"{slowo:15} -> {tag}")

## 2.3 spaCy - Produkcyjna biblioteka NLP

### Charakterystyka:
- 🚀 Bardzo szybka (zoptymalizowana w Cython)
- 🏭 Gotowa do użycia w produkcji
- 🌍 Wsparcie dla wielu języków (polski też!)
- 🎯 Pipeline'y do konkretnych zadań

### Instalacja:
```bash
pip install spacy
python -m spacy download pl_core_news_sm  # model polski
python -m spacy download en_core_web_sm   # model angielski
```

In [None]:
# Przykład użycia spaCy
import spacy

# Załaduj model polski (jeśli jest zainstalowany)
try:
    nlp = spacy.load("pl_core_news_sm")
    tekst = "Jan Kowalski pracuje w Warszawie dla firmy Microsoft."
except:
    print("⚠️ Model polski nie jest zainstalowany. Używam angielskiego.")
    nlp = spacy.load("en_core_web_sm")
    tekst = "John Smith works in New York for Microsoft Corporation."

# Przetwórz tekst
doc = nlp(tekst)

print("=== Tokeny i ich właściwości ===")
for token in doc:
    print(f"{token.text:15} | Lemma: {token.lemma_:15} | POS: {token.pos_:8} | Tag: {token.tag_}")

In [None]:
# spaCy - Named Entity Recognition (NER)
print("\n=== Rozpoznawanie Nazwanych Encji (NER) ===")

for ent in doc.ents:
    print(f"{ent.text:20} -> {ent.label_:10} ({spacy.explain(ent.label_)})")

In [None]:
# spaCy - Dependency Parsing (analiza zależności)
print("\n=== Analiza zależności składniowych ===")

for token in doc:
    print(f"{token.text:15} <--[{token.dep_:10}]-- {token.head.text}")

In [None]:
# spaCy - Podobieństwo semantyczne
try:
    # Wymaga modelu z wektorami (np. en_core_web_md lub pl_core_news_md)
    doc1 = nlp("kot")
    doc2 = nlp("pies")
    doc3 = nlp("samochód")
    
    print("\n=== Podobieństwo semantyczne ===")
    print(f"Podobieństwo 'kot' <-> 'pies': {doc1.similarity(doc2):.3f}")
    print(f"Podobieństwo 'kot' <-> 'samochód': {doc1.similarity(doc3):.3f}")
except:
    print("\n⚠️ Podobieństwo wymaga modelu z wektorami (np. en_core_web_md)")

## 2.4 Hugging Face Transformers - Nowoczesne modele NLP

### Charakterystyka:
- 🤗 Największa biblioteka modeli Transformer
- 🚀 Tysiące pre-trenowanych modeli
- 🌍 Wsparcie dla 100+ języków
- 🔥 PyTorch i TensorFlow
- 📦 Model Hub - łatwe pobieranie i dzielenie się modelami

### Instalacja:
```bash
pip install transformers torch
```

In [None]:
# Przykład: Pipeline'y w Hugging Face
from transformers import pipeline

print("=== Pipeline do analizy sentymentu ===")

# Automatycznie pobiera i używa odpowiedniego modelu
classifier = pipeline("sentiment-analysis")

teksty = [
    "I love this product!",
    "This is terrible and disappointing.",
    "It's okay, nothing special."
]

wyniki = classifier(teksty)

for tekst, wynik in zip(teksty, wyniki):
    print(f"Tekst: {tekst}")
    print(f"  -> {wynik['label']}: {wynik['score']:.3f}")
    print()

In [None]:
# Pipeline do rozpoznawania nazwanych encji
print("=== Named Entity Recognition ===")

ner = pipeline("ner", grouped_entities=True)

tekst = "Elon Musk is the CEO of Tesla and SpaceX, based in California."
entities = ner(tekst)

for entity in entities:
    print(f"{entity['word']:20} -> {entity['entity_group']:10} (score: {entity['score']:.3f})")

In [None]:
# Pipeline do podsumowywania tekstu
print("\n=== Podsumowanie tekstu ===")

summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

dlugi_tekst = """
Artificial intelligence has made remarkable progress in recent years. 
Machine learning models, particularly deep neural networks, have achieved 
superhuman performance in many tasks. Natural language processing has 
especially benefited from transformer architectures like BERT and GPT. 
These models can understand context, generate human-like text, and perform 
various NLP tasks with minimal fine-tuning. The impact on industries 
ranging from healthcare to finance has been profound.
"""

streszczenie = summarizer(dlugi_tekst, max_length=50, min_length=25, do_sample=False)
print("Oryginał:", len(dlugi_tekst.split()), "słów")
print("Streszczenie:", streszczenie[0]['summary_text'])

## 2.5 OpenAI API - Large Language Models

### Charakterystyka:
- 🧠 Najpotężniejsze modele językowe (GPT-4, GPT-3.5)
- ☁️ API w chmurze - brak potrzeby własnej infrastruktury
- 💰 Płatne (ale tanie dla małych projektów)
- 🎯 Uniwersalne - jedna API do wielu zadań

### Instalacja:
```bash
pip install openai
```

### Konfiguracja:
Potrzebujesz klucza API z https://platform.openai.com/

In [None]:
# Przykład użycia OpenAI API
import os
from openai import OpenAI

# UWAGA: Ustaw swój klucz API
# Sposób 1: Zmienna środowiskowa (zalecane)
# export OPENAI_API_KEY='your-api-key'

# Sposób 2: Bezpośrednio (NIE commituj do repozytorium!)
# os.environ['OPENAI_API_KEY'] = 'your-api-key'

try:
    client = OpenAI()
    
    # Przykład: Analiza sentymentu
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Jesteś ekspertem od analizy sentymentu. Odpowiadaj krótko: POZYTYWNY, NEGATYWNY lub NEUTRALNY."},
            {"role": "user", "content": "Oceń sentyment: Ten produkt jest fantastyczny! Bardzo polecam."}
        ],
        temperature=0
    )
    
    print("=== OpenAI API - Analiza sentymentu ===")
    print("Odpowiedź:", response.choices[0].message.content)
    
except Exception as e:
    print(f"⚠️ Błąd: {e}")
    print("Upewnij się, że masz ustawiony klucz API: OPENAI_API_KEY")

In [None]:
# Przykład: Ekstrakcja informacji z tekstu
try:
    tekst_do_analizy = """
    Firma TechCorp ogłosiła nową inwestycję w wysokości 50 milionów złotych. 
    CEO Jan Kowalski poinformował, że pieniądze zostaną przeznaczone na rozwój 
    sztucznej inteligencji. Projekt ma ruszyć w maju 2024 roku.
    """
    
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Wyciągnij z tekstu: firmę, osobę, kwotę i datę. Odpowiedz w formacie JSON."},
            {"role": "user", "content": tekst_do_analizy}
        ],
        temperature=0
    )
    
    print("\n=== OpenAI API - Ekstrakcja informacji ===")
    print(response.choices[0].message.content)
    
except Exception as e:
    print(f"⚠️ OpenAI API niedostępne: {e}")

## 2.6 Porównanie bibliotek - Kiedy używać której?

### NLTK - Używaj gdy:
- ✅ Uczysz się NLP
- ✅ Potrzebujesz podstawowych operacji
- ✅ Pracujesz z korpusami lingwistycznymi
- ✅ Robisz proste prototypy

### spaCy - Używaj gdy:
- ✅ Budujesz aplikację produkcyjną
- ✅ Potrzebujesz szybkości
- ✅ Pracujesz z pipeline'ami NLP
- ✅ Chcesz gotowe rozwiązania (NER, POS, itp.)

### Hugging Face - Używaj gdy:
- ✅ Potrzebujesz najnowszych modeli Transformer
- ✅ Pracujesz z wieloma językami
- ✅ Fine-tuningujesz modele
- ✅ Chcesz dostęp do tysięcy pre-trenowanych modeli

### OpenAI API - Używaj gdy:
- ✅ Potrzebujesz najlepszej jakości
- ✅ Nie chcesz się martwić infrastrukturą
- ✅ Zadanie wymaga rozumienia kontekstu
- ✅ Budżet pozwala na API calls
- ⚠️ Pamiętaj o prywatności danych!

## Ćwiczenie praktyczne

**Zadanie**: Wykonaj to samo zadanie NLP używając różnych bibliotek

Zadanie: Znajdź wszystkie osoby i lokalizacje w tekście.

In [None]:
tekst_testowy = """
Adam Mickiewicz urodził się w Zaosiu niedaleko Nowogródka. 
Studiował na Uniwersytecie Wileńskim. Później przeniósł się do Paryża, 
gdzie poznał Juliusza Słowackiego.
"""

print("=== TEKST DO ANALIZY ===")
print(tekst_testowy)
print("\n" + "="*60)

# TODO: Spróbuj wyciągnąć nazwane encje używając:
# 1. spaCy
# 2. Hugging Face
# 3. OpenAI API

# Który sposób działa najlepiej?
# Który jest najszybszy?
# Który jest najłatwiejszy w użyciu?

In [None]:
# Rozwiązanie 1: spaCy
try:
    nlp = spacy.load("pl_core_news_sm")
    doc = nlp(tekst_testowy)
    
    print("\n=== ROZWIĄZANIE: spaCy ===")
    osoby = [ent.text for ent in doc.ents if ent.label_ == "persName"]
    miejsca = [ent.text for ent in doc.ents if ent.label_ in ["placeName", "geogName"]]
    
    print(f"Osoby: {osoby}")
    print(f"Miejsca: {miejsca}")
except Exception as e:
    print(f"spaCy: {e}")

In [None]:
# Rozwiązanie 2: Hugging Face
try:
    ner_pipeline = pipeline("ner", model="dslim/bert-base-NER", grouped_entities=True)
    entities = ner_pipeline(tekst_testowy)
    
    print("\n=== ROZWIĄZANIE: Hugging Face ===")
    osoby = [e['word'] for e in entities if e['entity_group'] == 'PER']
    miejsca = [e['word'] for e in entities if e['entity_group'] == 'LOC']
    
    print(f"Osoby: {osoby}")
    print(f"Miejsca: {miejsca}")
except Exception as e:
    print(f"Hugging Face: {e}")

## Podsumowanie Modułu 2

✅ Poznaliśmy główne biblioteki NLP (NLTK, spaCy, Hugging Face, OpenAI)

✅ Nauczyliśmy się instalować i konfigurować narzędzia

✅ Wykonaliśmy praktyczne przykłady z każdej biblioteki

✅ Wiemy kiedy używać której biblioteki

---

**Następny krok**: Moduł 3 - Podstawowe operacje w NLP