# Dzie≈Ñ 1 - Modu≈Ç 2: Narzƒôdzia i biblioteki do NLP

## Cele modu≈Çu:
- Poznanie najpopularniejszych bibliotek NLP w Pythonie
- Instalacja i konfiguracja narzƒôdzi
- Praktyczne por√≥wnanie NLTK, spaCy i Hugging Face
- Integracja z OpenAI API

## 2.1 PrzeglƒÖd ekosystemu bibliotek NLP w Pythonie

### G≈Ç√≥wne biblioteki:

| Biblioteka | Zastosowanie | Poziom | Szybko≈õƒá |
|------------|--------------|--------|----------|
| **NLTK** | Edukacja, prototypy | PoczƒÖtkujƒÖcy | Wolna |
| **spaCy** | Produkcja, pipeline'y | ≈öredniozaawansowany | Szybka |
| **Hugging Face** | Transformery, ML | Zaawansowany | Zale≈ºna od modelu |
| **TextBlob** | Proste analizy | PoczƒÖtkujƒÖcy | ≈örednia |
| **Gensim** | Topic modeling | ≈öredniozaawansowany | ≈örednia |
| **OpenAI API** | LLM, generowanie | Wszystkie | Szybka |

## 2.2 NLTK (Natural Language Toolkit)

### Charakterystyka:
- üìö Najbardziej edukacyjna biblioteka
- üß∞ Ponad 50 korpus√≥w i zasob√≥w leksykalnych
- üéì ≈öwietna do nauki podstaw NLP
- ‚ö†Ô∏è Wolniejsza ni≈º spaCy

### Instalacja:
```bash
pip install nltk
```

In [None]:
# Instalacja i pobieranie zasob√≥w NLTK
import nltk

# Pobierz podstawowe zasoby (wykonaj raz)
resources = ['punkt', 'stopwords', 'averaged_perceptron_tagger', 'wordnet', 'omw-1.4']

for resource in resources:
    try:
        nltk.download(resource, quiet=True)
    except:
        print(f"Nie mo≈ºna pobraƒá: {resource}")

print("‚úÖ NLTK zasoby pobrane!")

In [None]:
# Przyk≈Çad u≈ºycia NLTK - tokenizacja
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

tekst = """
Natural Language Processing to fascynujƒÖca dziedzina sztucznej inteligencji.
Pozwala komputerom rozumieƒá i generowaƒá ludzki jƒôzyk.
"""

# Tokenizacja zda≈Ñ
zdania = sent_tokenize(tekst)
print("=== Zdania ===")
for i, zdanie in enumerate(zdania, 1):
    print(f"{i}. {zdanie.strip()}")

print("\n=== S≈Çowa ===")
# Tokenizacja s≈Ç√≥w
slowa = word_tokenize(tekst)
print(slowa[:15])

In [None]:
# NLTK - Part of Speech Tagging (dla angielskiego)
from nltk import pos_tag

tekst_en = "The quick brown fox jumps over the lazy dog."
slowa_en = word_tokenize(tekst_en)
tagged = pos_tag(slowa_en)

print("=== POS Tagging (angielski) ===")
for slowo, tag in tagged:
    print(f"{slowo:15} -> {tag}")

## 2.3 spaCy - Produkcyjna biblioteka NLP

### Charakterystyka:
- üöÄ Bardzo szybka (zoptymalizowana w Cython)
- üè≠ Gotowa do u≈ºycia w produkcji
- üåç Wsparcie dla wielu jƒôzyk√≥w (polski te≈º!)
- üéØ Pipeline'y do konkretnych zada≈Ñ

### Instalacja:
```bash
pip install spacy
python -m spacy download pl_core_news_sm  # model polski
python -m spacy download en_core_web_sm   # model angielski
```

In [None]:
# Przyk≈Çad u≈ºycia spaCy
import spacy

# Za≈Çaduj model polski (je≈õli jest zainstalowany)
try:
    nlp = spacy.load("pl_core_news_sm")
    tekst = "Jan Kowalski pracuje w Warszawie dla firmy Microsoft."
except:
    print("‚ö†Ô∏è Model polski nie jest zainstalowany. U≈ºywam angielskiego.")
    nlp = spacy.load("en_core_web_sm")
    tekst = "John Smith works in New York for Microsoft Corporation."

# Przetw√≥rz tekst
doc = nlp(tekst)

print("=== Tokeny i ich w≈Ça≈õciwo≈õci ===")
for token in doc:
    print(f"{token.text:15} | Lemma: {token.lemma_:15} | POS: {token.pos_:8} | Tag: {token.tag_}")

In [None]:
# spaCy - Named Entity Recognition (NER)
print("\n=== Rozpoznawanie Nazwanych Encji (NER) ===")

for ent in doc.ents:
    print(f"{ent.text:20} -> {ent.label_:10} ({spacy.explain(ent.label_)})")

In [None]:
# spaCy - Dependency Parsing (analiza zale≈ºno≈õci)
print("\n=== Analiza zale≈ºno≈õci sk≈Çadniowych ===")

for token in doc:
    print(f"{token.text:15} <--[{token.dep_:10}]-- {token.head.text}")

In [None]:
# spaCy - Podobie≈Ñstwo semantyczne
try:
    # Wymaga modelu z wektorami (np. en_core_web_md lub pl_core_news_md)
    doc1 = nlp("kot")
    doc2 = nlp("pies")
    doc3 = nlp("samoch√≥d")
    
    print("\n=== Podobie≈Ñstwo semantyczne ===")
    print(f"Podobie≈Ñstwo 'kot' <-> 'pies': {doc1.similarity(doc2):.3f}")
    print(f"Podobie≈Ñstwo 'kot' <-> 'samoch√≥d': {doc1.similarity(doc3):.3f}")
except:
    print("\n‚ö†Ô∏è Podobie≈Ñstwo wymaga modelu z wektorami (np. en_core_web_md)")

## 2.4 Hugging Face Transformers - Nowoczesne modele NLP

### Charakterystyka:
- ü§ó Najwiƒôksza biblioteka modeli Transformer
- üöÄ TysiƒÖce pre-trenowanych modeli
- üåç Wsparcie dla 100+ jƒôzyk√≥w
- üî• PyTorch i TensorFlow
- üì¶ Model Hub - ≈Çatwe pobieranie i dzielenie siƒô modelami

### Instalacja:
```bash
pip install transformers torch
```

In [None]:
# Przyk≈Çad: Pipeline'y w Hugging Face
from transformers import pipeline

print("=== Pipeline do analizy sentymentu ===")

# Automatycznie pobiera i u≈ºywa odpowiedniego modelu
classifier = pipeline("sentiment-analysis")

teksty = [
    "I love this product!",
    "This is terrible and disappointing.",
    "It's okay, nothing special."
]

wyniki = classifier(teksty)

for tekst, wynik in zip(teksty, wyniki):
    print(f"Tekst: {tekst}")
    print(f"  -> {wynik['label']}: {wynik['score']:.3f}")
    print()

In [None]:
# Pipeline do rozpoznawania nazwanych encji
print("=== Named Entity Recognition ===")

ner = pipeline("ner", grouped_entities=True)

tekst = "Elon Musk is the CEO of Tesla and SpaceX, based in California."
entities = ner(tekst)

for entity in entities:
    print(f"{entity['word']:20} -> {entity['entity_group']:10} (score: {entity['score']:.3f})")

In [None]:
# Pipeline do podsumowywania tekstu
print("\n=== Podsumowanie tekstu ===")

summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

dlugi_tekst = """
Artificial intelligence has made remarkable progress in recent years. 
Machine learning models, particularly deep neural networks, have achieved 
superhuman performance in many tasks. Natural language processing has 
especially benefited from transformer architectures like BERT and GPT. 
These models can understand context, generate human-like text, and perform 
various NLP tasks with minimal fine-tuning. The impact on industries 
ranging from healthcare to finance has been profound.
"""

streszczenie = summarizer(dlugi_tekst, max_length=50, min_length=25, do_sample=False)
print("Orygina≈Ç:", len(dlugi_tekst.split()), "s≈Ç√≥w")
print("Streszczenie:", streszczenie[0]['summary_text'])

## 2.5 OpenAI API - Large Language Models

### Charakterystyka:
- üß† Najpotƒô≈ºniejsze modele jƒôzykowe (GPT-4, GPT-3.5)
- ‚òÅÔ∏è API w chmurze - brak potrzeby w≈Çasnej infrastruktury
- üí∞ P≈Çatne (ale tanie dla ma≈Çych projekt√≥w)
- üéØ Uniwersalne - jedna API do wielu zada≈Ñ

### Instalacja:
```bash
pip install openai
```

### Konfiguracja:
Potrzebujesz klucza API z https://platform.openai.com/

In [None]:
# Przyk≈Çad u≈ºycia OpenAI API
import os
from openai import OpenAI

# UWAGA: Ustaw sw√≥j klucz API
# Spos√≥b 1: Zmienna ≈õrodowiskowa (zalecane)
# export OPENAI_API_KEY='your-api-key'

# Spos√≥b 2: Bezpo≈õrednio (NIE commituj do repozytorium!)
# os.environ['OPENAI_API_KEY'] = 'your-api-key'

try:
    client = OpenAI()
    
    # Przyk≈Çad: Analiza sentymentu
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Jeste≈õ ekspertem od analizy sentymentu. Odpowiadaj kr√≥tko: POZYTYWNY, NEGATYWNY lub NEUTRALNY."},
            {"role": "user", "content": "Oce≈Ñ sentyment: Ten produkt jest fantastyczny! Bardzo polecam."}
        ],
        temperature=0
    )
    
    print("=== OpenAI API - Analiza sentymentu ===")
    print("Odpowied≈∫:", response.choices[0].message.content)
    
except Exception as e:
    print(f"‚ö†Ô∏è B≈ÇƒÖd: {e}")
    print("Upewnij siƒô, ≈ºe masz ustawiony klucz API: OPENAI_API_KEY")

In [None]:
# Przyk≈Çad: Ekstrakcja informacji z tekstu
try:
    tekst_do_analizy = """
    Firma TechCorp og≈Çosi≈Ça nowƒÖ inwestycjƒô w wysoko≈õci 50 milion√≥w z≈Çotych. 
    CEO Jan Kowalski poinformowa≈Ç, ≈ºe pieniƒÖdze zostanƒÖ przeznaczone na rozw√≥j 
    sztucznej inteligencji. Projekt ma ruszyƒá w maju 2024 roku.
    """
    
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "WyciƒÖgnij z tekstu: firmƒô, osobƒô, kwotƒô i datƒô. Odpowiedz w formacie JSON."},
            {"role": "user", "content": tekst_do_analizy}
        ],
        temperature=0
    )
    
    print("\n=== OpenAI API - Ekstrakcja informacji ===")
    print(response.choices[0].message.content)
    
except Exception as e:
    print(f"‚ö†Ô∏è OpenAI API niedostƒôpne: {e}")

## 2.6 Por√≥wnanie bibliotek - Kiedy u≈ºywaƒá kt√≥rej?

### NLTK - U≈ºywaj gdy:
- ‚úÖ Uczysz siƒô NLP
- ‚úÖ Potrzebujesz podstawowych operacji
- ‚úÖ Pracujesz z korpusami lingwistycznymi
- ‚úÖ Robisz proste prototypy

### spaCy - U≈ºywaj gdy:
- ‚úÖ Budujesz aplikacjƒô produkcyjnƒÖ
- ‚úÖ Potrzebujesz szybko≈õci
- ‚úÖ Pracujesz z pipeline'ami NLP
- ‚úÖ Chcesz gotowe rozwiƒÖzania (NER, POS, itp.)

### Hugging Face - U≈ºywaj gdy:
- ‚úÖ Potrzebujesz najnowszych modeli Transformer
- ‚úÖ Pracujesz z wieloma jƒôzykami
- ‚úÖ Fine-tuningujesz modele
- ‚úÖ Chcesz dostƒôp do tysiƒôcy pre-trenowanych modeli

### OpenAI API - U≈ºywaj gdy:
- ‚úÖ Potrzebujesz najlepszej jako≈õci
- ‚úÖ Nie chcesz siƒô martwiƒá infrastrukturƒÖ
- ‚úÖ Zadanie wymaga rozumienia kontekstu
- ‚úÖ Bud≈ºet pozwala na API calls
- ‚ö†Ô∏è Pamiƒôtaj o prywatno≈õci danych!

## ƒÜwiczenie praktyczne

**Zadanie**: Wykonaj to samo zadanie NLP u≈ºywajƒÖc r√≥≈ºnych bibliotek

Zadanie: Znajd≈∫ wszystkie osoby i lokalizacje w tek≈õcie.

In [None]:
tekst_testowy = """
Adam Mickiewicz urodzi≈Ç siƒô w Zaosiu niedaleko Nowogr√≥dka. 
Studiowa≈Ç na Uniwersytecie Wile≈Ñskim. P√≥≈∫niej przeni√≥s≈Ç siƒô do Pary≈ºa, 
gdzie pozna≈Ç Juliusza S≈Çowackiego.
"""

print("=== TEKST DO ANALIZY ===")
print(tekst_testowy)
print("\n" + "="*60)

# TODO: Spr√≥buj wyciƒÖgnƒÖƒá nazwane encje u≈ºywajƒÖc:
# 1. spaCy
# 2. Hugging Face
# 3. OpenAI API

# Kt√≥ry spos√≥b dzia≈Ça najlepiej?
# Kt√≥ry jest najszybszy?
# Kt√≥ry jest naj≈Çatwiejszy w u≈ºyciu?

In [None]:
# RozwiƒÖzanie 1: spaCy
try:
    nlp = spacy.load("pl_core_news_sm")
    doc = nlp(tekst_testowy)
    
    print("\n=== ROZWIƒÑZANIE: spaCy ===")
    osoby = [ent.text for ent in doc.ents if ent.label_ == "persName"]
    miejsca = [ent.text for ent in doc.ents if ent.label_ in ["placeName", "geogName"]]
    
    print(f"Osoby: {osoby}")
    print(f"Miejsca: {miejsca}")
except Exception as e:
    print(f"spaCy: {e}")

In [None]:
# RozwiƒÖzanie 2: Hugging Face
try:
    ner_pipeline = pipeline("ner", model="dslim/bert-base-NER", grouped_entities=True)
    entities = ner_pipeline(tekst_testowy)
    
    print("\n=== ROZWIƒÑZANIE: Hugging Face ===")
    osoby = [e['word'] for e in entities if e['entity_group'] == 'PER']
    miejsca = [e['word'] for e in entities if e['entity_group'] == 'LOC']
    
    print(f"Osoby: {osoby}")
    print(f"Miejsca: {miejsca}")
except Exception as e:
    print(f"Hugging Face: {e}")

## Podsumowanie Modu≈Çu 2

‚úÖ Poznali≈õmy g≈Ç√≥wne biblioteki NLP (NLTK, spaCy, Hugging Face, OpenAI)

‚úÖ Nauczyli≈õmy siƒô instalowaƒá i konfigurowaƒá narzƒôdzia

‚úÖ Wykonali≈õmy praktyczne przyk≈Çady z ka≈ºdej biblioteki

‚úÖ Wiemy kiedy u≈ºywaƒá kt√≥rej biblioteki

---

**Nastƒôpny krok**: Modu≈Ç 3 - Podstawowe operacje w NLP