# Uczenie maszynowe w przetwarzaniu języka naturalnego (NLP)

In [1]:
# Importowanie klasy TfidfVectorizer, ktora konwertuje teksty na macierz TF-IDF (wazone cechy tekstu)
from sklearn.feature_extraction.text import TfidfVectorizer

# Importowanie klasyfikatora Naive Bayesowego, dostosowanego do danych dyskretnych (np. tekstowych)
from sklearn.naive_bayes import MultinomialNB

# Importowanie narzedzia make_pipeline, ktore laczy przetwarzanie danych i modelowanie w jeden krok
from sklearn.pipeline import make_pipeline

# Importowanie funkcji do podzialu danych na zbior treningowy i testowy
from sklearn.model_selection import train_test_split

# Importowanie funkcji do oceny skutecznosci modelu, m.in. poprzez precision, recall i F1-score
from sklearn.metrics import classification_report

# Importowanie biblioteki pandas do operacji na danych tabelarycznych (DataFrame)
import pandas as pd

# Wczytanie danych z pliku CSV o nazwie "opinie.csv".
# Zakladamy, ze plik zawiera kolumne 'tekst' (zawartosc tekstowa) i 'etykieta' (klasa: np. pozytywna/negatywna)
data = pd.read_csv("opinie.csv")

# Podzial danych na zestaw treningowy (80%) i testowy (20%)
# 'X' to cechy (teksty), 'y' to etykiety (klasy)
X_train, X_test, y_train, y_test = train_test_split(data['tekst'], data['etykieta'], 
                                                    test_size=0.2)

# Tworzenie potoku (pipeline), ktory najpierw przeksztalca teksty na wektory TF-IDF,
# a nastepnie trenuje model MultinomialNB na tych cechach
model = make_pipeline(TfidfVectorizer(), MultinomialNB())


# Trenowanie modelu na danych treningowych: teksty sa wektoryzowane i klasyfikator uczy sie etykiet
model.fit(X_train, y_train)

# Predykcja etykiet dla danych testowych przy uzyciu wytrenowanego modelu
predictions = model.predict(X_test)

# Drukowanie raportu klasyfikacyjnego, ktory pokazuje miary jakosci klasyfikacji:
# dokladnosc (precision), czulosc (recall), F1-score i wsparcie (support) dla kazdej klasy
print(classification_report(y_test, predictions))

FileNotFoundError: [Errno 2] No such file or directory: 'opinie.csv'

## Klasyfikacja tekstu

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(X_train, y_train)
model.predict(["To był wspaniały film!"])

NameError: name 'X_train' is not defined

## Tokenizacja

In [4]:
import nltk
from nltk.tokenize import word_tokenize

# Pobieranie wymaganych zasobów
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('punkt_tab')

# Tokenizacja i tagowanie POS
text = "Ala ma kota"
tokens = word_tokenize(text)
print(nltk.pos_tag(tokens))


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\JJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\JJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\JJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\JJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.


[('Ala', 'NNP'), ('ma', 'NN'), ('kota', 'NN')]


## Tagowanie części mowy (POS tagging)

In [7]:
import nltk
nltk.download('punkt_tab')

nltk.pos_tag(word_tokenize("Ala ma kota"))

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\JJ\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


[('Ala', 'NNP'), ('ma', 'NN'), ('kota', 'NN')]

## Rozpoznawanie nazw własnych (NER)

In [None]:
#!pip install spacy

Collecting spacyNote: you may need to restart the kernel to use updated packages.

  Downloading spacy-3.8.7-cp310-cp310-win_amd64.whl.metadata (28 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Using cached spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Using cached spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.13-cp310-cp310-win_amd64.whl.metadata (2.2 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.11-cp310-cp310-win_amd64.whl.metadata (8.8 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.10-cp310-cp310-win_amd64.whl.metadata (2.5 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Downloading thinc-8.3.6-cp310-cp310-win_amd64.whl.metadata (15 kB)
Collecting wasabi<1.2.0,>=0.9.1 (from spacy)
  Using cached wasabi-1.1.3-py3-none-any.whl.metadata (28 kB)
Collecting srsly<3.0.

    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [None]:
#! pip install --upgrade numpy



    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [None]:
#! rm -rf ~/nltk_data/tokenizers/punkt

'rm' is not recognized as an internal or external command,
operable program or batch file.


In [14]:
import spacy

import spacy.cli
spacy.cli.download("pl_core_news_sm")

nlp = spacy.load("pl_core_news_sm")

doc = nlp("Adam Mickiewicz urodził się w Zaosiu.")
[(ent.text, ent.label_) for ent in doc.ents]


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.2.6 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "c:\Users\JJ\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "c:\Users\JJ\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "C:\Users\JJ\AppData\Roaming\Python\Python310\site-packages\ipykernel_launcher.py", line 18, in <module>
    app.launch_new_instance()
  File "C:\Users\JJ\AppData\Roaming\Python\Python310\site-packages\traitlets\config\application.py", line 

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pl_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


[('Adam Mickiewicz', 'persName'), ('Zaosiu', 'placeName')]

## Ekstrakcja informacji
Wydobywanie kluczowych danych z tekstu. Np. kto, co zrobił, gdzie, kiedy.

In [15]:
# Przyklad NER + relacja: kto gdzie mieszka
text = "Maria mieszka w Warszawie."
doc = nlp(text)
[(ent.text, ent.label_) for ent in doc.ents]

[('Maria', 'persName'), ('Warszawie', 'placeName')]

## Tłumaczenie maszynowe

In [18]:
! pip install transformers



    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [16]:
! pip install sentencepiece



    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [17]:
!pip install sentencepiece



    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [19]:
from transformers import MarianMTModel, MarianTokenizer
model_name = 'Helsinki-NLP/opus-mt-pl-en'
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

text = "Kocham programowanie."
tokens = tokenizer(text, return_tensors="pt", padding=True)
translation = model.generate(**tokens)
tokenizer.decode(translation[0], skip_special_tokens=True)

  from .autonotebook import tqdm as notebook_tqdm
Downloading source.spm: 100%|██████████| 835k/835k [00:00<00:00, 3.85MB/s]
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading target.spm: 100%|██████████| 785k/785k [00:00<00:00, 2.43MB/s]
Downloading vocab.json: 100%|██████████| 1.52M/1.52M [00:00<00:00, 3.43MB/s]
Downloading tokenizer_config.json: 100%|██████████| 42.0/42.0 [00:00<?, ?B/s]
Downloading config.json: 100%|██████████| 1.38k/1.38k [00:00<?, ?B/s]
Downloading pytorch_model.bin: 100%|██████████| 309M/309M [00:04<00:00, 63.2MB/s] 


'I love programming.'

## Streszczanie tekstu

In [20]:
from transformers import pipeline
summarizer = pipeline("summarization")
summarizer("""Uczenie maszynowe to dziedzina informatyki, 
która pozwala systemom uczyć się z danych bez jawnego programowania.""")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
Downloading config.json: 100%|██████████| 1.80k/1.80k [00:00<?, ?B/s]
Downloading pytorch_model.bin: 100%|██████████| 1.22G/1.22G [00:23<00:00, 52.8MB/s]
Downloading tokenizer_config.json: 100%|██████████| 26.0/26.0 [00:00<?, ?B/s]
Downloading vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 29.1MB/s]
Downloading merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 19.9MB/s]
Your max_length is set to 142, but you input_length is only 53. You might consider decreasing max_length manually, e.g. summarizer('...', max_length=26)


[{'summary_text': ' Uczenie maszynowe to dziedzina informatyki . Systemom pozwala systemom uczyć się z danych bez jawnego programowania. Uczynowie złłła,   \xa0ucykóra pozzzila systemom   to  ykryryryk .'}]

## Odpowiadanie na pytania (QA)


In [22]:
qa = pipeline("question-answering")
qa({
  'question': "Kto napisał Pana Tadeusza?",
  'context': "Adam Mickiewicz napisał Pana Tadeusza w 1834 roku."
})

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


RuntimeError: Numpy is not available

## Generowanie tekstu


In [1]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


    numpy (>=1.19.*) ; python_version >= "3.7"
           ~~~~~~~^


In [2]:
from transformers import pipeline
generator = pipeline("text-generation")
generator("Pewnego razu w Warszawie", max_length=30)

  from .autonotebook import tqdm as notebook_tqdm

A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.2.6 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "c:\Users\JJ\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "c:\Users\JJ\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "C:\Users\JJ\AppData\Roaming\Python\Python310\site-packages\ipykernel_launcher.py", line 18, in <module>
    app.launch_new_instance()
  File "C:\Users\JJ\AppData\Roaming\Python\Python310\sit

RuntimeError: Numpy is not available

In [3]:
import pandas as pd
import random

# Przykładowe opinie
positive_samples = [
    "Ten film był niesamowity! Uwielbiam każdy moment.",
    "Świetna gra aktorska i wciągająca fabuła.",
    "Rewelacyjny film! Polecam każdemu.",
    "Cudowny film z pięknym przesłaniem.",
    "Wspaniała historia, doskonałe zdjęcia.",
    "Zachwycający film, pełen emocji.",
    "Kapitalny scenariusz i znakomita reżyseria.",
    "Bardzo inspirujący i pięknie nakręcony film.",
    "Znakomita rola głównego aktora.",
    "Film pełen nadziei i pozytywnych emocji."
]

negative_samples = [
    "Nie podobał mi się ten film, był nudny i przewidywalny.",
    "To był najgorszy film jaki widziałem.",
    "Strata czasu. Nie warto oglądać.",
    "Zbyt długi i momentami nużący.",
    "Film był chaotyczny i źle zmontowany.",
    "Dialogi były sztuczne i nudne.",
    "Rozczarowujący, spodziewałem się czegoś lepszego.",
    "Fabuła była płytka i nielogiczna.",
    "Beznadziejna gra aktorska i kiepski montaż.",
    "Jeden z najgorszych filmów tego roku."
]

neutral_samples = [
    "Film był przeciętny, ale muzyka była dobra.",
    "Dobrze nakręcony, ale bez emocji.",
    "Nie był zły, ale nic specjalnego.",
    "Typowy film na jeden raz.",
    "Poprawny technicznie, ale nie wciąga.",
    "Ani dobry, ani zły – po prostu okej.",
    "Dość standardowy film, niczym się nie wyróżniał.",
    "Obejrzałem bez większych emocji.",
    "Film neutralny w odbiorze.",
    "Nie zapadnie mi w pamięć, ale też nie żałuję."
]

# Generowanie 100 przykładów każdej klasy
texts = []
labels = []

for _ in range(100):
    texts.append(random.choice(positive_samples))
    labels.append("pozytywna")
    texts.append(random.choice(negative_samples))
    labels.append("negatywna")
    texts.append(random.choice(neutral_samples))
    labels.append("neutralna")

# Tworzenie DataFrame
expanded_df = pd.DataFrame({"tekst": texts, "etykieta": labels})

# Zapis do pliku
#expanded_file_path = "/mnt/data/opinie_rozszerzone.csv"
expanded_file_path = "opinie_rozszerzone.csv"
expanded_df.to_csv(expanded_file_path, index=False)

expanded_file_path


'opinie_rozszerzone.csv'

In [4]:
import pandas as pd
import random

# Przykładowe e-maile spam
spam_samples = [
    "Wygrałeś milion dolarów! Kliknij tutaj, aby odebrać nagrodę.",
    "Otrzymujesz specjalną ofertę tylko dziś! Kup teraz!",
    "Twoje konto zostało zablokowane. Zaloguj się, aby je odblokować.",
    "Pilne! Potrzebujemy potwierdzenia Twoich danych bankowych.",
    "Zainwestuj w kryptowaluty i zarabiaj codziennie.",
    "Otrzymujesz darmowy prezent. Kliknij w link.",
    "Wyślij ten e-mail do 10 osób i wygraj iPhone'a.",
    "Masz nieopłaconą fakturę. Zapłać natychmiast.",
    "Twój komputer jest zainfekowany. Pobierz antywirusa.",
    "Gratulacje! Zostałeś wybrany do testowania nowego produktu."
]

# Przykładowe e-maile nie-spam (ham)
ham_samples = [
    "Cześć, czy spotkamy się jutro na kawie?",
    "Załączam raport z ostatniego spotkania.",
    "Proszę o przesłanie faktury za usługi.",
    "Dziękuję za szybką odpowiedź.",
    "Przypominam o jutrzejszym spotkaniu zespołu.",
    "Czy możesz przesłać mi prezentację?",
    "W załączniku znajdziesz dokumenty do podpisu.",
    "Miłego dnia! Pozdrawiam serdecznie.",
    "Potwierdzam otrzymanie zamówienia.",
    "Proszę o informację zwrotną w sprawie projektu."
]

# Generowanie 100 przykładów każdej klasy
texts = []
labels = []

for _ in range(100):
    texts.append(random.choice(spam_samples))
    labels.append("spam")
    texts.append(random.choice(ham_samples))
    labels.append("ham")

# Tworzenie DataFrame
emails_df = pd.DataFrame({"text": texts, "label": labels})

# Zapis do pliku
emails_df.to_csv("emails.csv", index=False)
"emails.csv"

'emails.csv'

In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Wczytaj dane (przykład: emails.csv z kolumnami 'text' i 'label')
data = pd.read_csv("emails.csv")  # Upewnij się, że plik istnieje w katalogu

# Podział na cechy i etykiety
X = data['text']
y = data['label']

# Podział na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline: TF-IDF + Naive Bayes
model = make_pipeline(TfidfVectorizer(), MultinomialNB())

# Trening
model.fit(X_train, y_train)

# Predykcja
predictions = model.predict(X_test)

# Raport klasyfikacji
print(classification_report(y_test, predictions))

              precision    recall  f1-score   support

         ham       1.00      1.00      1.00        16
        spam       1.00      1.00      1.00        24

    accuracy                           1.00        40
   macro avg       1.00      1.00      1.00        40
weighted avg       1.00      1.00      1.00        40

