# Zestaw 5

## Zadanie 1

### Jaki jest paradygmat uczenia sieci RNN?
- Sieci RNN uczą się na danych sekwencyjnych, gdzie bieżące wyjście zależy nie tylko od bieżącego wejścia, ale także od poprzednich stanów. Uczenie odbywa się za pomocą Backpropagation Through Time (BPTT), czyli rozszerzenia algorytmu wstecznej propagacji na sekwencje czasowe.

### Jak można alternatywnie definiować problemy rozwiązywane siecią rekurencyjną?
Sieci RNN mogą być używane do różnych zadań, takich jak:

- Predykcja szeregów czasowych: Prognozowanie przyszłych wartości na podstawie przeszłych danych.
- Klasyfikacja sekwencji: Określenie kategorii całej sekwencji, np. klasyfikacja emocji w zdaniu.
- Generowanie sekwencji: Tworzenie nowych danych sekwencyjnych, np. generowanie tekstu.
- Tłumaczenie maszynowe: Przekładanie tekstu z jednego języka na inny.
- Rozpoznawanie mowy: Konwersja mowy na tekst.

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, LSTM, GRU, Dense

# Generowanie przykładowych danych sekwencyjnych
def generate_sequence(seq_length=1000):
    x = np.linspace(0, 100, seq_length)
    y = np.sin(x) + 0.1 * np.random.randn(seq_length)
    return y

data = generate_sequence()

# Przygotowanie danych do modelu RNN
def create_dataset(data, time_steps=10):
    X, y = [], []
    for i in range(len(data) - time_steps):
        X.append(data[i:i+time_steps])
        y.append(data[i+time_steps])
    return np.array(X), np.array(y)

time_steps = 20
X, y = create_dataset(data, time_steps)
X = X.reshape((X.shape[0], X.shape[1], 1))  # [samples, time_steps, features]

# Podział na zbiór treningowy i testowy
split = int(0.8 * len(X))
X_train, X_test = X[:split], X[split:]
y_train, y_test = y[:split], y[split:]

# Funkcja do budowy modelu RNN
def build_rnn(model_type='RNN'):
    model = Sequential()
    if model_type == 'RNN':
        model.add(SimpleRNN(50, activation='tanh', input_shape=(time_steps, 1)))
    elif model_type == 'LSTM':
        model.add(LSTM(50, activation='tanh', input_shape=(time_steps, 1)))
    elif model_type == 'GRU':
        model.add(GRU(50, activation='tanh', input_shape=(time_steps, 1)))
    else:
        raise ValueError("Unsupported model type")
    model.add(Dense(1))
    model.compile(optimizer='adam', loss='mse')
    return model

# Trenowanie i ocena modeli
for model_type in ['RNN', 'LSTM', 'GRU']:
    print(f"\nTrenowanie modelu: {model_type}")
    model = build_rnn(model_type)
    model.fit(X_train, y_train, epochs=20, batch_size=32, validation_split=0.1)
    loss = model.evaluate(X_test, y_test)
    print(f"Test Loss for {model_type}: {loss}")



Trenowanie modelu: RNN
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test Loss for RNN: 0.0118815116584301

Trenowanie modelu: LSTM
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test Loss for LSTM: 0.01233304850757122

Trenowanie modelu: GRU
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test Loss for GRU: 0.014546386897563934


## Zadanie 2

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# Generowanie danych: suma dwóch sinusoid z różnymi częstotliwościami
def generate_time_series(seq_length=2000):
    x = np.linspace(0, 100, seq_length)
    y = np.sin(x) + 0.5 * np.sin(5 * x) + 0.1 * np.random.randn(seq_length)
    return y

data = generate_time_series()

# Przygotowanie danych
def create_dataset(data, time_steps=50):
    X, y = [], []
    for i in range(len(data) - time_steps):
        X.append(data[i:i+time_steps])
        y.append(data[i+time_steps])
    return np.array(X), np.array(y)

time_steps = 50
X, y = create_dataset(data, time_steps)
X = X.reshape((X.shape[0], X.shape[1], 1))

# Podział na trening i test
split = int(0.8 * len(X))
X_train, X_test = X[:split], X[split:]
y_train, y_test = y[:split], y[split:]

# Budowa modelu LSTM
model = Sequential()
model.add(LSTM(100, activation='tanh', input_shape=(time_steps, 1)))
model.add(Dense(1))
model.compile(optimizer='adam', loss='mse')

# Trenowanie modelu
history = model.fit(X_train, y_train, epochs=20, batch_size=32, validation_split=0.1)

# Ocena modelu
loss = model.evaluate(X_test, y_test)
print(f"Test Loss: {loss}")

# Przewidywanie i wizualizacja
y_pred = model.predict(X_test)

plt.figure(figsize=(14,5))
plt.plot(y_test, label='Rzeczywiste')
plt.plot(y_pred, label='Przewidywane')
plt.legend()
plt.show()


## Zadanie 3

In [None]:
import tensorflow as tf
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

# Parametry
vocab_size = 10000
max_length = 200
embedding_dim = 128

# Ładowanie danych
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=vocab_size)

# Padding sekwencji
X_train = pad_sequences(X_train, maxlen=max_length, padding='post')
X_test = pad_sequences(X_test, maxlen=max_length, padding='post')

# Budowa modelu
model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_length))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

# Kompilacja modelu
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Trenowanie modelu
model.fit(X_train, y_train, epochs=5, batch_size=64, validation_split=0.2)

# Ocena modelu
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Test Accuracy: {accuracy * 100:.2f}%")


## Zadanie 4

### Jak działają transformery?
Transformery to architektura sieci neuronowej, która zrewolucjonizowała przetwarzanie języka naturalnego (NLP) dzięki swojej efektywności w modelowaniu długich zależności w danych sekwencyjnych. Kluczowymi elementami transformera są:
- Mechanizm Uwag (Attention Mechanism)
- Struktura Enkoder- Dekoder
- Warstwy Normalizacji (Normalization Layers) i Reszty (Residual Connections)
- Zaletę transformera stanowi to, że nie wymaga on rekurencyjnych lub splotowych warstw, co pozwala na równoległe przetwarzanie danych sekwencyjnych.


## Zadanie 5

In [3]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Ładowanie danych
path = tf.keras.utils.get_file('alice.txt', 'https://www.gutenberg.org/files/11/11-0.txt')
with open(path, 'r', encoding='utf-8') as file:
    text = file.read().lower()

# Tokenizacja
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
total_words = len(tokenizer.word_index) + 1

# Tworzenie sekwencji
sequences = []
for line in text.split('\n'):
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        sequences.append(n_gram_sequence)

# Padding sekwencji
max_sequence_len = max([len(seq) for seq in sequences])
sequences = np.array(pad_sequences(sequences, maxlen=max_sequence_len, padding='pre'))

# Rozdzielenie na X i y
X, y = sequences[:,:-1], sequences[:,-1]
y = tf.keras.utils.to_categorical(y, num_classes=total_words)

# Budowa modelu
model = Sequential()
model.add(Embedding(total_words, 100, input_length=max_sequence_len-1))
model.add(LSTM(150, return_sequences=True))
model.add(LSTM(100))
model.add(Dense(total_words, activation='softmax'))

# Kompilacja modelu
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Trenowanie modelu
model.fit(X, y, epochs=10, verbose=1)

# Funkcja do generowania tekstu
def generate_text(seed_text, next_words, model, max_sequence_len):
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        predicted = model.predict(token_list, verbose=0)
        predicted_word = np.argmax(predicted, axis=1)[0]
        output_word = ''
        for word, index in tokenizer.word_index.items():
            if index == predicted_word:
                output_word = word
                break
        seed_text += " " + output_word
    return seed_text

# Generowanie tekstu
print(generate_text("alice was beginning to get very tired", 20, model, max_sequence_len))


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
alice was beginning to get very tired of the queen and the queen and the queen and the queen and the queen and the queen and the


## Zadanie 6

In [5]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, Dense, Embedding
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Przykładowe dane (bardzo mały zbiór dla uproszczenia)
english_sentences = [
    'hello',
    'how are you',
    'good morning',
    'good night',
    'thank you',
    'yes',
    'no'
]

spanish_sentences = [
    'hola',
    'cómo estás',
    'buenos días',
    'buenas noches',
    'gracias',
    'sí',
    'no'
]

# Dodanie tokenów start i stop do hiszpańskich zdań
# Używamy "<start>" jako tokenu start oraz "<end>" jako tokenu końca.
spanish_sentences = ['<start> ' + sentence + ' <end>' for sentence in spanish_sentences]

# Tokenizacja zdań angielskich
eng_tokenizer = Tokenizer()
eng_tokenizer.fit_on_texts(english_sentences)
eng_vocab_size = len(eng_tokenizer.word_index) + 1

# Tokenizacja zdań hiszpańskich
# Ustawiamy filters='' aby nie usunąć znaków specjalnych, choć teraz mamy jawne tokeny.
spa_tokenizer = Tokenizer(filters='')
spa_tokenizer.fit_on_texts(spanish_sentences)
spa_vocab_size = len(spa_tokenizer.word_index) + 1

# Tworzenie sekwencji dla dekodera:
# Najpierw konwertujemy hiszpańskie zdania na sekwencje indeksów:
decoder_sequences = spa_tokenizer.texts_to_sequences(spanish_sentences)
# Dla dekodera: wejście = sekwencja bez ostatniego tokenu, cel = sekwencja bez pierwszego tokenu
decoder_input_sequences = [seq[:-1] for seq in decoder_sequences]
decoder_target_sequences = [seq[1:] for seq in decoder_sequences]

# Przygotowanie danych: padding (używamy paddingu 'post')
encoder_input_data = pad_sequences(eng_tokenizer.texts_to_sequences(english_sentences), padding='post')
decoder_input_data = pad_sequences(decoder_input_sequences, padding='post')
decoder_target_data = pad_sequences(decoder_target_sequences, padding='post')

# Parametry modelu
latent_dim = 256

# ------------------------------
# Budowa modelu sekwencyjnego (encoder-decoder)
# ------------------------------

# Enkoder
encoder_inputs = Input(shape=(None,), name='encoder_inputs')
enc_emb = Embedding(input_dim=eng_vocab_size,
                    output_dim=latent_dim,
                    mask_zero=True,
                    name='encoder_embedding')(encoder_inputs)
encoder_lstm = LSTM(latent_dim, return_state=True, name='encoder_lstm')
encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
encoder_states = [state_h, state_c]

# Dekoder
decoder_inputs = Input(shape=(None,), name='decoder_inputs')
dec_emb = Embedding(input_dim=spa_vocab_size,
                    output_dim=latent_dim,
                    mask_zero=True,
                    name='decoder_embedding')(decoder_inputs)
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True, name='decoder_lstm')
decoder_outputs, _, _ = decoder_lstm(dec_emb, initial_state=encoder_states)
decoder_dense = Dense(spa_vocab_size, activation='softmax', name='decoder_dense')
decoder_outputs = decoder_dense(decoder_outputs)

# Model trenowania
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
model.summary()

# Trenowanie modelu
model.fit([encoder_input_data, decoder_input_data],
          decoder_target_data,
          epochs=500,
          batch_size=2)

# ------------------------------
# Modele do wnioskowania (inference)
# ------------------------------

# Model enkodera (do kodowania wejścia)
encoder_model = Model(encoder_inputs, encoder_states)

# Model dekodera (do generowania kolejnych tokenów)
# Definicja wejść dla stanów wewnętrznych dekodera
decoder_state_input_h = Input(shape=(latent_dim,), name='input_h')
decoder_state_input_c = Input(shape=(latent_dim,), name='input_c')
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

# Dekodowanie odbywa się krok po kroku. Przyjmujemy pojedynczy token na wejściu.
decoder_inf_inputs = Input(shape=(1,), name='decoder_inf_inputs')
# Używamy tej samej warstwy embedding, co w trakcie treningu.
decoder_inf_emb = Embedding(input_dim=spa_vocab_size,
                            output_dim=latent_dim,
                            mask_zero=True,
                            name='decoder_inf_embedding')(decoder_inf_inputs)
decoder_inf_outputs, state_h, state_c = decoder_lstm(decoder_inf_emb, initial_state=decoder_states_inputs)
decoder_states = [state_h, state_c]
decoder_inf_outputs = decoder_dense(decoder_inf_outputs)
decoder_model = Model([decoder_inf_inputs] + decoder_states_inputs, [decoder_inf_outputs] + decoder_states)

# Funkcja tłumaczenia
def decode_sequence(input_seq):
    # Kodujemy sekwencję wejściową, otrzymując stany enkodera.
    states_value = encoder_model.predict(input_seq)
    # Inicjujemy sekwencję docelową od tokenu start ("<start>").
    target_seq = np.array([[spa_tokenizer.word_index['<start>']]])
    stop_condition = False
    decoded_sentence = ''
    while not stop_condition:
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)
        # Pobieramy indeks tokenu o największym prawdopodobieństwie.
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        # Odtwarzamy słowo odpowiadające indeksowi.
        sampled_word = None
        for word, index in spa_tokenizer.word_index.items():
            if index == sampled_token_index:
                sampled_word = word
                break
        # Warunek stopu: token końca lub przekroczenie limitu słów.
        if sampled_word is None or sampled_word == '<end>' or len(decoded_sentence.split()) > 10:
            stop_condition = True
        else:
            decoded_sentence += ' ' + sampled_word
            # Aktualizujemy sekwencję wejściową dla dekodera (podajemy wygenerowany token).
            target_seq = np.array([[sampled_token_index]])
            states_value = [h, c]
    return decoded_sentence.strip()

# Testowanie modelu translacji
for seq_index in range(len(english_sentences)):
    input_seq = encoder_input_data[seq_index: seq_index + 1]
    decoded_sentence = decode_sequence(input_seq)
    print(f'Input: {english_sentences[seq_index]}')
    print(f'Decoded: {decoded_sentence}\n')


Model: "model_3"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 encoder_inputs (InputLayer)    [(None, None)]       0           []                               
                                                                                                  
 decoder_inputs (InputLayer)    [(None, None)]       0           []                               
                                                                                                  
 encoder_embedding (Embedding)  (None, None, 256)    2816        ['encoder_inputs[0][0]']         
                                                                                                  
 decoder_embedding (Embedding)  (None, None, 256)    3328        ['decoder_inputs[0][0]']         
                                                                                            

## Zadanie 7

### Problem LLMs (Large Language Models)
a. Wprowadzenie 
- LLMs (Large Language Models) to duże modele językowe o miliardach parametrów, trenowane na ogromnych zbiorach danych tekstowych. Przykładami są GPT-3, GPT-4, BERT, T5 itp. Są one zdolne do wykonywania szerokiego zakresu zadań NLP, takich jak tłumaczenie, generowanie tekstu, odpowiadanie na pytania, analiza sentymentu i wiele innych.

b. Problemy związane z LLMs
- Zapotrzebowanie na Zasoby Obliczeniowe:
- Energochłonność
- Bias i Etyka
- Trudność w interpretacji
- Bezpieczeństwo i Prywatność
- Aktualność wiedzy
- Złożoność implementacji

c. Przykładowe rozwiązania problemów
- Modele Lżejsze: Tworzenie mniejszych, bardziej efektywnych modeli, które zachowują wydajność dużych LLMs przy mniejszych wymaganiach obliczeniowych.
- Transfer Learning i Fine-Tuning: Wykorzystanie wcześniej wytrenowanych modeli i dostosowywanie ich do specyficznych zadań, co zmniejsza potrzebę trenowania modeli od podstaw.
- Mechanizmy Odpowiedzialnego AI: Wdrażanie technik mających na celu ograniczenie biasu, zapewnienie interpretowalności i zwiększenie bezpieczeństwa modeli.
- Zrównoważony Rozwój: Prace nad zmniejszeniem śladu węglowego związanego z treningiem dużych modeli poprzez optymalizację algorytmów i wykorzystanie bardziej efektywnych technologii sprzętowych.