In [20]:
from sklearn.model_selection import train_test_split
import numpy as np
def logistic_regression(X, y, learning_rate=0.01, epochs=1000, test_size=0.0):
    if test_size != 0.0:
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)
    else:
        X_train, X_test, y_train, y_test = X, X, y, y
    
    n_features = X_train.shape[1]
    w = np.zeros(n_features)
    b = 0
    
    # Training loop
    for epoch in range(epochs):
        for i in range(len(X_train)):
            z = np.dot(X_train[i], w) + b
            a = 1 / (1 + np.exp(-z))
            
            
            dw = (a - y_train[i]) * X_train[i]
            db = a - y_train[i]
            
            
            w -= learning_rate * dw
            b -= learning_rate * db
    
    
    correct = 0
    for i in range(len(X_test)):
        z = np.dot(X_test[i], w) + b
        a = 1 / (1 + np.exp(-z))
        prediction = 1 if a >= 0.5 else 0
        if prediction == y_test[i]:
            correct += 1
    
    accuracy = correct / len(X_test) if len(X_test) > 0 else 0
    print(f"Accuracy: {accuracy * 100:.2f}%")
    
    return w, b

In [21]:
import os
import sys

current_dir = os.getcwd()
module_path = os.path.abspath(os.path.join(current_dir, '..', 'tokenizer'))
sys.path.append(module_path)

from tokenizer import BPETokenizer
bpe = BPETokenizer()
bpe.bpe_train("Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais Bien test Mauvais", 30)
data = [
    "Bon",
    " Bien",
    " Mal",
    " Mauvais"
]
for i in range(len(data)):
    data[i] = bpe.encode(data[i])
print(bpe.vocab)

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', ' ', '.', ',', '?', '!', ':', ';', '-', '_', '+', '=', '(', ')', '{', '}', '[', ']', '<', '>', '/', '\\', 'B', 'M', ' M', ' Ma', ' B', ' Mau', ' Mauv', ' Mauva', ' Mauvai', ' Mauvais', 'on', ' Bi', ' Bie', ' Bien', ' Mal', ' Bon', 'Bon', 'Bon Bien', 'Bon Bien Mal', 'Bon Bien Mal Mauvais', 'Bon Bien Mal Mauvais Mauvais', 'Bon Bien Mal Mauvais Mauvais Mal', 'Bon Bien Mal Mauvais Mauvais Mal Bien', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais Bien', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais Bien ', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais Bien t', 'Bon Bien Mal Mauvais Mauvais Mal Bien Bon Mal Bon Mauvais Bi

In [22]:
data = np.array([i for i in data])
print(data)
labels = np.array([1, 1, 0, 0])

[[63]
 [60]
 [61]
 [56]]


In [23]:
def one_hot_encode(token_ids, vocab_size):
    result = np.zeros((len(token_ids), vocab_size))
    for i, sample in enumerate(token_ids):
        for token_id in sample:
            result[i, token_id] = 1
    return result
vocab_size = len(bpe.vocab)
one_hot_data = one_hot_encode(data, vocab_size)
w , b = logistic_regression(one_hot_data, labels)

Accuracy: 100.00%


In [37]:
# Test with "Bon"
print(1/(1 + np.exp(-(np.dot(one_hot_data[0],w) + b))))
# Test with "Mauvais"
print(1/(1 + np.exp(-(np.dot(one_hot_data[3],w) + b))))

0.8983010198093685
0.10161524298028801
