<a href="https://colab.research.google.com/github/notnsas/cs229-ml-from-scratch/blob/version-1/cs229_ml_from_scratch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **CS229 ML IMPLEMENTATION**

In [2]:
import numpy as np
import pandas as pd

## **Linear Regression**

In [3]:
# Model Linear Regressi
class LinearRegression:
  def __init__(self, X, y=None, lr=0.01):
    # Params untuk menyimpan parameter dan gradientnya
    self.params = {}

    # inisiasi parameter
    # Menambah col baru dengan semua isinya bernilai 1 ke x
    # yang digunakan agar kita memiliki intercept di rumus linear regresi
    # yang menggunakan vector form
    self.X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
    self.y = y
    # learning rate sebagai konstanta belajar seberapa cepat mengupdate gradient
    self.lr = lr
    # Inisiasi parameter linear regresi dengan menggunakan nilai random
    self.params['W'] = np.random.rand(1, self.X.shape[1])

  def predict(self, X, mode="test"):
    """Untuk Prediksi y Berdasarkan input X menggunakan model linear regresi"""
    if mode == "test":
      # Menambah col baru dengan semua isinya bernilai 1 ke x
      # yang digunakan agar kita memiliki intercept di rumus linear regresi
      # yang menggunakan vector form
      X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
    # Memprediksi y berdasarkan X menggunakan model yang sudah dibuat
    output = np.dot(X, self.params["W"].T)
    return output

  def loss(self, output, y):
    """Menghitung loss"""
    # Menghitung loss menggunakan mean squared error dan dikali 1/2 agar
    # gradientnya nanti gampang dihitung
    return 1/2 * np.mean(np.square(output - y))

  def batch(self, batch_size):
    """Menggunakan mini-batch untuk menghitung loss, output, dan gradien"""
    # Meninisiasi loss dan menshuffle X & y
    loss = 0
    # Menshuffle menggunakan fungsi np.random.permutation() sebagai index
    # lalu menggunakan index tersebut untuk menshuffle X dan y
    indices = np.random.permutation(len(self.y))
    X_shuffle = self.X[indices]
    y_shuffle = self.y[indices]

    # Membagi data menjadi minibatch yg diitung loss nya
    for i in range(0, len(self.y), batch_size):
      end = min(i + batch_size, len(self.y))
      # Membagi data per batch dengan banyak n (training example) sesuai
      # dengan batch_size yang dipilih
      X_batch = X_shuffle[i:end, :]
      y_batch = y_shuffle[i:end]
      # Kalulasi loss per batch
      a = self.calculate(X_batch, y_batch, "train", "gradient_descent")[0]

      # Melakukan running average dari loss sebelumnya agar mendapatkan rata
      # rata loss dari mini batch
      loss = loss + a * (end - i)
    # Return total loss dari loss yang didapatkan menggunakan running average
    # dan dibagi total training (n)
    return loss / len(self.y)


  def calculate(self, X, y, mode="test", solver_type="least_square"):
    """Untuk kalkulasi gradien output dan least square dari model"""
    # Mendapatkan output dari linear regresi
    output = self.predict(X, mode=mode)
    # Bila modenya train
    if mode == "train":
      # Training menggunakan gradient descent
      # Menghitung loss menggunakan output dan y
      loss = self.loss(output, y)

      # Menentukan solver type gradient descent atau metode least square
      if solver_type == "gradient_descent":
        # Menghitung gradient menggunakan rumus dibawah
        self.params['dW'] = np.dot((y[:, np.newaxis] - output).T, X) / len(y)
        # Update parameter berdasarkan gradient dikali konstanta belajar (lr/learning rate)
        self.params['W'] += self.lr * self.params['dW']
      # Bila menggunakan metode least square / metode kuadrat terkecil
      else:
        # Perhitungan menggunakan metode kuadrat terkecil agar mendapatkan
        # Parameter optimal untuk model secara langsung agar meminimalkan
        # loss function
        a = np.linalg.inv(np.dot(X.T, X))
        b = np.dot(X.T, y)
        c = np.dot(a, b)

        # Mengupdate parameter berdasarkan parameter optimal
        self.params['W'] = c[:, np.newaxis].T

    # Return output bila mode test
    else:
      return output

    # Return loss serta output
    return loss, output

  def train(self, solver_type="least_square", epoch=50, batch_size=216):
    """Untuk train model linear regresi"""
    if solver_type == "gradient_descent":
      # Bila solver type gradient descent update parameter dilakukan sampai
      # epoch/iterasi tertentu
      for i in range(epoch):
        # Menghitung loss dari model yang di update parameternya
        loss = self.batch(batch_size)
        print(f"[Epoch {i + 1}] : loss = {loss}")
    else:
      # Menghitung loss yang sudah di update parameternya menggunakan least square/metode kuadrat terkecil
      loss, _ = self.calculate(self.X, self.y, "train", "least_square")
      print(f"loss : {loss}")

In [4]:
# Mengambil data untuk feature X dan label y yaitu 'carat' sebagai kolom yang akan di tebak, lalu menormalisasikanya
X = numeric_data[:, 1:] / np.max(numeric_data[:, 1:],axis=0)
y = numeric_data[:, 0]

# Ngesplit data menjadi train dan testing
X_train, y_train, X_test, y_test = X[:40000, :], y[:40000], X[40000:, :], y[40000:]

# Membuat objek linear regresi dengan data tersebut
model = LinearRegression(X_train, y_train, 0.1)

NameError: name 'numeric_data' is not defined

In [None]:
# Melatih model linear regresi dan melihat loss dari model tersebut ke data
# Melatih menggunakan metode gradient descent (Karena datanya terlalu banyak)
model.train("gradient_descent", epoch=50, batch_size=512)

In [None]:
# Melakukan Testing
# Mendapatkan prediksi model berdasarkan X_test yaitu test data
output = model.predict(X_test)
print(f"Hasil output atau prediksi y berdasarkan X adalah : \n{output}")
print(f"\nLabel atau y yang asli sebagai perbandingan : \n{y_test}")

# Menghitung seberapa bagus model menggunakan test data menggunakan Mean Squared Error
mse = np.mean(np.square(output - y_test))
print(f"\n\nMean Squared Error dari Testing data Menggunakan Gradient Descent adalah = {mse}")

Menggunakan metode kuadrat terkecil sebagai metode optimasi

In [None]:
# Mengambil 15000 data pertama untuk feature X dan 5000 label y yaitu 'carat' sebagai kolom yang akan di tebak
# Data hanya 15000 yang dipakai karena metode kuadrat terkecil tidak dapat dipakai untuk data yang banyak
# Ngesplit data menjadi train dan testing
X_train, y_train, X_test, y_test = X[:15000, :], y[:15000], X[15000:20000, :], y[15000:20000]

# Membuat objek linear regresi dengan data tersebut
model = LinearRegression(X_train, y_train, 0.1)

In [None]:
# Melatih model linear regresi dan melihat loss dari model tersebut ke data
# Melatih menggunakan metode kuadrat terkecil menggunakan 1000 data
model.train("least_square")

In [None]:
# Melakukan Testing
# Mendapatkan prediksi model berdasarkan X_test yaitu test data
output = model.predict(X_test)
print(f"Hasil output atau prediksi y berdasarkan X adalah : \n{output}")
print(f"\nLabel atau y yang asli sebagai perbandingan : \n{y_test}")

# Menghitung seberapa bagus model menggunakan test data menggunakan Mean Squared Error
mse = np.mean(np.square(output - y_test))
print(f"\n\nMean Squared Error dari Testing data Menggunakan Metode Kuadrat Terkecil adalah = {mse}")

## **Logistic Regression**

In [None]:
import numpy as np
class LogisticRegression:
  def __init__(self, X, y=None, lr=0.01):
    # Params untuk menyimpan parameter dan gradientnya
    self.params = {}

    # inisiasi parameter
    # Menambah col baru dengan semua isinya bernilai 1 ke x
    # yang digunakan agar kita memiliki intercept di rumus linear regresi
    # yang menggunakan vector form
    self.X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
    self.y = y
    # learning rate sebagai konstanta belajar seberapa cepat mengupdate gradient
    self.lr = lr
    # Inisiasi parameter linear regresi dengan menggunakan nilai random
    self.params['W'] = np.random.rand(1, self.X.shape[1])

  def predict(self, X, mode="test"):
    """Untuk Prediksi y Berdasarkan input X menggunakan model linear regresi"""
    if mode == "test":
      # Menambah col baru dengan semua isinya bernilai 1 ke x
      # yang digunakan agar kita memiliki intercept di rumus linear regresi
      # yang menggunakan vector form
      X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
      output = self.forward(X, mode)
      output = self.sigmoid(output, mode)
      return np.round(output)
    # Memprediksi y berdasarkan X menggunakan model yang sudah dibuat
    output = self.forward(X, mode)
    output = self.sigmoid(output, mode)
    return output

  def forward(self, X, mode="test"):
    return np.dot(X, self.params["W"].T)

  def sigmoid(self, X, mode="test"):
    return 1 / (1 + np.exp(-X))

  def loss(self, output, y):
    """Menghitung loss"""
    # Menghitung loss menggunakan mean squared error dan dikali 1/2 agar
    # gradientnya nanti gampang dihitung
    # return 1/2 * np.mean(np.square(output - y))
    loss = y * np.log(output) + (1 - y) * np.log((1 - output))
    loss = np.sum(loss)
    # print(loss)
    return loss

  def batch(self, batch_size):
    """Menggunakan mini-batch untuk menghitung loss, output, dan gradien"""
    # Meninisiasi loss dan menshuffle X & y
    loss = 0
    # Menshuffle menggunakan fungsi np.random.permutation() sebagai index
    # lalu menggunakan index tersebut untuk menshuffle X dan y
    indices = np.random.permutation(len(self.y))
    X_shuffle = self.X[indices]
    y_shuffle = self.y[indices]

    # Membagi data menjadi minibatch yg diitung loss nya
    for i in range(0, len(self.y), batch_size):
      end = min(i + batch_size, len(self.y))
      # Membagi data per batch dengan banyak n (training example) sesuai
      # dengan batch_size yang dipilih
      X_batch = X_shuffle[i:end, :]
      y_batch = y_shuffle[i:end]
      # Kalulasi loss per batch
      a = self.calculate(X_batch, y_batch, "train", "gradient_descent")[0]

      # Melakukan running average dari loss sebelumnya agar mendapatkan rata
      # rata loss dari mini batch
      loss = loss + a * (end - i)
    # Return total loss dari loss yang didapatkan menggunakan running average
    # dan dibagi total training (n)
    return loss / len(self.y)


  def calculate(self, X, y, mode="test", solver_type="gradient_descent"):
    """Untuk kalkulasi gradien output dan least square dari model"""
    # Mendapatkan output dari linear regresi
    output = self.predict(X, mode=mode)
    # Bila modenya train
    if mode == "train":
      # Training menggunakan gradient descent
      # Menghitung loss menggunakan output dan y
      loss = self.loss(output, y)

      # Menentukan solver type gradient descent atau metode least square
      if solver_type == "gradient_descent":
        # Menghitung gradient menggunakan rumus dibawah
        self.params['dW'] = np.dot((y[:, np.newaxis] - output).T, X) / len(y)
        # Update parameter berdasarkan gradient dikali konstanta belajar (lr/learning rate)
        self.params['W'] += self.lr * self.params['dW']
      # Bila menggunakan metode least square / metode kuadrat terkecil
      else:
        # Perhitungan menggunakan metode kuadrat terkecil agar mendapatkan
        # Parameter optimal untuk model secara langsung agar meminimalkan
        # loss function
        a = np.linalg.inv(np.dot(X.T, X))
        b = np.dot(X.T, y)
        c = np.dot(a, b)

        # Mengupdate parameter berdasarkan parameter optimal
        self.params['W'] = c[:, np.newaxis].T

    # Return output bila mode test
    else:
      return output

    # Return loss serta output
    return loss, output

  def train(self, solver_type="gradient_descent", epoch=50, batch_size=216):
    """Untuk train model linear regresi"""
    if solver_type == "gradient_descent":
      # Bila solver type gradient descent update parameter dilakukan sampai
      # epoch/iterasi tertentu
      for i in range(epoch):
        # Menghitung loss dari model yang di update parameternya
        loss = self.batch(batch_size)
        print(f"[Epoch {i + 1}] : loss = {loss}")
    else:
      # Menghitung loss yang sudah di update parameternya menggunakan least square/metode kuadrat terkecil
      loss, _ = self.calculate(self.X, self.y, "train", "least_square")
      print(f"loss : {loss}")


In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("fedesoriano/stroke-prediction-dataset")

print("Path to dataset files:", path)

In [None]:
from os import listdir
from os.path import isfile, join

mypath = '/root/.cache/kagglehub/datasets/fedesoriano/stroke-prediction-dataset/versions/1'
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]

In [None]:
onlyfiles

In [None]:
import pandas as pd
df = pd.read_csv("/root/.cache/kagglehub/datasets/fedesoriano/stroke-prediction-dataset/versions/1/healthcare-dataset-stroke-data.csv")
df = df.select_dtypes(include='number')
df = df.fillna(df.mean())

In [None]:
X = df[[i for i in df.select_dtypes(include='number').columns if i!= "stroke"]]
y = df['stroke']


In [None]:
from sklearn.preprocessing import StandardScaler

# Initialize the scaler
standard_scaler = StandardScaler()

# Fit and transform the data
X = pd.DataFrame(standard_scaler.fit_transform(X), columns=X.columns)
X

In [None]:
X, y = X.to_numpy(), y.to_numpy()

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y ,
                                   random_state=104,
                                   test_size=0.25,
                                   shuffle=True)

In [None]:
model = LogisticRegression(X_train, y_train)


In [None]:
uniques, counts = np.unique(y, return_counts=True)
percentages = dict(zip(uniques, counts * 100 / len(y)))

In [None]:
percentages

In [None]:
model.train()

In [None]:
output = model.predict(X_test)


In [None]:
acc = np.mean(output == y_test)
acc

In [None]:
# import the class
from sklearn.linear_model import LogisticRegression

# instantiate the model (using the default parameters)
logreg = LogisticRegression(random_state=16)

# fit the model with data
logreg.fit(X_train, y_train)

y_pred = logreg.predict(X_test)

In [None]:
np.mean(y_pred == y_test)

In [None]:
rows = 5
cols = 10

# Create a zero matrix
arr = np.zeros((rows, cols), dtype=int)

# Randomly assign one '1' per row
for i in range(rows):
    j = np.random.randint(cols)  # random column index
    arr[i, j] = 1
arr[1, 1] = 1
arr[2, 2] = 1
print(arr)
import numpy as np

arrs = np.arange(0, 5).reshape(-1, 1)

print(arrs)


In [86]:
a = np.random.randint(0, 10, (4,4))
a

array([[9, 9, 3, 0],
       [7, 2, 5, 6],
       [2, 0, 3, 8],
       [4, 7, 4, 8]])

In [91]:
np.argmax(a, axis=1)

array([0, 0, 3, 3])

## **Generalized Linear Model**

The generalized linear model that is used is using multinomial as the label, which the model is called softmax

In [115]:
class Softmax:
  def __init__(self, X, y=None, lr=0.01):
    # Params untuk menyimpan parameter dan gradientnya
    self.params = {}

    # inisiasi parameter
    # Menambah col baru dengan semua isinya bernilai 1 ke x
    # yang digunakan agar kita memiliki intercept di rumus linear regresi
    # yang menggunakan vector form
    self.X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
    self.y = y
    # learning rate sebagai konstanta belajar seberapa cepat mengupdate gradient
    self.lr = lr
    # Inisiasi parameter linear regresi dengan menggunakan nilai random
    self.params['W'] = np.random.rand(len(np.unique(y)), self.X.shape[1])

  def predict(self, X, mode="test"):
    """Untuk Prediksi y Berdasarkan input X menggunakan model linear regresi"""
    if mode == "test":
      # Menambah col baru dengan semua isinya bernilai 1 ke x
      # yang digunakan agar kita memiliki intercept di rumus linear regresi
      # yang menggunakan vector form
      X = np.concatenate((np.ones([np.shape(X)[0], 1]), X),axis=1)
      output = self.forward(X, mode)
      output = self.softmax(output)
      output = np.argmax(output, axis=1)
      return output
    # Memprediksi y berdasarkan X menggunakan model yang sudah dibuat
    output = self.forward(X, mode)
    output = self.softmax(output)
    return output

  def forward(self, X, mode="test"):
    return np.dot(X, self.params["W"].T)

  def softmax(self, X):
    return np.exp(X) / np.sum(np.exp(X), axis=1, keepdims=True)

  # def loss(self, output, y):
  #   """Menghitung loss"""
  #   y = y.flatten()
  #   num_train = len(y)
  #   # Menghitung loss menggunakan mean squared error dan dikali 1/2 agar
  #   # gradientnya nanti gampang dihitung
  #   # return 1/2 * np.mean(np.square(output - y))
  #   loss = np.log(output[np.arange(num_train), y].reshape(num_train, 1))
  #   loss = np.sum(loss)
  #   # print(loss)
  #   return loss

  def batch(self, batch_size):
    """Menggunakan mini-batch untuk menghitung loss, output, dan gradien"""
    # Meninisiasi loss dan menshuffle X & y
    loss = 0
    # Menshuffle menggunakan fungsi np.random.permutation() sebagai index
    # lalu menggunakan index tersebut untuk menshuffle X dan y
    indices = np.random.permutation(len(self.y))
    X_shuffle = self.X[indices]
    y_shuffle = self.y[indices]

    # Membagi data menjadi minibatch yg diitung loss nya
    for i in range(0, len(self.y), batch_size):
      end = min(i + batch_size, len(self.y))
      # Membagi data per batch dengan banyak n (training example) sesuai
      # dengan batch_size yang dipilih
      X_batch = X_shuffle[i:end, :]
      y_batch = y_shuffle[i:end]
      # Kalulasi loss per batch
      a = self.calculate(X_batch, y_batch, "train", "gradient_descent")[0]

      # Melakukan running average dari loss sebelumnya agar mendapatkan rata
      # rata loss dari mini batch
      loss = loss + a * (end - i)
    # Return total loss dari loss yang didapatkan menggunakan running average
    # dan dibagi total training (n)
    return loss / len(self.y)


  def calculate(self, X, y, mode="test", solver_type="gradient_descent"):
    """Untuk kalkulasi gradien output dan least square dari model"""
    # Mendapatkan output dari linear regresi
    num_train = X.shape[0]
    output = self.predict(X, mode=mode)
    theta = output
    f = theta - np.max(theta, axis=1, keepdims=True)
    scores = np.exp(f) / np.sum(np.exp(f), axis=1, keepdims=True)
    true_scores = scores[np.arange(num_train).flatten(), y.flatten()]
    loss = -np.sum(np.log(true_scores)) / num_train
    # Bila modenya train
    if mode == "train":
      # Training menggunakan gradient descent
      # Menghitung loss menggunakan output dan y


      # Menentukan solver type gradient descent atau metode least square
      if solver_type == "gradient_descent":
        # Menghitung gradient menggunakan rumus dibawah


         # Shift scores to avoid numerical instability
        print(f"X : {X.shape}")
        w_shape = self.params["W"].shape
        print(f"W : {w_shape}")


        print(f"scpres : {scores.shape}")
        print(f"y : {y.shape}")

        print(f"true ; {scores.shape}")

        dx = np.copy(scores)
        dx[np.arange(num_train), y] -= 1
        dx = dx / num_train
        # self.params['dW'] = np.dot((y[:, np.newaxis] - output).T, X) / len(y)
        # Update parameter berdasarkan gradient dikali konstanta belajar (lr/learning rate)
        print(f"X shape : {X.shape}")
        print(f"dx shape : {dx.shape}")
        self.params['W'] -= self.lr * (dx.T @ X)
      # Bila menggunakan metode least square / metode kuadrat terkecil
      else:
        # Perhitungan menggunakan metode kuadrat terkecil agar mendapatkan
        # Parameter optimal untuk model secara langsung agar meminimalkan
        # loss function
        a = np.linalg.inv(np.dot(X.T, X))
        b = np.dot(X.T, y)
        c = np.dot(a, b)

        # Mengupdate parameter berdasarkan parameter optimal
        self.params['W'] = c[:, np.newaxis].T

    # Return output bila mode test
    else:
      return output

    # Return loss serta output
    return loss, output

  def train(self, solver_type="gradient_descent", epoch=50, batch_size=216):
    """Untuk train model linear regresi"""
    if solver_type == "gradient_descent":
      # Bila solver type gradient descent update parameter dilakukan sampai
      # epoch/iterasi tertentu
      for i in range(epoch):
        # Menghitung loss dari model yang di update parameternya
        loss = self.batch(batch_size)
        print(f"[Epoch {i + 1}] : loss = {loss}")
    else:
      # Menghitung loss yanag sudah di update parameternya menggunakan least square/metode kuadrat terkecil
      loss, _ = self.calculate(self.X, self.y, "train", "least_square")
      print(f"loss : {loss}")


In [116]:
softmax_scratch = Softmax(X_train, y_train)
softmax_scratch.train()

X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 1] : loss = 1.1434821320963156
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 2] : loss = 1.1406341380913856
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 3] : loss = 1.137783709087932
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 4] : loss = 1.1349314253531229
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 5] : loss = 1.1320778653343386
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 6] : loss = 1.129223605049154
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 7] : loss =

## **import data for multiclass classification**

In [117]:
df_multi = pd.read_csv("https://raw.githubusercontent.com/MachineLearningBCAM/Datasets/refs/heads/main/data/multi_class_datasets/iris.csv")
df_multi.columns = df_multi.iloc[0]
df_multi = df_multi.drop(0)

col_x =  [i for i in df_multi.columns if i != "class"]
df_multi[col_x] = df_multi[col_x].astype(float)
df_multi

Unnamed: 0,sepal-length-in-cm,sepal-width-in-cm,petal-length-in-cm,petal-width-in-cm,class
1,5.1,3.5,1.4,0.2,Iris-setosa
2,4.9,3.0,1.4,0.2,Iris-setosa
3,4.7,3.2,1.3,0.2,Iris-setosa
4,4.6,3.1,1.5,0.2,Iris-setosa
5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
146,6.7,3.0,5.2,2.3,Iris-virginica
147,6.3,2.5,5.0,1.9,Iris-virginica
148,6.5,3.0,5.2,2.0,Iris-virginica
149,6.2,3.4,5.4,2.3,Iris-virginica


In [118]:
df_multi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 1 to 150
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   sepal-length-in-cm  150 non-null    float64
 1   sepal-width-in-cm   150 non-null    float64
 2   petal-length-in-cm  150 non-null    float64
 3   petal-width-in-cm   150 non-null    float64
 4   class               150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [119]:
# Preprocessing
# Encoding
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
df_multi['class']= label_encoder.fit_transform(df_multi['class'])

df_multi['class'].unique()

array([0, 1, 2])

In [120]:
X = df_multi[col_x]
y = df_multi['class']

In [121]:
from sklearn.preprocessing import StandardScaler

# Initialize the scaler
standard_scaler = StandardScaler()

# Fit and transform the data
X = pd.DataFrame(standard_scaler.fit_transform(X), columns=X.columns)
X

Unnamed: 0,sepal-length-in-cm,sepal-width-in-cm,petal-length-in-cm,petal-width-in-cm
0,-0.900681,1.032057,-1.341272,-1.312977
1,-1.143017,-0.124958,-1.341272,-1.312977
2,-1.385353,0.337848,-1.398138,-1.312977
3,-1.506521,0.106445,-1.284407,-1.312977
4,-1.021849,1.263460,-1.341272,-1.312977
...,...,...,...,...
145,1.038005,-0.124958,0.819624,1.447956
146,0.553333,-1.281972,0.705893,0.922064
147,0.795669,-0.124958,0.819624,1.053537
148,0.432165,0.800654,0.933356,1.447956


In [122]:
X, y = X.to_numpy(), y.to_numpy()

In [123]:
# Split data into train and test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y ,
                                   random_state=104,
                                   test_size=0.25,
                                   shuffle=True)

## **Using the softmax model made from scratch and training it**

In [130]:
# Initialize
softmax_scratch = Softmax(X_train, y_train, 0.5)
# Train
softmax_scratch.train(epoch=1000)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 376] : loss = 0.7093976008767592
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 377] : loss = 0.709396487610283
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 378] : loss = 0.7093953748279033
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 379] : loss = 0.7093942626147215
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 380] : loss = 0.7093931510540419
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (112,)
true ; (112, 3)
X shape : (112, 5)
dx shape : (112, 3)
[Epoch 381] : loss = 0.709392040227404
X : (112, 5)
W : (3, 5)
scpres : (112, 3)
y : (11

In [131]:
output = softmax_scratch.predict(X_test)
acc = np.mean(output == y_test)

print(f"Accuracy of the softmax made by myself is : {acc}")

Accuracy of the softmax made by myself is : 0.8157894736842105


## **Comparing it with the sklearn softmax regression model**

In [112]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Create the softmax regression model
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=50)

# Fit the model
model.fit(X_train, y_train)

# Predict on the test set
y_pred = model.predict(X_test)

output = model.predict(X_test)
acc = np.mean(output == y_test)

print(f"Accuracy of the softmax made by sklearn is : {acc}")



Accuracy of the softmax made by sklearn is : 1.0
