In [60]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Загрузка данных
data = pd.read_csv("Zadanie_1.csv")

# Выбираем факторные признаки (числовые признаки)
numeric_features = [
    "year",
    "na_sales",
    "eu_sales",
    "other_sales",
]

# Выбираем категориальные признаки для кодирования
categorical_features = [
    "platform",
    "genre",
    "publisher",
]

# Применяем One-Hot Encoding к категориальным признакам
encoder = OneHotEncoder()
encoded_features = encoder.fit_transform(data[categorical_features])

# Соединяем числовые и закодированные категориальные признаки
X = pd.concat([data[numeric_features], pd.DataFrame(encoded_features.toarray())], axis=1)

# Отдельно выбираем результативный признак (jp_sales)
y = data["jp_sales"]

""" # Разделяем данные на обучающий и тестовый наборы (например, 80% для обучения, 20% для тестирования)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) """

# Создаем объект StandardScaler
scaler = StandardScaler()

# Стандартизируем числовые признаки
X[numeric_features] = scaler.fit_transform(X[numeric_features])

In [61]:
import numpy as np

class MultipleRegression:
    def __init__(self, learning_rate=0.1, n_iterations=100):
        """
        Инициализирует объект класса MultipleRegression.

        Parameters:
        - learning_rate (float): Скорость обучения (learning rate), определяющая шаг градиентного спуска.
        - n_iterations (int): Количество итераций градиентного спуска.

        Attributes:
        - learning_rate (float): Скорость обучения.
        - n_iterations (int): Количество итераций.
        - weights (numpy.ndarray): Веса модели, инициализированные нулями.

        """
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.weights = np.zeros(X.shape[1])

    def calculate_gradient(self, X, y):
        """
        Вычисляет градиент (направление наискорейшего роста функции потерь) для обновления весов.

        Parameters:
        - X (numpy.ndarray): Матрица признаков.
        - y (numpy.ndarray): Вектор целевой переменной.

        Returns:
        - gradient (numpy.ndarray): Градиент.

        """
        n_samples = X.shape[0]
        y_pred = X.dot(self.weights)
        error = y_pred - y
        gradient = X.T.dot(error) / n_samples
        return gradient
    
    def fit(self, X, y):
        """
        Обучает модель методом градиентного спуска.

        Parameters:
        - X (numpy.ndarray): Матрица признаков.
        - y (numpy.ndarray): Вектор целевой переменной.

        """
        for _ in range(self.n_iterations):
            gradient = self.calculate_gradient(X, y)
            self.weights -= self.learning_rate * gradient

    def predict(self, X):
        """
        Предсказывает значения целевой переменной для новых данных.

        Parameters:
        - X (numpy.ndarray): Новые данные (матрица признаков).

        Returns:
        - y_pred (numpy.ndarray): Предсказанные значения целевой переменной.

        """
        return X.dot(self.weights)

# Создаем и обучаем модель
model = MultipleRegression()
model.fit(X, y)

# Делаем окончательные прогнозы для jp_sales
y_pred = model.predict(X)

# Вычисляем MAE и MAPE 
mae = np.mean(np.abs(y - y_pred))
mape = np.mean(np.abs((y - y_pred) / y)) * 100

print("Mean Absolute Error (MAE):", mae)
print("Mean Absolute Percentage Error (MAPE):", mape)
#print(model.weights)
""" Mean Absolute Error (MAE): 0.27775792895080215
Mean Absolute Percentage Error (MAPE): 21.430998332873422
year          -0.193993
na_sales       0.098624
eu_sales       0.193484
other_sales   -0.044416
0              0.003685
                 ...   
306            0.001086
307            0.002124
308            0.000511
309            0.006524
310            0.002675
Length: 315, dtype: float64 """


Mean Absolute Error (MAE): 0.27775792895080215
Mean Absolute Percentage Error (MAPE): 21.430998332873422


' Mean Absolute Error (MAE): 0.27775792895080215\nMean Absolute Percentage Error (MAPE): 21.430998332873422\nyear          -0.193993\nna_sales       0.098624\neu_sales       0.193484\nother_sales   -0.044416\n0              0.003685\n                 ...   \n306            0.001086\n307            0.002124\n308            0.000511\n309            0.006524\n310            0.002675\nLength: 315, dtype: float64 '