<h3>Загрузка датасету</h3>

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
import numpy as np

In [2]:
data = {
    'year': [2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016],
    'month': [12,11,10,9,8,7,6,5,4,3,2,1,12,11,10,9,8,7,6,5,4,3,2,1],
    'interest_rate': [2.75,2.5,2.5,2.5,2.5,2.5,2.5,2.25,2.25,2.25,2,2,2,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75],
    'unemployment_rate': [5.3,5.3,5.3,5.3,5.4,5.6,5.5,5.5,5.5,5.6,5.7,5.9,6,5.9,5.8,6.1,6.2,6.1,6.1,6.1,5.9,6.2,6.2,6.1],
    'index_price': [1464,1394,1357,1293,1256,1254,1234,1195,1159,1167,1130,1075,1047,965,943,958,971,949,884,866,876,822,704,719]        
}

df = pd.DataFrame(data)

<h3>Розділення даних на X та Y</h3>

In [3]:
X = df.drop(['index_price'], axis=1)
y = df['index_price']

<h3>Розділення на тестову та тренувальну вибірки</h3>

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

<h3>Стандартизація ознак</h3>

In [5]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

<h3>Прогнозу неперервної числової зміної</h3>

In [6]:
from sklearn.metrics import r2_score, mean_squared_error
n = X.shape[0]  # Кількість спостережень
p = X.shape[1]  # Кількість змінних

# Побудова лінійних моделей
model1 = LinearRegression().fit(X, y)

# Виберемо половину змінних для model2
half_columns = X.shape[1] // 2
model2 = LinearRegression().fit(X.iloc[:, :half_columns], y)

# Виберемо одну зміну для model3
selected_column_name = 'interest_rate'  # Вкажіть ім'я вибраної змінної
model3 = LinearRegression().fit(X[selected_column_name].values.reshape(-1, 1), y)

# Обчислення R^2 і скоригованого R^2
y_pred1 = model1.predict(X)
y_pred2 = model2.predict(X.iloc[:, :half_columns])
y_pred3 = model3.predict(X[selected_column_name].values.reshape(-1, 1))

r2_1 = r2_score(y, y_pred1)
r2_2 = r2_score(y, y_pred2)
r2_3 = r2_score(y, y_pred3)

adj_r2_1 = 1 - (1 - r2_1) * (n - 1) / (n - p - 1)
adj_r2_2 = 1 - (1 - r2_2) * (n - 1) / (n - p // 2 - 1)
adj_r2_3 = 1 - (1 - r2_3) * (n - 1) / (n - 1)

# Вивід результатів
print(f"Model 1 - R^2: {r2_1}, Adjusted R^2: {adj_r2_1}")
print(f"Model 2 - R^2: {r2_2}, Adjusted R^2: {adj_r2_2}")
print(f"Model 3 - R^2: {r2_3}, Adjusted R^2: {adj_r2_3}")


Model 1 - R^2: 0.9782974467058905, Adjusted R^2: 0.9737284881176569
Model 2 - R^2: 0.9768071944242478, Adjusted R^2: 0.9745983557979857
Model 3 - R^2: 0.8757089547891359, Adjusted R^2: 0.8757089547891359


<h3>Загрузка іншого датасету для оцінення precision, recall, accuracy</h3>

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
import numpy as np

# Завантаження та підготовка даних
dataset = pd.read_csv('drug200.csv')
dataset.head(3)

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC


<h3>Обчислення метрик (також застосовуємо підбор параметрів)</h3>

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, recall_score, precision_score
from sklearn.model_selection import GridSearchCV

# Розділіть дані на навчальний і тестовий набори
X = dataset.drop('Drug', axis=1)
y = dataset['Drug']

# Кодування категоріальних ознак з одними плаваючими точкою
X_encoded = pd.get_dummies(X, columns=['Sex', 'BP', 'Cholesterol'], drop_first=True)

# Розділіть закодовані дані на навчальний і тестовий набори
X_train_encoded, X_test_encoded, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Модель 1: Всі ознаки
model1 = SVC(kernel='rbf', random_state=42)
model1.fit(X_train_encoded, y_train)
y_pred_model1 = model1.predict(X_test_encoded)

# Обчислення параметрів якості для моделі 1 (без підбору параметрів)
accuracy_model1 = accuracy_score(y_test, y_pred_model1)
recall_model1 = recall_score(y_test, y_pred_model1, average='weighted')
precision_model1 = precision_score(y_test, y_pred_model1, average='weighted', zero_division=1)

# Модель 2: Половина ознак
X_half = X_encoded.iloc[:, :X_encoded.shape[1] // 2]
X_train_half, X_test_half = train_test_split(X_half, test_size=0.2, random_state=42)

model2 = SVC(kernel='rbf', random_state=42)
model2.fit(X_train_half, y_train)
y_pred_model2 = model2.predict(X_test_half)

# Обчислення параметрів якості для моделі 2 (без підбору параметрів)
accuracy_model2 = accuracy_score(y_test, y_pred_model2)
recall_model2 = recall_score(y_test, y_pred_model2, average='weighted')
precision_model2 = precision_score(y_test, y_pred_model2, average='weighted', zero_division=1)

# Модель 3: Одна ознака
X_one_feature = X_encoded[['Age']]  # Замініть 'FeatureName' на назву вашої ознаки
X_train_one_feature, X_test_one_feature = train_test_split(X_one_feature, test_size=0.2, random_state=42)

model3 = SVC(kernel='rbf', random_state=42)
model3.fit(X_train_one_feature, y_train)
y_pred_model3 = model3.predict(X_test_one_feature)

# Обчислення параметрів якості для моделі 3 (без підбору параметрів)
accuracy_model3 = accuracy_score(y_test, y_pred_model3)
recall_model3 = recall_score(y_test, y_pred_model3, average='weighted')
precision_model3 = precision_score(y_test, y_pred_model3, average='weighted', zero_division=1)

# Виведення результатів для всіх трьох моделей ДО підбору параметрів
print("Модель 1 (всі ознаки):")
print(f"Accuracy: {accuracy_model1:.3f}")
print(f"Recall: {recall_model1:.3f}")
print(f"Precision: {precision_model1:.3f}")

print("Модель 2 (половина ознак):")
print(f"Accuracy: {accuracy_model2:.3f}")
print(f"Recall: {recall_model2:.3f}")
print(f"Precision: {precision_model2:.3f}")

print("Модель 3 (одна ознака):")
print(f"Accuracy: {accuracy_model3:.3f}")
print(f"Recall: {recall_model3:.3f}")
print(f"Precision: {precision_model3:.3f}")



Модель 1 (всі ознаки):
Accuracy: 0.625
Recall: 0.625
Precision: 0.800
Модель 2 (половина ознак):
Accuracy: 0.625
Recall: 0.625
Precision: 0.816
Модель 3 (одна ознака):
Accuracy: 0.375
Recall: 0.375
Precision: 0.766


In [9]:
from sklearn.model_selection import GridSearchCV

# Модель 1: Підбір оптимальних параметрів для всіх ознак
param_grid_model1 = {
    'C': [0.1, 1, 3],
    'kernel': ['rbf'],
    'gamma': [0.1, 1, 'scale', 'auto'],
}

grid_search_model1 = GridSearchCV(SVC(random_state=42), param_grid_model1, cv=5)
grid_search_model1.fit(X_train_encoded, y_train)
best_model1 = grid_search_model1.best_estimator_
y_pred_best_model1 = best_model1.predict(X_test_encoded)

# Обчислення параметрів якості для найкращої моделі 1 (після підбору параметрів)
accuracy_best_model1 = accuracy_score(y_test, y_pred_best_model1)
recall_best_model1 = recall_score(y_test, y_pred_best_model1, average='weighted')
precision_best_model1 = precision_score(y_test, y_pred_best_model1, average='weighted', zero_division=1)

# Виведення результатів для всіх трьох моделей ПІСЛЯ підбору параметрів
print("Модель 1 (після підбору параметрів):")
print(f"Accuracy: {accuracy_best_model1:.3f}")
print(f"Recall: {recall_best_model1:.3f}")
print(f"Precision: {precision_best_model1:.3f}")


Модель 1 (після підбору параметрів):
Accuracy: 0.650
Recall: 0.650
Precision: 0.846


In [24]:
# Модель 2: Підбір оптимальних параметрів для половини ознак
param_grid_model2 = {
    'C': [0.1, 1, 10],
    'kernel': ['rbf', 'linear'],
    'gamma': [0.1, 1, 'scale', 'auto'],
}

grid_search_model2 = GridSearchCV(SVC(random_state=42), param_grid_model2, cv=5)
grid_search_model2.fit(X_train_half, y_train)
best_model2 = grid_search_model2.best_estimator_
y_pred_best_model2 = best_model2.predict(X_test_half)

# Обчислення параметрів якості для найкращої моделі 2 (після підбору параметрів)
accuracy_best_model2 = accuracy_score(y_test, y_pred_best_model2)
recall_best_model2 = recall_score(y_test, y_pred_best_model2, average='weighted')
precision_best_model2 = precision_score(y_test, y_pred_best_model2, average='weighted', zero_division=1)

print("Модель 2 (після підбору параметрів):")
print(f"Accuracy: {accuracy_best_model2:.3f}")
print(f"Recall: {recall_best_model2:.3f}")
print(f"Precision: {precision_best_model2:.3f}")


Модель 2 (після підбору параметрів):
Accuracy: 0.650
Recall: 0.650
Precision: 0.805


In [25]:
# Модель 3: Підбір оптимальних параметрів для однієї ознаки
param_grid_model3 = {
    'C': [0.1, 1, 10],
    'kernel': ['rbf', 'linear'],
    'gamma': [0.1, 1, 'scale', 'auto'],
}

grid_search_model3 = GridSearchCV(SVC(random_state=42), param_grid_model3, cv=5)
grid_search_model3.fit(X_train_one_feature, y_train)
best_model3 = grid_search_model3.best_estimator_
y_pred_best_model3 = best_model3.predict(X_test_one_feature)

# Обчислення параметрів якості для найкращої моделі 3 (після підбору параметрів)
accuracy_best_model3 = accuracy_score(y_test, y_pred_best_model3)
recall_best_model3 = recall_score(y_test, y_pred_best_model3, average='weighted')
precision_best_model3 = precision_score(y_test, y_pred_best_model3, average='weighted', zero_division=1)

print("Модель 3 (після підбору параметрів):")
print(f"Accuracy: {accuracy_best_model3:.3f}")
print(f"Recall: {recall_best_model3:.3f}")
print(f"Precision: {precision_best_model3:.3f}")

Модель 3 (після підбору параметрів):
Accuracy: 0.375
Recall: 0.375
Precision: 0.766


<h3>Оцінка F-міри моделей</h3>

In [12]:
from sklearn.metrics import f1_score

def calculate_f1_score(y_true, y_pred):
    return f1_score(y_true, y_pred, average='weighted')

# Результати моделі 1
f1_score_model1 = calculate_f1_score(y_test, y_pred_model1)

# Результати моделі 2
f1_score_model2 = calculate_f1_score(y_test, y_pred_model2)

# Виведення результатів
print("F-міра для моделі 1 (без підбору параметрів):", f1_score_model1)
print("F-міра для моделі 2 (після підбору параметрів):", f1_score_model2)

F-міра для моделі 1 (без підбору параметрів): 0.5133272058823529
F-міра для моделі 2 (після підбору параметрів): 0.5200460829493088


<h3>ROC AUC для ознак Purchased</h3>

In [13]:
import numpy as np
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
import matplotlib.pyplot as plt


dataset = pd.read_csv('Social_Network_Ads.csv')
dataset

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0
...,...,...,...,...,...
395,15691863,Female,46,41000,1
396,15706071,Male,51,23000,1
397,15654296,Female,50,20000,1
398,15755018,Male,36,33000,0


In [14]:
X_features = np.array(dataset['EstimatedSalary']).reshape(-1, 1)
y_target = np.array(dataset['Purchased']).reshape(-1, 1)
y_target = y_target.ravel()

In [15]:
X_train, X_test, y_train, y_test = train_test_split(X_features, y_target, test_size = 0.25)

In [16]:
from sklearn.ensemble import RandomForestClassifier
# Ініціалізуємо та навчимо модель
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Отримаємо ймовірності для класу 1 (позитивний клас)
y_pred_prob = model.predict_proba(X_test)[:, 1]

# Обчислимо ROC AUC
roc_auc = roc_auc_score(y_test, y_pred_prob)

print("ROC AUC для бінарної класифікації:", roc_auc)

ROC AUC для бінарної класифікації: 0.7540106951871657


<h3>Оцінка метрики ROC AUC для багатокласової класифікації</h3>

In [17]:
# Завантаження та підготовка даних
dataset = pd.read_csv('drug200.csv')
dataset.head(5)

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,DrugY


In [18]:
unique_drugs = dataset['Drug'].unique()
print(unique_drugs)

['DrugY' 'drugC' 'drugX' 'drugA' 'drugB']


In [19]:
from sklearn.metrics import roc_auc_score
from sklearn.ensemble import RandomForestClassifier

# Відділення ознак та цільової змінної
X = dataset[['Age', 'Na_to_K']]
y = dataset['Drug']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

y_prob = clf.predict_proba(X_test)
roc_auc = roc_auc_score(y_test, y_prob, multi_class='ovr')  # 'ovr' для багатокласової класифікації

print(f'ROC-AUC Score: {roc_auc}')

ROC-AUC Score: 0.8547586842921528
