## Лабораторная работа №3

#### Задание 1
Провести классификацию найденного датасета, методами линеной и логистической регрессий . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

#### Ход работы:

Импортируем библиотеки и загружаем датасет

In [1]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
import pandas as pd

# Загрузка данных
file_path = "../Dataset.xls"
df = pd.read_excel(file_path)

Разделение данных и нормализация

In [2]:
# Разделение на признаки (X) и целевую переменную (y)
X = df.drop('default payment next month', axis=1)
y = df['default payment next month']

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Линейная регрессия

In [None]:
linear_model = LinearRegression()
linear_model.fit(X_train_scaled, y_train)
linear_accuracy = linear_model.score(X_test_scaled, y_test)

Логистическая регрессия

Гиперпараметры:
   - C: обратная сила регуляризации. Меньшие значения C указывают на более сильную регуляризацию.
   - penalty: задает тип регуляризации (например, L1 или L2).
   - solver: алгоритм, используемый для оптимизации весов (например, 'liblinear', 'saga', 'lbfgs' и другие).

In [None]:
param_grid = {
    'C': [0.1, 1, 10],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

Перекрестная проверка гиперпараметров

In [6]:
logistic = LogisticRegression(max_iter=1000)
grid = GridSearchCV(logistic, param_grid, refit=True, verbose=3)
grid.fit(X_train_scaled, y_train)

Fitting 5 folds for each of 12 candidates, totalling 60 fits
[CV 1/5] END C=0.1, penalty=l1, solver=liblinear;, score=0.806 total time=   0.0s
[CV 2/5] END C=0.1, penalty=l1, solver=liblinear;, score=0.814 total time=   0.0s
[CV 3/5] END C=0.1, penalty=l1, solver=liblinear;, score=0.808 total time=   0.0s
[CV 4/5] END C=0.1, penalty=l1, solver=liblinear;, score=0.813 total time=   0.0s
[CV 5/5] END C=0.1, penalty=l1, solver=liblinear;, score=0.809 total time=   0.0s
[CV 1/5] END ....C=0.1, penalty=l1, solver=saga;, score=0.806 total time=   1.2s
[CV 2/5] END ....C=0.1, penalty=l1, solver=saga;, score=0.814 total time=   1.1s
[CV 3/5] END ....C=0.1, penalty=l1, solver=saga;, score=0.808 total time=   0.9s
[CV 4/5] END ....C=0.1, penalty=l1, solver=saga;, score=0.813 total time=   0.4s
[CV 5/5] END ....C=0.1, penalty=l1, solver=saga;, score=0.809 total time=   0.8s
[CV 1/5] END C=0.1, penalty=l2, solver=liblinear;, score=0.805 total time=   0.0s
[CV 2/5] END C=0.1, penalty=l2, solver=lib

Вывод результатов:

In [8]:
# Оценка производительности модели логистической регрессии на тестовом наборе
best_logistic = grid.best_estimator_
logistic_accuracy = best_logistic.score(X_test_scaled, y_test)
print(f"Лучшие гиперпараметры логистической регрессии: {grid.best_params_}")
print(f"Точность модели логистической регрессии: {logistic_accuracy}")
print(f"Точность модели линейной регрессии: {linear_accuracy}")

Лучшие гиперпараметры логистической регрессии: {'C': 1, 'penalty': 'l1', 'solver': 'liblinear'}
Точность модели логистической регрессии: 0.81
Точность модели линейной регрессии: 0.1186075478239631
