In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

# Загрузка данных
data = pd.read_csv('heart.csv')

# Разделение данных на признаки и целевую переменную
X = data.drop(columns=['output'])
y = data['output']

# Разделение датасета на обучающую и тестовую выборки (первая половина)
X_train_half, X_test_half, y_train_half, y_test_half = train_test_split(X, y, test_size=0.5, random_state=42)

# Обучение модели на первой половине данных
model_half = LogisticRegression()
model_half.fit(X_train_half, y_train_half)

# Предсказание на тестовой половине данных и расчёт метрики accuracy
y_pred_half = model_half.predict(X_test_half)
accuracy_half = accuracy_score(y_test_half, y_pred_half)

print("Метрика точности на первой половине данных:", accuracy_half)

# Разделение датасета на обучающую и тестовую выборки (случайное разделение)
X_train_random, X_test_random, y_train_random, y_test_random = train_test_split(X, y, test_size=0.5, random_state=None)

# Обучение модели на случайно разделенных данных
model_random = LogisticRegression()
model_random.fit(X_train_random, y_train_random)

# Предсказание на тестовой случайно разделенной выборке и расчёт метрики accuracy
y_pred_random = model_random.predict(X_test_random)
accuracy_random = accuracy_score(y_test_random, y_pred_random)

print("Метрика точности на случайно разделенных данных:", accuracy_random)

# Повторение анализа с использованием библиотечной функции train_test_split несколько раз
accuracies = []
for _ in range(5):
    X_train_lib, X_test_lib, y_train_lib, y_test_lib = train_test_split(X, y, test_size=0.5)
    model_lib = LogisticRegression()
    model_lib.fit(X_train_lib, y_train_lib)
    y_pred_lib = model_lib.predict(X_test_lib)
    accuracy_lib = accuracy_score(y_test_lib, y_pred_lib)
    accuracies.append(accuracy_lib)

print("Метрики точности для нескольких повторов с использованием библиотечной функции:")
for i, acc in enumerate(accuracies):
    print(f"Попытка {i+1}: {acc}")

# Построение матрицы классификации и отчёта о классификации
confusion_matrix_train = confusion_matrix(y_train_half, model_half.predict(X_train_half))
confusion_matrix_test = confusion_matrix(y_test_half, y_pred_half)

print("Матрица классификации для обучающей выборки:")
print(confusion_matrix_train)
print("Матрица классификации для тестовой выборки:")
print(confusion_matrix_test)

classification_report_train = classification_report(y_train_half, model_half.predict(X_train_half))
classification_report_test = classification_report(y_test_half, y_pred_half)

print("Отчёт о классификации для обучающей выборки:")
print(classification_report_train)
print("Отчёт о классификации для тестовой выборки:")
print(classification_report_test)

# Расчёт всех метрик эффективности классификации
precision_train = precision_score(y_train_half, model_half.predict(X_train_half))
recall_train = recall_score(y_train_half, model_half.predict(X_train_half))
f1_train = f1_score(y_train_half, model_half.predict(X_train_half))

precision_test = precision_score(y_test_half, y_pred_half)
recall_test = recall_score(y_test_half, y_pred_half)
f1_test = f1_score(y_test_half, y_pred_half)

print("Метрики эффективности классификации для обучающей выборки:")
print("Precision:", precision_train)
print("Recall:", recall_train)
print("F1-score:", f1_train)

print("Метрики эффективности классификации для тестовой выборки:")
print("Precision:", precision_test)
print("Recall:", recall_test)
print("F1-score:", f1_test)
    

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Метрика точности на первой половине данных: 0.8421052631578947
Метрика точности на случайно разделенных данных: 0.8552631578947368
Метрики точности для нескольких повторов с использованием библиотечной функции:
Попытка 1: 0.8486842105263158
Попытка 2: 0.7763157894736842
Попытка 3: 0.8026315789473685
Попытка 4: 0.7960526315789473
Попытка 5: 0.8289473684210527
Матрица классификации для обучающей выборки:
[[56 12]
 [ 6 77]]
Матрица классификации для тестовой выборки:
[[57 13]
 [11 71]]
Отчёт о классификации для обучающей выборки:
              precision    recall  f1-score   support

           0       0.90      0.82      0.86        68
           1       0.87      0.93      0.90        83

    accuracy                           0.88       151
   macro avg       0.88      0.88      0.88       151
weighted avg       0.88      0.88      0.88       151

Отчёт о классификации для тестовой выборки:
              precision    recall  f1-score   support

           0       0.84      0.81      0.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

1. Повторите анализ для других видов моделей. Используйте 5-10 разных классов моделей. Подсчитывайте только метрики на тестовой выборке.


In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Загрузка данных
data = pd.read_csv('heart.csv')

# Разделение данных на признаки и целевую переменную
X = data.drop(columns=['output'])
y = data['output']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# Список моделей
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "K Nearest Neighbors": KNeighborsClassifier(),
    "Support Vector Machine": SVC(),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier()
}

# Обучение и оценка всех моделей
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    print(f"Модель: {name}")
    print(f"Accuracy: {accuracy}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print(f"F1-score: {f1}")
    print("="*50)

# Логистическая регрессия и случайный лес выглядят наиболее подходящими для данной задачи классификации сердечных заболеваний, но необходимо учитывать контекст и требования вашего приложения при выборе оптимальной модели.

Модель: Logistic Regression
Accuracy: 0.8289473684210527
Precision: 0.8414634146341463
Recall: 0.8414634146341463
F1-score: 0.8414634146341463
Модель: K Nearest Neighbors
Accuracy: 0.6447368421052632
Precision: 0.6666666666666666
Recall: 0.6829268292682927
F1-score: 0.6746987951807228
Модель: Support Vector Machine
Accuracy: 0.6644736842105263
Precision: 0.6260162601626016
Recall: 0.9390243902439024
F1-score: 0.751219512195122
Модель: Decision Tree
Accuracy: 0.743421052631579
Precision: 0.7792207792207793
Recall: 0.7317073170731707
F1-score: 0.7547169811320755
Модель: Random Forest
Accuracy: 0.8289473684210527
Precision: 0.85
Recall: 0.8292682926829268
F1-score: 0.8395061728395061


2. Повторите анализ для другого датасета по вашему выбору. Используйте несколько моделей для сравнения. Используйте датасет для множественной классификации.

In [6]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Загрузка данных
iris = load_iris()
X = iris.data
y = iris.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Список моделей
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000, multi_class='ovr'),
    "K Nearest Neighbors": KNeighborsClassifier(),
    "Support Vector Machine": SVC(),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier()
}

# Обучение и оценка всех моделей
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    print(f"Модель: {name}")
    print(f"Accuracy: {accuracy}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print(f"F1-score: {f1}")
    print("="*50)

# Можно заключить, что все модели хорошо справляются с классификацией на наборе данных Iris. В частности, K ближайших соседей, метод опорных векторов, решающее дерево и случайный лес достигают идеальной производительности, что свидетельствует о хорошем качестве данных и способности моделей к их обучению.

Модель: Logistic Regression
Accuracy: 0.9555555555555556
Precision: 0.9614814814814815
Recall: 0.9555555555555556
F1-score: 0.9552910052910052
Модель: K Nearest Neighbors
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0
Модель: Support Vector Machine
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0
Модель: Decision Tree
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0
Модель: Random Forest
Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1-score: 1.0


3. Повторите анализ для датасета, предназначенного для решения задачи регрессии. Используйте все метрики качества регрессии, изученные на лекции. Постройте 5 - 10 разных моделей регрессии.

In [9]:
import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Загрузка данных
boston = fetch_openml(data_id=531)

# Преобразование в DataFrame
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = boston.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Преобразование строковых значений в числовые
X_train = X_train.astype(float)
X_test = X_test.astype(float)

# Список моделей регрессии
models = {
    "Linear Regression": LinearRegression(),
    "Ridge Regression": Ridge(),
    "Lasso Regression": Lasso(),
    "ElasticNet Regression": ElasticNet(),
    "Decision Tree Regressor": DecisionTreeRegressor(),
    "Random Forest Regressor": RandomForestRegressor(),
    "Gradient Boosting Regressor": GradientBoostingRegressor()
}

# Обучение и оценка всех моделей
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"Модель: {name}")
    print(f"Mean Squared Error (MSE): {mse}")
    print(f"Mean Absolute Error (MAE): {mae}")
    print(f"R^2 Score: {r2}")
    print("="*50)

# Из вывода видно, что регрессоры градиентного бустинга и случайного леса показывают лучшие результаты с наименьшей среднеквадратичной ошибкой и наивысшим коэффициентом детерминации.

Модель: Linear Regression
Mean Squared Error (MSE): 21.517444231177723
Mean Absolute Error (MAE): 3.162709871457465
R^2 Score: 0.7112260057484863
Модель: Ridge Regression
Mean Squared Error (MSE): 22.04405308986103
Mean Absolute Error (MAE): 3.1785390760345584
R^2 Score: 0.7041586727559432
Модель: Lasso Regression
Mean Squared Error (MSE): 25.63950292804399
Mean Absolute Error (MAE): 3.658797629197879
R^2 Score: 0.655906082915434
Модель: ElasticNet Regression
Mean Squared Error (MSE): 25.4051963642821
Mean Absolute Error (MAE): 3.637139431317784
R^2 Score: 0.6590505847238237
Модель: Decision Tree Regressor
Mean Squared Error (MSE): 11.996973684210527
Mean Absolute Error (MAE): 2.531578947368421
R^2 Score: 0.8389950975357935
Модель: Random Forest Regressor
Mean Squared Error (MSE): 10.325165460526314
Mean Absolute Error (MAE): 2.1528684210526317
R^2 Score: 0.8614315325133408
Модель: Gradient Boosting Regressor
Mean Squared Error (MSE): 7.885543194588111
Mean Absolute Error (MAE): 2.0496