Изучите документацию sklearn, посвященную классу LogisticRegression. Какую еще информацию можно вывести для обученной модели? Попробуйте изменить аргументы при создании модели и посмотрите, как это влияет на качество предсказания.

In [28]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# загрузка данных
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# создание модели с параметром C=0.1 и solver='liblinear'
model = LogisticRegression(C=0.1, solver='liblinear')

# обучение модели
model.fit(X_train, y_train)

# предсказание на тестовом наборе данных
y_pred = model.predict(X_test)

# оценка точности модели
print('Accuracy:', accuracy_score(y_test, y_pred))

Accuracy: 0.9649122807017544


Попробуйте применить к той же задаче другие модели классификации. Для каждой из них выведите матрицу классификации и оценку точности. Рекомендуется исследовать следующие модели:
Метод опорных векторов
Без ядра
С линейным ядром
С гауссовым ядром
С полиномиальным ядром

In [29]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

# загрузка данных
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# обучение и оценка логистической регрессии
model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
y_pred_lr = model_lr.predict(X_test)
print("Логистическая регрессия:")
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_lr))

# обучение и оценка метода опорных векторов с линейным ядром
model_svm_linear = SVC(kernel='linear')
model_svm_linear.fit(X_train, y_train)
y_pred_svm_linear = model_svm_linear.predict(X_test)
print("Метод опорных векторов с линейным ядром:")
print("Accuracy:", accuracy_score(y_test, y_pred_svm_linear))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_svm_linear))

# обучение и оценка метода опорных векторов с гауссовым ядром
model_svm_rbf = SVC(kernel='rbf')
model_svm_rbf.fit(X_train, y_train)
y_pred_svm_rbf = model_svm_rbf.predict(X_test)
print("Метод опорных векторов с гауссовым ядром:")
print("Accuracy:", accuracy_score(y_test, y_pred_svm_rbf))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_svm_rbf))

# обучение и оценка метода опорных векторов с полиномиальным ядром
model_svm_poly = SVC(kernel='poly')
model_svm_poly.fit(X_train, y_train)
y_pred_svm_poly = model_svm_poly.predict(X_test)
print("Метод опорных векторов с полиномиальным ядром:")
print("Accuracy:", accuracy_score(y_test, y_pred_svm_poly))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_svm_poly))

Логистическая регрессия:
Accuracy: 0.9649122807017544
Матрица классификации:
[[40  3]
 [ 1 70]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Метод опорных векторов с линейным ядром:
Accuracy: 0.956140350877193
Матрица классификации:
[[39  4]
 [ 1 70]]
Метод опорных векторов с гауссовым ядром:
Accuracy: 0.9473684210526315
Матрица классификации:
[[37  6]
 [ 0 71]]
Метод опорных векторов с полиномиальным ядром:
Accuracy: 0.9473684210526315
Матрица классификации:
[[37  6]
 [ 0 71]]


Метод ближайших соседей
Многослойный перцептрон
Дерево решений
Наивный байесовский классификатор

In [30]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix

# загрузка данных
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# обучение и оценка метода ближайших соседей
model_knn = KNeighborsClassifier()
model_knn.fit(X_train, y_train)
y_pred_knn = model_knn.predict(X_test)
print("Метод ближайших соседей:")
print("Accuracy:", accuracy_score(y_test, y_pred_knn))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_knn))

# обучение и оценка многослойного перцептрона
model_mlp = MLPClassifier()
model_mlp.fit(X_train, y_train)
y_pred_mlp = model_mlp.predict(X_test)
print("Многослойный перцептрон:")
print("Accuracy:", accuracy_score(y_test, y_pred_mlp))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_mlp))

# обучение и оценка дерева решений
model_dt = DecisionTreeClassifier()
model_dt.fit(X_train, y_train)
y_pred_dt = model_dt.predict(X_test)
print("Дерево решений:")
print("Accuracy:", accuracy_score(y_test, y_pred_dt))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_dt))

# обучение и оценка наивного байесовского классификатора
model_nb = GaussianNB()
model_nb.fit(X_train, y_train)
y_pred_nb = model_nb.predict(X_test)
print("Наивный байесовский классификатор:")
print("Accuracy:", accuracy_score(y_test, y_pred_nb))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_nb))

Метод ближайших соседей:
Accuracy: 0.956140350877193
Матрица классификации:
[[38  5]
 [ 0 71]]
Многослойный перцептрон:
Accuracy: 0.9385964912280702
Матрица классификации:
[[36  7]
 [ 0 71]]
Дерево решений:
Accuracy: 0.9298245614035088
Матрица классификации:
[[40  3]
 [ 5 66]]
Наивный байесовский классификатор:
Accuracy: 0.9736842105263158
Матрица классификации:
[[40  3]
 [ 0 71]]


Пассивно-агрессивный классификатор
Гребневый классификатор

In [31]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import PassiveAggressiveClassifier, RidgeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

# загрузка данных
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# обучение и оценка пассивно-агрессивного классификатора
model_pa = PassiveAggressiveClassifier()
model_pa.fit(X_train, y_train)
y_pred_pa = model_pa.predict(X_test)
print("Пассивно-агрессивный классификатор:")
print("Accuracy:", accuracy_score(y_test, y_pred_pa))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_pa))

# обучение и оценка гребневого классификатора
model_rc = RidgeClassifier()
model_rc.fit(X_train, y_train)
y_pred_rc = model_rc.predict(X_test)
print("Гребневый классификатор:")
print("Accuracy:", accuracy_score(y_test, y_pred_rc))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_rc))

Пассивно-агрессивный классификатор:
Accuracy: 0.9122807017543859
Матрица классификации:
[[33 10]
 [ 0 71]]
Гребневый классификатор:
Accuracy: 0.956140350877193
Матрица классификации:
[[39  4]
 [ 1 70]]


Случайный лес
Беггинг

In [32]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

# загрузка данных
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# обучение и оценка случайного леса
model_rf = RandomForestClassifier()
model_rf.fit(X_train, y_train)
y_pred_rf = model_rf.predict(X_test)
print("Случайный лес:")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_rf))

# обучение и оценка беггинга
model_bg = BaggingClassifier()
model_bg.fit(X_train, y_train)
y_pred_bg = model_bg.predict(X_test)
print("Беггинг:")
print("Accuracy:", accuracy_score(y_test, y_pred_bg))
print("Матрица классификации:")
print(confusion_matrix(y_test, y_pred_bg))

Случайный лес:
Accuracy: 0.9649122807017544
Матрица классификации:
[[40  3]
 [ 1 70]]
Беггинг:
Accuracy: 0.956140350877193
Матрица классификации:
[[40  3]
 [ 2 69]]


Напишите функцию, которая автоматически обучает все перечисленные модели и для каждой выдает оценку точности.

In [33]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.linear_model import PassiveAggressiveClassifier, RidgeClassifier
from sklearn.metrics import accuracy_score

def train_models(data, target, test_size=0.2, random_state=42):
    # разделение данных на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=test_size, random_state=random_state)

    # модели для обучения
    models = [
        ("Логистическая регрессия", LogisticRegression()),
        ("Метод опорных векторов без ядра", SVC(kernel='linear')),
        ("Метод опорных векторов с линейным ядром", SVC(kernel='poly', degree=1)),
        ("Метод опорных векторов с гауссовым ядром", SVC(kernel='rbf')),
        ("Метод опорных векторов с полиномиальным ядром", SVC(kernel='poly', degree=3)),
        ("Метод ближайших соседей", KNeighborsClassifier(n_neighbors=5)),
        ("Многослойный перцептрон", MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=1000)),
        ("Дерево решений", DecisionTreeClassifier(max_depth=5)),
        ("Наивный байесовский классификатор", GaussianNB()),
        ("Пассивно-агрессивный классификатор", PassiveAggressiveClassifier()),
        ("Гребневой классификатор", RidgeClassifier()),
        ("Случайный лес", RandomForestClassifier()),
        ("Беггинг", BaggingClassifier())
    ]

    # обучение и оценка точности моделей
    results = {}
    for name, model in models:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        acc = accuracy_score(y_test, y_pred)
        results[name] = acc

    return results
data = load_breast_cancer().data
target = load_breast_cancer().target
results = train_models(data, target)
for name, acc in results.items():
    print(name, ":", acc)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Логистическая регрессия : 0.9649122807017544
Метод опорных векторов без ядра : 0.956140350877193
Метод опорных векторов с линейным ядром : 0.9385964912280702
Метод опорных векторов с гауссовым ядром : 0.9473684210526315
Метод опорных векторов с полиномиальным ядром : 0.9473684210526315
Метод ближайших соседей : 0.956140350877193
Многослойный перцептрон : 0.9385964912280702
Дерево решений : 0.9385964912280702
Наивный байесовский классификатор : 0.9736842105263158
Пассивно-агрессивный классификатор : 0.9473684210526315
Гребневой классификатор : 0.956140350877193
Случайный лес : 0.9649122807017544
Беггинг : 0.956140350877193


Повторите полностью анализ для другой задачи - распознавание вида ириса по параметрам растения (можно использовать метод sklearn.datasets.load_iris()).

In [34]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.linear_model import RidgeClassifier
from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.metrics import accuracy_score

# загрузка данных
data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# модели
models = [
    ('Logistic Regression', LogisticRegression()),
    ('SVM', SVC()),
    ('KNN', KNeighborsClassifier()),
    ('Multi-layer Perceptron', MLPClassifier()),
    ('Decision Tree', DecisionTreeClassifier()),
    ('Naive Bayes', GaussianNB()),
    ('Passive-Aggressive', PassiveAggressiveClassifier()),
    ('Ridge Classifier', RidgeClassifier()),
    ('Random Forest', RandomForestClassifier()),
    ('Bagging', BaggingClassifier())
]

# обучение и оценка каждой модели
for name, model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"{name}: {accuracy:.3f}")

Logistic Regression: 1.000
SVM: 1.000
KNN: 1.000
Multi-layer Perceptron: 1.000
Decision Tree: 1.000
Naive Bayes: 1.000
Passive-Aggressive: 0.867
Ridge Classifier: 0.900


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Random Forest: 1.000
Bagging: 1.000
