#Теория по методам

## Теоретическое описание используемых методов классификации

### 1. Logistic Regression

Логистическая регрессия — это линейный метод классификации, который используется для бинарных и многоклассовых задач. Модель предсказывает вероятность принадлежности объекта к каждому классу на основе логистической функции (сигмоиды).  
Ключевая особенность — интерпретируемость коэффициентов и устойчивость при наличии линейной зависимости между признаками и целевой переменной.

**Особенности:**
- Подходит для линейно разделимых данных.
- Быстро обучается.
- Хорошо интерпретируема.

---

### 2. Support Vector Machine (SVM)

Метод опорных векторов — это алгоритм, который находит оптимальную гиперплоскость, разделяющую классы с максимальным зазором (margin).  
Он эффективен в задачах классификации, особенно при наличии большого количества признаков или небольшого количества данных.

**Особенности:**
- Работает в линейных и нелинейных пространствах (через ядровые функции).
- Чувствителен к масштабированию данных.
- Хорошо работает в задачах с чёткой границей между классами.

---

### 3. Random Forest

Random Forest — ансамблевый метод, основанный на построении множества решающих деревьев и объединении их предсказаний (голосование большинства). Каждый классификатор обучается на случайной подвыборке данных и признаков, что снижает переобучение.

**Особенности:**
- Высокая точность.
- Устойчивость к шуму и выбросам.
- Менее интерпретируем по сравнению с логистической регрессией, но позволяет оценивать важность признаков.



#IRIS

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Загрузка датасета Iris
iris = load_iris()
X = iris.data
y = iris.target
target_names = iris.target_names

# Деление на train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Масштабирование признаков
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Используем 3 модели
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "SVM": SVC(),
    "Random Forest": RandomForestClassifier()
}

# Обучение и вывод результатов
for name, model in models.items():
    print(f"\n===== {name} =====")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    print("\nClassification Report:")
    report = classification_report(y_test, y_pred, target_names=target_names, output_dict=True)
    print(pd.DataFrame(report).T)

    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))



===== Logistic Regression =====

📋 Classification Report:
              precision  recall  f1-score  support
setosa              1.0     1.0       1.0     19.0
versicolor          1.0     1.0       1.0     13.0
virginica           1.0     1.0       1.0     13.0
accuracy            1.0     1.0       1.0      1.0
macro avg           1.0     1.0       1.0     45.0
weighted avg        1.0     1.0       1.0     45.0

🧩 Confusion Matrix:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]

===== SVM =====

📋 Classification Report:
              precision  recall  f1-score  support
setosa              1.0     1.0       1.0     19.0
versicolor          1.0     1.0       1.0     13.0
virginica           1.0     1.0       1.0     13.0
accuracy            1.0     1.0       1.0      1.0
macro avg           1.0     1.0       1.0     45.0
weighted avg        1.0     1.0       1.0     45.0

🧩 Confusion Matrix:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]

===== Random Forest =====

📋 Classification Report:
              p

## Классификация на датасете Iris

### Характеристика датасета

- **Название:** Iris  
- **Количество примеров:** 150  
- **Количество признаков:** 4  
- **Целевой атрибут:** Вид цветка (`setosa`, `versicolor`, `virginica`)

---

### Методы классификации

| Метод                | Accuracy | Precision (weighted) | Recall (weighted) | F1-score (weighted) |
|---------------------|----------|-----------------------|--------------------|----------------------|
| Logistic Regression | 1.00     | 1.00                  | 1.00               | 1.00                 |
| SVM                 | 1.00     | 1.00                  | 1.00               | 1.00                 |
| Random Forest       | 1.00     | 1.00                  | 1.00               | 1.00                 |

---

### Выводы

- Все три классификатора (Logistic Regression, SVM, Random Forest) достигли 100% точности на тестовой выборке.
- Ни один из методов не допустил ошибок классификации — все метрики на уровне 1.00.
- Это объясняется тем, что классы в датасете Iris хорошо разделимы и сбалансированы.
- Лучшие модели для данного датасета: Logistic Regression, SVM и Random Forest — показали идеальные метрики.

---

### Общая рекомендация

Для датасета Iris, отличающегося хорошо разделимыми классами и небольшим объёмом, большинство моделей машинного обучения работают без ошибок. Однако в практических задачах предпочтение часто отдают Random Forest, поскольку он более устойчив к шуму, масштабируем и требует минимальной настройки. Logistic Regression — хороший выбор для интерпретируемых моделей, а SVM — для задач с чёткой границей между классами.


#WINE

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Загрузка датасета Wine
wine = load_wine()
X = wine.data
y = wine.target
target_names = wine.target_names

# Деление на train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Масштабирование признаков
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Используем только 3 классификатора
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "SVM": SVC(),
    "Random Forest": RandomForestClassifier()
}

# Обучение и вывод результатов
for name, model in models.items():
    print(f"\n===== {name} =====")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    print("\nClassification Report:")
    report = classification_report(y_test, y_pred, target_names=target_names, output_dict=True)
    print(pd.DataFrame(report).T)

    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))



===== Logistic Regression =====

Classification Report:
              precision    recall  f1-score    support
class_0        1.000000  1.000000  1.000000  19.000000
class_1        1.000000  0.952381  0.975610  21.000000
class_2        0.933333  1.000000  0.965517  14.000000
accuracy       0.981481  0.981481  0.981481   0.981481
macro avg      0.977778  0.984127  0.980376  54.000000
weighted avg   0.982716  0.981481  0.981575  54.000000

Confusion Matrix:
[[19  0  0]
 [ 0 20  1]
 [ 0  0 14]]

===== SVM =====

Classification Report:
              precision    recall  f1-score    support
class_0        1.000000  1.000000  1.000000  19.000000
class_1        0.954545  1.000000  0.976744  21.000000
class_2        1.000000  0.928571  0.962963  14.000000
accuracy       0.981481  0.981481  0.981481   0.981481
macro avg      0.984848  0.976190  0.979902  54.000000
weighted avg   0.982323  0.981481  0.981354  54.000000

Confusion Matrix:
[[19  0  0]
 [ 0 21  0]
 [ 0  1 13]]

===== Random Forest

## Классификация на датасете Wine

### Характеристика датасета

- **Название:** Wine  
- **Количество примеров:** 178  
- **Количество признаков:** 13  
- **Целевой атрибут:** Класс вина (`class_0`, `class_1`, `class_2`)

---

### Методы классификации

| Метод                | Accuracy | Precision (weighted) | Recall (weighted) | F1-score (weighted) |
|---------------------|----------|-----------------------|--------------------|----------------------|
| Logistic Regression | 0.98     | 0.98                  | 0.98               | 0.98                 |
| SVM                 | 0.98     | 0.98                  | 0.98               | 0.98                 |
| Random Forest       | 1.00     | 1.00                  | 1.00               | 1.00                 |

---

### Выводы

- Все три классификатора показали высокие результаты на тестовой выборке, с точностью от 98% до 100%.
- **Logistic Regression** допустила одну ошибку: перепутала один объект класса `class_1` с `class_2`.
- **SVM** также допустил одну ошибку — перепутала один объект `class_2` с `class_1`.
- **Random Forest** отработал идеально: все классы классифицированы без ошибок.
- Таким образом, **лучшей моделью для данного датасета** является **Random Forest**, так как она показала 100% точность и безошибочную работу.

---

### Общая рекомендация

Для датасета Wine, содержащего данные с более высокой размерностью (13 признаков), модели машинного обучения справляются очень хорошо.  
**Logistic Regression** и **SVM** показывают отличные результаты, но в случае сложных или "шумных" данных предпочтение стоит отдавать **ансамблевым методам**, таким как **Random Forest**, за счёт их устойчивости к переобучению и способности находить сложные закономерности.


#Breast Cancer

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Загрузка датасета
data = load_breast_cancer()
X = data.data
y = data.target
target_names = data.target_names  # ['malignant', 'benign']

# Деление на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Масштабирование
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Используем только 3 модели
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "SVM": SVC(),
    "Random Forest": RandomForestClassifier()
}

# Обучение и вывод
for name, model in models.items():
    print(f"\n===== {name} =====")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    print("\nClassification Report:")
    report = classification_report(y_test, y_pred, target_names=target_names, output_dict=True)
    print(pd.DataFrame(report).T)

    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))



===== Logistic Regression =====

Classification Report:
              precision    recall  f1-score     support
malignant      0.968750  0.984127  0.976378   63.000000
benign         0.990654  0.981481  0.986047  108.000000
accuracy       0.982456  0.982456  0.982456    0.982456
macro avg      0.979702  0.982804  0.981212  171.000000
weighted avg   0.982584  0.982456  0.982484  171.000000

Confusion Matrix:
[[ 62   1]
 [  2 106]]

===== SVM =====

Classification Report:
              precision    recall  f1-score     support
malignant      0.968254  0.968254  0.968254   63.000000
benign         0.981481  0.981481  0.981481  108.000000
accuracy       0.976608  0.976608  0.976608    0.976608
macro avg      0.974868  0.974868  0.974868  171.000000
weighted avg   0.976608  0.976608  0.976608  171.000000

Confusion Matrix:
[[ 61   2]
 [  2 106]]

===== Random Forest =====

Classification Report:
              precision    recall  f1-score     support
malignant      0.967213  0.936508  0.95

## Классификация на датасете Breast Cancer

### Характеристика датасета

- **Название:** Breast Cancer Wisconsin  
- **Количество примеров:** 569  
- **Количество признаков:** 30  
- **Целевой атрибут:** Диагноз (`malignant` — злокачественная опухоль, `benign` — доброкачественная опухоль)

---

### Методы классификации

| Метод                | Accuracy | Precision (weighted) | Recall (weighted) | F1-score (weighted) |
|---------------------|----------|-----------------------|--------------------|----------------------|
| Logistic Regression | 0.982    | 0.9826                | 0.9825             | 0.9825               |
| SVM                 | 0.977    | 0.9766                | 0.9766             | 0.9766               |
| Random Forest       | 0.965    | 0.9650                | 0.9649             | 0.9648               |

---

### Выводы

- Все три модели показали высокую точность на тестовой выборке (от 96.5% до 98.2%).
- **Logistic Regression** оказалась самой точной: допустила только 3 ошибки на 171 примере.
- **SVM** также показала отличные результаты, с аналогичным количеством ошибок, но слегка уступает по средним метрикам.
- **Random Forest**, несмотря на высокую точность, допустила чуть больше ошибок — 6 неправильных классификаций, особенно на классе `malignant`.

---

### Общая рекомендация

Для данного медицинского датасета, где важно избегать ошибок при определении злокачественных опухолей, приоритет отдаётся моделям с наивысшим recall для класса `malignant`.  
**Logistic Regression** и **SVM** демонстрируют лучшие результаты в этом аспекте, а **Random Forest** может потребовать дополнительной настройки гиперпараметров (например, числа деревьев или глубины).


# Общие вывод

## Сравнительная таблица моделей классификации

| Датасет        | Модель              | Accuracy | Precision (weighted) | Recall (weighted) | F1-score (weighted) |
|----------------|---------------------|----------|-----------------------|--------------------|----------------------|
| Iris           | Logistic Regression | 1.000    | 1.000                 | 1.000              | 1.000                |
| Iris           | SVM                 | 1.000    | 1.000                 | 1.000              | 1.000                |
| Iris           | Random Forest       | 1.000    | 1.000                 | 1.000              | 1.000                |
| Wine           | Logistic Regression | 0.981    | 0.9827                | 0.9815             | 0.9816               |
| Wine           | SVM                 | 0.981    | 0.9823                | 0.9815             | 0.9814               |
| Wine           | Random Forest       | 1.000    | 1.000                 | 1.000              | 1.000                |
| Breast Cancer  | Logistic Regression | 0.982    | 0.9826                | 0.9825             | 0.9825               |
| Breast Cancer  | SVM                 | 0.977    | 0.9766                | 0.9766             | 0.9766               |
| Breast Cancer  | Random Forest       | 0.965    | 0.9650                | 0.9649             | 0.9648               |


## Общие выводы по результатам эксперимента

1. Все три модели — Logistic Regression, SVM и Random Forest — показали высокую точность классификации на всех трёх датасетах, с accuracy выше 96%.

2. На **датасете Iris** все модели сработали идеально, достигнув 100% по всем метрикам. Это подтверждает, что классы в этом датасете хорошо разделимы, и большинство алгоритмов легко их классифицируют.

3. На **датасете Wine** лучшие результаты продемонстрировал Random Forest (100%), в то время как Logistic Regression и SVM показали точность 98.1%. Все три модели пригодны для использования.

4. На **датасете Breast Cancer** лидером по метрикам оказалась Logistic Regression (98.2%), за ней — SVM (97.7%), и затем Random Forest (96.5%). Ошибки в классе `malignant` особенно важны в медицинском контексте, поэтому высокие значения recall имеют решающее значение.

5. **Logistic Regression** оказалась наиболее универсальной: она стабильно демонстрирует высокие результаты на всех наборах данных, особенно на задачах с линейно разделимыми классами.

6. **SVM** подходит для малых, чистых выборок, где важна высокая точность границ между классами.

7. **Random Forest** показывает превосходную производительность на сложных и многомерных данных, но требует аккуратной настройки и может уступать в интерпретируемости.

---

**Вывод:** все три классификатора подходят для задач мульти- и бинарной классификации. При этом на разных типах данных может быть рекомендована разная модель. Logistic Regression является простым и эффективным базовым решением. SVM — более строгий и точный при правильной настройке. Random Forest — мощный инструмент при работе с комплексными структурами данных.
