<a href="https://colab.research.google.com/github/Zasegor/machine-learning-project/blob/main/basic_classification_models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Импорты

In [10]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import requests

# Встроенные модели

## **0. Линейная регрессия**

---
### **Когда использовать?**  
Когда целевая переменная (зависимая переменная) — **непрерывная** (например, цена дома, температура, зарплата).  

---
### **Что важно?**  
- `model.coef_` — веса признаков (в простом случае — наклон прямой).  
- `model.intercept_` — свободный член (сдвиг по оси Y).  
- **Метрики**:  
  - `mean_squared_error` (MSE) — средняя квадратичная ошибка (чем меньше, тем лучше).  
  - `r2_score` (R²) — коэффициент детерминации (1 — идеальное предсказание, 0 — как среднее).  


In [39]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import make_regression
from sklearn.preprocessing import PolynomialFeatures

---

In [46]:
# Генерация данных R->R
X, y = make_regression(
    n_samples=500,
    n_features=1,
    n_informative=1,
    noise=10,
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

fig = go.Figure()

fig.add_scatter(
    x=X_train.reshape(-1),
    y=y_train,
    mode='markers',
    marker=dict(color='red'),
    name="Тренировочный набор"
)

fig.add_scatter(
    x=X_test.reshape(-1),
    y=y_test,
    mode='markers',
    marker=dict(color='gray'),
    name="Тестовый набор"
)

fig.update_layout(
    title="Линейная регрессия R->R",
    showlegend=True
)

In [37]:
model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)
R2 = r2_score(y_pred=y_pred, y_true=y_test)
print(f"MSE = {MSE}, R^2 = {R2}")

fig.add_scatter(
    x=X_train.reshape(-1),
    y=model.predict(X_train),
    mode='lines',
    line=dict(color='blue'),
    name="Предсказанный (тренировочный) набор"
)

fig.add_scatter(
    x=X_test.reshape(-1),
    y=y_pred,
    mode='lines',
    line=dict(color='blue'),
    name="Предсказанный (тестовый) набор"
)

MSE = 101.0077156966921, R^2 = 0.9726379442654388


In [38]:
# Генерация данных R^n->R
X, y = make_regression(
    n_samples=500,
    n_features=10,
    n_informative=7,
    noise=10,
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)
R2 = r2_score(y_pred=y_pred, y_true=y_test)
print(f"MSE = {MSE}, R^2 = {R2}")

MSE = 110.55332562120294, R^2 = 0.9907627157210539


# Использование полиномиальных фич для нелинейной зависимости

In [65]:
X = np.linspace(-5, 5, 200)
y = np.sin(X) + np.random.normal(-0.1, 0.1, 200)
X = X.reshape(-1, 1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

fig = go.Figure()

fig.add_scatter(
    x=X_train.reshape(-1),
    y=y_train,
    mode='markers',
    marker=dict(color='red'),
    name="Тренировочный набор"
)

fig.add_scatter(
    x=X_test.reshape(-1),
    y=y_test,
    mode='markers',
    marker=dict(color='gray'),
    name="Тестовый набор"
)

fig.update_layout(
    title="Линейная регрессия R->R",
    showlegend=True
)

In [66]:
model_lin = LinearRegression()

model_lin.fit(X_train, y_train)
y_pred_lin = model_lin.predict(X_test)

MSE_lin = mean_squared_error(y_pred=y_pred_lin, y_true=y_test)
R2_lin = r2_score(y_pred=y_pred_lin, y_true=y_test)
print(f"MSE = {MSE_lin}, R^2 = {R2_lin}")

fig.add_scatter(
    x=X.reshape(-1),
    y=model_lin.predict(X),
    mode='lines',
    line=dict(color='blue'),
    name="Предсказанный набор (без PolynomialFeatures)"
)

MSE = 0.5897288395190781, R^2 = 0.006623151305053976


In [67]:
poly = PolynomialFeatures(degree=6)

X_poly = poly.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_poly, y, test_size=0.3, random_state=42)

model_poly = LinearRegression()

model_poly.fit(X_train, y_train)
y_pred_poly = model_poly.predict(X_test)

MSE_poly = mean_squared_error(y_pred=y_pred_poly, y_true=y_test)
R2_poly = r2_score(y_pred=y_pred_poly, y_true=y_test)
print(f"MSE = {MSE_poly}, R^2 = {R2_poly}")

fig.add_scatter(
    x=X.reshape(-1),
    y=model_poly.predict(X_poly),
    mode='lines',
    line=dict(color='green'),
    name="Предсказанный набор (с PolynomialFeatures)"
)

MSE = 0.017783667032099108, R^2 = 0.9700440576570865


---


## **1. Логистическая регрессия**  

---
### **Когда использовать?**  
Когда целевая переменная — **категориальная** (бинарная: 0/1, Да/Нет; или мультиклассовая: "кошка", "собака", "птица").  

---
### **Что важно?**  
- `predict_proba()` — возвращает вероятности классов (полезно для оценки уверенности модели).  
- **Метрики**:  
  - `accuracy_score` — доля правильных ответов.  
  - `confusion_matrix` — матрица ошибок (TN, FP, FN, TP).  
  - `classification_report` — precision, recall, F1-score.  

---
### **Плюсы и минусы**  

#### ✅ **Плюсы:**  
1. Простота и интерпретируемость
2. Быстрое обучение и предсказание  
3. Эффективна на малых данных
4. Поддержка регуляризации (L1/L2)  
5. Выход — вероятность класса

#### ❌ **Минусы:**  
1. Линейные границы решений
2. Чувствительность к выбросам
3. Проблемы с несбалансированными классами
4. Предполагает линейную зависимость log-odds от признаков
5. Не подходит для сложных нелинейных данных

In [128]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

---

#### **Граничная функция y=x**

In [138]:
func = np.linspace(-5, 5, 500)
X = np.array([func, func + np.random.normal(-2, 2, 500)]).T
y = np.array([1 if x[1] < x[0] else 0 for x in X])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

fig = go.Figure()

fig.add_scatter(
    x=X[:, 0][y==0],
    y=X[:, 1][y==0],
    mode='markers',
    marker=dict(color='red', size=9),
    name="Класс '0'"
)

fig.add_scatter(
    x=X[:, 0][y==1],
    y=X[:, 1][y==1],
    mode='markers',
    marker=dict(color='blue', size=9),
    name="Класс '1'"
)

fig.update_layout(
    title="Логистическая регрессия",
    showlegend=True
)

In [139]:
model = LogisticRegression()

model.fit(X_train, y_train)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f"accuracy_score: {accuracy}\nconfusion_matrix:\n{conf_matrix}\nclassification_report:\n{report}")

fig.add_scatter(
    x=X[:, 0][model.predict(X)==0],
    y=X[:, 1][model.predict(X)==0],
    mode='markers',
    marker=dict(color='green', size=7),
    name="Класс '0' (предсказанный)"
)

fig.add_scatter(
    x=X[:, 0][model.predict(X)==1],
    y=X[:, 1][model.predict(X)==1],
    mode='markers',
    marker=dict(color='gray', size=7),
    name="Класс '1' (предсказанный)"
)

accuracy_score: 0.98
confusion_matrix:
[[ 22   3]
 [  0 125]]
classification_report:
              precision    recall  f1-score   support

           0       1.00      0.88      0.94        25
           1       0.98      1.00      0.99       125

    accuracy                           0.98       150
   macro avg       0.99      0.94      0.96       150
weighted avg       0.98      0.98      0.98       150



#### **Граничная фукнция y=Sin(x)**

In [140]:
# генерация данных для классификации
func = np.linspace(-5, 5, 500)
X = np.array([func, np.sin(func) + np.random.normal(-2, 2, 500)]).T
y = np.array([1 if x[1] < np.sin(x[0]) else 0 for x in X])

fig = go.Figure()

fig.add_scatter(
    x=X[:, 0][y==0],
    y=X[:, 1][y==0],
    mode='markers',
    marker=dict(color='red', size=9),
    name="Класс '0'"
)

fig.add_scatter(
    x=X[:, 0][y==1],
    y=X[:, 1][y==1],
    mode='markers',
    marker=dict(color='blue', size=9),
    name="Класс '1'"
)

fig.update_layout(
    title="Логистическая регрессия",
    showlegend=True
)

In [141]:
poly = PolynomialFeatures(degree=6)

X_poly = poly.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_poly, y, test_size=0.3, random_state=42)

model = LogisticRegression()

model.fit(X_train, y_train)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f"accuracy_score: {accuracy}\nconfusion_matrix:\n{conf_matrix}\nclassification_report:\n{report}")

fig.add_scatter(
    x=X[:, 0][model.predict(X_poly)==0],
    y=X[:, 1][model.predict(X_poly)==0],
    mode='markers',
    marker=dict(color='green', size=7),
    name="Класс '0' (предсказанный)"
)

fig.add_scatter(
    x=X[:, 0][model.predict(X_poly)==1],
    y=X[:, 1][model.predict(X_poly)==1],
    mode='markers',
    marker=dict(color='gray', size=7),
    name="Класс '1' (предсказанный)"
)

accuracy_score: 0.9666666666666667
confusion_matrix:
[[ 15   4]
 [  1 130]]
classification_report:
              precision    recall  f1-score   support

           0       0.94      0.79      0.86        19
           1       0.97      0.99      0.98       131

    accuracy                           0.97       150
   macro avg       0.95      0.89      0.92       150
weighted avg       0.97      0.97      0.97       150




lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression



---

## **K-ближайших соседей (KNN)**  

---
### **Когда использовать?**  
- Для **классификации** (бинарной или многоклассовой).
- Когда данные имеют **локальную структуру** (близкие объекты похожи).  

---
### **Что важно?**  
- `n_neighbors` – количество соседей (`k`). Чем меньше `k`, тем сложнее модель (риск переобучения).  
- `weights` – взвешивание соседей (`uniform` – все равны, `distance` – ближе = важнее).  
- `metric` – метрика расстояния (`euclidean`, `manhattan`, `minkowski`).  

**Метрики** (аналогично логистической регрессии):  
- `accuracy_score` – общая точность.  
- `confusion_matrix` – матрица ошибок.  
- `classification_report` – precision, recall, F1.  

---
### **Плюсы и минусы**  
✅ **Плюсы**:  
- Простота интерпретации.  
- Не требует обучения (ленивый алгоритм).  
- Хорошо работает на небольших данных с явной локальной структурой.  

❌ **Минусы**:  
- Медленный на больших данных (нужно хранить весь датасет).  
- Чувствителен к шумам и выбросам.  
- Требует подбора `k` и метрики расстояния.  

In [142]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.datasets import make_classification

---

---

## **Дерево решений (Decision Tree Classifier)**  
---
### **Когда использовать?**  
- Для **классификации** (бинарной или многоклассовой).  
- Когда важна **интерпретируемость** (можно визуализировать правила).  
- Если данные **нелинейны** или содержат сложные зависимости.

---
### **Что важно?**  
#### **Основные параметры:**  
- `max_depth` – максимальная глубина дерева (чем больше, тем сложнее модель).  
- `criterion` – критерий разделения:  
  - `'gini'` (индекс Джини) – по умолчанию.  
  - `'entropy'` – информационный выигрыш.  
- `min_samples_split` – минимальное число образцов для разделения узла (например, 5).  
- `min_samples_leaf` – минимальное число образцов в листе (например, 2).  

#### **Метрики (аналогично KNN и логистической регрессии):**  
- `accuracy_score` – общая точность.  
- `confusion_matrix` – матрица ошибок.  
- `classification_report` – precision, recall, F1.  

#### **Визуализация дерева:**  
```python
from sklearn.tree import plot_tree
plot_tree(model, filled=True, feature_names=['Feature_1', 'Feature_2'])
```
- `filled=True` – раскрашивает узлы по классам.  
- `feature_names` – подписи признаков.  

---
## **Плюсы и минусы**  
✅ **Плюсы:**  
- Простота интерпретации (можно увидеть правила).  
- Работает с категориальными и числовыми данными без предобработки.  
- Не требует масштабирования признаков.  

❌ **Минусы:**  
- Склонен к переобучению (без ограничений глубины).  
- Нестабилен (малые изменения данных → другое дерево).  
- Плохо экстраполирует за пределы обучающих данных.  


In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.datasets import make_classification

---

---