# 🧑‍🎓 Практика: Ортогонализация в машинном обучении
В этом ноутбуке вы выполните несколько заданий, связанных с ортогонализацией, PCA и регуляризацией.

Цели:
- понять принцип работы PCA,
- реализовать метод Грама-Шмидта,
- применить ортогонализацию к данным,
- изучить влияние регуляризации на модель.


## Задание 1: Реализация метода Грама-Шмидта
Реализуйте функцию `my_gram_schmidt`, которая принимает массив векторов и возвращает их ортонормированный базис.

**Подсказка:** используйте поэлементное вычитание проекций и нормализацию.


In [None]:
import numpy as np

def my_gram_schmidt(V):
    # Ваш код здесь
    U = []
    for v in V:
        for u in U:
            v = v - np.dot(v, u) * u
        norm = np.linalg.norm(v)
        if norm > 1e-10:
            v = v / norm
            U.append(v)
    return np.array(U)

# Пример
V = np.array([[1, 1], [1, -1]], dtype=float)
U = my_gram_schmidt(V)
print("Ортогонализированные векторы:", U)
print("Скалярное произведение:", np.dot(U[0], U[1]))

## Задание 2: Визуализация PCA на наборе Iris
1. Загрузите данные Iris.
2. Примените PCA для снижения размерности до 2 компонент.
3. Постройте scatter plot, где точки окрашены по классам.


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

iris = load_iris()
X = iris.data
y = iris.target

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
df_pca = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
df_pca['target'] = y

sns.scatterplot(x='PC1', y='PC2', hue='target', data=df_pca, palette='tab10')
plt.title("PCA на Iris")
plt.show()

## Задание 3: Влияние регуляризации (Ridge Regression)
1. Разбейте данные на train/test.
2. Постройте Ridge-регрессию с разными значениями `alpha`.
3. Постройте график зависимости ошибки от `alpha`.


In [None]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_test, y_train, y_test = train_test_split(X[:, :2], y, test_size=0.2, random_state=42)

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
errors = []

for alpha in alphas:
    model = Ridge(alpha=alpha)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    errors.append(mse)

plt.plot(alphas, errors, marker='o')
plt.xscale('log')
plt.xlabel('Alpha')
plt.ylabel('MSE')
plt.title('Зависимость ошибки от регуляризации')
plt.grid(True)
plt.show()

## Задание 4 (дополнительно): PCA на MNIST
Загрузите набор данных MNIST и постройте его проекцию на 2 главные компоненты.
Сравните распределение цифр.
