**Завдання на практичну роботу 4.3 Використання методів штучного інтелекту для аналізу даних (регресія з набору даних Kaggle)**.

**Мета завдання:**
- Опанування базових методів регресії для аналізу даних.
- Використання Python для обробки даних, побудови моделі регресії та оцінки її ефективності.
- Застосування реального набору даних з Kaggle.

**Завдання:**

1. **Завантаження даних:**
   - Виберіть один із відкритих наборів даних на Kaggle, наприклад, [House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques).
   - Завантажте дані у середовище Jupyter Notebook.

2. **Попередня обробка даних:**
   - Перевірте дані на наявність пропущених значень та обробіть їх (видалення, заповнення середніми або модою тощо).
   - Виконайте базовий аналіз кореляцій між числовими змінними.

3. **Розподіл даних:**
   - Розділіть дані на тренувальний і тестовий набори у співвідношенні 80:20.

4. **Побудова моделі регресії:**
   - Використовуйте одну з бібліотек Python (наприклад, scikit-learn) для створення моделі лінійної регресії.
   - Навчіть модель на тренувальному наборі даних.

5. **Оцінка моделі:**
   - Обчисліть коефіцієнт детермінації \(R^2\) для тестового набору.
   - Побудуйте графік фактичних і передбачених значень (scatter plot).

6. **Додаткове завдання:**
   - Спробуйте покращити результати, застосувавши інші алгоритми регресії, наприклад:
     - Ridge Regression
     - Lasso Regression
     - Decision Tree Regressor
   - Порівняйте результати за допомогою \(R^2\) та середньоквадратичної помилки (MSE).

7. **Оформлення звіту:**
   - Підготуйте короткий звіт (markdown у Jupyter Notebook) з описом:
     - Використаного підходу.
     - Ключових результатів.
     - Графіків та висновків.



Ось приклад виконання завдання у середовищі Jupyter Notebook. Ми скористаємося даними з Kaggle ("House Prices: Advanced Regression Techniques") для створення моделі лінійної регресії.

### Завантаження даних
```python
import pandas as pd

# Завантаження даних
data = pd.read_csv("Student_Performance.csv")  # Замість цього вкажіть шлях до набору даних
data.head()
```

### Попередня обробка даних
```python
# Перевірка наявності пропущених значень
missing_values = data.isnull().sum()
print(missing_values[missing_values > 0])

# Заповнення пропущених значень середнім (для числових) або модою (для категоріальних)
for column in data.columns:
    if data[column].dtype == "object":
        data[column].fillna(data[column].mode()[0], inplace=True)
    else:
        data[column].fillna(data[column].mean(), inplace=True)

# Базовий аналіз кореляцій
correlation = data.corr()
correlation["SalePrice"].sort_values(ascending=False).head(10)
```

### Розподіл даних
```python
from sklearn.model_selection import train_test_split

# Вибір залежної змінної та характеристик
X = data.drop("SalePrice", axis=1).select_dtypes(include=["number"])  # Тільки числові дані
y = data["SalePrice"]

# Розподіл на тренувальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

### Побудова моделі лінійної регресії
```python
from sklearn.linear_model import LinearRegression

# Створення моделі
model = LinearRegression()

# Навчання моделі
model.fit(X_train, y_train)
```

### Оцінка моделі
```python
from sklearn.metrics import r2_score, mean_squared_error
import matplotlib.pyplot as plt

# Передбачення
y_pred = model.predict(X_test)

# Оцінка коефіцієнта детермінації та MSE
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
print(f"R^2: {r2}")
print(f"MSE: {mse}")

# Побудова графіка
plt.scatter(y_test, y_pred)
plt.xlabel("Фактичні значення")
plt.ylabel("Передбачені значення")
plt.title("Фактичні vs Передбачені")
plt.show()
```

### Додаткове завдання: Інші алгоритми регресії
```python
from sklearn.linear_model import Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor

# Ridge Regression
ridge_model = Ridge(alpha=1.0)
ridge_model.fit(X_train, y_train)
ridge_pred = ridge_model.predict(X_test)
print(f"Ridge R^2: {r2_score(y_test, ridge_pred)}")

# Lasso Regression
lasso_model = Lasso(alpha=0.1)
lasso_model.fit(X_train, y_train)
lasso_pred = lasso_model.predict(X_test)
print(f"Lasso R^2: {r2_score(y_test, lasso_pred)}")

# Decision Tree Regressor
tree_model = DecisionTreeRegressor(max_depth=5)
tree_model.fit(X_train, y_train)
tree_pred = tree_model.predict(X_test)
print(f"Decision Tree R^2: {r2_score(y_test, tree_pred)}")
```

