<a href="https://colab.research.google.com/github/violjii/ML/blob/main/Serhiienko_26_3_1_fit_4_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Імпорт необхідних бібліотек
import pandas as pd
import numpy as np
from sklearn.datasets import load_diabetes, fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns
import matplotlib.pyplot as plt


# Завдання 1: Diabetes Dataset


# Завантаження датасету Diabetes
diabetes = load_diabetes()
df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

# 1. Вивести перших 5 рядків
print("Перші 5 рядків Diabetes Dataset:")
print(df.head())

# 2. Перевірка наявності пропусків
print("\nПеревірка наявності пропусків:")
print(df.isna().sum())

# Замінюємо пропущені значення на середнє (якщо б були пропуски)
df.fillna(df.mean(), inplace=True)

# 3. Перевірка наявності дублікатів
print("\nКількість дублікатів у Diabetes Dataset:")
print(df.duplicated().sum())

# Видалення дублікатів, якщо знайдено
df.drop_duplicates(inplace=True)

# 4. Обробка бінарних ознак (на прикладі 'sex', якщо є)
# У даному наборі даних немає явних бінарних ознак

# 5. Перевірка типів даних
print("\nТипи даних у Diabetes Dataset:")
print(df.dtypes)

# 6. Кореляційний аналіз
correlation_matrix = df.corr()
print("\nКореляція з прогресом діабету:")
print(correlation_matrix['target'].sort_values(ascending=False))

# Візуалізація теплової карти кореляцій
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()

# 7. Масштабування ознак
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df.drop(columns=['target']))
y = df['target']

# 8. Поділ на тренувальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 9. Побудова моделей лінійної та RandomForest регресій
# Лінійна регресія
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
y_pred_lin = lin_reg.predict(X_test)

# RandomForest регресія
rf_reg = RandomForestRegressor(random_state=42)
rf_reg.fit(X_train, y_train)
y_pred_rf = rf_reg.predict(X_test)

# 10. Обчислення R² і MSE
print("\nРезультати моделей:")
print("Linear Regression R²:", r2_score(y_test, y_pred_lin))
print("Linear Regression MSE:", mean_squared_error(y_test, y_pred_lin))

print("Random Forest R²:", r2_score(y_test, y_pred_rf))
print("Random Forest MSE:", mean_squared_error(y_test, y_pred_rf))

# 11. Побудова графіків
plt.figure(figsize=(10, 6))
plt.plot(y_test.values, label="Справжні значення", marker='o')
plt.plot(y_pred_lin, label="Прогнозовані значення (Linear)", linestyle='--')
plt.plot(y_pred_rf, label="Прогнозовані значення (RandomForest)", linestyle='-.')
plt.legend()
plt.title("Справжні vs Прогнозовані Значення")
plt.show()

# 12. Виведення справжніх і прогнозованих значень
print("\nСправжні значення:")
print(y_test[:10].values)
print("Прогнозовані значення (Linear Regression):", y_pred_lin[:10])
print("Прогнозовані значення (Random Forest):", y_pred_rf[:10])

# Висновки для Diabetes Dataset
print("\nВисновки для Diabetes Dataset:")
print("Модель Random Forest показала кращі результати, ніж модель лінійної регресії.")
print("Найбільша кореляція з прогресом діабету виявлена для деяких фізіологічних ознак, таких як BMI та артеріальний тиск.")
