<a href="https://colab.research.google.com/github/violjii/ML/blob/main/Serhiienko_26_5_2_fit_4_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Імпорт необхідних бібліотек
import pandas as pd
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Завантаження датасету (для прикладу використовуємо Wine)
wine = load_wine()
df_wine = pd.DataFrame(data=wine.data, columns=wine.feature_names)
df_wine['target'] = wine.target

# 1. Вивести перших 5 рядків
print("\nПерші 5 рядків датасету Wine:")
print(df_wine.head())

# 2. Вивести розмір датасету і типи даних
print("\nРозмір датасету:", df_wine.shape)
print("\nТипи даних:")
print(df_wine.dtypes)

# 3. Перевірка на пропущені значення
print("\nПеревірка на пропущені значення:")
print(df_wine.isna().sum())

# 4. Замінити пропущені значення на середнє (якщо є)
df_wine.fillna(df_wine.mean(), inplace=True)

# 5. Перевірка на дублікаті
print("\nКількість дублікатів у Wine Dataset:")
print(df_wine.duplicated().sum())

# Видалення дублікатів, якщо знайдено
df_wine.drop_duplicates(inplace=True)

# 6. Описова статистика
print("\nОписова статистика:")
print(df_wine.describe())

# 7. Визначити задачу (регресія чи класифікація)
print("\nЗадача: Класифікація")
print("Цільова змінна - target (категорії вин)")

# 8. Поділ даних на тренувальні та тестові
X = df_wine.drop('target', axis=1)
y = df_wine['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 9. Побудова 3 моделей на вибір
# Логістична регресія
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
y_pred_log = log_reg.predict(X_test)

# Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

# SVM
svm = SVC()
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

# 10. Оцінка моделей
print("\nОцінка моделей:")
print("Логістична регресія:")
print(classification_report(y_test, y_pred_log))
print("Random Forest:")
print(classification_report(y_test, y_pred_rf))
print("SVM:")
print(classification_report(y_test, y_pred_svm))

# 11. Підібрати оптимальні параметри для Random Forest (для прикладу)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("\nОптимальні параметри для Random Forest:", grid_search.best_params_)

# 12. Визначення оптимальної кількості кластерів методом ліктя і силуетів
inertia = []
silhouette_scores = []

# Перебір кількості кластерів від 2 до 10
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)
    silhouette_scores.append(silhouette_score(X, kmeans.labels_))

# Візуалізація методу ліктя
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.plot(range(2, 11), inertia, marker='o')
plt.title('Метод ліктя')
plt.xlabel('Кількість кластерів')
plt.ylabel('Інерція')

# Візуалізація методу силуетів
plt.subplot(1, 2, 2)
plt.plot(range(2, 11), silhouette_scores, marker='o')
plt.title('Метод силуетів')
plt.xlabel('Кількість кластерів')
plt.ylabel('Силует')

plt.show()

# Висновки
print("\nВисновки:")
print("З використанням методу силуетів та ліктя ми можемо визначити оптимальну кількість кластерів. Залежно від отриманих графіків, ми можемо зробити висновки про структуру даних.")
