**Завдання на практичну роботу 4.5 Використання методів штучного інтелекту для аналізу даних (класифікація з набору даних Kaggle)**.

**Мета завдання:**
- Опанування базових методів класифікації для аналізу даних.
- Використання Python для обробки даних, побудови моделі класифікації та оцінки її ефективності.
- Застосування реального набору даних з Kaggle.

---

### Завдання:

1. **Завантаження даних:**
   - Виберіть один із відкритих наборів даних на Kaggle, наприклад, [Titanic - Machine Learning from Disaster](https://www.kaggle.com/c/titanic).
   - Завантажте дані у середовище Jupyter Notebook.

2. **Попередня обробка даних:**
   - Перевірте дані на наявність пропущених значень та обробіть їх (видалення, заповнення середніми, модою чи медіаною).
   - Виконайте кодування категоріальних змінних (наприклад, one-hot encoding).
   - Розгляньте розподіл класів у цільовій змінній (баланс класів).

3. **Розподіл даних:**
   - Розділіть дані на тренувальний і тестовий набори у співвідношенні 80:20.

4. **Побудова моделі класифікації:**
   - Використовуйте одну з бібліотек Python (наприклад, scikit-learn) для створення моделі класифікації:
     - Логістична регресія
     - K-Nearest Neighbors (KNN)
   - Навчіть модель на тренувальному наборі даних.

5. **Оцінка моделі:**
   - Розрахуйте метрики оцінки моделі: точність (accuracy), повнота (recall), точність передбачення (precision), F1-score.
   - Побудуйте матрицю плутанини (confusion matrix).
   - Зобразіть ROC-криву.

6. **Додаткове завдання:**
   - Спробуйте інші методи класифікації, наприклад:
     - Random Forest
     - Support Vector Machine (SVM)
   - Порівняйте результати з попередніми моделями за допомогою метрик.

7. **Оформлення звіту:**
   - Підготуйте короткий звіт (markdown у Jupyter Notebook) з описом:
     - Використаного підходу.
     - Ключових результатів.
     - Графіків та висновків.

---

### Приклад виконання завдання

#### Завантаження даних
```python
import pandas as pd

# Завантаження даних
data = pd.read_csv("titanic.csv")  # Замініть шлях на реальний
data.head()
```

#### Попередня обробка даних
```python
# Перевірка пропущених значень
missing_values = data.isnull().sum()
print(missing_values[missing_values > 0])

# Заповнення пропущених значень
data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Кодування категоріальних змінних
data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)

# Розподіл класів
print(data['Survived'].value_counts())
```

#### Розподіл даних
```python
from sklearn.model_selection import train_test_split

# Вибір цільової змінної та характеристик
X = data.drop("Survived", axis=1).select_dtypes(include=["number"])
y = data["Survived"]

# Розподіл даних
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

#### Побудова моделі класифікації
```python
from sklearn.linear_model import LogisticRegression

# Створення та навчання моделі
model = LogisticRegression()
model.fit(X_train, y_train)
```

#### Оцінка моделі
```python
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, auc
import matplotlib.pyplot as plt

# Передбачення
y_pred = model.predict(X_test)

# Метрики оцінки
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

# Матриця плутанини
conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

# ROC-крива
y_prob = model.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.plot(fpr, tpr, label=f"ROC curve (area = {roc_auc:.2f})")
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-крива')
plt.legend()
plt.show()
```

#### Додаткові моделі
```python
from sklearn.ensemble import RandomForestClassifier

# Random Forest
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)
print(f"Random Forest Accuracy: {accuracy_score(y_test, rf_pred)}")
```

