### Вступ до штучного інтелекту та аналізу даних

#### Означення штучного інтелекту
Штучний інтелект (АІ) – це галузь комп'ютерних наук, яка займається створенням систем, здатних виконувати завдання, які вимагають людського інтелекту. Це включає в себе вирішення проблем, навчання, розуміння мови, розпізнавання образів та інше.

#### Загальний огляд застосування АІ в аналізі даних
АІ використовується в аналізі даних для виявлення закономірностей та інсайтів у великих обсягах даних. До прикладів застосування належать:

- **Прогнозування та моделювання:** Використання алгоритмів машинного навчання для прогнозування майбутніх тенденцій.
- **Кластеризація та сегментація:** Розподіл даних на групи за певними критеріями.
- **Розпізнавання образів:** Аналіз зображень та відео для виявлення певних об'єктів або особливостей.

#### Основні поняття та термінологія
- **Машинне навчання (ML):** Підгалузь АІ, що охоплює алгоритми та методи, які дозволяють комп'ютерам "навчатися" з даних.
- **Нейронні мережі:** Основний інструмент в глибокому навчанні, імітують роботу людського мозку для обробки даних.
- **Перенавчання (Overfitting):** Ситуація, коли модель машинного навчання занадто точно адаптується до навчальних даних, втрачаючи здатність узагальнювати.

---

### Приклад Коду: Основи Python для Аналізу Даних

**Мета:** Демонстрація основних операцій з даними в Python.

```python
# Імпортування бібліотек
import pandas as pd
import numpy as np

# Створення простого DataFrame
data = {'Name': ['Anna', 'Bob', 'Charles'],
        'Age': [28, 35, 40],
        'City': ['Kyiv', 'Lviv', 'Odesa']}
df = pd.DataFrame(data)

# Вивід даних
print(df)

# Базові операції з DataFrame
mean_age = df['Age'].mean()
print("Середній вік: ", mean_age)

# Сортування даних за віком
sorted_df = df.sort_values(by='Age', ascending=False)
print(sorted_df)
```

Цей код демонструє базове використання бібліотеки Pandas для створення та маніпуляції з даними у форматі DataFrame, що є дуже корисним в ана

### Типи даних та їх обробка

#### Структуровані та Неструктуровані Дані
1. **Структуровані дані:** Це дані, які мають визначену структуру та формат. Наприклад, таблиці з фіксованими колонками.
2. **Неструктуровані дані:** Це дані без визначеної структури, такі як текст, зображення, відео.

#### Попередня Обробка Даних
1. **Очищення даних:** Видалення або коригування неправильних, відсутніх або нерелевантних даних.
2. **Нормалізація даних:** Приведення різних масштабів атрибутів до спільного діапазону.
3. **Перетворення даних:** Зміна формату або структури даних для подальшого аналізу.

#### Інструменти для Обробки Даних
1. **Pandas:** Бібліотека для обробки та аналізу даних, особливо корисна для роботи зі структурованими даними.
2. **NumPy:** Бібліотека для наукових обчислень, яка пропонує потужні структури даних та операції з ними.

---

### Приклад Коду: Обробка Структурованих Даних

**Мета:** Показати основні методи обробки структурованих даних за допомогою Pandas.

```python
import pandas as pd
import numpy as np

# Завантаження даних
data = pd.read_csv('sample_data.csv')  # Припускаємо, що у нас є файл CSV

# Очищення даних
# Видалення рядків з відсутніми даними
cleaned_data = data.dropna()

# Нормалізація даних
# Нормалізація колонки 'Age' за допомогою Min-Max нормалізації
age_max = cleaned_data['Age'].max()
age_min = cleaned_data['Age'].min()
cleaned_data['Normalized_Age'] = (cleaned_data['Age'] - age_min) / (age_max - age_min)

# Перетворення даних
# Конвертація категоріальних даних у числові
cleaned_data['Gender'] = cleaned_data['Gender'].map({'Female': 0, 'Male': 1})

# Вивід оброблених даних
print(cleaned_data.head())
```

Цей код демонструє типові методи попередньої обробки даних: очищення від відсутніх значень, нормалізацію числових даних для приведення їх до єдиного масштабу, та перетворення категоріальних даних у числові для подальшого аналізу. Pandas є відмінним інструментом для таких завдань, дозволяючи ефективно обробляти великі набори даних.

### Візуалізація Даних

#### Основи візуалізації (Matplotlib, Seaborn)
1. **Matplotlib:** Це основна бібліотека для візуалізації даних в Python, яка дозволяє створювати графіки та діаграми.
2. **Seaborn:** Бібліотека, заснована на Matplotlib, яка надає більш високорівневий інтерфейс для створення привабливих та інформативних статистичних графіків.

#### Інтерпретація Візуальних Даних
Інтерпретація візуальних даних включає аналіз графіків і діаграм для виявлення тенденцій, закономірностей та аномалій у даних.

#### Практичні Приклади Візуалізації

1. **Створення базового графіка:**
   - Використання Matplotlib для створення простого лінійного графіка.
2. **Використання Seaborn для створення складніших графіків:**
   - Створення графіка розподілу (наприклад, гістограми або ящика з вусами).

---

### Приклад Коду: Візуалізація Даних з Matplotlib та Seaborn

**Мета:** Показати як створювати базові візуалізації з використанням Matplotlib та Seaborn.

```python
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Завантаження даних
data = pd.read_csv('sample_data.csv')  # Припускаємо, що у нас є файл CSV

# Базова візуалізація з Matplotlib
plt.figure(figsize=(10, 6))
plt.plot(data['Date'], data['Value'])
plt.title('Динаміка значень за датами')
plt.xlabel('Дата')
plt.ylabel('Значення')
plt.show()

# Розширена візуалізація з Seaborn
plt.figure(figsize=(10, 6))
sns.histplot(data['Value'], kde=True)
plt.title('Розподіл значень')
plt.xlabel('Значення')
plt.show()
```

У цьому прикладі, перший блок коду використовує Matplotlib для створення простого лінійного графіка, який відображає зміну якогось показника в часі. Другий блок коду використовує Seaborn для створення гістограми розподілу значень, з можливістю відображення щільності розподілу (KDE - Kernel Density Estimate). Ці візуалізації допомагають у більш глибокому аналізі та інтерпретації даних.

### Частина 2: Використання технологій машинного навчання для аналізу даних

### Основи машинного навчання

#### Класифікація алгоритмів машинного навчання
1. **Навчання з учителем (Supervised Learning):** Моделі вчаться на попередньо розмічених даних, намагаючись передбачити вихідні значення або класифікувати дані. Приклади включають лінійну регресію, логістичну регресію, нейронні мережі, дерева рішень тощо.
2. **Навчання без учителя (Unsupervised Learning):** Моделі вчаться на нерозмічених даних, намагаючись виявити приховані структури. Приклади методів включають кластеризацію (наприклад, K-means) та зниження розмірності (наприклад, PCA).
3. **Зміцнювальне навчання (Reinforcement Learning):** Моделі вчаться за допомогою випробувань та помилок, взаємодіючи з середовищем, щоб максимізувати певну винагороду.

#### Процес побудови моделі машинного навчання
1. **Збір та підготовка даних:** Збір відповідних даних, їх очищення та підготовка до аналізу.
2. **Вибір моделі:** Вибір відповідного алгоритму машинного навчання залежно від задачі.
3. **Навчання моделі:** Використання навчальних даних для тренування моделі.
4. **Тестування та оцінка моделі:** Перевірка ефективності моделі на тестових даних.
5. **Тюнінг параметрів:** Налаштування параметрів моделі для покращення її точності.
6. **Розгортання моделі:** Використання моделі для реальних завдань або прийняття рішень.

---

### Приклад Коду: Навчання Моделі Машинного Навчання

**Мета:** Демонстрація базового процесу побудови та навчання моделі машинного навчання на прикладі лінійної регресії.

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import pandas as pd

# Завантаження даних
data = pd.read_csv('sample_data.csv')  # Припускаємо, що у нас є файл CSV

# Підготовка даних
X = data[['feature1', 'feature2']]  # Незалежні змінні
y = data['target']  # Залежна змінна

# Розподіл даних на навчальні та тестові
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Створення моделі
model = LinearRegression()

# Навчання моделі
model.fit(X_train, y_train)

# Оцінка моделі
predictions = model.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f'Середньоквадратична помилка: {mse}')
```

Цей приклад коду демонструє базовий процес побудови, навчання та тестування моделі лінійної регресії з використанням бібліотеки Scikit-learn. Після підготовки даних, вони діляться на навчальні та тестові набори, після чого модель навчається та тестується, а її ефективність вимірюється за допомогою середньоквадратичної помилки.

### Вибір та Оцінка Моделей

#### Критерії Вибору Алгоритмів
1. **Тип Задачі:** Вибір алгоритму залежить від типу задачі (класифікація, регресія, кластеризація тощо).
2. **Розмір та Якість Даних:** Деякі алгоритми краще працюють з великими наборами даних або вимагають високоякісних даних.
3. **Вимоги до Швидкості та Ресурсів:** Необхідно враховувати обмеження на час обчислень та доступні обчислювальні ресурси.
4. **Точність та Стійкість Моделі:** Важливо звернути увагу на здатність моделі точно передбачати результати та її стійкість до шуму в даних.

#### Крос-валідація та Оцінка Ефективності Моделі
1. **Крос-валідація:** Техніка, яка дозволяє оцінити здатність моделі узагальнювати результати на незнайомих даних. Найпоширеніший метод – крос-валідація за k-блоками (k-fold cross-validation).
2. **Метрики Оцінки:** Залежно від типу задачі використовуються різні метрики, такі як точність (accuracy), середньоквадратична помилка (MSE) для регресії, F1-міра для класифікації тощо.

#### Важливість Розуміння Результатів Моделі
- **Інтерпретація Результатів:** Здатність пояснити, чому модель приймає певні рішення, є ключовою для довіри та прийняття рішень.
- **Уникнення Перенавчання:** Важливо забезпечити, щоб модель не перенавчилася на тренувальних даних, втрачаючи здатність до узагальнення.

---

### Приклад Коду: Крос-Валідація та Оцінка Моделі

**Мета:** Показати метод крос-валідації для оцінки моделі.

```python
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

# Завантаження та підготовка даних
data = pd.read_csv('sample_data.csv')
X = data.drop('target', axis=1)
y = data['target']

# Створення моделі
model = RandomForestClassifier()

# Крос-валідація
scores = cross_val_score(model, X, y, cv=5)  # cv вказує на кількість блоків для крос-валідації
print(f'Точність на кожному блоку: {scores}')
print(f'Середня точність: {scores.mean()}')
```

У цьому прикладі використовується крос-валідація для оцінки моделі класифікації (Random

 Forest). Крос-валідація дозволяє оцінити загальну точність моделі, використовуючи різні частини даних як тренувальні та тестові набори. Це допомагає зрозуміти, наскільки добре модель буде працювати на нових, раніше невідомих даних.

### Практичні Заняття з Машинного Навчання

#### 1. Робота з Реальними Наборами Даних: Iris Dataset
**Опис:** Iris dataset — це класичний набір даних у галузі машинного навчання, що містить інформацію про різні види квітів ірису. Дані включають виміри пелюсток та чашолистків.

**Завдання:** Класифікація видів ірису на основі їхніх морфологічних ознак.

#### 2. Використання Scikit-learn для Розробки Моделей: Класифікація Ірисів
**Мета:** Використовуючи Scikit-learn, розробити модель класифікації для ідентифікації видів ірису.

**Код:**
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Завантаження даних
iris = load_iris()
X = iris.data
y = iris.target

# Розділення даних на тренувальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Створення моделі KNN
knn = KNeighborsClassifier(n_neighbors=3)

# Тренування моделі
knn.fit(X_train, y_train)

# Оцінка моделі
y_pred = knn.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
```

#### 3. Аналіз та Інтерпретація Результатів
**Мета:** Оцінити ефективність моделі та інтерпретувати результати.

- **Матриця Помилок (Confusion Matrix):** Дозволяє оцінити, скільки інстанцій було правильно та неправильно класифіковано.
- **Звіт про Класифікацію (Classification Report):** Включає такі метрики, як точність, відтворення та F1-міра для кожного класу.

**Інтерпретація:**
- Високі значення точності та F1-міри вказують на те, що модель добре впоралася з класифікацією видів ірису.
- Аналізуючи матрицю помилок, можна виявити, чи є конкретні види, які модель плутає.

Цей практичний приклад демонструє процес розробки та оцінки моделі машинного навчання, починаючи від підготовки даних до аналізу результатів. Використання таких простих, але водночас інформативних наборів даних, як Iris, дозволяє студентам зрозуміти ключові концепції машинного навчання.