### 2. Проведення попереднього аналізу даних

Проведення попереднього аналізу даних (Preliminary Data Analysis, PDA) включає декілька важливих етапів, які допомагають зрозуміти, як дані поводяться, виявити аномалії, розподіли та взаємозв’язки між змінними. Цей процес має критичне значення для підготовки даних до подальшого аналізу, моделювання або прогнозування.

Основні етапи проведення попереднього аналізу включають:

#### 1. **Очищення даних**
Попередній аналіз зазвичай розпочинається з очищення даних. Часто в реальних наборах даних присутні відсутні значення, дублікатори, або помилки введення. Відсутні значення можна заповнити або видалити, залежно від контексту аналізу. Дублікатори видаляються, щоб уникнути перекосів у результатах аналізу.

**Кроки очищення:**
- Видалення або заповнення пропущених значень.
- Видалення дублікатів.
- Виявлення та виправлення некоректних значень.

**Приклад:**
```python
# Видалення дублікатів
data = data.drop_duplicates()

# Заповнення пропущених значень середнім для числових змінних
data.fillna(data.mean(), inplace=True)
```

#### 2. **Огляд розподілу даних**
Щоб зрозуміти характер розподілу даних, використовуються методи описової статистики (середнє значення, медіана, стандартне відхилення тощо). Цей етап дозволяє отримати уявлення про основні показники набору даних і виявити можливі аномалії.

**Приклад:**
```python
# Огляд основних статистичних характеристик
print(data.describe())
```

#### 3. **Візуалізація даних**
Для візуалізації розподілу та виявлення закономірностей можна використовувати гістограми, графіки розсіювання (scatter plot), boxplot або heatmap. Ці інструменти допомагають швидко виявити екстремальні значення, викиди або взаємозв’язки між змінними.

**Кроки візуалізації:**
- Гістограми для оцінки розподілу окремих змінних.
- Boxplot для виявлення викидів.
- Кореляційна матриця для вивчення взаємозв'язків між змінними.

**Приклад:**
```python
# Гістограма для розподілу екзаменаційних балів
sns.histplot(data['Exam_Score'], bins=15)
plt.show()

# Кореляційна матриця
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()
```

#### 4. **Аналіз взаємозв’язків між змінними**
Кореляційний аналіз допомагає виявити, які змінні мають взаємозв’язки між собою. Це важливий етап для розуміння залежностей між різними показниками, особливо перед моделюванням.

**Приклад:**
```python
# Кореляція між змінними та екзаменаційними балами
correlations = data.corr()['Exam_Score'].sort_values(ascending=False)
print(correlations)
```

#### 5. **Виявлення аномалій та екстремальних значень**
Аномалії (викиди) можуть сильно вплинути на результати аналізу або моделювання. Виявлення цих значень дозволяє або виправити їх, або виключити з аналізу.

**Приклад:**
```python
# Виявлення викидів за допомогою boxplot
sns.boxplot(x=data['Exam_Score'])
plt.show()
```

#### Важливість попереднього аналізу
Проведення попереднього аналізу дозволяє глибше зрозуміти структуру даних, їх особливості та можливі проблеми. Це критичний етап перед будь-яким моделюванням або складнішими видами аналізу, оскільки якість попередньої обробки безпосередньо впливає на точність кінцевих результатів.

#### Висновок
Попередній аналіз даних — це основа для побудови ефективної моделі. Він дає можливість покращити якість даних, виявити взаємозв'язки, підготувати набір даних до моделювання і знизити ймовірність отримання некоректних результатів у подальшій аналітичній роботі.