### 1. Основи попереднього аналізу даних

#### Що таке попередній аналіз даних?
Попередній аналіз даних (Preliminary Data Analysis, PDA) є початковим етапом в обробці даних, під час якого оцінюються структура, обсяг, характер та якість наявних даних. Мета цього процесу — підготувати дані для подальших етапів обробки, таких як моделювання або аналітичні прогнози. Він дозволяє виявити аномалії, відхилення або інші можливі проблеми, які можуть вплинути на точність майбутніх висновків.

Попередній аналіз даних включає такі основні кроки:
- **Очищення даних** (видалення дублікатів, відсутніх значень та некоректних записів).
- **Описова статистика** (середнє значення, медіана, мода, стандартне відхилення тощо).
- **Візуалізація даних** (графіки та діаграми для виявлення тенденцій та розподілів).
- **Перевірка відповідності даних** (чи відповідають дані вимогам для подальшої обробки).

### Бібліотеки, що використовуються для попереднього аналізу даних

Для виконання попереднього аналізу даних в Python найчастіше використовуються наступні бібліотеки:

1. **Pandas** – бібліотека для роботи з табличними даними, яка дозволяє легко завантажувати, обробляти, фільтрувати та трансформувати дані.
2. **NumPy** – використовується для математичних операцій і роботи з багатовимірними масивами, що необхідні для обробки числових даних.
3. **Matplotlib** та **Seaborn** – інструменти для візуалізації даних. Matplotlib дозволяє створювати базові графіки, а Seaborn — більш деталізовані та інформативні візуалізації.
4. **Scipy** – бібліотека для наукових розрахунків, яка включає функціонал для виконання статистичного аналізу даних.
5. **Sklearn** – корисна для виконання початкових етапів машинного навчання, зокрема для попереднього аналізу розподілів і характеристик даних перед тренуванням моделей.


In [1]:
import pandas as pd
import numpy as np

# Створення DataFrame (CREATE)
data = {
    'Student_ID': [1, 2, 3, 4, 5],
    'Hours_Studied': [5, 10, 3, 8, 7],
    'Exam_Score': [50, 80, 40, 75, 65],
    'Attendance': [80, 95, 60, 90, 85]
}
df = pd.DataFrame(data)

# Операція READ: перегляд перших кількох рядків DataFrame
print("Перегляд перших рядків DataFrame:")
print(df.head())

# Операція CREATE: додавання нового стовпця на основі інших даних
df['Performance'] = np.where(df['Exam_Score'] >= 60, 'Pass', 'Fail')
print("\nДодавання нового стовпця 'Performance':")
print(df)

# Операція UPDATE: зміна даних у стовпці 'Hours_Studied'
df.loc[df['Student_ID'] == 3, 'Hours_Studied'] = 6
print("\nОновлення даних (зміна 'Hours_Studied' для студента з ID = 3):")
print(df)

# Операція UPDATE: зміна кількох рядків на основі умов
df.loc[df['Attendance'] < 70, 'Attendance'] = 70
print("\nОновлення кількох рядків на основі умов ('Attendance' < 70):")
print(df)

# Операція DELETE: видалення стовпця
df.drop('Performance', axis=1, inplace=True)
print("\nВидалення стовпця 'Performance':")
print(df)

# Операція DELETE: видалення рядків, де 'Exam_Score' менше 50
df = df[df['Exam_Score'] >= 50]
print("\nВидалення рядків, де 'Exam_Score' менше 50:")
print(df)

# Операція CREATE: додавання нового рядка за допомогою concat
new_row = pd.DataFrame({'Student_ID': [6], 'Hours_Studied': [9], 'Exam_Score': [78], 'Attendance': [88]})
df = pd.concat([df, new_row], ignore_index=True)
print("\nДодавання нового рядка:")
print(df)

# Операція з NumPy: обчислення середнього значення екзаменаційного балу
mean_exam_score = np.mean(df['Exam_Score'])
print(f"\nСередній екзаменаційний бал: {mean_exam_score}")

# Операція з NumPy: обчислення медіани кількості годин навчання
median_hours_studied = np.median(df['Hours_Studied'])
print(f"Медіана кількості годин навчання: {median_hours_studied}")


Перегляд перших рядків DataFrame:
   Student_ID  Hours_Studied  Exam_Score  Attendance
0           1              5          50          80
1           2             10          80          95
2           3              3          40          60
3           4              8          75          90
4           5              7          65          85

Додавання нового стовпця 'Performance':
   Student_ID  Hours_Studied  Exam_Score  Attendance Performance
0           1              5          50          80        Fail
1           2             10          80          95        Pass
2           3              3          40          60        Fail
3           4              8          75          90        Pass
4           5              7          65          85        Pass

Оновлення даних (зміна 'Hours_Studied' для студента з ID = 3):
   Student_ID  Hours_Studied  Exam_Score  Attendance Performance
0           1              5          50          80        Fail
1           2          

Ось детальний приклад коду для попереднього аналізу даних з використанням основних бібліотек Python: **Pandas**, **NumPy**, **Matplotlib**, і **Seaborn**, з відповідними поясненнями.

### 1. Використання **Pandas** для завантаження та обробки даних

Pandas використовується для роботи з табличними даними (дані, що зберігаються в CSV-файлах або Excel-таблицях). Основні операції включають завантаження даних, очищення і фільтрацію.

```python
import pandas as pd

# Завантаження даних із CSV файлу
data = pd.read_csv('StudentPerformanceFactors.csv')

# Перегляд перших 5 рядків таблиці
print(data.head())

# Перевірка наявності пропущених значень
print("Пропущені значення:")
print(data.isnull().sum())

# Видалення дублікатів
data = data.drop_duplicates()

# Заповнення пропущених значень для колонок 'Teacher_Quality' та 'Parental_Education_Level'
data['Teacher_Quality'].fillna('Unknown', inplace=True)
data['Parental_Education_Level'].fillna(data['Parental_Education_Level'].mode()[0], inplace=True)

# Описова статистика для числових змінних
print("\nОписова статистика:")
print(data.describe())
```

### 2. Використання **NumPy** для математичних операцій

NumPy дозволяє працювати з багатовимірними масивами та виконувати складні математичні операції. У цьому прикладі ми використаємо його для обчислення середнього значення, стандартного відхилення і медіани.

```python
import numpy as np

# Обчислення середнього значення для екзаменаційних балів
mean_exam_score = np.mean(data['Exam_Score'])
print(f"Середній бал на екзамені: {mean_exam_score}")

# Обчислення медіани для кількості годин навчання
median_hours_studied = np.median(data['Hours_Studied'])
print(f"Медіана годин навчання: {median_hours_studied}")

# Обчислення стандартного відхилення для екзаменаційних балів
std_exam_score = np.std(data['Exam_Score'])
print(f"Стандартне відхилення балів на екзамені: {std_exam_score}")
```

### 3. Використання **Matplotlib** та **Seaborn** для візуалізації даних

Ці дві бібліотеки використовуються для створення графіків і діаграм, які допомагають візуально аналізувати дані.

#### **Matplotlib** – Створення базових графіків:

```python
import matplotlib.pyplot as plt

# Гістограма для кількості годин навчання
plt.figure(figsize=(8,6))
plt.hist(data['Hours_Studied'], bins=15, color='skyblue')
plt.title('Гістограма кількості годин навчання')
plt.xlabel('Години навчання')
plt.ylabel('Кількість студентів')
plt.show()

# Лінійний графік для екзаменаційних балів
plt.figure(figsize=(8,6))
plt.plot(data['Exam_Score'], color='green')
plt.title('Лінійний графік екзаменаційних балів')
plt.xlabel('Студенти')
plt.ylabel('Екзаменаційні бали')
plt.show()
```

#### **Seaborn** – Більш складні та інформативні візуалізації:

Seaborn базується на Matplotlib і надає більш високий рівень абстракції для створення детальніших графіків.

```python
import seaborn as sns

# Гістограма для екзаменаційних балів з ядровою оцінкою щільності
plt.figure(figsize=(8,6))
sns.histplot(data['Exam_Score'], bins=15, kde=True, color='orange')
plt.title('Гістограма екзаменаційних балів з KDE')
plt.xlabel('Екзаменаційні бали')
plt.ylabel('Кількість студентів')
plt.show()

# Boxplot для кількості годин навчання залежно від екзаменаційних балів
plt.figure(figsize=(8,6))
sns.boxplot(x=data['Exam_Score'], y=data['Hours_Studied'], palette='coolwarm')
plt.title('Boxplot годин навчання залежно від екзаменаційних балів')
plt.show()

# Кореляційна матриця з тепловою картою
plt.figure(figsize=(10,8))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Кореляційна матриця')
plt.show()
```

### Опис використаних бібліотек:
1. **Pandas**:
   - **read_csv**: Завантажує дані з CSV-файлу у форматі DataFrame.
   - **head()**: Виводить перші рядки таблиці.
   - **describe()**: Описова статистика для числових змінних.
   - **drop_duplicates()**: Видаляє дублікатори з набору даних.
   
2. **NumPy**:
   - **mean()**: Обчислює середнє значення.
   - **median()**: Обчислює медіану.
   - **std()**: Обчислює стандартне відхилення.

3. **Matplotlib**:
   - **hist()**: Створює гістограму.
   - **plot()**: Створює лінійний графік.
   
4. **Seaborn**:
   - **histplot()**: Створює гістограму з опціональним ядровим оцінювачем щільності.
   - **boxplot()**: Створює boxplot для виявлення викидів та оцінки розподілу.
   - **heatmap()**: Створює теплову карту для візуалізації кореляційної матриці.

Ці приклади показують, як можна ефективно використовувати основні бібліотеки для проведення попереднього аналізу даних, починаючи від завантаження та очищення даних до їх візуалізації.