### Завдання на практичну роботу: Аналіз набору даних з Kaggle

**Мета роботи**: навчитися завантажувати, обробляти, очищати та аналізувати реальні набори даних з платформи Kaggle.

### Етапи роботи

1. **Знайти набір даних на Kaggle**:
   - Перейдіть на сайт [Kaggle](https://www.kaggle.com/).
   - Зареєструйтесь або увійдіть у свій акаунт.
   - Виберіть будь-який цікавий набір даних у відповідній категорії (наприклад, освіта, медицина, спорт, бізнес). 

2. **Завантажити дані**:
   - Завантажте вибраний набір даних у форматі CSV на свій комп'ютер.

3. **Завантажити та переглянути дані в Python**:
   - Використовуйте бібліотеки Pandas для завантаження даних у Python.
   - Перегляньте структуру та перші кілька рядків даних, щоб зрозуміти, з чим ви працюєте.

   **Код**:
   ```python
   import pandas as pd

   # Завантаження даних
   df = pd.read_csv('path_to_your_dataset.csv')

   # Перегляд перших рядків
   print(df.head())
   
   # Огляд інформації про набір даних
   print(df.info())
   ```

4. **Очищення даних**:
   - Перевірте наявність пропущених значень у даних.
   - Заповніть або видаліть пропущені значення, використовуючи методи Pandas.
   - Видаліть дублікатори (якщо є).
   - Перетворіть категоріальні змінні на числові значення, якщо це потрібно для подальшого аналізу.

   **Код**:
   ```python
   # Перевірка на пропущені значення
   print(df.isnull().sum())

   # Заповнення пропущених значень середнім для числових стовпців
   df.fillna(df.mean(), inplace=True)

   # Видалення дублікатів
   df.drop_duplicates(inplace=True)

   # Перетворення категоріальних змінних на числові (якщо потрібно)
   df['category_column'] = df['category_column'].astype('category').cat.codes
   ```

5. **Описова статистика**:
   - Виконайте описову статистику для числових змінних.
   - Визначте основні показники: середнє значення, медіану, стандартне відхилення.

   **Код**:
   ```python
   # Описова статистика
   print(df.describe())
   ```

6. **Візуалізація даних**:
   - Створіть кілька графіків для аналізу розподілу даних та виявлення взаємозв’язків.
   - Використовуйте Seaborn або Matplotlib для створення гістограм, коробкових діаграм (boxplot), діаграм розсіювання.

   **Код**:
   ```python
   import seaborn as sns
   import matplotlib.pyplot as plt

   # Гістограма для кількісної змінної
   sns.histplot(df['numerical_column'], bins=10, kde=True)
   plt.show()

   # Коробкова діаграма для аналізу викидів
   sns.boxplot(x=df['numerical_column'])
   plt.show()

   # Діаграма розсіювання для двох кількісних змінних
   sns.scatterplot(x=df['numerical_column_1'], y=df['numerical_column_2'])
   plt.show()
   ```

7. **Кореляційний аналіз**:
   - Виконайте кореляційний аналіз для кількісних змінних.
   - Виведіть кореляційну матрицю та проаналізуйте взаємозв’язки між змінними.

   **Код**:
   ```python
   # Кореляційна матриця
   correlation_matrix = df.corr()

   # Візуалізація кореляційної матриці
   sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
   plt.show()
   ```

8. **Звітування**:
   - Завантажте результати на GitHub

### Очікуваний результат:
- Проаналізований набір даних із результатами описової статистики.
- Візуалізації, що показують розподіли та взаємозв’язки змінних.
- Висновки на основі проведеного аналізу даних.

### Поради:
- Обирайте набір даних, який має кілька числових та категоріальних змінних, щоб мати можливість продемонструвати повний спектр інструментів аналізу.
- Використовуйте якомога більше етапів попереднього аналізу для отримання детальних висновків з даних.