# План вивчення бібліотеки Pandas 
1. Основи Pandas:
    * Встановлення та імпорт Pandas.
    * Основні структури даних: DataFrame та Series.

2. Основні операції з DataFrame:
    * Читання даних з різних джерел (CSV, Excel, SQL).
    * Огляд даних: перегляд головних та хвостових рядків, опис статистик.
    * Вибір даних за індексом, за назвами стовпців.
    * Фільтрування даних.

3. Обробка та очищення даних:
    * Робота з пропущеними значеннями.
    * Зміна типів даних.
    * Перейменування стовпців.
    * Групування даних і агрегування.

4. Розширений аналіз даних:
    * Об'єднання та злиття датасетів.
    * Створення нових змінних.
    * Використання методів apply і map.
    * Візуалізація даних з використанням Pandas.
   
5. Практичні проекти:
    * Аналіз реальних наборів даних.
    * Робота з великими датасетами.
    * Автоматизація повсякденних завдань аналізу даних.

6. Додаткові теми:
    * Оптимізація продуктивності.
    * Інтеграція з іншими бібліотеками (наприклад, NumPy, Matplotlib).


#  Основи Pandas

Встановлення та Імпорт Pandas

Pandas - це потужна бібліотека для аналізу даних у Python. Для її встановлення використовуйте менеджер пакетів pip:
    
```
pip install pandas
```

Після встановлення, імпортуйте бібліотеку в свій проект:

In [2]:
import pandas as pd

pd - це загальноприйняте скорочення для Pandas, яке дозволяє легко звертатися до функцій бібліотеки.

Основні Структури Даних: DataFrame та Series
    
<b>DataFrame</b>

DataFrame - це двовимірна, розмірно змінна, потенційно гетерогенна таблична структура даних з маркованими осями (рядки та стовпці). Можна уявити як ексель-таблицю.

<b>Приклад створення DataFrame:</b>

In [3]:
data = {
    "Name": ["Anna", "Bob", "Charles"],
    "Age": [28, 35, 22],
    "City": ["Kyiv", "Lviv", "Odesa"]
}
df = pd.DataFrame(data)

<b>Series</b>

Series - це одновимірний масив з будь-яким типом даних

<b>Приклад створення Series:</b>

In [5]:
ages = pd.Series([28, 35, 22], name="Age")

### Завдання для Самоперевірки
1. Створення DataFrame та Series:
    * Створіть Series з іменами людей.
    * Створіть DataFrame зі стовпцями: Name, Age, City. Заповніть його даними.

# Основні Операції з DataFrame

Читання Даних з Різних Джерел
Pandas дозволяє з легкістю читати дані з різноманітних джерел, таких як CSV, Excel та SQL бази даних.

Читання з CSV:

In [8]:
df_csv = pd.read_csv('шлях/до/файлу.csv')

Читання з Excel:

In [None]:
df_excel = pd.read_excel('шлях/до/файлу.xlsx')

Читання з SQL бази даних:

In [None]:
from sqlalchemy import create_engine
engine = create_engine('sqlite:///шлях/до/бази.db')
df_sql = pd.read_sql('SELECT * FROM таблиця', con=engine)

Огляд Даних
Огляд даних включає в себе перегляд головних та хвостових рядків, а також отримання описових статистик.

In [13]:
data = {
    "Name": ["Anna", "Bob", "Charles", "Ivan", "Denis", "Dmitro"],
    "Age": [28, 35, 22, 18, 23, 67],
    "City": ["Kyiv", "Lviv", "Odesa", "Seul", "Amsterdam", "New York"]
}
df = pd.DataFrame(data)

Перегляд рядків:

In [14]:
df.head()  # Перші 5 рядків

Unnamed: 0,Name,Age,City
0,Anna,28,Kyiv
1,Bob,35,Lviv
2,Charles,22,Odesa
3,Ivan,18,Seul
4,Denis,23,Amsterdam


In [15]:
df.tail()  # Останні 5 рядків

Unnamed: 0,Name,Age,City
1,Bob,35,Lviv
2,Charles,22,Odesa
3,Ivan,18,Seul
4,Denis,23,Amsterdam
5,Dmitro,67,New York


Описові статистики:

In [18]:
df.describe()

Unnamed: 0,Age
count,6.0
mean,32.166667
std,18.037923
min,18.0
25%,22.25
50%,25.5
75%,33.25
max,67.0


Вибір Даних за Індексом, за Назвами Стовпців
Вибір певних даних є ключовою операцією при аналізі.

Вибір за назвами стовпців:

In [20]:
names = df['Name']
names

0       Anna
1        Bob
2    Charles
3       Ivan
4      Denis
5     Dmitro
Name: Name, dtype: object

Вибір за індексом:

In [22]:
first_row = df.iloc[0]  # Перший рядок
first_row

Name    Anna
Age       28
City    Kyiv
Name: 0, dtype: object

In [24]:
specific_cell = df.at[0, 'Name']  # Конкретна клітина
specific_cell

'Anna'

Фільтрування Даних

Фільтрування даних - це процес вибору рядків, які задовольняють певні критерії.

Приклад фільтрування:

In [26]:
filtered_df = df[df['Age'] > 30]
filtered_df

Unnamed: 0,Name,Age,City
1,Bob,35,Lviv
5,Dmitro,67,New York


### Завдання для Самоперевірки
1. Читання Даних:
    * Читайте дані з CSV файлу, який ви знайдете в інтернеті або створите самостійно.
    * Спробуйте прочитати Excel файл.


2. Огляд Даних:
    * Виконайте head, tail, і describe на вашому DataFrame.
    * Знайдіть кількість рядків та стовпців у DataFrame.


3. Вибір та Фільтрування:
    * Виберіть один стовпець за назвою.
    * Створіть новий DataFrame, в якому зберігатимуться лише ті рядки, де вік більше 25.


# Обробка та Очищення Даних

Робота з Пропущеними Значеннями
Пропущені значення можуть суттєво вплинути на аналіз даних. Pandas пропонує різні способи їх обробки.

Знаходження пропущених значень:

In [28]:
missing_values = df.isnull()
missing_values

Unnamed: 0,Name,Age,City
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False


Видалення рядків/стовпців з пропущеними значеннями:

In [None]:
df_cleaned = df.dropna()  # Видалення рядків

In [29]:
df_cleaned_columns = df.dropna(axis=1)  # Видалення стовпців

Заповнення пропущених значень:

In [30]:
df_filled = df.fillna(0)  # Заповнення нулями

In [31]:
df_filled_mean = df.fillna(df.mean())  # Заповнення середнім значенням

  df_filled_mean = df.fillna(df.mean())  # Заповнення середнім значенням



Зміна Типів Даних

Зміна типів даних важлива для коректної обробки та аналізу даних.

Зміна типу даних стовпця:

In [32]:
df['Age'] = df['Age'].astype(float)

Перейменування Стовпців

Перейменування стовпців може бути корисним для зручності або стандартизації.

Перейменування стовпців:

In [None]:
df.rename(columns={'OldName1': 'NewName1', 'OldName2': 'NewName2'}, inplace=True)

Групування Даних і Агрегування

Групування даних - це процес об'єднання рядків на основі однієї або декількох змінних та обчислення агрегованих статистик в кожній групі.