# **Pandas**

У цій лекції познайомимось з бібліотекою pandas, її основними структурами, що з ними можна робити.   
Також дізнаємось про бібліотеку для роботи з векторами і матрицями - numpy, як вона повʼязана з pandas і як її можна використовувати для роботи з табличними даними.

## Що таке Pandas?

**`Pandas`** - високорівнева бібліотека на Python, призначена для дослідження, очищення, оброблення та аналізу даних, що зберігаються в табличному форматі (.csv, .tsv, .xlsx та ін.) або базах даних.

Pandas - основний інструмент роботи з табличними даними для Data Analysis та Data Science фахівця. Ми використовуємо Pandas щодня для **аналізу даних, маніпуляцій над ними та побудови моделей на них**.

Pandas гнучкіший за Excel і дає змогу ефективно працювати з великими таблицями. Проста інтеграція Pandas з Numpy (Numeric Python - бібліотека для обчислень над векторами і матрицями), Matplotlib, Seaborn (бібліотеки візуалізації), scikit-learn (бібліотека з великою кількістю реалізованих методів машинного навчання) робить його незамінним під час розв'язання задач аналізу даних та ML задач на табличних даних.

Спершу перевіряємо, чи встановлені у вас pandas i numpy. Бібліотеки можуть бути встановлені через pip, якщо ви колись встановили їх самостійно, перевірити наступним чином

In [None]:
! conda list pandas

In [None]:
! conda list numpy

Якщо у Вас пакет анаконда - бібліотеки можуть бути встановлені за замовченням в базовому оточенні. Перевірити наявність бібліотек - наступним чином.

In [2]:
! python3 -m pip show pandas

Name: pandas
Version: 2.2.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: 
Author-email: The Pandas Development Team <pandas-dev@python.org>
License: BSD 3-Clause License

Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.

Copyright (c) 2011-2023, Open source contributors.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

* Neither the name of the copyright holder nor the names of its
  contributors may be u

In [3]:
! python3 -m pip show numpy

Name: numpy
Version: 2.1.3
Summary: Fundamental package for array computing in Python
Home-page: https://numpy.org
Author: Travis E. Oliphant et al.
Author-email: 
License: Copyright (c) 2005-2024, NumPy Developers.
 All rights reserved.

 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions are
 met:

     * Redistributions of source code must retain the above copyright
        notice, this list of conditions and the following disclaimer.

     * Redistributions in binary form must reproduce the above
        copyright notice, this list of conditions and the following
        disclaimer in the documentation and/or other materials provided
        with the distribution.

     * Neither the name of the NumPy Developers nor the names of any
        contributors may be used to endorse or promote products derived
        from this software without specific prior written permission.

 THIS SOFTWARE IS PROVIDED

Якщо щось повернулось, значить - є ці бібліотеки. Якщо повернулось повідомлення "Package(s) not found" - встановлюємо одним зі способів:

In [None]:
! python3 -m pip install pandas numpy

In [None]:
! conda install pandas numpy

# Імпорт бібліотек

Є така конвенція, що імпортуємо ми pandas саме наступним чином з перейменуванням:

In [5]:
import numpy as np
import pandas as pd

Так теж буде працювати, але так не прийнято:

In [None]:
import pandas
from pandas import *

# Основні структури даних у бібліотеці

**`Series`** - одновимірний індексований масив даних деякого                фіксованого типу.

**`DataFrame`** - двовимірна структура даних, що являє собою таблицю, кожен стовпець якої містить дані одного типу. DataFrame можна розуміти як словник об'єктів типу Series. Структура DataFrame добре підходить для зберігання реальних табличних даних: рядки відповідають описам окремих об'єктів, а стовпці відповідають ознакам.


![](https://drive.google.com/uc?export=view&id=1MAi0fPWBlwmmirRvDRFahhvC7xKwSitZ)

![](https://drive.google.com/uc?export=view&id=1zQRemyTmUNwIuzGbIoLJq8vfJUwy7lHW)

# Дані для роботи

З pandas ми працюємо з табличними даними. В цьому ноутбуці ми будемо працювати з даними зі [змагання на Kaggle](https://www.kaggle.com/datasets/anmolkumar/health-insurance-cross-sell-prediction?select=train.csv).   

Опис даних:


Оригінальна назва | Змінна           | Визначення
------------------|------------------|---------------------------------------------
id                | id               | Унікальний ідентифікатор клієнта
Gender            | Стать            | Стать клієнта
Age               | Вік              | Вік клієнта
Driving_License   | Водійське посвідчення | 0: Клієнт не має водійського посвідчення, 1: Клієнт вже має водійське посвідчення
Region_Code       | Код регіону      | Унікальний код регіону клієнта
Previously_Insured | Раніше мали страховку | 1: Клієнт вже мав страховку автомобіля, 0: Клієнт не мав страховку автомобіля
Vehicle_Age       | Вік автомобіля   | Вік автомобіля
Vehicle_Damage    | Пошкодження автомобіля | 1: Клієнт отримав/ла шкоду на своєму автомобілі в минулому, 0: Клієнт не отримав/ла шкоду на своєму автомобілі в минулому
Annual_Premium    | Річний преміум   | Сума, яку клієнт повинен сплатити як преміум за рік
Policy_Sales_Channel | Канал продажу полісу | Анонімізований код для каналу звернення до клієнта, тобто різні агенти, поштою, по телефону, особисто і т. д.
Vintage           | Стаж             | Кількість днів, протягом яких клієнт пов'язаний з компанією
Response          | Відповідь        | 1: Клієнт зацікавлений, 0: Клієнт не зацікавлений

Суть аналізу цих даних - вичвити чи буде цікава людині, в якої є медичне страхування, страховка на транспортний засіб.
Побудова системи прийняття рішень для прогнозування того, чи зацікавить клієнта страхування транспортних засобів, надзвичайно корисна для компанії, оскільки вона може відповідно спланувати свою комунікаційну стратегію, щоб охопити цих клієнтів і оптимізувати свою бізнес-модель і дохід.
Щоб передбачити, чи зацікавить клієнта страхування транспортного засобу, у нас є інформація про демографічні дані (стать, вік, код регіону), інформація про транспортні засоби (вік транспортного засобу, пошкодження), поліс (його вартість, канал постачання) тощо.

Завантажуємо датасет `health_insurance_cross_sell_prediction` собі у папку `data/` на рівні з папкою з ноутбуками. Тобто рекоменудую мати таку організацію ваших файлів
```
- data/  
  -- dataset_1.csv  
  -- dataset_2.csv  
- lectures/
  -- notebook_1.ipynb
  -- notebook_2.ipynb
- hometasks/
  -- hw_notebook_1.ipynb
  -- hw_notebook_2.ipynb
```


# Читання даних з файлу

Коли ми працюємо з даними в Python, зазвичай нам потрібно зчитати їх з зовнішніх джерел. Одним з найпоширеніших форматів файлів для збереження даних є CSV (Comma-Separated Values), адже він є досить простим та зрозумілим для багатьох програм та інструментів.

У бібліотеці pandas для зчитування даних з CSV файлів ми використовуємо функцію `read_csv()`. Ця функція автоматично розпізнає роздільник полів (зазвичай це кома) та створює DataFrame з отриманими даними. Вона надає широкі можливості налаштування, такі як вибір рядка-заголовка, вказання конкретних стовпців, обробка пропущених значень, визначення типів даних та багато іншого.

Щоб прочитати дані з інших форматів файлів, таких як Excel, JSON, HTML, SQL, в бібліотеці pandas також існують відповідні функції, які починаються з `read_`, наприклад: `read_excel()`, `read_json()`, `read_html()`, `read_sql()` тощо.

Більше інформації про різні методи зчитування даних в бібліотеці pandas можна знайти у [офіційній документації](https://pandas.pydata.org/pandas-docs/stable/reference/io.html).

Для зчитування файлу нам треба вказати шлях до нього і додаткові параметри.

## Як отримати шлях до файлу?

Одним із способів отримання шляху до файлу є використання методу os.listdir(), який доступний в модулі os. Цей метод дозволяє отримати список файлів та папок у поточній директорії (місці, де знаходиться виконуваний Python процес).

In [6]:
import os
os.listdir()

['Lecture_3_4_Функція_apply_в_pandas.ipynb',
 'Lecture_3_1_3_3_Pandas_and_numpy.ipynb',
 'Lecture_3_5_Функції_groupby,_pivot_та_pivot_table.ipynb',
 '.ipynb_checkpoints']

Ми можемо вказувати в дужках шлях до різних папок і так знайти, в якій саме лежить наш файл.

In [7]:
os.listdir('../data/')

['health_insurance_cross_sell_prediction.csv', 'supermarket_sales.csv']

Давайте зачитаємо наші дані у змінну, яка матиме тип `pd.DataFrame`.

In [8]:
data_path = '../data/health_insurance_cross_sell_prediction.csv'
df = pd.read_csv(data_path)

In [9]:
type(df)

pandas.core.frame.DataFrame

Для початку дивимося на розмір датасету.

In [10]:
df_shape = df.shape

In [11]:
df_shape

(381109, 12)

Набір даних досить великий, тому очима його весь переглядати точно буде проблематично ;)
До слова, набір даних може бути настільки великим, що не вміщатись у оперативну памʼять компʼютера. Як це зрозуміти? У набора даних є розмір, який він займає в памʼяті:

In [12]:
df.memory_usage()

Index                       132
id                      3048872
Gender                  3048872
Age                     3048872
Driving_License         3048872
Region_Code             3048872
Previously_Insured      3048872
Vehicle_Age             3048872
Vehicle_Damage          3048872
Annual_Premium          3048872
Policy_Sales_Channel    3048872
Vintage                 3048872
Response                3048872
dtype: int64

In [13]:
df.memory_usage().sum()

np.int64(36586596)

Таким чином ми отримали кількість байтів, які займають дані. Аби перевести це значення в мегабайти, виконаємо наступний код.

In [14]:
total_bytes = df.memory_usage().sum()
total_megabytes = total_bytes / (1024 * 1024)
total_megabytes

np.float64(34.89169692993164)

Під час роботи може бути доцільно зчитати частину даних - це можна зробити наступним чином

In [15]:
pd.read_csv(data_path, nrows=100)

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,1,Male,44,1,28.0,0,> 2 Years,Yes,40454.0,26.0,217,1
1,2,Male,76,1,3.0,0,1-2 Year,No,33536.0,26.0,183,0
2,3,Male,47,1,28.0,0,> 2 Years,Yes,38294.0,26.0,27,1
3,4,Male,21,1,11.0,1,< 1 Year,No,28619.0,152.0,203,0
4,5,Female,29,1,41.0,1,< 1 Year,No,27496.0,152.0,39,0
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,Female,23,1,30.0,0,< 1 Year,No,26689.0,152.0,254,0
96,97,Male,50,1,28.0,0,1-2 Year,Yes,46995.0,52.0,291,0
97,98,Female,62,1,28.0,0,> 2 Years,Yes,41892.0,155.0,114,0
98,99,Female,21,1,2.0,0,< 1 Year,Yes,34274.0,152.0,79,0


# Перегляд набору даних
Зверніть увагу, за замовченням у нас датафрейм відображається як перші і останні 5 рядочків. А що якщо нам треба переглянути конкретну кількість конкретних рядочків в ньому?  

Загалом, під час роботи з великими даними зручно дивитися датафрейм частинами. Та й якщо дивитися повністю може підвиснути браузер, бо чим більше показуємо даних, тим більший розімір ноутбуку.

Як дивитись датафрейм частинами:

In [16]:
df.head(1)

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,1,Male,44,1,28.0,0,> 2 Years,Yes,40454.0,26.0,217,1


In [17]:
df.tail(2)

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
381107,381108,Female,68,1,14.0,0,> 2 Years,Yes,44617.0,124.0,74,0
381108,381109,Male,46,1,29.0,0,1-2 Year,No,41777.0,26.0,237,0


In [18]:
df

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,1,Male,44,1,28.0,0,> 2 Years,Yes,40454.0,26.0,217,1
1,2,Male,76,1,3.0,0,1-2 Year,No,33536.0,26.0,183,0
2,3,Male,47,1,28.0,0,> 2 Years,Yes,38294.0,26.0,27,1
3,4,Male,21,1,11.0,1,< 1 Year,No,28619.0,152.0,203,0
4,5,Female,29,1,41.0,1,< 1 Year,No,27496.0,152.0,39,0
...,...,...,...,...,...,...,...,...,...,...,...,...
381104,381105,Male,74,1,26.0,1,1-2 Year,No,30170.0,26.0,88,0
381105,381106,Male,30,1,37.0,1,< 1 Year,No,40016.0,152.0,131,0
381106,381107,Male,21,1,30.0,1,< 1 Year,No,35118.0,160.0,161,0
381107,381108,Female,68,1,14.0,0,> 2 Years,Yes,44617.0,124.0,74,0


In [19]:
df[100:110:2]

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
100,101,Male,52,1,28.0,1,1-2 Year,No,36033.0,26.0,92,0
102,103,Female,20,1,30.0,0,< 1 Year,Yes,33227.0,160.0,78,0
104,105,Male,29,1,41.0,1,< 1 Year,Yes,43046.0,163.0,222,0
106,107,Female,23,1,41.0,1,< 1 Year,No,36674.0,152.0,158,0
108,109,Male,72,1,46.0,1,1-2 Year,Yes,28698.0,30.0,216,0


## Перегляд окремих рядків даних

Якщо ми хочемо вивест конкретний елемент (рядок) - це можна зробити наступним чином:

In [20]:
df[100:101]

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
100,101,Male,52,1,28.0,1,1-2 Year,No,36033.0,26.0,92,0


In [21]:
pd.DataFrame(df.loc[100]).T

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
100,101,Male,52,1,28.0,1,1-2 Year,No,36033.0,26.0,92,0


Є ще одна функція iloc. Якщо loc виводить елемент з обраним індексом, то iloc виводить елемент з обраною позицією.

In [22]:
df[100:110:2].iloc[1]

id                           103
Gender                    Female
Age                           20
Driving_License                1
Region_Code                 30.0
Previously_Insured             0
Vehicle_Age             < 1 Year
Vehicle_Damage               Yes
Annual_Premium           33227.0
Policy_Sales_Channel       160.0
Vintage                       78
Response                       0
Name: 102, dtype: object

А так буде помилка

In [23]:
df[100:110:2].iloc[100]

IndexError: single positional indexer is out-of-bounds

## Колонки і їх типи

Наступний етап знайомства з дании - дізнатись, які у нас типи даних у колонках.

In [None]:
df.dtypes

**Увага!** Тип колонки `object` dtype, який може містити будь-який об'єкт Python, включаючи рядки. Наприклад, може зберігати тип даних - список чи кортеж значень.

Усі типи даних колонок можна переглянути тут: https://pandas.pydata.org/docs/user_guide/basics.html#dtypes

А так можна подивитися тільки на назви колонок, якщо треба. Зазвичай це часто використовується під час роботи з набором даних.

In [None]:
df.columns

## Опис даних в колонках

Ще один корисний метод для знайомства з даними.
За допомогою методу `describe` можемо переглянути основні статистичні характеристики даних за кожною ознакою:   
- число заповнених (не NaN) значень,
- середнє,
- стандартне відхилення,
- діапазон,
- медіану,
- 0.25 і 0.75 квартилі (можна змінити набір персентилів)

In [None]:
df.describe()

Аби було зручніше переглядати, можемо змінити форматування відображення float даних:

In [None]:
with pd.option_context("display.precision", 2):
    display(df.describe())

## Що таке персентилі і для чого вони потрібні?

Персентиль — це міра статистики, яка використовується для визначення значення, нижче якого падає певний відсоток спостережень у групі.

Наприклад, якщо запис (обране значення з даних) потрапляє в 20-й процентиль, це означає, що 20 відсотків усіх наявних даних дорівнюють або нижчі за це значення.
Якщо значення знаходиться в 90-му процентилі, це означає, що 90 відсотків усіх інших значень були рівними або нижчими за це значення. Тож, якщо ви отримаєте оцінку на тесті, яка є вище, ніж у 90% інших студентів, ваш результат вважається 90-м персентилем.

У статистиці процентили знаходять, беручи великий набір числових даних, упорядковуючи їх у порядку зростання, а потім розділяючи на 100 груп з рівною кількістю точок даних. Кожна з 99 точок поділу називається процентилем набору даних.
Візуалізація 10-го персентиля:

![](https://drive.google.com/uc?export=view&id=1VgDEjDLcAaPbIZVia6f8Fk_4x3Vt6MTr)

![](https://drive.google.com/uc?export=view&id=1xrWwZmeIFehFn8yScioXr4G2vrVX59cg)

Персентилі при аналізі даних допомагають зрозуміти розподіл даних, відкринути викиди. Ми можемо налаштувати, які персентилі хочемо побачити

In [None]:
with pd.option_context("display.precision", 2):
    display(df.describe(percentiles=[0.01, 0.1, 0.2, 0.5, 0.7, 0.9, 0.99]))

## Вибір колонок

Щоб вибрати одну колонку датафрейма, ви можете використовувати синтаксис подібний до словника:

In [None]:
df.columns

In [None]:
df['Gender']

Ви також можете вибрати колонку через крапку (як атрибут інстанса класа датафрейма), але тільки якщо назва колонки складається з латинських літер, чисел і нижніх підкреслень.
Перевага цього способу вибору колонки - тут працюють підказки.

In [None]:
df.Gender

In [None]:
df.Driving_License

In [None]:
df["Нова колонка"] = 1

In [None]:
df['Нова колонка']

In [None]:
df.Нова колонка

In [None]:
df.drop(columns=["Нова колонка"], inplace=True)

Щоб вибрати декілька колонок, передайте список з іменами колонок:

In [None]:
df[['Region_Code', 'Gender']]

Увага! Щоразу після фільтрації у вас вертається pd.DataFrame або pd.Series (одна колонка). І ви можете далі робити з ними всі ті самі операції, що і над будь-яким датафреймом (наприклад, фільтрація, сортування, агрегація і тд). Можете також записати результат в нову змінну.

In [None]:
df_selected_cols = df[['Region_Code', 'Gender', 'Age']]

In [None]:
df_selected_cols

In [None]:
df_selected_cols[1000:1100]['Age'][0:10][0:5:2].astype(str)

## Перегляд значень в категоріальних колонках

Метод describe() автоматично спрацьовує для колонок з числовими значеннями, аби для дат. Для колонок з категоріальними значеннями (рядковими), можемо скористатись наступним.

Для початку виберемо такі колонки.

In [None]:
df.select_dtypes('object')

Альтернативно обрати лише числові колонки ми можемо наступним чином:

In [None]:
df.select_dtypes('number')

Тож, нижче наші "категоріальні" колонки.

In [None]:
df.select_dtypes('object').columns

Переглянемо униікальні значення в колонці.

In [None]:
df.Gender.unique()

Так можемо дізнатись, скільки в колонці унікальних значень.

In [None]:
df.Vehicle_Age.nunique()

А так можемо переглянути, скільки в колонці значень за кожною категорією.

In [None]:
df.Vehicle_Age.value_counts()

Над Series ви легко можете виконувати операції. Наприклад, давайте знйдемо, який відсоток становить кожне значення.

In [None]:
gender_counts = df.Gender.value_counts()

In [None]:
gender_counts

In [None]:
gender_counts/gender_counts.sum()

Те саме ми могли б отримати викликом `value_counts` з аргументом `normalize=True`.

In [None]:
df.Gender.value_counts(normalize=True)

До речі, арифметичні операції (додавання числа, віднімання числа, множення і делення на число) виконується в pd.Series для всіх рядків одразу, на відміну від списків, де нам треба скористатись циклом.

In [None]:
example = pd.Series(range(100))

In [None]:
example

In [None]:
example + 3

In [None]:
list_example = list(range(3))

In [None]:
# list_example

In [None]:
example * 5

В цьому - зручність роботи з даними на Pandas. **Тут для операцій над колонками вам цикли не треба.** Примайнмі, для простих операцій.

# Фільтрація даних

Фільтрація даних в Pandas — це потужний спосіб вибірки підмножини даних на основі однієї або декількох умов.
Це може включати вибір рядків, які відповідають певним критеріям, або виключення даних, які не відповідають заданим умовам.
Фільтрацію можна здійснювати за допомогою логічних операторів та булевих індексів, методів `.query()`, `.loc[]`, `.iloc[]`.

## Використання логічних умов

Для фільтрації за однією або декількома умовами можна використовувати логічні оператори (`&` для "і", `|` для "або", `~` для "не"). При цьому важливо обгортати кожну умову в круглі дужки. Наприклад, ми хочемо проаналізувати як рішення взяти страхування відрізняється між чоловіками різного віку. Переглянемо для початку, як розподілений вік чоловіків в наборі даних і порівняємо чоловіків віку між 25 і 75 перцентилями і решту.

In [None]:
df[df.Gender =='Male'].Age.describe()

In [None]:
df[df.Gender =='Female'].Age.describe()

In [None]:
df.columns

In [None]:
filter_1 = (df.Gender =='Male') & (df.Age >= 26) & (df.Age <= 52)
df[filter_1].Response.value_counts(normalize=True)

In [None]:
filter_2 = (df.Gender =='Male') & ((df.Age < 26) | (df.Age > 52))
df[filter_2].Response.value_counts(normalize=True)

Можемо побачити, що група чоловіків молодша 26 і старша 52 майже вдвічі рідше дають позитивне рішенння щодо страхування авто.

## Метод `.query()`

Метод `.query()` дозволяє виконувати фільтрацію, використовуючи рядкові вирази. Це може бути зручніше для складних умов фільтрації - тоді умова є компактнішою.

In [None]:
df.query('Gender == "Male" & Age >= 26 & Age <= 52').Response.value_counts(normalize=True)

In [None]:
df.query('Gender =="Male" & ((Age < 26) | (Age > 52))').Response.value_counts(normalize=True)

# Сортування даних

DataFrame можна відсортувати за значенням однієї або декількох ознак (колонок).

In [None]:
df.sort_values(by="Age", ascending=False).head()

Зверніть увагу на індекси. Вони розташувались в порядку сортування.

Для сорутвання за кількома колонками - передаємо їх списком.

In [None]:
df.sort_values(by=["Age", "Annual_Premium"], ascending=[True, False]).head()

Можемо також впорядкувати назви колонок або індекси.

In [None]:
df.sort_index(axis=1).head()

# Створення колонок і операції над колонками

Створити колонку - дуже просто. Просто пропишіть її назву в квадратних дужках і надайте значення.

In [None]:
df['New col'] = 3/10

In [None]:
df['New col']

Ви можете також задати значення для кожного рядка і таким чином визначити колонку.

In [None]:
import random
values = [random.choice([1,2,3]) for _ in range(len(df))]

In [None]:
df['random_category'] = values

Ви можете створити колонку на базі значень іншої колонки.

In [None]:
df['new_cat'] = df.random_category + 1

In [None]:
df[['new_cat', 'random_category']]

Логіка може бути будь-якою, але якщо вона складніша за прості операції - використовуємо apply. Метод apply в бібліотеці Pandas використовується для застосування функції вздовж осі DataFrame або на Series. Цей метод дуже потужний і гнучкий, оскільки він дозволяє виконувати складні операції над рядками або колонками.

Розглянемо простий приклад:

In [None]:
df['new_cat'] = df.random_category.apply(lambda x: 'Small' if x<=1 else 'Big' )

In [None]:
df[['random_category', 'new_cat']].head()

## Lambda

Тут ми передали в apply lambda.
Lambda в Python - це анонімна функція, або функція без імені. Вона є маленькою і зазвичай використовується для виконання простих операцій або функцій одноразового використання, де не потрібно використовувати повноцінну функцію з визначенням `def`.

Lambda функції в Python визначаються за допомогою ключового слова `lambda` і мають наступний синтаксис:

```python
lambda arguments: expression
```

Основні особливості lambda функцій:

- Lambda функція може приймати будь-яку кількість аргументів, але може містити тільки один вираз.
- Вираз обчислюється і повертається при виклику lambda функції.
- Lambda функції можуть бути використані всюди, де вимагається об'єкт функції.
- Вони часто використовуються як аргументи для функцій вищого порядку, які приймають функцію як аргумент (наприклад, `map()`, `filter()`, `apply()` в Pandas і т.д.).

Приклад lambda функції, яка додає 10 до поданого їй числа:

In [None]:
add_ten = lambda x, y: x + y + 10
print(add_ten(5,2))

In [None]:
my_lambda = lambda x: 'Small' if x<=1 else 'Big'

In [None]:
my_lambda(5)

Lambda функції можна використовувати без присвоєння їх змінній, наприклад, використовувати їх безпосередньо як аргументи інших функцій:

In [None]:
numbers = [1, 2, 3, 4, 5]
squared = map(lambda x: x ** 2, numbers)
print(list(squared))

Lambda функції корисні, коли потрібна проста функція для короткого використання і не хочеться визначати повноцінну функцію за допомогою `def`.

## Передача функції в `apply`

Якщо ви не можете вмістити логіку в один рядок, пишемо функцію.

In [None]:
def category_mapping(val):
    if val == 1:
        return 'Small'
    elif val == 2:
        return 'Medium'
    else:
        return 'Large'

In [None]:
df['new_cat'] = df.random_category.apply(lambda x: category_mapping(x))
df[['random_category', 'new_cat']].head()

Можна ще спростити синтаксис. Насправді, lambda нам тут вже не треба.

In [None]:
df['new_cat'] = df.random_category.apply(category_mapping)
df[['random_category', 'new_cat']].head()

## Порівняння колонок

Коли ви порівнюєте колонку в DataFrame з певним значенням, Pandas повертає Series типу `bool`, де кожне значення показує, чи відповідає елемент в колонці заданому критерію порівняння.

In [None]:
df['new_cat'] != 'Small'

Цей підхід також застосовується при порівнянні колонок між собою, але операція порівняння буде виконана успішно лише якщо колонки мають однакову довжину.

In [None]:
df['new_cat_duplicate'] = df['new_cat']

In [None]:
df['new_cat_duplicate'] == df['new_cat']

Аби отримати результат перевірки на рівність колонок, використовуємо спеціальний метод numpy alltrue.

In [None]:
np.alltrue(df['new_cat_duplicate'] == df['new_cat'])

АЛЕ! Числові (з дійсними числами) колонки так порівнювати не варто, тому що:

In [None]:
(0.1 + 0.2) == 0.3

Це пов'язано з тим, як числа з плаваючою комою представлені в комп'ютерній пам'яті. Комп'ютери використовують двійкову систему числення для зберігання даних, і через це виникають складнощі з точним представленням деяких десяткових дробів. Точно в компʼютері представляються лише дійсні числа, які є результатом ділення чцілого числа на інше ціле, яке є степенем двійки.

Дійсні числа в двійковій системі представляються за допомогою формату, званого числом з плаваючою комою (floating-point). Стандарт IEEE 754 є найбільш використовуваним способом представлення дійсних чисел у комп'ютерних системах.



Для тих, хто хоче дізнатись, чому так ...

Ось як відбувається двійкове представлення дійсних чисел в памʼяті компʼютера:

1. **Нормалізоване двійкове наукове записання:**
   Спершу число представляється у вигляді наукового записання. Наприклад, десяткове число 123.45 може бути записане як \(1.2345 \times 10^2\) у десятковому вигляді, і подібним чином, в двійковій системі це може бути щось на кшталт \(1.1111011 \times 2^6\).

2. **Розділення на складові:**
   Число з плаваючою комою розділяється на три частини: знак, експонента, та мантиса (або значущі цифри).
   
   - **Знак (Sign):** Одиночний біт визначає знак числа: 0 для позитивних та 1 для негативних чисел.
   - **Експонента (Exponent):** Використовується для визначення ступеня для основи 2. Часто експонента зберігається як "зміщена" (biased) величина, щоб можна було представляти як додатні, так і від'ємні степені.
   - **Мантиса (Mantissa) або Дробова частина (Fraction):** Це власне цифри (біти) числа. У нормалізованому форматі перший біт (який завжди 1 у нормалізованому числі) часто опускається, тому що він завжди відомий, що дозволяє зекономити місце.

3. **Приклад двійкового представлення:**
   Якщо уявити число 0.85 у двійковій системі, воно буде мати нескінченне представлення. У двійковій формі це може виглядати як \(0.11011100001...\) та так далі. Оскільки комп'ютери обмежені кількістю бітів, що можуть зберігати числа, це число буде обрізане/округлене до певної кількості бітів.

4. **Округлення:**
   Оскільки збереження точного значення дійсних чисел часто неможливе, використовуються різні методи округлення, щоб максимально наблизитися до дійсного значення в межах доступних бітів.

5. **Приклади використання:**
   - **32-бітне числа з плаваючою комою (одинарна точність):** Має 1 біт для знаку, 8 бітів для експоненти, та 23

 біти для мантиси.
   - **64-бітне числа з плаваючою комою (подвійна точність):** Має 1 біт для знаку, 11 бітів для експоненти, та 52 біти для мантиси.

Через ці обмеження і специфіку представлення, числа з плаваючою комою в комп'ютері можуть мати проблеми з точністю, які важливо розуміти при виконанні обчислень, особливо тих, що накопичують помилки округлення.

Можемо на практиці спостерігати такий ефект:

In [None]:
df['float_const_col_1'] = 0.1
df['float_const_col_2'] = 0.2
df['float_const_col_3'] = 0.3


In [None]:
np.alltrue(df['float_const_col_1'] + df['float_const_col_2'] == df['float_const_col_3'] )

Аби його уникнути, при порівнянні дійсних чисел використовуємо np.isclose!

In [None]:
np.alltrue(np.isclose(df['float_const_col_1'] + df['float_const_col_2'] , df['float_const_col_3'] ))

In [None]:
np.isclose(0.1 + 0.2, 0.3)

## Перетворення типу колонки

В бібліотеці Pandas для зміни типу даних (dtype) елементів об'єкта DataFrame або Series використовується метод `astype`.
Це може бути корисно, коли ви хочете перетворити типи даних з одного типу в інший, наприклад, з `float` в `int`, з `object` (рядки в Pandas) в `category` для оптимізації пам'яті, або коли вам потрібно змусити числові дані, що були прочитані як рядки через наявність в даних помилок, повернутися до відповідного числового формату.

**Синтаксис**

```python
DataFrame.astype(dtype, copy=True, errors='raise')
```

- `dtype`: це може бути Python тип, numpy тип, або словник, де ключами є імена колонок, а значеннями - нові типи даних для цих колонок.
- `copy`: якщо `True`, повертає копію DataFrame, інакше (за можливості) змінює оригінальний DataFrame.
- `errors`: керує тим, що робити, якщо перетворення викликає помилку. Значеннями можуть бути 'raise' (підняти помилку), 'ignore' (ігнорувати помилки і повернути оригінальний об'єкт).

In [None]:
df.random_category.head()

In [None]:
df['random_category_str'] = df.random_category.astype(str)

In [None]:
df[['random_category', 'random_category_str']].dtypes

In [None]:
type(df.random_category_str.loc[0])

Тип даних `category` в Pandas — це спеціалізований тип даних для зберігання категоріальних даних. Категоріальні дані визначаються наявністю обмеженої кількості унікальних значень замість неперервного спектру значень. Цей тип даних є особливо корисним для аналізу даних, оскільки він може значно зменшити використання пам'яті, особливо коли категорій небагато порівняно з загальною кількістю спостережень, і може покращити продуктивність деяких операцій.

**Особливості типу `category`**

- **Ефективність використання пам'яті:** Зберігаючи дані як `category`, Pandas використовує менше пам'яті, особливо коли категорій мало порівняно з кількістю рядків. Всі унікальні значення зберігаються лише один раз, а в самому DataFrame або Series зберігається лише коди для кожного спостереження.
- **Покращена продуктивність:** Деякі операції, такі як сортування, групування або виконання агрегацій, можуть працювати швидше на категоріальних даних через оптимізоване внутрішнє представлення.
- **Логічне впорядкування:** Категоріальні дані можуть мати впорядкований (наприклад, "низький", "середній", "високий") або невпорядкований характер. Впорядковані категорії дозволяють виконувати порівняння.
- **Підтримка категоріальних операцій:** Тип `category` дозволяє виконувати специфічні для категорій операції, такі як переіменування категорій, об'єднання категорій, встановлення порядку тощо.

In [None]:
df['new_cat_cat'] = df.new_cat.astype('category')

In [None]:
df['new_cat_cat']

У цьому прикладі стовпець `color` містить повторювані значення, і перетворення його на тип `category` зменшить використання пам'яті, зберігши кожне унікальне значення лише один раз та використовуючи цілочисельні коди для представлення кожного спостереження в стовпці. Порівняти використання памʼяті ми вже вміємо.

In [None]:
df[['new_cat_cat', 'new_cat']].memory_usage()

## Агрегаційні операції над колонками

Агрегаційні операції в Pandas використовуються для обчислення статистичних показників з даних, які містяться у DataFrame або Series. Ці операції дозволяють підсумувати велику кількість даних в одне значення, яке надає інформацію про групу даних загалом. Деякі з найбільш використовуваних агрегаційних функцій включають `mean()` для обчислення середнього, `sum()` для суми, `min()` і `max()` для мінімального і максимального значення, відповідно, а також `count()`, `std()` (стандартне відхилення), і `var()` (дисперсія).

Коли використовуються агрегаційні функції, вони можуть застосовуватися як до цілого DataFrame, так і до окремих колонок.

Наприклад, давайте обчислимо, який середній вік і стандартне відхилення віку в наборі даних?

In [None]:
df.Age.mean(), df.Age.std()

Аналогічно, ми можемо використати агрегаційну функцію одразу до кількох колонок (до всіх, або вибірки).

In [None]:
df[['Age', 'Response']].mean()

In [None]:
df[['Age', 'Response']].mode()

Перелік всіх методів колонок можна знайти тут
https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html#seriesgroupby-computations-descriptive-stats

Приклад "менш стандартного" метода колонки:

In [None]:
df.Age.nlargest(4)

## Використання методу `agg()`

Метод `agg()` дозволяє застосувати кілька агрегаційних функцій одночасно до DataFrame або до окремих колонок. Це може бути особливо корисно для отримання різних статистичних показників одночасно.

In [None]:
df[['Age', 'Response']].agg(['mean', 'min', 'max']).round(3)

# Видалення колонок

Видалити колонку так само просто - використовуємо метод drop.

In [None]:
df.drop(columns=['random_category'])

Зверніть увагу! Метод повернув нам датафрейм. Це означає, що оригінальний датафрейм не був змінений і колонка ще на місці.
Якщо ви хочете одразу внести зміни - використайте аргумент `inplace=True`. Інша опція - записати зміни в нову змінну.

In [None]:
new_df = df.drop(columns=['random_category'])

In [None]:
new_df.columns, df.columns

In [None]:
 df.drop(columns=['random_category'], inplace=True)

In [None]:
df.columns

До речі, в pandas є аргумент в деяких функціях `axis=1`, який завжди каже про те, що операції будуть виконуватись на рівні колонок. За замовченням у нас завжди операції виконуються на рівні рядочків (`axis=0`).
Наприклад, так видалення не справцює, бо перший аргумент  df.drop() - це лейбл індекса, а пошук лейбла іде за індексами рядків за замовченням і там такого немає.

In [None]:
df.drop('Annual_Premium').head()

In [None]:
# а так спрацює, бо є відповідний індекс в рядках
df.drop([0,1,4]).head()

In [None]:
# тож, аби видалити колонку, або зазначаємо аргумент columns=, або вказуємо axis=1
df.drop('Annual_Premium', axis=1).head()

Аналогічно з усіма операціями, які можуть бути виконані як над рядками, так і над колонками.
Наприклад, якщо ми хочемо зробити обчислення використовуючи кілька колонок, а не одну - завжди треба зазначати axis=1.

In [None]:
df.columns

In [None]:
def multicol_calculation(row):
    return row['Age'] - row['Vintage']/365

In [None]:
df['complex_calcl_col'] = df.apply(multicol_calculation, axis=1)

In [None]:
df['complex_calcl_col']

# Запис датафрейма у файл

Записувати датафрейм ми можемо в різні формати. Найчастіше ви будете записувати його в csv.

In [None]:
df.sort_values('Age')[:10].to_csv('res_lecture_3.csv')

In [None]:
pd.read_csv('res_lecture_3.csv', index_col=0)

Аби не записувалась колонка з індексом, пишемо наступним чином

In [None]:
df.to_csv('res_lecture_3.csv', index=False)

In [None]:
pd.read_csv('res_lecture_3.csv', nrows=5)