У Pandas метод `apply()` дозволяє застосовувати функцію до кожного елемента в ряду або стовпці датафрейма. Цей метод є потужним інструментом для обробки даних, оскільки він дозволяє виконувати складні обчислення та маніпуляції з даними.

**Аргументи методу `apply()`**

Метод `apply()` приймає два обов'язкові аргументи:

* **Функція:** Це функція, яку потрібно застосувати до кожного елемента. Функція повинна приймати один аргумент, який є рядком або стовпцем датафрейма.
* **Ось:** Це аргумент, який визначає, до яких елементів датафрейма буде застосована функція. Ось може мати значення 0 або 1. Якщо ось дорівнює 0, функція буде застосована до кожного стовпця датафрейма. Якщо ось дорівнює 1, функція буде застосована до кожної рядки датафрейма.

**Приклад 1: застосування функції до кожного стовпця датафрейма**

Розглянемо наступний датафрейм:

In [1]:
import pandas as pd

df = pd.DataFrame({
    "A": [1, -2, 3, -4, 5],
    "B": [6, -7, 8, -9, 10],
    "C": [11, -12, 13, -14, 15]
})

In [2]:
df

Unnamed: 0,A,B,C
0,1,6,11
1,-2,-7,-12
2,3,8,13
3,-4,-9,-14
4,5,10,15


Функція `abs()` повертає абсолютне значення свого аргументу. У цьому випадку ми застосовуємо функцію `abs()` до кожного елемента в датафреймі. Це перетворює всі негативні значення в позитивні.

Щоб застосувати функцію `abs()` до кожного стовпця датафрейма, ми можемо використовувати наступний код:

In [3]:
df.apply(abs)

Unnamed: 0,A,B,C
0,1,6,11
1,2,7,12
2,3,8,13
3,4,9,14
4,5,10,15


**Приклад 2: застосування функції до окремого стовпця датафрейма**

In [4]:
type(df['A'])

In [5]:
df['A'].apply(abs)

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


Ми можемо застосувати будь-яку функцію, в тому числі з `numpy` або написану власноруч.
Розглянемо приклад застосування функції `numpy`.
Переглянути список математичних функцій `numpy` можна тут https://numpy.org/doc/stable/reference/generated/numpy.negative.html

In [6]:
import numpy as np

In [7]:
df['A']

Unnamed: 0,A
0,1
1,-2
2,3
3,-4
4,5


In [8]:
df['A'].apply(np.negative)

Unnamed: 0,A
0,-1
1,2
2,-3
3,4
4,-5


А тепер напишемо власну функцію і передамо в `apply`.

In [9]:
def minus_five(value):
  return value - 5

In [10]:
df['A'].apply(minus_five)

Unnamed: 0,A
0,-4
1,-7
2,-2
3,-9
4,0


Крім того, ми можемо через крапку робити `apply` різних функцій "ланцюжком". Це називається `chaining`.

In [11]:
def plus_three(value):
  return value + 3

In [12]:
df['A'].apply(minus_five).apply(plus_three).apply(np.negative).apply(plus_three)

Unnamed: 0,A
0,4
1,7
2,2
3,9
4,0


**Додаткові можливості методу `apply()`**

Метод `apply()` має кілька додаткових можливостей, які можуть бути корисні для обробки даних.

* **Аргумент `args`:** Це аргумент, який дозволяє нам передати додаткові аргументи до функції, яку ми застосовуємо.
* **Аргумент `result_type`:** Це аргумент, який дозволяє нам визначити тип результату, який буде повернений функцією, яку ми застосовуємо.

Напишемо функцію, яка приймає аргумент - число, яке ми хочемо додати до значення в таблиці.

In [13]:
def add_number(value, number_to_add):
  return value + number_to_add

Оскільки функція очікує аргумент, ми не зможемо викликати її в apply без зазначення цього аргумента - виникне помилка.

In [14]:
#df['A'].apply(add_number)

Є два способи, як передати аргумент.

In [15]:
df['A'].apply(add_number, args=(-10,))

Unnamed: 0,A
0,-9
1,-12
2,-7
3,-14
4,-5


In [16]:
df['A'].apply(add_number, number_to_add=5)

Unnamed: 0,A
0,6
1,3
2,8
3,1
4,10


Давайте розглянемо кілька складніших прикладів застосування функції `apply()`:

**Приклад 3: застосування функції, яка визначає тип даних**

Розглянемо наступний датафрейм:

In [17]:
df = pd.DataFrame({
    "A": [1, "2", 3.0, "4", True, [1,2,3]],
    "B": [5, "6", 7.0, "8", False, [6,7,8]]
})

Щоб визначити тип даних кожного елемента в датафреймі, ми можемо використовувати наступний код:

In [18]:
def dtype(x):
    if isinstance(x, int):
        return "int"
    elif isinstance(x, float):
        return "float"
    elif isinstance(x, str):
        return "str"
    elif isinstance(x, bool):
        return "bool"
    else:
        return "unknown"

Функція `dtype()` приймає один аргумент, який є елементом датафрейма та використовує метод `isinstance()` для визначення типу даних елемента. Потім функція повертає рядок, який представляє тип даних елемента.

In [19]:
df['A'].apply(dtype)

Unnamed: 0,A
0,int
1,str
2,float
3,str
4,int
5,unknown



**Приклад 4: застосування функції, яка перетворює текст у числа**

Розглянемо наступний датафрейм:

In [20]:
df = pd.DataFrame({
    "A": ["1", "2", "3", "4", "5"],
    "B": ["6", "7", "8", "9", "10"]
})

Щоб перетворити текст у числа, ми можемо використовувати наступний код:

In [21]:
def to_number(x):
    return int(x)

Функція `to_number()` приймає один аргумент, який є елементом датафрейма. Функція використовує метод `int()` для перетворення тексту в число. Потім функція повертає число.

In [22]:
df['B'].apply(to_number)

Unnamed: 0,B
0,6
1,7
2,8
3,9
4,10


**Приклад 5: застосування функції, яка обчислює відсоток від загальної суми**

Розглянемо наступний датафрейм:

In [23]:
df = pd.DataFrame({
    "A": [10, 20, 30, 40, 50],
    "B": [60, 70, 80, 90, 100],
    "C": [70, 10, 20, 40, 90]
})

Щоб обчислити відсоток від загальної суми, ми можемо використовувати наступний код:

In [24]:
def percent(x, total):
    return (x / total) * 100


Функція `percent()` приймає два аргументи:

* **x:** Це значення, для якого потрібно обчислити відсоток.
* **total:** Це загальна сума, від якої потрібно обчислити відсоток.

Функція використовує ділення для обчислення відсотка. Потім функція повертає відсоток у вигляді числа.

Застосуємо для одної колонки

In [25]:
10/df['A'].sum()*100

np.float64(6.666666666666667)

In [26]:
df['A'].apply(percent, total=df['A'].sum())

Unnamed: 0,A
0,6.666667
1,13.333333
2,20.0
3,26.666667
4,33.333333


Якщо хочемо застосувати для всіх колонок в датафреймі, то буде наступний код:

In [27]:
df.sum()

Unnamed: 0,0
A,150
B,400
C,230


In [28]:
df.apply(percent, axis=1, total=df.sum())

Unnamed: 0,A,B,C
0,6.666667,15.0,30.434783
1,13.333333,17.5,4.347826
2,20.0,20.0,8.695652
3,26.666667,22.5,17.391304
4,33.333333,25.0,39.130435






**Приклад 5: застосування функції до всіх рядів датафрейма**

Функція `sum()` повертає суму всіх елементів у своєму аргументі. У цьому випадку ми застосовуємо функцію `sum()` до кожної рядки датафрейма. Це повертає суму всіх елементів у кожній рядці.

Щоб застосувати функцію `sum()` до кожної рядки датафрейма, ми можемо використовувати наступний код:

In [29]:
df

Unnamed: 0,A,B,C
0,10,60,70
1,20,70,10
2,30,80,20
3,40,90,40
4,50,100,90


In [30]:
df.apply(sum, axis=1)

Unnamed: 0,0
0,140
1,100
2,130
3,170
4,240




Як ми побачили з прикладів, метод `apply()` може використовуватися для виконання широкого спектру завдань обробки даних, головне обрати потрібні колонки і передіти необхідну обчислювальну функцію та її аргументи.