### Продвинутые методы Pandas

В библиотеке pandas методы apply и map часто рассматриваются как более продвинутые инструменты для работы с данными, особенно когда дело касается обработки или трансформации данных.

In [1]:
# загрузка библиотек
import pandas as pd
import numpy as np

In [2]:
# генерация данных

# установка воспроизводимости
np.random.seed(0)
num = 100

employee_id = np.arange(1, num+1)
ages = np.random.randint(22, 60, size = num)
salary = np.random.randint(60, 120, size = num)
department = np.random.choice(['HR', 'IT', 'Marketing', 'Sales', 'Finance'], size = num)


# собираем в датафрейм

df = pd.DataFrame({
    'EmployeeID': employee_id,
    'Age': ages,
    'Salary': salary,
    'Department': department
    })

# посмотрим да данные
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
2,3,25,78,Finance
3,4,31,106,HR
4,5,41,95,HR


Метод **map()** в pandas применяется к **столбцам**, так как каждый столбец в DataFrame является объектом Series. Этот метод полезен для преобразования значений в конкретном столбце. Чаще всего используется для **замены** значений на другие с помощью словарей.

pandas.DataFrame.map
DataFrame.map(func, na_action=None, **kwargs)

In [3]:
# создаем словарь где ключ старое значение, а значение это новое значение
department_dict = {'HR':1 , 'IT':2, 'Marketing':3, 'Sales':4, 'Finance':5}

# присваиваем новому столбцу начения старого с применением функции
df['Department_num'] =  df['Department'].map(department_dict )


In [4]:
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Department_num
0,1,22,119,IT,2
1,2,25,63,IT,2
2,3,25,78,Finance,5
3,4,31,106,HR,1
4,5,41,95,HR,1


Метод **apply()** в pandas позволяет легко выполнять операции над каждым элементом в столбце. Этот метод подходит для сложных вычислений и преобразований как на уровне Series, так и на уровне DataFrame. Он позволяет выполнять различные операции с помощью пользовательских **функций**.

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), by_row='compat', engine='python', engine_kwargs=None)

In [5]:
# напишем функцию, которая вычисляет год из возраста

def year_of_birth(row):
    birth_year = 2024 - row
    return birth_year

In [6]:
# пользуясь apply применим новую функцию в столбцу 'Age'

df['birth_year'] = df['Age'].apply(year_of_birth)

In [7]:
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Department_num,birth_year
0,1,22,119,IT,2,2002
1,2,25,63,IT,2,1999
2,3,25,78,Finance,5,1999
3,4,31,106,HR,1,1993
4,5,41,95,HR,1,1983


 **Лямбда**-функции в Python — это небольшие анонимные функции, которые могут быть созданы быстро и использованы в местах, где нужна простая функция. Они особенно полезны для кратковременных задач, где определение полноценной функции кажется избыточным.

lambda аргументы: выражение

Мы можем сделать вычисление года рождения без написания непосредственной функции отдельно, в встроить её сразу в метод apply

In [8]:
# Использование лямбда-функции для вычисления года рождения
df['birth_year'] = df['Age'].apply(lambda age: 2024 - age)

In [9]:
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Department_num,birth_year
0,1,22,119,IT,2,2002
1,2,25,63,IT,2,1999
2,3,25,78,Finance,5,1999
3,4,31,106,HR,1,1993
4,5,41,95,HR,1,1983


Ограничения лямбда-функций
- Одна строка: Лямбда-функция может содержать только одно выражение.
- Отсутствие имени: Такие функции не имеют имени, что делает их менее читабельными для сложных операций.
- Ограниченная функциональность: Они не могут содержать многострочные конструкции и сложную логику.

#### Практика

Можем разделить пользователей на группы в зависимости от возраста

In [10]:
# функция категоризации
def categorize_age(age):
    if 22 <= age < 30:
        return '22-30'
    elif 30 <= age < 35:
        return '30-35'
    elif 45 <= age < 60:
        return '45-60'
    else:
        return 'Other'


In [12]:
# Применение пользовательской функции с помощью apply()
df['Age_group'] = df['Age'].apply(categorize_age)

In [13]:
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Department_num,birth_year,Age_group
0,1,22,119,IT,2,2002,22-30
1,2,25,63,IT,2,1999,22-30
2,3,25,78,Finance,5,1999,22-30
3,4,31,106,HR,1,1993,30-35
4,5,41,95,HR,1,1983,Other


Мы можем сделать подобное с помощью функции cut вместо самописной categorize_age

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

In [17]:
df['Age_group'] = pd.cut(x = df['Age'], bins = [22, 30, 35, 60], labels = ['22-30', '30-35', '45-60'], right = False)

In [18]:
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Department_num,birth_year,Age_group
0,1,22,119,IT,2,2002,22-30
1,2,25,63,IT,2,1999,22-30
2,3,25,78,Finance,5,1999,22-30
3,4,31,106,HR,1,1993,30-35
4,5,41,95,HR,1,1983,45-60
