In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

# Применение функций
## Метод Series.apply
Часто приходится проводить произвольные манипуляции с данными из датасетов для их очистки или получения новых признаков. 
Для этой задачи отлично подходит метод `Series.apply()`, который применяет некоторую функцию для всех данных в ряду.

Например, мы хотим сделать данные независимыми от регистра, чтобы уберечься от опечаток в регистре или несовпадений формата:

In [2]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits.apply(lambda x: x.lower())

0       яблоко
1     апельсин
2        банан
3    грейпфрут
dtype: object

Или взять модуль:

In [3]:
numbers = pd.Series(np.random.randn(10))
print(f'numbers: \n{numbers}')
print(f'\nnumbers.apply(np.abs): \n{numbers.apply(np.abs)}')

numbers: 
0   -0.079441
1    1.014754
2    0.338368
3   -1.383956
4    0.286156
5   -0.292913
6    0.737376
7    0.299790
8   -0.372716
9    0.192128
dtype: float64

numbers.apply(np.abs): 
0    0.079441
1    1.014754
2    0.338368
3    1.383956
4    0.286156
5    0.292913
6    0.737376
7    0.299790
8    0.372716
9    0.192128
dtype: float64


**Важно помнить, что .apply создаёт новый объект, а не изменяет текущий:**

In [4]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits.apply(lambda x: x.lower())

fruits

0       ЯБЛОКО
1     апельсин
2        Банан
3    ГРейпфрут
dtype: object

Если старые значения больше не требуются можно сделать переприсваивание:

In [5]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits = fruits.apply(lambda x: x.lower())

fruits

0       яблоко
1     апельсин
2        банан
3    грейпфрут
dtype: object

Или же записать в новую колонку:

In [6]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
df = pd.DataFrame(fruits, columns=['fruits'])
df['fruits_uppercase'] = df['fruits'].apply(lambda x: x.lower())

df

Unnamed: 0,fruits,fruits_uppercase
0,ЯБЛОКО,яблоко
1,апельсин,апельсин
2,Банан,банан
3,ГРейпфрут,грейпфрут


## Метод DataFrame.apply()

Метод `apply` применим и к `DataFrame`:

In [7]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
states

Unnamed: 0,area,population
AK,1717854,736732
TX,696241,26956958
CA,423970,38802500
MT,381156,1023579
NM,315194,2085572


In [8]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
states.apply(np.sqrt)

Unnamed: 0,area,population
AK,1310.669295,858.330939
TX,834.41057,5192.009052
CA,651.129787,6229.165273
MT,617.378328,1011.720811
NM,561.42141,1444.150962


Функция применяется ко всем колонкам сразу. Однако, такое применение весьма специфично. 

Поэтому, метод `DataFrame.apply()` используется в другой манере. В качестве параметра можно передать `axis=1`. Это значит, что функция будет применяться не к столбцам, а к строкам.
Соответственно, объект, к которому будет применена функция оказывается записью в `DataFrame` представленной `Series`:

In [9]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
density = states.apply(lambda row: row['population'] / row['area'], axis=1)

density

AK     0.428868
TX    38.717855
CA    91.521806
MT     2.685459
NM     6.616788
dtype: float64