In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

# Применение функций
## Метод Series.apply
Часто приходится проводить произвольные манипуляции с данными из датасетов для их очистки или получения новых признаков. 
Для этой задачи отлично подходит метод `Series.apply()`, который применяет некоторую функцию для всех данных в ряду.

Например, мы хотим сделать данные независимыми от регистра, чтобы уберечься от опечаток в регистре или несовпадений формата:

In [None]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits.apply(lambda x: x.lower())

Или взять модуль:

In [None]:
numbers = pd.Series(np.random.randn(10))
print(f'numbers: \n{numbers}')
print(f'\nnumbers.apply(np.abs): \n{numbers.apply(np.abs)}')

**Важно помнить, что .apply создаёт новый объект, а не изменяет текущий:**

In [None]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits.apply(lambda x: x.lower())

fruits

Если старые значения больше не требуются можно сделать переприсваивание:

In [None]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
fruits = fruits.apply(lambda x: x.lower())

fruits

Или же записать в новую колонку:

In [None]:
fruits = pd.Series(['ЯБЛОКО', 'апельсин', 'Банан', 'ГРейпфрут'])
df = pd.DataFrame(fruits, columns=['fruits'])
df['fruits_uppercase'] = df['fruits'].apply(lambda x: x.lower())

df

## Метод DataFrame.apply()

Метод `apply` применим и к `DataFrame`:

In [None]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
states

In [None]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
states.apply(np.sqrt)

Функция применяется ко всем колонкам сразу. Однако, такое применение весьма специфично. 

Поэтому, метод `DataFrame.apply()` используется в другой манере. В качестве параметра можно передать `axis=1`. Это значит, что функция будет применяться не к столбцам, а к строкам.
Соответственно, объект, к которому будет применена функция оказывается записью в `DataFrame` представленной `Series`:

In [None]:
area = pd.Series([1717854, 696241, 423970, 381156, 315194], index=['AK', 'TX', 'CA', 'MT', 'NM'])
population = pd.Series([736732, 26956958, 38802500, 1023579, 2085572], index=['AK', 'TX', 'CA', 'MT', 'NM'])

states = pd.DataFrame(data={'area': area, 'population': population})
density = states.apply(lambda row: row['population'] / row['area'], axis=1)

density