## Библиотека `pandas` (часть 2)

### Урок 6.1. Применение функций и метод `.apply()`

В этом модуле мы продолжим работать с библиотекой `pandas` и поговорим о более продвинутых способах обработки данных с помощью этой библиотеки. Но прежде чем обсуждать различные методы, давайте загрузим небольшой датасет из csv-файла. Формат *csv* расшифровывается как *comma separated values*, данные хранятся в текстовом виде, и столбцы отделяются друг от друга запятыми.

Датасет содержит информацию о том, как люди сбрасывали вес в течение 3 месяцев с применением различных методик, и как при этом менялась их самооценка. Давайте сначала загрузим файл в Jupyter. (Показать, как загрузить файл через *Upload* в *Home* в рабочую папку).

In [1]:
import pandas as pd
import numpy as np  # тоже пригодится
df = pd.read_csv("WeightLoss.csv")

In [2]:
df.head()

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3
0,1,Control,4,3,3.0,14.0,13.0,15.0
1,2,Control,4,4,3.0,13.0,14.0,17.0
2,3,Control,4,3,1.0,17.0,12.0,16.0
3,4,Control,3,2,1.0,11.0,11.0,12.0
4,5,Control,5,3,2.0,16.0,15.0,14.0


**Переменные:**

* `group`: экспериментальная группа: контрольная (`Control`), диета (`Diet`), диета и упражнения `DietEx`;

* `w1`: потеря веса после 1-го месяца эксперимента;

* `w2`: потеря веса после 2-го месяца эксперимента;

* `w3`: потеря веса после 3-го месяца эксперимента;

* `se1`: самооценка после 1-го месяца эксперимента;

* `se2`: самооценка после 2-го месяца эксперимента;

* `se3`: самооценка после 3-го месяца эксперимента.

Прежде чем переходить к обсуждению методов, которые позволяют применять функции к столбцам или строкам датафрейма, давайте вспомним, как добавить новые столбцы на основе старых в датафрейм. Создадим столбец `total` с общим числом килограммов, потерянных за три месяца, а потом на его основе создадим столбец с той же информацией, но уже с граммах:

In [3]:
df['total'] = df['w1'] + df['w2'] + df['w3']
df['total_gr'] = df['total'] * 1000
df.head()

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr
0,1,Control,4,3,3.0,14.0,13.0,15.0,10.0,10000.0
1,2,Control,4,4,3.0,13.0,14.0,17.0,11.0,11000.0
2,3,Control,4,3,1.0,17.0,12.0,16.0,8.0,8000.0
3,4,Control,3,2,1.0,11.0,11.0,12.0,6.0,6000.0
4,5,Control,5,3,2.0,16.0,15.0,14.0,10.0,10000.0


Если бы у нас было много столбцов (например, данные были бы не за 3 месяца, а за 12 или 24), складывать их «вручную» было бы неудобно. Поэтому у нас, скорее всего, возникло бы желание выбрать столбцы через срез и применить к ним какую-нибудь готовую функцию. В `pandas` это можно сделать с помощью `.apply()`. Давайте с ним познакомимся пока на примере попроще, применительно к одному столбцу. Например, логарифмируем значения в столбце `total_gr`. Для этого нам нужно выбрать сам столбец, действия с которым нас интересуют, дописать к нему метод `.apply()`, от английского «применять» и указать внутри скобок, в качестве аругмента, функцию, котоая будет реализовывать желаемую операцию:

In [4]:
df['total_gr'].apply(np.log)  # применяем log из numpy

0     9.210340
1     9.305651
2     8.987197
3     8.699515
4     9.210340
5     9.615805
6     9.615805
7     9.210340
8     9.210340
9     8.987197
10    8.987197
11    8.987197
12    9.305651
13    9.210340
14    9.680344
15    9.392662
16    8.699515
17    9.546813
18    8.987197
19    8.853665
20    9.546813
21    9.740969
22    9.104980
23    9.546813
24    9.798127
25         NaN
26    9.852194
27    8.987197
28    9.104980
29    9.472705
30    9.615805
31    9.680344
32    9.903488
33    9.615805
Name: total_gr, dtype: float64

Получился новый столбец, новый объект типа `pandas Series`. Можно было бы добавить его в датасет, но такие вещи мы делать уже умеем и так, поэтому давайте перейдем к более интересной задаче: добавим столбец, в котором будет сохранены значения средней потери веса за три месяца по каждому человеку. Выберем в помощью `.loc` и текстового среза нужные столбцы и применим к ним функцию `mean` для среднего, плюс, укажем, что эта функция должна применяться по строкам, то есть среднее значение должно считаться по каждому человеку:

In [5]:
df['avloss'] = df.loc[:,'w1':'w3'].apply(np.mean, axis=1)
df.head()

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr,avloss
0,1,Control,4,3,3.0,14.0,13.0,15.0,10.0,10000.0,3.333333
1,2,Control,4,4,3.0,13.0,14.0,17.0,11.0,11000.0,3.666667
2,3,Control,4,3,1.0,17.0,12.0,16.0,8.0,8000.0,2.666667
3,4,Control,3,2,1.0,11.0,11.0,12.0,6.0,6000.0,2.0
4,5,Control,5,3,2.0,16.0,15.0,14.0,10.0,10000.0,3.333333


Если бы мы написали `axis=0`, то получили бы среднюю потерю веса по всем людям за каждый месяц (три значения):

In [6]:
df.loc[:,'w1':'w3'].apply(np.mean, axis=0)

w1    5.294118
w2    4.352941
w3    2.212121
dtype: float64

Самое интересное и полезное: в `.apply()` можно прописывать свои функции, которые мы заранее определим. Напишем функцию, которая будет считать размах: вычитать из максимального значения минимальное и возвращать результат. Напишем небольшую lambda-функцию в Python и назовём её `f`. Мы не обсуждали отдельно написание собственных функций, но lambda-функции устроены несложно. Сначала мы указываем название функции, потом после знака равенства начинаем её определять. Стартуем с ключевого слова `lambda`, чтобы Python понимал, что это функция. После указываем аргумент – то, с чем функция должна работать, то, что подаётся ей на вход. Назвать его мы можем как угодно, у нас будет `x`. Далее через двоеточие мы прописываем, что с этим `x` нужно сделать, то есть вернуть на выходе, в результате исполнения функции.

In [7]:
f = lambda x: x.max() - x.min()

Здесь `x` – это какой-то перечень значений, по нему мы считаем минимум и максимум, а потом из одного вычитаем другое. Применим написанную нами функцию к тем же столбцам и скажем, что опять функция должна применяться по строкам – к каждому человеку:

In [8]:
df['wrange'] = df.loc[:,'w1':'w3'].apply(f, axis=1)
df.head()

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr,avloss,wrange
0,1,Control,4,3,3.0,14.0,13.0,15.0,10.0,10000.0,3.333333,1.0
1,2,Control,4,4,3.0,13.0,14.0,17.0,11.0,11000.0,3.666667,1.0
2,3,Control,4,3,1.0,17.0,12.0,16.0,8.0,8000.0,2.666667,3.0
3,4,Control,3,2,1.0,11.0,11.0,12.0,6.0,6000.0,2.0,2.0
4,5,Control,5,3,2.0,16.0,15.0,14.0,10.0,10000.0,3.333333,3.0


Что получилось? Для каждого участника была посчитана максимальная потеря веса за 3 месяца, потом минимальная, посчитан результат и сохранён в отдельный столбец `wrange`.