## Визуализация

#### Метод `.plot()` — построение графиков. ####

Параметры метода `.plot()`:
- `title` название графика (указывают строкой или переменной).
- `style` вид отображения точек графика (`o` - кружок, `x` - крестик, `o-` - кружок и линия).
- `x` и `y` им передаются значения столбцов датасета или списки для отображения по осям абсцисс и ординат соответственно.
- `xlim` и `ylim` им передаются максимальные значения по осям абсцисс и ординат соответственно.
- `grid` (пер. «сетка, решётка») отображает координаьную сетку, если равно `True`.
- `figsize` (от англ. size of a figure — «размер фигуры») размер области построения графика. Ширину и высоту области построения в дюймах передают параметру в скобках: `figsize = (x_size, y_size)`.
- `kind` (пер. «вид») вид графика, в данном случае `kind='hist'` — гистограмма. Значения параметра `kind`:
    - `area` — график с накоплением;
    - `bar` — вертикальная гистограмма (столбчатая диаграмма);
    - `barh` — горизонтальная гистограмма;
    - `box` — график с боксами;
    - `hexbin` — шестнадцатеричный график (из шестигранных сот);
    - `hist` — гистограмма;
    - `kde` — график оценки плотности ядра;
    - `density` — альтернативное название значения `kde`;
    - `line` — линейный график (используется по умолчанию);
    - `pie` — круговая диаграмма;
    - `scatter` — диаграмма рассеяния.
    ```python
    df.plot(x='height', y='weight', kind='hexbin', gridsize=20, figsize=(8, 6), sharex=False, grid=True)
    # hexbin — диаграмма рассеяния из шестиугольников, чем больше точек в области шестиугольника, тем темнее цвет
    # gridsize — задает число шестиугольников по горизонтальной оси
    # sharex=False — это «костыльный» обход бага библиотеки pandas, без него график будет неказистый
    ```
- `histtype` (от англ. the type of histogram — «тип гистограммы»). В параметре указывают тип гистограммы, по умолчанию — это столбчатая (закрашенная). Значение `step` (пер. «шаг») чертит только линию.
- `linewidth` (от англ. width of line — «толщина линии»). Задаёт толщину линии графика в пикселях.
- `alpha` (от термина «альфа-канал»). Назначает густоту закраски линии. `1` — это 100%-я закраска; `0` — прозрачная линия. С параметром `0.7` линии чуть прозрачны, так виднее их пересечения.
- `label` (пер. «ярлык», «этикетка»). Название линии.
- `ax` (от англ. axis — «ось»). Метод `plot()` возвращает оси, на которых был построен график. Чтобы обе гистограммы расположились на одном графике, сохраним оси первого графика в переменной `ax`, а затем передадим её значение параметру `ax` второго `plot()`. Так, сохранив оси одной гистограммы и построив вторую на осях первой, мы объединили два графика.
- `legend` (пер. «легенда»). Выводит легенду — список условных обозначений на графике. На графике вы можете найти её в верхнем правом углу.

Примеры:

1. 
```python
df.plot(title='A и B', x='b', y='a', style='o-', xlim=(0, 30), grid=True, figsize=(10, 3))
```
2. 
```python
good_stations_stat.plot(
    kind='hist',
    y='time_spent',
    histtype='step',
    range=(0, 500),
    bins=25,
    linewidth=5,
    alpha=0.7,
    label='filtered',
    ax=ax,
    grid=True,
    legend=True,
)
```

#### Метод `pd.plotting.scatter_matrix()` ####
Строит матрицу попарных диаграмм рассеяния для столбцов датасета.
```python
hwa = pd.read_csv('hwa.csv', sep=';')
pd.plotting.scatter_matrix(hwa, figsize=(9, 9))
```

#### Метод `.describe()` ####

Отображение статистической информации о столбцах датафрейма.  
Есть параметры `percentiles=`, `include=`, `exclude=` и `datetime_is_numeric=`.  


```python
display(data.describe())

data.describe(include=['object', 'float', 'int']) # статистика только для столбцов с указанными типами данных

data.describe(include='all').T # если столбцов много, то для удобства просмотра результат можно транспонировать
```

Построение гистограмм для каждого столбца
```python
data.hist(bins=100, figsize=(17,88), layout=(22,4))
plt.show()
```

#### Метод `.corr()` ####
Определяет коэффициент корреляции (от англ. correlation — «корреляция») Пирсона. Коэффициент Пирсона помогает определить наличие линейной связи между величинами и принимает значения от -1 до 1. Чем ближе к 1 или -1, тем сильнее положительная или отрицательная корреляция соответственно. Метод применяют к столбцу с первой величиной, а столбец со второй передают в параметре. Какая первая, а какая вторая — неважно:
```python
print(hw['height'].corr(hw['weight']))
print(hw['weight'].corr(hw['height'])) # поменяли местами рост и вес

# применительно к датасету с несколькими столбцами получим матрицу попарных коэффициентов корреляции столбцов датасета
print(df.corr())
```

#### Построение матрицы корреляции ####

Вариант 1
```python
plt.subplots(figsize=(12, 9))
sns.heatmap(data.corr(), vmin = -1, vmax = +1, cmap = 'coolwarm', annot=True, linewidths=.1, linecolor='black')
plt.yticks(rotation=0)
plt.title('Матрица корреляции')
plt.show()
```

Вариант 2
```python
corrMatrix = df.select_dtypes(include=np.number).iloc[:, :7].corr()

sns.set(style = 'white')
# маска для формы графика в виде верхнего треугольника
mask = np.triu(np.ones_like(corrMatrix, dtype=np.bool))
# задание зоны построения графика в matplotlib
f, ax = plt.subplots(figsize=(11, 9))
# построение хитмэпа по заданной маске и с правильным соотношением сторон
sns.heatmap(corrMatrix, mask=mask, vmax=.3, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5})
plt.show()
```

#### Построение графика распределения плотности `sns.kdeplot()` ####

```python
from matplotlib.ticker import FuncFormatter

fig, ax = plt.subplots(figsize=(10, 5)) 

# Density plot цены в каждом населенном пункте
for locality in df_short.locality_name.unique():
    sns.kdeplot(df_short[df_short.locality_name == locality].price_per_meter, label = locality)
    
plt.grid(True) # сетка
plt.legend(loc = 'upper left', bbox_to_anchor = (1,1)) # положение легенды
plt.title('Плотность распределения\nцены за квадратный метр по населенным пунктам', loc = 'left') # название графика
plt.xlabel('Цена за квадратный метр') # подпись оси x
plt.xlim((0,250000)) # ограничение значений оси X
ax.xaxis.set_major_formatter(FuncFormatter(lambda x, pos: '{}'.format(int(x/1000)) + 'K')) # форматирование подписей на оси X
plt.annotate('Хвосты', size = 15, xy = (200000, 0.000003), xytext = (220000, 0.0000225), 
             arrowprops = dict(facecolor = 'gray', shrink = 0.1, width = 2)) # аннотация графика с заданной позицией
plt.savefig('locality_comparison.png', bbox_inches = 'tight') # сохранение графика для презентации
plt.show()
```

## `DataFrame` и `Series`

#### Добавление новых столбцов в датафрейм

```python
df1['new'] = df2['d']
```

При этом новый столбец `'new'` в датафрейме `df1` формируется из значений столбца `'d'` датафрейма `df2` строго по совпадению индексов датасетов.  
*Пример.* Заменим индексы во втором датафрейме на значения столбца `c`. После чего присвоим столбцу `new` в первом датафрейме значения столбца `d` в `df2`:
```python
df1 = pd.DataFrame({'a': [1, 2, 3, 3, 3],
                    'b': ['Q', 'R', 'S', 'T', 'U']})
df2 = pd.DataFrame({'c': [3, 4, 5, 6, 7],
                    'd': ['V', 'W', 'X', 'Y', 'Z'],
                    'e': [3, 3, 3, 3, 3]})
df2.set_index('c', inplace=True)
print(df1)
print()
print(df2)
df1['new'] = df2['d']
print()
print(df1)
```  
*Результат:*  
```python
   a  b
0  1  Q
1  2  R
2  3  S
3  3  T
4  3  U

   d  e
c
3  V  3
4  W  3
5  X  3
6  Y  3
7  Z  3

   a  b  new
0  1  Q  NaN
1  2  R  NaN
2  3  S  NaN
3  3  T    V
4  3  U    W
```

Индексы в `df1` и `df2` уже не одинаковы. Присвоение происходит лишь по совпадающим индексам. В `df2` нет индексов `0`, `1`, `2` — в этих строках финального датафрейма оказались `NaN`. А в строках с индексами `3` и `4` записаны значения, которые в `df2['d']` были в строках с индексами `3` и `4`.  
Если в `df1` будут повторяющиеся индексы, то значение из `df2['d']` скопируется несколько раз.  
Число строк в `df2` не обязательно должно совпадать с числом строк `df1`. Если в `df2` не хватит значений, то будет подставлено `None`. Если будут лишние значения, то они просто не попадут в обновлённый датафрейм.  
Повторяющиеся значения в индексе `df2` приведут к ошибке. В этом случае `pandas` не поймёт, какое из значений следует подставить в `df1`.  
Аналогично, в соответствии с индексами, происходит добавление значений из `Series`.  
```python
series = pd.Series([1, 2, 3, 4, 5])  
df1['new'] = series
```
*Результат:*  
```python
   b  new
a        
1  Q    2
2  R    3
3  S    4
3  T    4
3  U    4
```  
Если добавление столбца происходит из списка (`list`), то индексы не учитываются и происходит добавление всех значений из списка по порядку:  
```python
list_values = [1, 2, 3, 4, 5]  
df1['new'] = list_values
```  
*Результат:*  
```python
   b  new
a        
1  Q    1
2  R    2
3  S    3
3  T    4
3  U    5
```

#### Создание датафрейма из словаря, назначение индексов, переименование индексов и столбцов.

```python
import pandas as pd
# создаем словарь из произвольных значений
slovar = {'c': [3, 4, 5, 6, 7],
          'd': ['V', 'W', 'X', 'Y', 'Z'],
          'e': [3, 3, 3, 3, 3]}
# создаем датафрейм_1, в котором ключи словаря станут столбцами (индексы появляются по умолчанию)
df1 = pd.DataFrame(slovar)
print('Датафрейм_1, в котором ключи словаря стали столбцами:\n', df1,
      '\n')
# создаем датафрейм_2, в котором ключи словаря станут строками (названия столбцов появляются по умолчанию)
df2 = pd.DataFrame.from_dict(slovar, orient='index')
print('Датафрейм_2, в котором ключи словаря стали строками:\n', df2,
      '\n--------------------------')
# назначаем индексами значения существующего столбца "c" датафрейма (столбец "c" заменяет собой индекс и исчезает из датасета)
df1.set_index('c', inplace=True)
print('Датафрейм_1 с индексами, созданными из столбца "c":\n', df1,
      '\n')
# переименовываем названия столбцов и индексов датафрейма
df2.rename(columns={0:'A', 1:'B', 2:'C', 3:'D', 4:'E'}, index={'c':1, 'd':2, 'e':3}, inplace=True)
print('Датафрейм_2 с переименованными названиями столбцов и индексов:\n', df2)
```

Результат:

```python
Датафрейм_1, в котором ключи словаря стали столбцами:
    c  d  e
0  3  V  3
1  4  W  3
2  5  X  3
3  6  Y  3
4  7  Z  3 

Датафрейм_2, в котором ключи словаря стали строками:
    0  1  2  3  4
c  3  4  5  6  7
d  V  W  X  Y  Z
e  3  3  3  3  3 
--------------------------
Датафрейм_1 с индексами, созданными из столбца "c":
    d  e
c      
3  V  3
4  W  3
5  X  3
6  Y  3
7  Z  3 

Датафрейм_2 с переименованными названиями столбцов и индексов:
    A  B  C  D  E
1  3  4  5  6  7
2  V  W  X  Y  Z
3  3  3  3  3  3
```

Второй способ переименования столбцов (если какой-либо столбец переименовывать не нужно, то ему присваивается значение 'no_name').

```python
id_name.columns = ['name', 'count']
```

#### Метод `pd.concat()` ####

Соединение датафреймов.

В аргументах у `pd.concat()`:
- список из двух датафреймов - `[s1, s2]`;
- датафреймы соединяются вертикально (количество столбцов не меняется, стороки складываются) - `axis=0`;
- индекс у результирующего датафрейма сбрасывается - `ignore_index=True`.

```python
pd.concat([s1, s2], axis=0, ignore_index=True)
```

Соединение датафреймов с созданием многоуровневого (иерархического) индекса. В параметр `keys` передаются названия групп индекса, в параметр `names` передаются названия уровней индекса.
```python
by_shop = pd.concat([s1, s2], axis = 0, keys = ['s1', 's2'], names = ['s', 'id'])

Результат:
        item        price
s   id		
s1  0   карандаш    220
    1   ручка       340
    2   папка       200
    3   степлер     500
s2  0   клей	    200
    1   корректор   240
    2   скрепка     100
    3   бумага      300
```

Соединение датафреймов горизонтально (`s2` справа от `s1`) за счет `axis = 1` с созданием групп многоуровневого индекса столбцов `keys = ['s1', 's2']`.

```python
pd.concat([s1, s2], axis = 1, keys = ['s1', 's2'])
```

#### Метод `.merge()` ####

Объединяет (соединяет) датафреймы.  
В параметре `on` передается название столбца, по которому необходимо объединять датафреймы. Если столбец индекса именованный, его имя также можно передать параметру `on`. Чтобы объединять по нескольким столбцам сразу, нужно передать их список параметру `on`.  
Режим слияния (объединения) задаётся параметром `how` (от англ. «как, каким образом») со следующими значениями: 
- Если `how` = `'inner'` (от англ. «внутренний», здесь значит «пересечение данных»), то финальный датафрейм складывается из совпадений значений, которые есть в обоих датафреймах в столбце по которому идет объединение. В методе `.merge()` тип `'inner'` работает по умолчанию.
- Если `how` = `'outer'` (от англ. «внешний», здесь значит «объединение данных»), то финальный датафрейм складывается из значений, которые есть хотя бы в одном из объединяемых датафреймов в столбце по которому идет объединение. Если каких-то данных при таком объединении не будет, то в ячейках будет проставлено `NaN`.
- Режим объединения `'left'` указывает, что в результат слияния обязательно должны войти все строки из левого датафрейма и совпадающие строки из правого.
- В режиме `'right'` сохранятся все совпадающие строки и правый датафрейм.

Окончания названий столбцов задают в параметре `suffixes`.

```python
first_pupil_df.merge(second_pupil_df, on='author', how='left', suffixes=('_записал первый', '_записал второй'))
```

Соединение двух датафреймов `math` и `math_degree` по индексам левого и правого датафрейма (`left_index = True, right_index = True`). Параметр `indicator = True` добавляет в результирующий детесет столбец с названием `_merge`, который содержит информацию из какого исходного датасета каждая строка.
```python
pd.merge(math, math_degree, how = 'left', left_index = True, right_index = True, indicator = True)
```


#### Метод `pd.merge_asof()` ####

Соединение с условиями.
```python
pd.merge_asof(trades, quotes, # соединение двух датафреймов
              on = 'time', # по столбцу времени time
              by = 'ticker', # так, чтобы совпадало значение столбца ticker
              tolerance = pd.Timedelta('10ms'), # совпадение по времени должно составлять менее 10 миллисекунд
              direction = 'nearest') # можно искать совпадение в предыдущих и будущих периодах
```

#### Метод `.join()` ####
Объединяет (соединяет) датафреймы. Без параметра `on` метод `.join()` будет искать совпадения по индексам в первом и втором датафреймах. Если передать параметру `on` столбец, то метод `.join()` найдёт его в первом датафрейме и начнёт сравнивать с индексом второго. По умолчанию в `.join()` установлен тип слияния `how='left'`. Параметры `lsuffix` и `rsuffix` добавляют окончания (суффиксы) к названиям столбцов в объединенном датафрейме. Методом `.join()` можно объединять больше двух таблиц (их набор передают списком вместо второго датафрейма).
```python
df1 = pd.DataFrame({'a': [1, 2, 3, 4], 'b': ['A', 'B', 'C', 'D']})
df2 = pd.DataFrame({'a': [2, 2, 2, 2], 'c': ['E', 'F', 'G', 'H']})
print(df1)
print()
print(df2)
print()
print (df1.join(df2, on='a', rsuffix='_y')['c'])
```
Результат:
```python
     a  b
0  1  A
1  2  B
2  3  C
3  4  D

     a  c
0  2  E
1  2  F
2  2  G
3  2  H

0      F
1      G
2      H
3    NaN
```

#### Метод `.groupby()` ####

Создает объект `DataFrameGroupBy` к которому затем можно применить какой-нибудь метод или атрибут.

Атрибут `.ngroups` показывает, сколько после активации метода `.groupby()` было создано групп:
```python
titanic.groupby('Sex').ngroups
```

Атрибут `.groups` выводит индекс наблюдений, отнесенных к каждой из групп.  
Выберем группу `female` (по ключу словаря) и выведем первые пять индексов (через срез списка), относящихся к этой группе:
```python
titanic.groupby('Sex').groups['female'][:5]

Результат:
    Int64Index([1, 2, 3, 8, 9], dtype='int64')
```

Метод `.size()` показывает количество элементов в каждой группе:
```python
titanic.groupby('Sex').size()
```

Метод `.first()` выдает первые встречающиеся наблюдения в каждой из групп.  
Метод `.last()` выдает последние встречающиеся наблюдения в каждой из групп.
```python
titanic.groupby('Sex').first()
```

Метод `.get_group()` позволяет выбрать наблюдения только одной группы.  
Выберем наблюдения группы `male` и выведем первые пять строк датафрейма:
```python
titanic.groupby('Sex').get_group('male').head()
```

Вывод медианного возраста (по столбцу `Age`) мужчин и женщин (группировка по столбцу `Sex`) с округлением до одного знака (`.round(1)`):
```python
titanic.groupby('Sex').Age.median().round(1)
```

Вывод статистики по нескольким столбцам: рассчет среднего арифметического по столбцам `Age` и `Fare` для каждого из классов `Pclass` с округлением (`.round(1)`).
```python
titanic.groupby('Pclass')[['Age', 'Fare']].mean().round(1)
```

Группировка по двум признакам `Pclass` и `Sex` с расчетом количества наблюдений в каждой подгруппе по каждому столбцу методом `.count()`:
```python
titanic.groupby(['Pclass', 'Sex']).count()
```

Можно использовать метод `.groupby()` как аналог метода `pd.pivot_table()` при группировке по строкам:
```python
bmw.groupby(by = ['state', 'year'])[['price']].agg('median')

Результат:
                    price
state       year	
california  2017    39800.0
            2020    61200.0
florida     2013    2925.0
georgia     2008    1825.0
illinois    2014    15000.0
michigan    2016    39000.0
            2017    39000.0
new jersey  2014    13500.0
tennessee   2017    29400.0
texas       2011    6200.0
            2016    29700.0
utah        2000    0.0
wisconsin   2017    26600.0
```

#### Метод `.agg()` ####

Одновременное нахождение максимального и минимального значений, количества наблюдений, медианы и среднего арифметического по столбцу `Age` после группировки по столбцу `Sex` с округлением (`.round(1)`):
```python
titanic.groupby('Sex').Age.agg(['max', 'min', 'count', 'median', 'mean']).round(1)
```

Для удобства при группировке и расчете показателей столбцы можно переименовывать:
```python
titanic.groupby('Sex').Age.agg(sex_max = ('max'), sex_min = ('min'))

Результат:
        sex_max  sex_min
Sex		
female  63.0     0.75
male    80.0     0.42
```

Применение метода `.agg()` к нескольким столбцам: рассчет среднего арифметического и медианы для столбцов `Age` и `Fare`.
```python
titanic.groupby('Sex')[['Age', 'Fare']].agg(['mean', 'median']).round(1)

Результат:
            Age               Fare
        mean    median    mean    median
Sex				
female  27.9    27.0      44.5    23.0
male    30.7    29.0      25.5    10.5
```

Использование пользовательской функции. Функция `below29()` выдает `True`, если средний возраст меньше 29 лет и `False` в остальных случаях. Функция `below29()` применяется к группам `female` и `male`, образованным при группировке по столбцу `Sex`.
```python
def below29(x):
    m = x.mean()
    return True if m < 29 else False

titanic.groupby('Sex').Age.agg(['max', 'mean', below29])

Результат:
        max    mean        below29
Sex			
female  63.0   27.915709   True
male    80.0   30.726645   False
```

Для данных, сгруппированных по столбцу `is_apartment`, по столбцу `last_price` считают среднее и медиану, а по столбцу `total_area` находят максимальное значение:
```python
df.groupby('is_apartment').agg({'last_price': ['mean', 'median'], 'total_area': 'max'})
```

При группировке столбцу со средними значениями дается название `last_price_mean`, с столбцу с медианными значениями - название `last_price_median` и сбрасывается индекс (`reset_index()`):
```python
df.groupby('is_apartment').agg(last_price_mean = ('last_price', 'mean'), last_price_median = ('last_price', 'median')
                              ).reset_index()
```

#### Метод `.filter()` ####

Фильтрация по условию.

Вывод первых строк (`.head()`) только тех классов кают `Pclass`, в которых среднегрупповой возраст `Age` не менее 26 лет:
```python
titanic.groupby('Pclass').filter(lambda x: x['Age'].mean() >= 26).head()
```

#### Метод `.query()` ####

Позволяет отфильтровать данные по условию.
```python
df.query('price > 20000')

data.query('total_income != total_income and days_employed != days_employed') # пропущенные значения в total_income и days_employed
```

#### Метод `pd.pivot_table()` или `.pivot_table()` ####

Формирование сводных таблиц.

- Возможные значения параметра `aggfunc=`:
    - `median` — медианное значение;
    - `count` — количество значений;
    - `sum` — сумма значений;
    - `min` — минимальное значение;
    - `max` — максимальное значение;
    - `first` — первое значение из группы;
    - `last` — последнее значение из группы;
    - пользовательские функции.

- Метод `.style.format()` позволяет настроить формат вывода данных указанных столбцов датасета. Например, вывод значений столбца `debt` в процентах с двумя знаками после запятой: `data.groupby('family_status')[['debt']].mean().sort_values(['debt']).style.format({'debt': '{:.2%}'})`.  
- Метод `.style.background_gradient()` позволяет добавить цветовую маркировку. Например: `.style.background_gradient(cmap='coolwarm')`.  
- Для выделения пропущенных значений используется метод `.style.highlight_null()`, при этом цвет выбирается через параметр `null_color`. Например: `.style.highlight_null(null_color='yellow')`.  
- На основе сводных таблиц можно сразу строить графики, добавляя метод `.plot`. Например: `.plot.barh(figsize=(10,7), title='Clean vs. Salvage Counts')`.  
- Метод `.style.bar()` позволяет создать встроенную горизонтальную столбчатую диаграмму. Цвет в параметр `color` можно передавать, в том числе, в hex-формате: `.style.bar(color = '#d65f5f')`.

Группировка данных по строкам в датасете `cars` по марке `brand`, а затем по цвету кузова `color`. Для каждой подгруппы рассчитывается медиана `median` и количество наблюдений `count`:
```python
pd.pivot_table(cars, index = ['brand', 'color'], values = 'price', aggfunc = ['median', 'count']).round(2).head(11)

Результат:
                    median   count
                    price    price
brand   color		
acura   black       3900.0   1
        gray        1000.0   1
        silver	    16900.0	 1
audi    black       25.0     3
        blue        19500.0  1
bmw     black       34200.0  4
        blue        39000.0  5
        gray        15350.0  4
        no_color    29700.0  1
        silver      15000.0  1
        white       2375.0   2
```

Выведем медианную цену `median` и количество `count` по столбцу `price` для каждой марки `brand` с разбивкой по категориям, имеющимся в столбце `title_status`, а также применим метод `.transpose()`, чтобы поменять строки и столбцы местами (транспонировать):
```python
pd.pivot_table(cars,
               index = 'brand',
               columns = 'title_status',
               values = 'price',
               aggfunc = ['median', 'count']).round().head().transpose()

Результат:
    	brand              acura    audi     bmw      buick    cadillac
        title_status					
median  clean vehicle      10400.0  27950.0  31600.0  20802.0  24500.0
        salvage insurance  1000.0   12.0     1825.0   0.0      0.0
count   clean vehicle      2.0      2.0      14.0     12.0     9.0
        salvage insurance  1.0      2.0      3.0      1.0      1.0
```

Mетод `.unstack()` как бы убирает второе измерение. Данные группируются по имеющимся признакам в столбце `brand` и в столбце `title_status`, но признаки из `title_status` не становятся столбцами, а вместе с `index='brand'` образуют мультииндекс в строках:
```python
pd.pivot_table(cars, index='brand', columns='title_status', values='price', aggfunc='median').round(2).head().unstack()

Результат:
title_status       brand   
clean vehicle      acura       10400.0
                   audi        27950.0
                   bmw         31600.0
                   buick       20802.5
                   cadillac    24500.0
salvage insurance  acura        1000.0
                   audi           12.5
                   bmw          1825.0
                   buick           0.0
                   cadillac        0.0
```

#### Метод `.replace()` ####

Замена значений в датасете.

```python
# замена -1 на 0 в столбце 'children'
data['children'] = data['children'].replace(-1, 0)
```

#### Метод `.clip()` ####

Обрезание выбросов путем установки границ диапазона значений. Значения больше верхней границы диапазона приравниваются к верхней границе. Аналогичные действия с нижней границей.

```python
data['days_employed']=data['days_employed'].clip(90, 18250) # значения в столбце days_employed ограничиваются диапазоном от 90 до 18250
```

#### Метод `.where()` ####

Выборочно изменяет значения в датафрейме. Ему передают два параметра: условие для булева массива и новые значения. Если условие равно `True`, то соответствующее ему значение не изменится, если `False`, то значение поменяется на второй параметр метода.

```python
shopping = pd.Series(['молоко', 'хамон', 'хлеб', 'картошка', 'огурцы'])
# Ниже задано условие для булева массива, проверяющее, не оказался ли элемент списка хамоном: `shopping != 'хамон'`. 
# В результате проверки получается массив вида: `[True, False, True, True, True]`. 
# Строки со значением `True` не изменились, а `хамон` поменялся на значение `обойдусь`.
print(shopping.where(shopping != 'хамон', 'обойдусь'))  
```

Замена возраста всех, кому меньше 18, на `NaN`:
```python
people.age.where(people.age >= 18, other = np.nan)
```

Если число в датафрейме `nums` положительное, то оно остается без изменений. Если отрицательное, то заменяется на обратное/противоположное (т.е. становится положительным):
```python
nums.where(nums > 0, other = -nums)
```

#### Функция `np.where()` ####

Внутри функции `np.where()` три параметра:
1. условие;
2. значение, если условие выдает `True`;
3. значение, если условие выдает `False`.
```python
# в столбце 'age_group' записывает 'adult', если в столбце 'age' число больше 18, иначе записывает 'minor'
people['age_group'] = np.where(people['age'] >= 18, 'adult', 'minor')
```

#### Метод `map()`

Создадим карту (map) (по сути - переменную) с правилом, как преобразовать существующие значения в новые. Такая карта представляет собой питоновский словарь, где ключи - это существующие данные, а значения - новые. Передадим эту переменную в метод `.map()` для обработки выбранного столбца.

```python
gender_map = {0: 'female', 1 : 'male'}
people['gender'] = people['gender'].map(gender_map)
```
В метод `.map()` можно передать lambda-функцию. Например, для того, чтобы выявить совершеннолетних и несовершеннолетних людей:
```python
people['age_group'] = people['age'].map(lambda x: 'adult' if x >= 18 else 'minor')
```
Заполнение пропусков случайным значеним от 1 до 21:
```python
df['price'] = df['price'].map(lambda x: x if not np.isnan(x) else np.random.choice(range(1, 21)))
```

Или передать обычную функцию (`get_age_group`).  
В такую функцию нельзя передать дополнительные аргументы. В функцию передаются только те данные, к которым применяется `.map()`. В нашем случае - это `people['age']`.
```python
def get_age_group(age):
    threshold = 18 # порог приходится фиксированно задавать внутри функции
    if age >= threshold:
        age_group = 'adult'
    else:
        age_group = 'minor'
    return age_group

people['age_group'] = people['age'].map(get_age_group)
```

#### Метод `.apply()` ####

- _Применение к аргументам:_

    Метод `.apply()` (в отличие от `.map()`) позволяет передавать аргументы в применяемую функцию. Объявим функцию `get_age_group`, которой можно передать не только значение возраста, но и порог, при котором человек будет считаться совершеннолетним. Затем применим эту функцию к столбцу `age`, выбрав в качестве порогового значения 21 год.

```python
def get_age_group(age, threshold):
    if age >= int(threshold):
        age_group = 'adult'
    else:
        age_group = 'minor'
    return age_group

people['age_group'] = people['age'].apply(get_age_group, threshold = 21)
```

- _Применение к столбцам:_

    Замена значений в столбцах `height` и `weight` на медиану столбцов:
```python
people[['height', 'weight']] = people[['height', 'weight']].apply(np.median, axis=0)
```
    В датасет `df_km_distance` сохраняются значения из четырех столбцов датасета `df`, разделенные на 1000:
```python
distance_cols = ['airports_nearest', 'cityCenters_nearest', 'parks_nearest', 'ponds_nearest']
df_km_distance = df[distance_cols].apply(lambda x: x / 1000)
```

- _Применение к строкам:_

    Создадим функцию `get_bmi`, которая рассчитает индекс массы тела, применим ее к каждой строке (человеку) и сохраним результат в новом столбце:

```python
def get_bmi(x):
    bmi = x['weight'] / (x['height'] / 100) ** 2
    return bmi

people['bmi'] = people.apply(get_bmi, axis=1).round(2)
```


#### Метод `.applymap()` ####

Создадим датафрейм `nums` из чисел. Объявим функцию `add_number`, которая на входе принимает число `x` и прибавляет к нему другое число, указанное в параметре `number`. Передадим методу `.applymap()` функцию `add_number` и тем самым прибавим единицу к каждому элементу датафрейма.

```python
nums_matrix = [[13, 7, 1],
               [4, 2, 25],
               [45, 3, 8]]
nums = pd.DataFrame(nums_matrix)

def add_number(x, number):
    return x + number

nums.applymap(add_number, number = 1)
```

#### Метод `.pipe()` ####

Позволяет запускать конвейером несколько функций (как пайплайн).

```python
# функция копирования датафрейма
def copy_df(df):
   return df.copy()

# функция замены значений столбца на новые с помощью метода .map() 
def map_column(df, column, label1, label2):
  labels_map = {0: label1, 1 : label2}
  df[column] = df[column].map(labels_map)
  return df

# функция превращения количественной переменной в бинарную категориальную
def to_categorical(df, newcol, condcol, thres, cat1, cat2):
  df[newcol] = np.where(df[condcol] >= thres, cat1, cat2)
  return df

# последовательное применение функций с помощью нескольких методов .pipe()
people_processed = (people.
                    pipe(copy_df). # copy_df() применится ко всему датафрейму
                    pipe(map_column, 'gender', 'female', 'male'). # map_column() к столбцу gender
                    pipe(to_categorical, 'age_group', 'age', 18, 'adult', 'minor')) # to_categorical() к age_group
```

#### Использование `include` и `exclude`

Выберем столбцы только с типами данных `int` и `float`:
```python
countries.select_dtypes(include = ['int64', 'float64'])
```

Выберем столбцы с любыми типами данных, кроме `object` и `category`:
```python
countries.select_dtypes(exclude = ['object', 'category'])
```

Выбрать все столбцы у которых в названии есть `nearest`:
```python
distance_cols = [col for col in df.columns if 'nearest' in col] # вариант 1

distance_cols = df.columns[df.columns.str.contains('nearest')] # вариант 2
```

#### Замена значений в датафрейме по условию

1. С помощью метода `.loc`.

```python
df.loc[df['column_name'] == 'заменяемое_значение', 'column_name'] = 'значение_на_которое_заменяют'
```

2. С помощью функции `np.where()`.

```python
df['column_name'] = np.where(df['column_name'] == 'заменяемое_значение', 'заменяющее_значение_если_условие_выполняется', 'заменяющее_значение_если_условие_НЕ_выполняется')
```

3. С помощью метода `.mask`.

```python
df['column_name'].mask( df['column_name'] == 'заменяемое_значение', 'заменяющее_значение' , inplace=True)
```

## Разное

#### Переустановка и удаление библиотек Python

В Windows 10, если нужно использовать команду `pip` в комендной строке Windows `cmd` (а не только в командной строке Anaconda), необходимо добавить 3 пути среды в Path (название пути зависит от того, куда устанавливали Anaconda):
```
C:\Users\Victor\anaconda3 
C:\Users\Victor\anaconda3\Scripts
C:\Users\Victor\anaconda3\Library\bin
```

*Вывести список всех установленных библиотек с их версиями:*
```
pip freeze
```
или
```
pip list
```
или подробная информация о конкретной библиотеке (с названием `name`):
```
pip show name
```

*Обновление библиотеки (name - название обновляемой библиотеки):*
```
pip install --upgrade name
```

*Переустановка библиотеки:*
```
pip install --upgrade --no-deps --force-reinstall name
```
, где:
- --upgrade: обновить все указанные пакеты до последней доступной версии;
- --no-deps: не устанавливать зависимости пакетов, если предполагается, что зависимости не требуют переустановки (зависимости - библиотеки от которых зависит эта библиотека);
- --force-reinstall: переустановить все пакеты, даже если они уже обновлены до последней версии;
- name: название библиотеки.

*Переустановка библиотеки и всех её зависимостей без удаления текущих версий (name - название библиотеки):*
```
pip install --ignore-installed name
```

*Переустановить или установить дополнительно библиотеку нужной версии:*
```
pip install --force-reinstall -v "name==1.2.2"
```
, где:
- --force-reinstall: переустановка версии вместо текущей (если не указывать этот параметр, то будет установлена указанная версия библиотеки без удаления ужеверсии, которая уже установлена);
- -v: количество подробностей обтображения информации (verbose), может быть -v, -vv или -vvv;
- name: название библиотеки;
- 1.2.2: конкретная версия библиотеки.

Можно установить диапазон версий библиотеки (если имеющиеся версии перед этим нужно удалить, то устанавливают параметр --force-reinstall), например:
```
pip install 'stevedore>=1.3.0,<1.4.0' --force-reinstall
```

*Удаление библиотеки (name - имя удаляемой библиотеки):*
```
pip uninstall name
```

Если установлено несколько версий одной библиотеки, то сделать соответствующее количество раз `pip uninstall name`.

*Можно удалять (или устанавливать) через `python`, как среду для `pip`:*
```
python -m pip uninstall name
```

*Можно просто удалить с компьютера папку, где находится библиотека:*

Просмотр каталога, где установлен пакет, - `.__path__`. Просмотр файла, где находится модуль, - `.__file__`. Пример:
```python
import pandas as pd
print(pd.__path__)
print(pd.__file__)
```
Результат:
```
['c:\\Users\\Victor\\anaconda3\\lib\\site-packages\\pandas']
c:\Users\Victor\anaconda3\lib\site-packages\pandas\__init__.py
```

#### Команды чтения и записи файлов в `pandas`

|Чтение|Запись|
|:----:|:----:|
|read_csv	|to_csv
|read_excel	|to_excel
|read_hdf	|to_hdf
|read_sql	|to_sql
|read_json	|to_json
|read_html	|to_html
|read_stata	|to_stata
|read_clipboard	|to_clipboard
|read_pickle	|to_pickle
|read_msgpack	|to_msgpack (экспериментальный)
|read_gbq	|to_gbq (экспериментальный)

#### Конструкция `try - except`

Применяется для обработки исключений (отслеживания ошибок без прерывания выполнения кода).


In [11]:

try:
    inp = input('Введите целое число:') # ожидание ручного ввода
    x = int(inp) # преобразование введенного в целое число
except ValueError:
    print('Ошибка! Вы ввели', inp, 'а нужно ввести целое число.')
else:
    print('Верно. Вы ввели число.')
    print('Ваше число:', x)
    print('Ваше число во второй степени:', x*x)
finally:
    print('Конец') # то, что указано после finally выполнится в любом случае


Ошибка! Вы ввели gzb а нужно ввести целое число.
Конец


#### Конструкция `with - as`

Применяется для обязательного выполнения каких-либо критических функций, даже если произойдет ошибка или пользователь забудет это сделать (например, если открыли файл, то его нужно обязательно закрыть).

In [22]:
# открываем файл 'test.txt' для записи и чтения 'a+' в кодировке 'utf-8' и сохраняем его в переменной file
# записывем в файл фразу 'Новая запись'
# за счет того, что функция открытия файла open находится внутри конструкции with-as, после выхода из конструкции, файл будет закрыт
with open('test.txt', mode='a+', encoding='utf-8') as file:
	file.write ("\nНовая запись в конце файла")

#### Снятие ограничении на количество отображаемых строк, столбцов и количества символов в ячейке таблиц датасетов

``` python
# сброс ограничений на количество выводимых строк
pd.set_option('display.max_rows', None)
# сброс ограничений на число столбцов
pd.set_option('display.max_columns', None)
# сброс ограничений на количество символов в ячейке
pd.set_option('display.max_colwidth', None)

# установка отображения 10 строк (5 первых и 5 последних)
# (нечетные значения округляются до ближайшего меньшего четного)
pd.set_option('display.max_rows', 10)
# установка отображения 6 столбцов (3 первых и 3 последних)
# (нечетные значения округляются до ближайшего меньшего четного)
pd.set_option('display.max_columns', 6)
# установка отображения до 15 символов в ячейке
pd.set_option('display.max_colwidth', 15)
```

#### Отключение и включение экспоненциального представления чисел (в формате 10 в степени)

Глобально для чисел с плавающей запятой:
```python
pd.set_option('display.float_format', lambda x: '%.9f' % x) # отключить - устанавливается более высокая точность после запятой (9 знаков)
pd.reset_option('display.float_format', silent=True) # сброс к исходным настройкам
df['big float'].apply(lambda x: '%.9f' % x) # для датасета
```
Ещё вариант: `df.to_html(float_format='{:10.9f}'.format)` , где `{:10.9f}` можно прочитать так:
- `10` - указывает общую длину числа, включая десятичную часть
- `9` - используется для указания 9 знаков после запятой  
Другие примеры: `{:30,.18f}` и `{:,.3f}`

```python
pd.options.display.float_format = '{:20,.2f}'.format # глобально (20 знаков до запятой, 2 знака - после запятой)
# '{: .2f}' - любое количество знаков до запятой (пробел вместо числа)
print('{:20,.8f}'.format(12333344445676.0123456789)) # использование с командой `print`
```

Отключение экспоненциального представления чисел на графиках:
```python
plt.ticklabel_format(style='plain')
```

#### Измерение времени 

Команда `%%time`. Показывает время выполнения ячейки с кодом.


Библиотека `time`

```python
# засекаем время
start_time = time.time()
# подсчет времени выполнения
lg_time_fit = time.time() - start_time
# вывод в виде часов, минут, секунд
time.strftime('%H:%M:%S', time.gmtime(lg_time_fit))
```

#### Метод `astype('datetime64[M]')`

Альтернатива использованию класса `pd.DatetimeIndex`.  
Обычно в датафреймах содержатся данные за несколько лет. Важно выбрать корректный метод для вычленения месяца, иначе месяца разных годов могут стать одним месяцем. Если года разные, то в новой колонке месяца у тебя отобразится первый день месяца ('2019-05-01'). Этот метод нужен для визуализации динамики по неделям, месяцам или годам (в зависимости от выбора метода).
    
Пример:
```python
df['first_day_exposition'].dt.date #приводим к временному формату
df['first_day_exposition'].astype('datetime64[M]') 
```

#### Зафиксировать точку отсчета генератора случайных чисел

```python
# зададим точку отсчета
np.random.seed(12345)
# после этого сгенерированная случайная выборка будет постоянна

# генерация нормального распределения из 1000 чисел
# среднее значение 90, стандартное отклонение 20
values = np.random.normal(90, 20, 1000)
# построение гистограммы распределения, определение его параметров
pd.Series(values).hist(bins=100)
print(values.mean())
print(values.std())
print(np.quantile(values, 0.9))
print(np.quantile(values, 0.1))
```

#### Метод `np.var()`

Расчет дисперсии совокупности или выборки. Совокупность - это весь набор данных. Выборка - это часть набора данных по которой судят о совокупности. Дисперсия совокупности называется сигма в квадрате ($\sigma^2$) и в формуле её расчета  в знаменателе стоит `(n)`. Дисперсия выборки называется эс в квадрате ($s^2$) и в формуле её расчета  в знаменателе стоит `(n-1)`.

```python
import numpy as np

x = [1, 2, 3, 4, 5, 6] # совокупность
variance = np.var(x)
print(variance) 

x = [1, 2, 3, 4, 5, 6] # выборка
variance_estimate = np.var(x, ddof=1) # указан параметр "ddof=1" для расчета дисперсии выборки (чтобы делилось на (n-1))
print(variance_estimate) 
```

#### Метод `np.std()`

Расчет стандартного отклонения для совокупности и выборки. Стандартное отклонение ($\sigma$) или ($s$) - это квадратный корень из дисперсии для совокупности или выборки соответственно.
```python
import numpy as np

x = [1, 2, 3, 4, 5, 6]  # совокупность
standard_deviation = np.std(x)
print(standard_deviation)

x = [1, 2, 3, 4, 5, 6] # выборка
standard_deviation = np.std(x, ddof=1) # указан параметр "ddof=1" для расчета дисперсии выборки (чтобы делилось на (n-1))
print (standard_deviation) 
```

#### Метод `np.sqrt()`

Вычисление квадратного корня.
```python
import numpy as np
variance = 2.9166666666666665
standard_deviation = np.sqrt(variance)
print(standard_deviation)
```

#### Функция `diff()`

Расчет производной в библиотеке `sympy`.

```python
# импорт библиотеки
from sympy import *
# определение переменных
x = Symbol('x')
y = Symbol('y')
# определение функции f
f = 1/2*(x-y)**2
# взятие производной функции f по y
print(diff(f, y))
```
результат:  
```python
-1.0*x + 1.0*y
```

#### Бутстрап

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#np.random.seed(12345)

# данные контрольной группы A
samples_A = pd.Series([
     98.24,  97.77,  95.56,  99.49, 101.4 , 105.35,  95.83,  93.02,
    101.37,  95.66,  98.34, 100.75, 104.93,  97.  ,  95.46, 100.03,
    102.34,  98.23,  97.05,  97.76,  98.63,  98.82,  99.51,  99.31,
     98.58,  96.84,  93.71, 101.38, 100.6 , 103.68, 104.78, 101.51,
    100.89, 102.27,  99.87,  94.83,  95.95, 105.2 ,  97.  ,  95.54,
     98.38,  99.81, 103.34, 101.14, 102.19,  94.77,  94.74,  99.56,
    102.  , 100.95, 102.19, 103.75, 103.65,  95.07, 103.53, 100.42,
     98.09,  94.86, 101.47, 103.07, 100.15, 100.32, 100.89, 101.23,
     95.95, 103.69, 100.09,  96.28,  96.11,  97.63,  99.45, 100.81,
    102.18,  94.92,  98.89, 101.48, 101.29,  94.43, 101.55,  95.85,
    100.16,  97.49, 105.17, 104.83, 101.9 , 100.56, 104.91,  94.17,
    103.48, 100.55, 102.66, 100.62,  96.93, 102.67, 101.27,  98.56,
    102.41, 100.69,  99.67, 100.99])
#samples_A = pd.Series(np.random.normal(100, 4, size=(100))).round(2)

# данные экспериментальной группы B
samples_B = pd.Series([
    101.67, 102.27,  97.01, 103.46, 100.76, 101.19,  99.11,  97.59,
    101.01, 101.45,  94.8 , 101.55,  96.38,  99.03, 102.83,  97.32,
     98.25,  97.17, 101.1 , 102.57, 104.59, 105.63,  98.93, 103.87,
     98.48, 101.14, 102.24,  98.55, 105.61, 100.06,  99.  , 102.53,
    101.56, 102.68, 103.26,  96.62,  99.48, 107.6 ,  99.87, 103.58,
    105.05, 105.69,  94.52,  99.51,  99.81,  99.44,  97.35, 102.97,
     99.77,  99.59, 102.12, 104.29,  98.31,  98.83,  96.83,  99.2 ,
     97.88, 102.34, 102.04,  99.88,  99.69, 103.43, 100.71,  92.71,
     99.99,  99.39,  99.19,  99.29, 100.34, 101.08, 100.29,  93.83,
    103.63,  98.88, 105.36, 101.82, 100.86, 100.75,  99.4 ,  95.37,
    107.96,  97.69, 102.17,  99.41,  98.97,  97.96,  98.31,  97.09,
    103.92, 100.98, 102.76,  98.24,  97.  ,  98.99, 103.54,  99.72,
    101.62, 100.62, 102.79, 104.19])
#samples_B = pd.Series(np.random.normal(101, 4, size=(100))).round(2)

# фактическая разность средних значений в группах
AB_difference = samples_B.mean() - samples_A.mean() # < напишите код здесь >
print('Разность средних чеков:', AB_difference)
#print('Разность медиан чеков:', (samples_B.median() - samples_A.median()))

alpha = 0.05
    
state = np.random.RandomState(12345)

sredn = []
bootstrap_samples = 1000
count = 0
for i in range(bootstrap_samples):
    # объедините выборки
    united_samples = pd.concat([samples_A, samples_B]) # < напишите код здесь >

    # создайте подвыборку
    subsample = united_samples.sample(frac=1, replace=True, random_state=state) # < напишите код здесь >
    
    # разбейте подвыборку пополам
    subsample_A = subsample[:len(samples_A)] # < напишите код здесь >
    subsample_B = subsample[len(samples_A):] # < напишите код здесь >

    # найдите разницу средних
    bootstrap_difference = subsample_B.mean() - subsample_A.mean() # < напишите код здесь >
    sredn.append(bootstrap_difference)

    # если разница не меньше фактической, увеличиваем счётчик
    if bootstrap_difference >= AB_difference:
        count += 1

# p-value равно доле превышений значений
pvalue = 1. * count / bootstrap_samples
print('p-value =', pvalue)

if pvalue < alpha:
    print("Отвергаем нулевую гипотезу: скорее всего, средний чек увеличился")
else:
    print("Не получилось отвергнуть нулевую гипотезу: скорее всего, средний чек не увеличился")

sredn = pd.Series(data=sredn)
sredn.hist(bins=100)
plt.axvline (x=AB_difference, color='red', linestyle='--')
plt.show()
sredn.describe()
```

#### Редкие и аномальные значения.

Эти значения рекомендуется удалять.  
Они определяются "на глаз" по гистограммам отсекая хвосты, либо отсекается все что выходит за усы `boxplot`, либо находят диапазоны через квантили:

```python
lower_bound = table[col].quantile(q = 0.025)
upper_bound = table[col].quantile(q = 0.975)
```
Во всех этих методах удаляем выбросы, приняв за аксиому, что у нас должно быть нормальное распределение.

#### Библиотеки для обзора и анализа датасетов `pandas_profiling` и `sweetviz`

Позволяет сделать обзор датасета (`data`) одной командой.

Pandas Profiling

Ссылка на страницу с описанием в GitHab: https://github.com/revirevy/pandas-profiling

```python
# 1. загрузка и установка
# вариант 1:
pip install pandas_profiling
# вариант 2:
pip install pandas-profiling[notebook,html]
# вариант 3 установка прямо с GitHab:
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

# 2. импорт
# вариант 1:
import pandas_profiling
# который может выдавать ошибку, просить дополнительный импорт 'ydata_profiling':
import ydata_profiling
# вариант 2 сразу импортировать класс:
from pandas_profiling import ProfileReport

# требует импорта:
import numpy as np
import pandas as pd

# 3. применение
# вариант 1:
data.profile_report()
# вариант 2:
profile = ProfileReport(df, title='Pandas Profiling Report', html={'style':{'full_width':True}})

# создание интерактивного отчета в Jupyter Notebook (в Visual Studio Code ничего не отображал):
profile.to_widgets()
# или интерактивный отчет в Jupyter Notebook в виде html (в Visual Studio Code отображал тоже самое, что и обычное применение):
profile.to_notebook_iframe()

# сохранение в виде html файла:
profile.to_file(output_file="your_report.html")
# сохранение в виде json файла:
profile.to_file(output_file="your_report.json")
# или:
json_data = profile.to_json()
```

SweetVIZ

Ссылка на страницу с описанием: https://pypi.org/project/sweetviz/

```python
# 1. загрузка и установка
pip install sweetviz

# 2. импорт
import sweetviz as sw

# 3. применение
analyze_report = sw.analyze(data)
# отображение в ячейке Jupyter Notebook:
analyze_report.show_notebook(w=None, h=None, scale=None, layout='widescreen', filepath=None)
# сохранение результата в html:
analyze_report.show_html(filepath='output.html', open_browser=True, layout='widescreen', scale=None)

# 4. сравнение двух датасетов:
my_report = sv.compare([my_dataframe, "Training Data"], [test_df, "Test Data"], "Survived", feature_config)

# 5. сравнение подмножеств внутри одного датасета:
my_report = sv.compare_intra(my_dataframe, my_dataframe["Sex"] == "male", ["Male", "Female"], feature_config)
```

#### Распараллеливание выполнения команд для ускорения.

Применяется библиотека `pandarallel`. Распределяет вычисления не на один, а по всем доступным процессорам. Но при этом требует в два раза больше оперативной памяти. Можно ускорить выполнение некоторых команд `pandas`, заменяя их командами `pandarallel`.

Перечень распараллеливаемых команд:

|Без распараллеливания | С распараллеливанием |
|----------------------|----------------------|
df.apply(func) | df.parallel_apply(func)
df.applymap(func) | df.parallel_applymap(func)
df.groupby(args).apply(func) | df.groupby(args).parallel_apply(func)
df.groupby(args1).col_name.rolling(args2).apply(func) | df.groupby(args1).col_name.rolling(args2).parallel_apply(func)
df.groupby(args1).col_name.expanding(args2).apply(func) | df.groupby(args1).col_name.expanding(args2).parallel_apply(func)
series.map(func) | series.parallel_map(func)
series.apply(func) | series.parallel_apply(func)
series.rolling(args).apply(func) | series.rolling(args).parallel_apply(func)


```python
# импорт библиотеки
from pandarallel import pandarallel
# инициализация процессов распараллеливания
pandarallel.initialize(progress_bar=True)
# применение метода apply
df.parallel_apply(func)
```