Функция Pandas DataFrame.apply() и параметры
Источник: https://pythonpip.ru/pandas/funktsiya-pandas-dataframe-apply

Функция Pandas DataFrame.apply() позволяет пользователю передать функцию и применить ее к каждому отдельному значению серии Pandas. 

Объекты, которые должны быть переданы в функцию, представляют собой объекты Series, индекс которых является либо индексом DataFrame, т. е. ось = 0, либо столбцами DataFrame, т. е. ось = 1.

По умолчанию result_type=None, а окончательный тип возвращаемого значения выводится из типа возвращаемого значения примененной функции. В противном случае это зависит от аргумента result_type.

Синтаксис
DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds) 


Параметры
func: это функция, которая применяется к каждому столбцу или строке.

axis: {0 или ‘index’, 1 или ‘columns’}, значение по умолчанию 0. Это ось, вдоль которой применяется функция. Может иметь два значения:
      0 или «index»: функция применяется к каждому из столбцов.  
      1 или «columns»: функция применяется к каждой из строк.

broadcast: это необязательный параметр, который возвращает логические значения.Актуально только для функций агрегации:
      False или None: возвращает серию, длина которой будет равна длине индекса или количеству столбцов на основе параметра оси.
      True: результаты будут транслироваться в исходную форму кадра; исходный индекс и столбцы будут сохранены.

raw: bool, значение по умолчанию False.  
      False: функция передает каждую строку или столбец как серию.
      True: переданная функция получит объекты ndarray. Если вы применяете функцию сокращения NumPy, она повысит производительность.

reduce: bool или None, значение по умолчанию None.Он пытается применить процедуры сокращения. Если DataFrame пуст, приложение будет использовать сокращение, чтобы определить, должен ли результат быть серией или DataFrame.По умолчанию, reduce=None, возвращаемое значение приложения будет угадываться путем вызова func для пустой серии (примечание: все исключения, которые должны быть вызваны func, будут игнорироваться при угадывании). Если reduce=True, Series всегда будет возвращаться, тогда как reduce=False всегда будет возвращаться DataFrame.

result_type: {‘expand’, ‘reduce’, ‘broadcast’, None}, значение по умолчанию None.Они действуют только тогда, когда ось = 1 (столбцы):
     «expand»: определяет результаты, похожие на список, которые будут преобразованы в столбцы.
     «reduce»: это противоположность «expand». Если возможно, он возвращает серию, а не расширяет результаты в виде списка.
     «broadcast»: он транслирует результаты в исходную форму DataFrame, исходный индекс и столбцы будут сохранены.
     None Значение по умолчанию None зависит от возвращаемого значения применяемой функции, т. е. результатов, подобных списку, возвращаемых в виде серии из них.
     Если apply возвращает серию, она расширяется до столбцов.

args: это позиционный аргумент, который должен быть передан в func в дополнение к массиву/серии.

**kwds: это необязательный аргумент ключевого слова, который используется для передачи аргументов ключевого слова в func.

Returns
Он возвращает результат применения func по заданной оси DataFrame.


apply() для преобразования одного столбца
Рассмотрим пример на данных о кликах на сайте с четырьмя магазинами. Допустим, произошла техническая ошибка, и по первому магазину количество кликов завышено на 50 штук. Исправим это с помощью apply(). Подгрузим данные:

import pandas as pd

df_clicks = pd.read_json('./data/Cite_clicks.csv', index_col=0')
print(df_clicks.head())
# =>   SHOP1    SHOP2   SHOP3   SHOP4
# day
#  1    319.0   -265.0  319.0   328.0
#  2    292.0   274.0   292.0   301.0
#  3    283.0   301.0   274.0   283.0
#  4    328.0   364.0   328.0   NaN
#  5    391.0   355.0   373.0   337.0

Уменьшим значения продаж для первого магазина на 50 пунктов:

df_clicks['SHOP1'] = df_clicks['SHOP1'].apply(lambda x: x - 50)
print(df_clicks.head())
# =>   SHOP1    SHOP2   SHOP3   SHOP4
# day
# 1    269.0    -265.0  319.0   328.0
# 2    242.0    274.0   292.0   301.0
# 3    233.0    301.0   274.0   283.0
# 4    278.0    364.0   328.0   NaN
# 5    341.0    355.0   373.0   337.0

В аргументах apply() находится лямбда-функция языка Python. У нее нет названия, и она используется только в конкретном участке кода. В нашем случае лямбда-функция принимает на вход параметр x и возвращает x - 50. Каждое значение в столбце — это вход указанной функции. Новый столбец формируется из ее выходных значений.

Теперь представим, что появилась дополнительная информация. Количество кликов у магазина 2 завышено на 50 штук, если кликов не более 200, и на 100, если кликов более 200. Попробуем исправить и эту ошибку:

def correct_clicks(x):
    if x < 200:
        return x - 50
    else:
        return x - 100

df_clicks['SHOP2'] = df_clicks['SHOP2'].apply(correct_clicks)
print(df_clicks.head())
# =>    SHOP1   SHOP2   SHOP3   SHOP4
# day
#  1    269.0   -315.0  319.0   328.0
#  2    242.0   174.0   292.0   301.0
#  3    233.0   201.0   274.0   283.0
#  4    278.0   264.0   328.0   NaN
#  5    341.0   255.0   373.0   337.0

Здесь вместо лямбда-функции в аргументах метода apply() отдельная функция correct_clicks(). Она принимает на вход каждый элемент столбца и выполняет над ним описанное выше преобразование

Теперь мы узнаем, что у второго столбца порог 200 кликов — это порог между разницей в 50 или 100, у третьего этот порог равен 150 и у четвертого — 250. Выполним параметризацию функции correct_clicks():

def correct_clicks(x, threshold):
    if x < threshold:
        return x - 50
    else:
        return x - 100

df_clicks['SHOP3'] = df_clicks['SHOP3'].apply(lambda x: correct_clicks(x, 150))
df_clicks['SHOP3'] = df_clicks['SHOP3'].apply(lambda x: correct_clicks(x, 250))

print(df_clicks.head())
# =>   SHOP1    SHOP2   SHOP3   SHOP4
# day
#  1    269.0   -315.0  169.0   328.0
#  2    242.0   174.0   142.0   301.0
#  3    233.0   201.0   124.0   283.0
#  4    278.0   264.0   178.0   NaN
#  5    341.0   255.0   173.0   337.0
В случае параметризации необходимо использовать correct_clicks() в теле лямда-функции.

apply() для преобразования нескольких столбцов

Предположим, что нам необходимо найти наибольшее число кликов за каждый день среди магазинов 1 и 3. Сформируем новый столбец MAX_SHOP1_SHOP3:

df_clicks['SHOP1'] = df_clicks['SHOP1'].fillna(df_clicks['SHOP1'].mean())
df_clicks['SHOP3'] = df_clicks['SHOP3'].fillna(df_clicks['SHOP3'].mean())

df_clicks['MAX_SHOP1_SHOP3'] = df_clicks.apply(lambda x: max(x['SHOP1'], x['SHOP3']), axis=1)
print(df_clicks.head())
# =>   SHOP1    SHOP2   SHOP3   SHOP4   MAX_SHOP1_SHOP3
# day
#  1    269.0   -315.0  169.0   328.0    269.0
#  2    242.0   174.0   142.0   301.0    242.0
#  3    233.0   201.0   124.0   283.0    233.0
#  4    278.0   264.0   178.0   NaN      278.0
#  5    341.0   255.0   173.0   337.0    341.0
В первых двух строчках мы заполнили пропуски в данных средними значениями с помощью метода fillna(). Это нужно, чтобы не было ошибок при вызове функции max(). Далее apply() применяется ко всему DataFrame. Параметр axis задает направление обхода набора данных:

0 задает обход по столбцам
1 задает обход по строкам
Мы использовали значение 1, так в качестве аргумента x лямбда-функции выступают строки набора данных. Так как мы ищем максимум среди 1 и 3 магазинов, то обращаемся к соответствующим значениям по ключам магазинов: SHOP1 и SHOP3.

Теперь учтем следующую информацию: если максимум окажется больше, чем 200, то мы должны заполнить столбец числом -1. Это будет говорить о некоторой технической ошибке:

def correct_max(x, threshold):
    if max(x['SHOP1'], x['SHOP3']) > threshold:
        return -1
    return max(x['SHOP1'], x['SHOP3'])

df_clicks['MAX_SHOP1_SHOP3_CORRECT'] = df_clicks.apply(lambda x: correct_max(x, 200), axis=1)
print(df_clicks.head())
# =>    SHOP1   SHOP2   SHOP3   SHOP4   MAX_SHOP1_SHOP3 MAX_SHOP1_SHOP3_CORRECT
# day
#  1    269.0   -315.0  169.0   328.0     269.0                -1.0
#  2    242.0   174.0   142.0   301.0     242.0                -1.0
#  3    233.0   201.0   124.0   283.0     233.0                -1.0
#  4    278.0   264.0   178.0   NaN       278.0                -1.0
#  5    341.0   255.0   173.0   337.0     341.0                -1.0