In [None]:
import time
import numpy as np
import pandas as pd

# Лямбда-функция

- Также называется "анонимной функцией", потому что определяется без имени (в математике была введена в 1930-х).
- Лямбда-функция может принимать много аргументов, но возвращает всегда только одно выражение (результат).
- Обычно используется тогда, когда функция нужна на короткий промежуток времени, чтобы не писать полное определение.

Синтаксис:

lambda аргументы(ы): выражение

In [None]:
double = lambda x: x*2
print(double(5))
print(type(double))

10
<class 'function'>


In [None]:
# Задание: напишите две функции (обычную через def и лямбда-функцию) для сложения трех чисел и проверьте время их исполнения.

def add_three_digits(a: int, b: int, c: int) -> int:
  # TODO
   return a + b + c


# Переменная со значением времени на момент выполнения строки
start_time = time.time()
print("def result: ", add_three_digits(1, 2, 3))
print("--- %s seconds ---" % (time.time() - start_time))

start_time = time.time()
# TODO дямбда-функцию
sum = lambda a, b, c: a + b + c
print("lambda result: ", sum(1, 2, 3))
print("--- %s seconds ---" % (time.time() - start_time))

def result:  6
--- 0.002605438232421875 seconds ---
lambda result:  6
--- 0.0006902217864990234 seconds ---


In [None]:
# Использование лямбда-функции внутри другой функции ("замыкание")
def add(n):
    return lambda a: a + n

result = add(100)
print(result)
print("-------------------")
print(result(200))
print("-------------------")
print(result(300))
print("-------------------")
print(result(400))
print("-------------------")
print(result(500))

<function add.<locals>.<lambda> at 0x783def63b250>
-------------------
300
-------------------
400
-------------------
500
-------------------
600


## Лямбда-функции и функции высшего порядка
Лямбда-функция может использоваться как аргумент функции высшего порядка (функции, которая принимает другие функции в качестве аргументов).  Лямбда-функции используют вместе с такими встроенными функциями как filter(), map(),reduce() и др.

In [None]:
# Пример: фильтрование нечетных чисел в заданном списке.
my_list = [1, 2, 3, 4, 5, 6]
odd_numbers = list(filter(lambda x: x % 2 != 0, my_list))
print(odd_numbers)

[1, 3, 5]


In [None]:
# Задание: отсортируйте напитки по возрастанию цены. Hint: используйте аргумент key в функции sorted()
drinks = [("эспрессо", 100), ("американо", 120), ("латте", 150), ("черный чай", 50)]
sorted_drinks =  list(sorted(drinks, key = lambda x: x[1]))
print(sorted_drinks)

[('черный чай', 50), ('эспрессо', 100), ('американо', 120), ('латте', 150)]


In [None]:
# Задание: тот же список отсортируйте по первой букве названия напитка.
sorted_drinks = sorted(drinks, key=lambda drink: drink[0][0])
print(sorted_drinks)

[('американо', 120), ('латте', 150), ('черный чай', 50), ('эспрессо', 100)]


## Функции (включая лямбда) и pandas

- `assign()` function

  `assign()` method assigns new columns to a DataFrame, returning a new object (a copy) with the new columns added to the original ones. Existing columns that are re-assigned will be overwritten.

- `apply()` function
  Apply a function along an axis of the DataFrame.
  
  `apply()` allow the users to pass a function and apply it on every single value of the Pandas series.

In [None]:
df = pd.DataFrame({'num':[1,4,2], 'alpha':['apple','orange','peach']})
df['type'] = df['alpha'].apply(lambda x:type(x))
df

Unnamed: 0,num,alpha,type
0,1,apple,<class 'str'>
1,4,orange,<class 'str'>
2,2,peach,<class 'str'>


In [None]:
df = pd.DataFrame({'FieldA': ['U', 'O', 'P', 'A', 'Z'],
                     'FieldB': ['xxx-U.pdf', 'zzz-O.docx', 'yyy-Q.pdf', 'xxx-A.docx', 'yyy-K.pdf']
                    })
df

Unnamed: 0,FieldA,FieldB
0,U,xxx-U.pdf
1,O,zzz-O.docx
2,P,yyy-Q.pdf
3,A,xxx-A.docx
4,Z,yyy-K.pdf


In [None]:
# Способ 1
df['FieldC'] = df['FieldB'].apply(lambda item: item.endswith('.pdf'))
df

Unnamed: 0,FieldA,FieldB,FieldC
0,U,xxx-U.pdf,True
1,O,zzz-O.docx,False
2,P,yyy-Q.pdf,True
3,A,xxx-A.docx,False
4,Z,yyy-K.pdf,True


In [None]:
# Способ 2
def is_pdf(item):
    return item.endswith('.pdf')


df['FieldC'] = df['FieldB'].apply(lambda item: is_pdf(item))
df

Unnamed: 0,FieldA,FieldB,FieldC
0,U,xxx-U.pdf,True
1,O,zzz-O.docx,False
2,P,yyy-Q.pdf,True
3,A,xxx-A.docx,False
4,Z,yyy-K.pdf,True


In [None]:
# Способ 3
def is_pdf(row):
    return row['FieldB'].endswith('.pdf')

df['FieldC'] = df.apply(is_pdf, axis = 1)
df

In [None]:
# Способ 4
def is_pdf(item):
    return item.endswith('.pdf')

df['FieldC'] = df['FieldB'].apply(is_pdf)
df

Unnamed: 0,FieldA,FieldB,FieldC
0,U,xxx-U.pdf,True
1,O,zzz-O.docx,False
2,P,yyy-Q.pdf,True
3,A,xxx-A.docx,False
4,Z,yyy-K.pdf,True


In [None]:
# Задание: в датафрейме выше найти строки, в которых значение буквы в FieldA не совпадает со значением заглавной буквы в FieldB

# TODO
#df['B_upper'] = df['FieldB'].apply(lambda x: x.split('-')[1][0])
#df["FieldD"] = df["FieldA"] == df['B_upper']

result = df[['FieldA', 'FieldB']].apply(lambda x: (x['FieldB'].endswith(x['FieldA'] + '.pdf')) or (x['FieldB'].endswith(x['FieldA'] + '.docx')), axis = 1)
print(result)
result = df[result]
print(result)

0     True
1     True
2    False
3     True
4    False
dtype: bool
  FieldA      FieldB
0      U   xxx-U.pdf
1      O  zzz-O.docx
3      A  xxx-A.docx


# Numpy axes

В 2D:
- Axis 0 (ось 0) — это ось, проходящая сверху вниз по строкам.
- Axis 1 (ось 1) — это ось, проходящая горизонтально через колонки.

В np.sum(), mean(), min() и пр. параметр axis управляет тем, какая ось будет агрегирована.

In [None]:
X = np.arange(1, 10, 1)
X = np.reshape(X, (3, 3))
print(X)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
# Когда мы устанавливаем axis = 0, мы не суммируем по строкам.
# Мы агрегируем данные таким образом, что мы сворачиваем строки (то есть ось 0).
np.sum(X, axis = 0)

array([12, 15, 18])

In [None]:
# Аналогично с axis = 1
np.sum(X, axis = 1)

array([ 6, 15, 24])

In [None]:
# Задание: склейте два заданных массива вертикально, а потом горизонтальною. Hint: np.concatenate()
np_array_1s = np.array([[1,1,1],[1,1,1]])
np_array_9s = np.array([[9,9,9],[9,9,9]])
print(np_array_1s)
print(np_array_9s)

# TODO вертикально
vertical_np = np.concatenate((np_array_1s, np_array_9s), axis=0)
print('вертикально:')
print(vertical_np)

# TODO горизонально
horisontal_np = np.concatenate((np_array_1s, np_array_9s), axis=1)
print('горизонтально:')
print(horisontal_np)

[[1 1 1]
 [1 1 1]]
[[9 9 9]
 [9 9 9]]
вертикально:
[[1 1 1]
 [1 1 1]
 [9 9 9]
 [9 9 9]]
горизонтально:
[[1 1 1 9 9 9]
 [1 1 1 9 9 9]]


In [None]:
# Пример с прошлого раза
# Задание: из каждой строки матрицы вычтите ее среднее. Hint: метод np.mean(), передаем в него аргумент axis
print(X)

avg = np.mean(X, axis = 1, keepdims=True)
print(avg.shape)
print(avg)
print(X-avg)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 1)
[[2.]
 [5.]
 [8.]]
[[-1.  0.  1.]
 [-1.  0.  1.]
 [-1.  0.  1.]]
