# MAP, FILTER, REDUCE
Функции map, filter и reduce в Python являются важными инструментами функционального программирования, позволяющими эффективно обрабатывать коллекции данных.  Эти функции предоставляют удобные возможности для создания кратких и выразительных конструкций обработки данных, сохраняя при этом эффективность и читаемость кода.

Функциональный стиль программирования подразумевает декларативный подход к написанию кода, мы описываем, что нужно сделать, а не как это нужно сделать.

В литературе функции map, filter, reduce еще называют функциями высшего порядка. Что означает, что эти функции могут принимать на вход другие функции и возвращать функции-итераторы. Это позволяет создавать абстракции и композиции операций обработки коллекций без использования циклов. Примеры такого использования мы рассмотрим ниже.

## Лямбда-функции
С функциями map, filter, reduce часто используются лямбда-функции. Поэтому познакомимся сначала с ними.

Лямбда-функции в Python - это способ создания анонимных функций, то есть функций без имени. Они часто используются для описания небольших одноразовых функций, выполнение которых не требует полного определения функции с использованием def. Лямбда-функции особенно удобны для использования в аргументах функций, которые принимают другие функции в качестве параметров, например, таких как map, filter или sorted.

In [5]:
points = [(1, 2), (3, 4), (5, -1)]
points_sorted_by_y = sorted(points, key=lambda point: point[1])
points_sorted_by_y

[(5, -1), (1, 2), (3, 4)]

map()
Функция принимает два аргумента: функцию (предикат) и итерируемый объект. Она применяет функцию к каждому элементу итерируемого объекта и возвращает итератор с результатами.

In [6]:
nums = [1, 2, 3, 4]
squared_nums = list(map(lambda x: x**2, nums))

print(squared_nums)

[1, 4, 9, 16]


Функции map, filter, reduce являются итераторами (не хранят значения в памяти и вычисляют следующий элемент на очередной итерации). Поэтому, если необходимо вывести результат функцией print, результат необходимо обернуть в функцию list.

filter()
Функция принимает два аргумента: функцию (предикат) и итерируемый объект, применяет функцию-предикат к каждому элементу и возвращает итератор с теми элементами, для которых функция-предикат вернула True.

In [7]:
nums = [1, 2, 3, 4, 5, 6]
even_nums = list(filter(lambda x: x % 2 == 0, nums))

print(even_nums)

[2, 4, 6]


reduce()
Это функция из модуля functools. Она применяет заданную функцию-предикат кумулятивно к элементам итерируемого объекта (слева направо) так, чтобы привести итерируемый объект к единственному значению. Функция всегда возвращает одно значение.

In [8]:
from functools import reduce


data = range(1, 5)
sum_of_data = reduce(lambda x, y: x + y, data)

print(sum_of_data)

10


Функции можно использовать совместно передавая одну в качестве аргумента в другую.



In [9]:
from functools import reduce


# Исходный список чисел
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Суммируем квадраты
sum_of_squares = reduce(lambda x, y: x + y, map(lambda x: x**2, numbers))

print(sum_of_squares)


385


In [10]:
from functools import reduce


# Исходный список чисел
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Фильтруем четные числа
even_numbers = filter(lambda x: x % 2 == 0, numbers)

# Возводим четные числа в квадрат
squared_even_numbers = map(lambda x: x**2, even_numbers)

# Суммируем квадраты
sum_of_squares = reduce(lambda x, y: x + y, squared_even_numbers)

print(sum_of_squares)


220


В библиотеке Pandas, предназначенной для работы с табличными данными, функции подобные map и apply используются для трансформации данных в столбцах DataFrame или Series.

map в Pandas: Этот метод применяется к каждому элементу Series для выполнения преобразования или применения функции.
apply в Pandas: Похож на map, но более мощный, так как может применяться к DataFrame, обрабатывая данные вдоль оси (строки или столбцы).
Apache Spark - это мощная система для обработки больших данных, которая использует функции, аналогичные map и reduce, для распределенной обработки данных.

map в Spark: Применяется к каждому элементу RDD (Resilient Distributed Dataset) и возвращает новый RDD, что позволяет выполнять распределенные вычисления.
reduce в Spark: Используется для агрегирования данных в RDD, например, для суммирования или нахождения максимального значения.

# Задание
Задание 1: Из списка продаж фильтровать те, что превышают определенную сумму, и применить к ним налог.


In [12]:
from typing import List


def sales_with_tax(sales: List[float], tax_rate: float, threshold: float = 300) -> List[float]:
    """Filter sales by tax rate"""
    return list(map(lambda x: x * (1 + tax_rate), filter(lambda x: x > threshold, sales)))

sales_with_tax([100, 200, 300, 400, 500], 0.1, 250)

[330.0, 440.00000000000006, 550.0]

Задание 2: Суммировать продажи после фильтрации по минимальной сумме продажи.




In [13]:
from functools import reduce
from typing import List


def sum_sales(sales: List[float], threshold: float = 300) -> float:
    """Sum sales filtered by tax rate"""
    return reduce(lambda x, y: x + y, filter(lambda x: x > threshold, sales))

sum_sales([150, 250, 350, 450, 550], 250)

1350

Задание 3: Найти средний возраст клиентов, чей возраст превышает определенный порог.

In [19]:
from functools import reduce
from typing import List


def average_age(ages: List[int], threshold: int = 30) -> float:
     """Average age calculate"""
     filtered_ages = list(filter(lambda x: x > threshold, ages))
     sum_of_ages = reduce(lambda x, y: x+ y ,filtered_ages)
     return sum_of_ages/len(filtered_ages)
average_age( [22, 35, 42, 55, 67, 18, 29], 25)

45.6

Задание 4: Увеличить цену каждого товара на 20% и отфильтровать те, чья итоговая цена превышает определенный порог.

In [21]:
from typing import List


def increased_prices(prices: List[float], increase_rate: float = 0.2, threshold: float = 300) -> List[float]:
    """Show filtered increase prices"""
    new_prices = map(lambda x: x + x*increase_rate, prices)
    return list(filter(lambda x: x > threshold,new_prices))
increased_prices([20, 30, 40, 50, 60], 0.2, 40)

[48.0, 60.0, 72.0]

Задание 5: Рассчитайте средневзвешенную цену проданных товаров. Взвешивать нужно на количество продаж. Т.е. количество выступает как вес в формуле средневзвешенного.

In [31]:
def weighted_sale_price(sales: List[float]) -> float:
    """Returns the weighted sale price"""
    nom = reduce(lambda x, y: x + y, list(map(lambda x: x[0]*x[1], sales)))
    den = reduce(lambda x, y: x + y, list(map(lambda sale: sale[1], sales)))
    return nom / den if den > 0 else 0

weighted_sale_price([(120, 2), (300, 5), (150, 3), (400, 1), (250, 4)])

239.33333333333334

In [24]:
from functools import reduce
from typing import List


def weighted_sale_price(sales: List[float]) -> float:
    """Returns the weighted sale price"""
    nom = reduce(lambda acc, sale: acc + sale[0] * sale[1], sales, 0.0)  # Sum of price * quantity
    den = reduce(lambda acc, sale: acc + sale[1], sales, 0)  # Sum of quantities
    return nom / den if den > 0 else 0  # Prevent division by zero

# Example usage
result = weighted_sale_price([(120, 2), (300, 5), (150, 3), (400, 1), (250, 4)])
print(result)  # Output: 239.0

239.33333333333334
