# ФУНКЦИЯ FILTER

Часто требуется отобрать из последовательности элементы, удовлетворяющие определённому условию. Например, из списка пользовательских оценок видеоигры необходимо выделить только те, что выше 70 баллов. Такая операция называется фильтрацией — мы отсекаем данные, которые не проходят фильтр.

Мы уже решали подобные задачи с помощью цикла и условного оператора, но теперь мы расширим наши возможности с помощью специальных функций.

Посмотрим, как можно производить фильтрацию в итерируемых объектах с помощью встроенной функции filter(). Начнём с простого примера.

**Пример №1**

**Условие задачи**

Пусть у нас задан список слов words_list:

```
words_list = ["We're", 'in', 'a', 'small', 'village', 'near', 'Chicago', 'My', "cousin's", 'getting', 'married.']
```

Необходимо создать новый список even_list, содержащий только те слова из списка words_list, длина которых чётная. Например, если программа будет выполняться для списка, представленного выше, мы должны получить новый список следующего содержания:

```
['in', 'near', 'My', "cousin's", 'married.']
```

**Решение**

Её использование аналогично применению функции map(). Аргументы функции filter() следующие:

первый — функция, которая должна возвращать True, если условие выполнено, иначе возвращается False;
второй — итерируемый объект, с которым производится действие.

Можно записать это в виде шаблона кода:

```
filter(<имя_функции>, <итерируемый_объект>)
```

Напишем функцию is_even(), которая возвращает:

- True, если длина строки, переданной ей в качестве аргумента, делится на два без остатка (то есть является чётной);
- False — в противном случае.

```
# Объявляем функцию для проверки чётности длины строки
def is_even(x):
    return len(x) % 2 == 0
```

Теперь применим эту функцию к каждому элементу из списка words_list с помощью filter():

```
# Применяем функцию is_even() к каждому элементу списка
# Для этого передаём функцию is_even() и список words_list в функцию filter
even = filter(is_even, words_list)
# Смотрим, что получилось 
print(even)

## Будет выведено:
## <filter object at 0x000001758F62D2B0>
```
`Примечание. Функция filter() возвращает объект типа filter, который, как и объект map(), является итератором. Поэтому результат работы функции filter() стоит обернуть в список с помощью функции list().`

![image.png](attachment:image.png)

## Задание 8.1 (External resource)
У вас есть список prices стоимости аренды помещения под магазин за месяц. Вам необходимо создать список filtered_prices из стоимости, которая не выше 30000, чтобы уложиться в бюджет. В решении примените filter() и lambda.

**Примеры работы программы:**

```
prices = [34562, 66572, 25683, 17683, 56389, 28973]
## filtered_prices = [25683, 17683, 28973]
```


In [1]:
prices = [34562, 66572, 25683, 17683, 56389, 28973]
## filtered_prices = [25683, 17683, 28973]

lambda_filter_prices = lambda x: (x < 30000)
filtered_prices = list(filter(lambda_filter_prices, prices))
print(filtered_prices)

[25683, 17683, 28973]


## Задание 8.2 (External resource)

Допустим, вы работаете в отделе разработки в МФЦ. Центр предоставляет некоторый спектр услуг многодетным семьям. Необходимо создать функциональность, которая позволяет отфильтровать среди всех запрашиваемых пользователем услуг (их количество произвольное) только те, которые предоставляются многодетным семьям.

При решении задачи вам понадобится список услуг, предоставляемых многодетным семьям:

```
family_list = [
    'certificate of a large family',
    'social card',
    'maternity capital',
    'parking permit',
    'tax benefit',
    'reimbursement of expenses',
    "compensation for the purchase of children's goods"
 ]
```
Реализуйте функцию filter_family(): на вход подаётся список с названием услуг МФЦ, а в результате возвращается список услуг, которые могут быть оказаны только многодетной семье.

Для фильтрации входного списка аргументов используйте функцию filter().

**Примеры работы функции:**

```
print(filter_family(['newborn registration', 'parking permit', 
                     'maternity capital', 'tax benefit', 'medical policy']))
## ['parking permit', 'maternity capital', 'tax benefit']

```

In [None]:
family_list = [
    'certificate of a large family',
    'social card',
    'maternity capital',
    'parking permit',
    'tax benefit',
    'reimbursement of expenses',
    "compensation for the purchase of children's goods"
 ]

def filter_family(help_list):
   return list(filter(lambda x: x in family_list, help_list))

print(filter_family(['newborn registration', 'parking permit', 'maternity capital', 'tax benefit', 'medical policy']))
## ['parking permit', 'maternity capital', 'tax benefit']

['parking permit', 'maternity capital', 'tax benefit']


## Пример №4

**Условие задачи**

Вернёмся к нашей задаче из области анализа естественного языка о подсчёте длины слов. Нам дан список слов в предложении words_list:

```
# Список из слов
words_list = ["We're", 'in', 'a', 'small', 'village', 'near', 'Chicago', 'My', "cousin's", 'getting', 'married.']
Допустим, вначале мы хотим отобрать только те слова, которые состоят из пяти и более букв, а затем посчитать, сколько раз в таких словах встречается буква "a".
```

Результатом работы нашей программы должен стать список кортежей, где каждый кортеж состоит из двух элементов: слово и количество букв "a". Например, для списка words_list, представленного выше, у нас должен получиться следующий результат:
```
[("We're", 0), ('small', 1), ('village', 1), ('Chicago', 1), ("cousin's", 0), ('getting', 0), ('married.', 1)]
```

**Решение**

Итак, наш алгоритм действий:

Сначала фильтруем список по условию len(x) >= 5 с помощью функции filter(). Для фильтрации воспользуемся lambda-функцией:

```
lambda x: len(x) >= 5
```

Напишем lambda-функцию, которая приводит имя к нижнему регистру с помощью метода строки lower(), а затем методом строки count() вычисляет количество символов "a". Функция должна возвращать кортеж (имя, число букв "a"). 
Её вид будет следующий:
```
lambda x: (x, x.lower().count('a'))
```
Применим нашу функцию-преобразование к отфильтрованным данным с помощью map().

Конечный результат обернём в список с помощью функции list().

Наш конвейер, состоящий из filter() и map(), будет иметь вид:
```
# Отбираем слова из пяти и более букв
filtered_words = filter(lambda x: len(x) >= 5, words_list)
# Все отобранные слова переводим в нижний регистр и считаем число букв 'a' в них
# Результат выдаём в виде кортежа (слово, количество букв "a")
count_a = map(lambda x: (x, x.lower().count('a')), filtered_words)
# Переводим объект map в list и печатаем его
print(list(count_a))

## Будет выведено:
## [("We're", 0), ('small', 1), ('village', 1), ('Chicago', 1), ("cousin's", 0), ('getting', 0), ('married.', 1)]
```

## Задание 8.3 (External resource)

Мы снова занимаемся регистрацией пользователей. В нашем распоряжении есть список кортежей reg. В каждом кортеже хранится информация о зарегистрированном пользователе и его дате рождения в формате: Фамилия, Имя, день, месяц, год:

```
reg = [('Ivanov', 'Sergej', 24, 9, 1995),
      ('Smith', 'John', 13, 2, 2003),
      ('Petrova', 'Maria', 13, 3, 2003)]
```
ыберите из списка reg только те записи, в которых год рождения пользователя больше 2000 (2001, 2002 и т. д.). Из оставшихся записей составьте новый список кортежей, в котором фамилия и имя объединены в одну строку по следующему шаблону: Фамилия И.

```
new_reg = [('Smith J.', 13, 2, 2003), ('Petrova M.', 13, 3, 2003)]
```

Для решения задачи используйте конвейер из filter() и map().

Обратите внимание: задана двумерная структура, то есть функции фильтрации и преобразования, указываемые в аргументах в filter() и map(), принимают на вход один кортеж и должны обрабатывать его.

В результате работы программы должен быть создан обновленный список кортежей с именем переменной new_reg.

In [11]:
reg = [('Ivanov', 'Sergej', 24, 9, 1995),
      ('Smith', 'John', 13, 2, 2003),
      ('Petrova', 'Maria', 13, 3, 2003)]

filter_on_date = filter(lambda x: x[4] > 2000, reg)
new_reg = map(lambda x: (x[0] + ' ' + x[1][0] + '.', x[2], x[3], x[4]), filter_on_date)
print(list(new_reg))

[('Smith J.', 13, 2, 2003), ('Petrova M.', 13, 3, 2003)]


# Задание 8.4 (External resource)

Вернёмся к задаче по оценке стоимости недвижимости.

В списке data представлены усреднённые данные по домам в районах Бостона. Каждый вложенный в список кортеж описывает средние данные по одному району (для примера представлены данные о семи участках). В этом кортеже представлены следующие признаки (в порядке следования):

x₁ — уровень преступности на душу населения по городам;
x₂ — среднее количество комнат в доме;
x₃ — доля зданий, построенных до 1940 г. и занимаемых владельцами;
x₄ — полная ставка налога на имущество за каждые 10 000 долларов стоимости;
x₅ — процент населения с низким статусом.

**Пример данных:**

```
data = [(0.00632, 6.575, 65.2, 296.0, 4.98),
 (0.02731, 6.421, 78.9, 242.0, 9.14),
 (0.02729, 7.185, 61.1, 242.0, 4.03),
 (0.03237, 6.998, 45.8, 222.0, 2.94),
 (0.06905, 7.147, 54.2, 222.0, 5.33),
 (0.02985, 6.43, 58.7, 222.0, 5.21),
 (0.08829, 6.012, 66.6, 311.0, 12.43)]

```
Добавьте в набор данных новый признак, который будет равен произведению трёх признаков — x₁, x₄ и x₅. А затем выберите из исходного списка только те данные, для которых значение нового признака > 60.

В результате выполнения программы у вас должен получиться список кортежей. Каждый кортеж должен состоять из шести элементов: первые пять — исходные признаки, а шестой элемент — сгенерированный признак, округлённый до двух знаков после запятой. Результирующий список кортежей занесите в переменную filtered_data.

Например, для исходного списка data, представленного выше, у вас должен получиться следующий список filtered_data:

```[(0.02731, 6.421, 78.9, 242.0, 9.14, 60.41),
 (0.06905, 7.147, 54.2, 222.0, 5.33, 81.7),
 (0.08829, 6.012, 66.6, 311.0, 12.43, 341.31)]

```

In [None]:
data = [
   (0.00632, 6.575, 65.2, 296.0, 4.98),
   (0.02731, 6.421, 78.9, 242.0, 9.14),
   (0.02729, 7.185, 61.1, 242.0, 4.03),
   (0.03237, 6.998, 45.8, 222.0, 2.94),
   (0.06905, 7.147, 54.2, 222.0, 5.33),
   (0.02985, 6.43, 58.7, 222.0, 5.21),
   (0.08829, 6.012, 66.6, 311.0, 12.43)
]

# Add the new feature and filter the data
filtered_data = list(filter(lambda x: x[5] > 60, map(lambda x: x + (round(x[0] * x[3] * x[4], 2),),data)))

print(filtered_data)

[(0.02731, 6.421, 78.9, 242.0, 9.14, 60.41), (0.06905, 7.147, 54.2, 222.0, 5.33, 81.7), (0.08829, 6.012, 66.6, 311.0, 12.43, 341.31)]
