# НИС «Основы анализа данных в Python»

*Алла Тамбовцева*

## Необходимая теория к лабораторной работе №2

* Функция `map()` и lambda-функции
* Операции на массивах и функция `np.vectorize()`

### Функция `map()` и lambda-функции

Чтобы понимать, как работает метод `.apply()`, который позволяет применить функцию ко всем элементам столбца в датафрейме `pandas`, нужно вспомнить о функции `map()`, которая ведет себя подобным образом на списках и перечнях разного вида.

Пусть у нас есть список `L`, состоящий из строк:

In [1]:
L = ["2", "57", "7", "81", "101", "1000"]

Как можно заметить, каждую строку в `L` можно переделать в целое число. Однако функция `int()` сама по себе здесь не поможет, она работает только с отдельными значениями, а не со всем списком сразу. Как применить функцию `int()` ко всем элементам `L`,  не обращаясь при этом к циклам (и списковым включениям, где неявно используется цикл `for`)? 

Воспользоваться функцией `map()`. На месте первого аргумента в `map()` указывается название функции, которую нужно применить к элементам списка (или другой последовательности), а на месте второго – сам список:

In [2]:
map(int, L)

<map at 0x10732bdd0>

Единственное, функция `map()` возвращает скрытый объект, который временно хранится в какой-то ячейке памяти (здесь `0x7fbdb0376af0`). Чтобы получить более наглядный результат, переделаем объект `map` в список – объект типа `list`:

In [3]:
integers = list(map(int, L))
integers

[2, 57, 7, 81, 101, 1000]

Получилось! Список `integers` – список целых чисел, который мы получили на основе старого списка строк `L`. Таким же образом мы могли получить список значений типа `float()`:

In [4]:
list(map(float, L))

[2.0, 57.0, 7.0, 81.0, 101.0, 1000.0]

Теперь давайте рассмотрим более специфический пример. Пусть у нас есть список строк со словами:

In [5]:
words = ["спят", "усталые", "питоны", "змеи", "спят", 
         "и", "усталые", "студенты", "спать", "хотят"]

Нам нужно создать новый список слов, где все слова написаны заглавными буквами. На строках определен метод `.upper()`, который решает ровно эту задачу. Однако метод – это не функция, его нельзя вызвать без привязки к самой строке:

In [6]:
# upper без строки в начале не существует,
# Python'y не известно такое название

list(map(upper, words))

NameError: name 'upper' is not defined

Можно пойти на хитрость и написать не `upper()`, а `str.upper()`, сообщая, что мы имеем в виду метод `.upper()`, который определен на строках, то есть на типе `str`. Раз метод – это функция на определенном типе объектов, «составная» запись `str.upper()` воспринимается Python как обычное название функции. А значит, его можно записать внутри `map()`:

In [7]:
list(map(str.upper, words))

['СПЯТ',
 'УСТАЛЫЕ',
 'ПИТОНЫ',
 'ЗМЕИ',
 'СПЯТ',
 'И',
 'УСТАЛЫЕ',
 'СТУДЕНТЫ',
 'СПАТЬ',
 'ХОТЯТ']

Сработало! Как можно догадаться, с остальными методами на строках (например, `.lower()`, `.title()`, `.capitalize()`) это будет работать точно так же. Однако все равно остается вопрос – как быть, если:

* метод подразумевает аргумент (куда его вписывать, скобок-то нет);
* выполняемая операция более сложная и требует нескольких действий сразу.

В более общем случае на помощь приходят lambda-функции. Эти функции вы, скорее всего, встречали, в рамках функции `sorted()`, когда в аргументе `key` указывали порядок сортировки. Давайте рассмотрим их в контексте нашей задачи. 

Пусть теперь нам нужно не просто сделать все буквы в словах внутри `words` заглавными, а еще добавить после каждого восклицательный знак. Для этого определим lambda-функцию от аргумента `x`: 

In [8]:
lambda x: x.upper() + "!"

<function __main__.<lambda>(x)>

Ключевое слово `lambda` сообщает Python, что далее описывается функция (как и обычные функции через `def`, только здесь необязательно функции давать название, lambda-функции еще называют анонимными). Далее мы определяем аргумент функции, обозначая его через `x`,  и результат функции после `:`.  Если бы мы создавали обычную классическую функцию, ей пришлось бы дать название, и тогда это выглядело бы так:

    def new(x):
        return x.upper() + "!"

Подставляем выражение в `map()`:

In [9]:
list(map(lambda x: x.upper() + "!", words))

['СПЯТ!',
 'УСТАЛЫЕ!',
 'ПИТОНЫ!',
 'ЗМЕИ!',
 'СПЯТ!',
 'И!',
 'УСТАЛЫЕ!',
 'СТУДЕНТЫ!',
 'СПАТЬ!',
 'ХОТЯТ!']

Готово! Мы написали собственную маленькую функцию и применили ее ко всем элементам списка. 

Посмотрим на примеры подобных функций для чисел. Вернемся к списку `integers`:

In [10]:
print(integers)

[2, 57, 7, 81, 101, 1000]


Возведем каждый элемент списка в квадрат – напишем соответствующую lambda-функцию:

In [11]:
list(map(lambda x: x ** 2, integers))

[4, 3249, 49, 6561, 10201, 1000000]

А теперь получим остатки от деления на 2 – на месте нечетных чисел будут 1, а на месте четных – нули:

In [12]:
list(map(lambda x: x % 2, integers))

[0, 1, 1, 1, 1, 0]

Осталось рассмотреть ответ на еще более интересный вопрос: как быть, если нужная функция более сложная, и описывать ее одной строчкой после `lambda` неудобно? В таком случае можно написать обычную функцию через `def`, а затем применить ее, вызвав по названию внутри `map()`. Напишем несильно осмысленную, но рабочую функцию `status()`, которая принимает на вход число и:

* если число меньше 10, кодирует его 1;
* если число от 10 до 100 включительно, кодирует его 2;
* если число больше 100, кодирует его 3.

Чтобы не писать еще ответвления с условиями, давайте считать, что функция будет применяться к числам (нет пропусков или некорректных нечисловых значений).

In [13]:
# на входе: число x
# на выходе: число y – 1, 2, или 3

def status(x):
    if x < 10:
        y = 1
    elif x >= 10 and x <= 100:
        y = 2
    else:
        y = 3
    return y

Осталось указать название написанной функции в `map()`, уже без всяких `lambda`,  и применить ее ко всем элемента списка:

In [14]:
list(map(status, integers))

[1, 2, 1, 2, 3, 3]

Получили новый список из кодов значений. По такой же схеме можно будет выполнять перекодирование данных в таблицах, в датафреймах `pandas`: всегда можно написать функцию с перечислением всех действий, а потом вызывать ее в методе `.apply()`, применяемом к столбцу, значения в котором мы хотим закодировать.

### Операции на массивах и функция `np.vectorize()`

Ранее мы уже обсуждали, что операции на массивах `numpy` являются векторизованными – они применяются ко всем элементам массива одновременно. Давайте еще раз это вспомним, но теперь применительно к нескольким массивам сразу. Импортируем `numpy`:

In [15]:
import numpy as np

Создадим три массива:

* `valid`: число действительных бюллетеней на 5 избирательных участках;
* `invalid`: число недействительных бюллетеней на этих же участках;
* `total`: общее число зарегистрированных избирателей.

In [16]:
valid = np.array([630, 1023, 200, 290, 481])
invalid = np.array([10, 35, 0, 12, 20])
total = np.array([1350, 1899, 250, 744, 825])

Вычислим явку на каждом участке – просуммируем число действительных и недействительных бюллетеней для каждого участка:

In [17]:
valid + invalid

array([ 640, 1058,  200,  302,  501])

Операция сложения была произведена поэлементно: первый элемент `valid` сложился с первым элементом `invalid`, второй элемент – со вторым, и так далее. Если мы захотим перевести явку в проценты, достаточно будет разделить полученный результат на массив `total` (тоже поэлементно) и домножить на 100:

In [18]:
turnout = (valid + invalid) / total * 100
print(turnout)

[47.40740741 55.71353344 80.         40.59139785 60.72727273]


Для округления каждого значения явки в процентах базовая функция `round()` не подойдет, она умеет работать только с отдельными значениями:

In [19]:
round(turnout)

TypeError: type numpy.ndarray doesn't define __round__ method

Поэтому применим метод `.round()`, который определен на массивах, и заодно укажем точность округления – до второго знака после запятой:

In [20]:
turnout.round(2)

array([47.41, 55.71, 80.  , 40.59, 60.73])

Результат можем сохранить в новый массив `turnout_perc`:

In [21]:
turnout_perc = turnout.round(2)
print(turnout_perc)

[47.41 55.71 80.   40.59 60.73]


Теперь рассмотрим еще один сюжет, необязательный, но полезный, особенно если работать надо не с таблицами, а отдельными массивами или списками. Сюжет этот посвящен векторизации собственных функций с помощью функции `vectorize()` из библиотеки `numpy`. Что такое **векторизация** в данном случае? Превращение функции, которая применяется к отдельному значению, в функцию, которая применяется сразу ко всем элементам списка, массива или иной последовательности значений.

Так, например, в базовом модуле `math` есть функция `log()` для вычисления натурального логарифма. Она умеет считать логарифм от одного числа, но не умеет принимать на вход список или массив чисел. В библиотеке `numpy` тоже есть функция `log()`, она уже свободно работает с массивами и списками, логарифмируя все элементы в них. Получается, функция `log()` из `numpy` – это векторизованная версия функции `log()` из `math`. Чтобы понять, как векторизация работает, рассмотрим пример.

Пусть у нас есть массив с целочисленными номерами групп:

In [22]:
groups = np.array([221, 222, 223, 231, 232, 233, 
                   241, 242, 243, 244])

Наша задача – добавить к каждому числу слово `группа`. Если мы доклеим его через оператор `+` в надежде, что он доклеится к каждому элементу `groups`,  мы получим ошибку:

In [23]:
groups + " группа"

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('int64'), dtype('<U7')) -> None

Ошибка из класса `TypeError`: проблема в разнице типов, нельзя складывать целые числа и строки (здесь `'<U7'` – это юникодная строка не длиннее 7 символов, поскольку слово «группа» с пробелом столько и содержит). Если мы попробуем изменить тип массива `groups` на строковый, чтобы строка складывалась со строкой, ошибка все еще сохранится:

In [24]:
groups.astype(str) + " группа"

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('<U21'), dtype('<U7')) -> None

Когда мы изменяем тип на `str` через `.astype()`, Python резервирует под текст большее количество символов (здесь `21`, в других версиях значения могут отличаться). Поэтому снова получается несоответствие типов, строки не длиннее 21 символа `<U21` и строки не длиннее 7 символов `<U7`. Но, на самом деле, даже если мы выставим везде тип `<U7`, проблема останется, все-таки NumPy больше для работы с числами, поэтому операция сложения со строками в таком виде работать не будет. 

Поступим проще – напишем простую функцию через `def`, которая принимает на вход целое число, превращает его в строку и доклеивает слово «группа» с пробелом, а потом ее векторизуем.

In [25]:
def get_name(x):
    return str(x) + " группа"

С отдельным числом функция работает как надо:

In [26]:
print(get_name(241))
print(get_name(233))

241 группа
233 группа


А вот со списком – не очень:

In [27]:
# весь массив целиком превратился в строку,
# а к ней уже доклеилось слово

print(get_name(groups))

[221 222 223 231 232 233 241 242 243 244] группа


Векторизуем функцию через `np.vectorize()` и чтобы не перепутать, назовем новый вариант `get_name_v`:

In [28]:
get_name_v = np.vectorize(get_name)

Теперь применим функцию к массиву:

In [29]:
get_name_v(groups)

array(['221 группа', '222 группа', '223 группа', '231 группа',
       '232 группа', '233 группа', '241 группа', '242 группа',
       '243 группа', '244 группа'], dtype='<U10')

Порядок, векторизованная функция применилась к каждому элементу, результат получился такой, какой нужно.