# Сводные функции и карты
Извлекайте информацию из ваших данных.

# Вступление¶
В предыдущем уроке мы узнали, как выбирать релевантные данные из фрейма данных или ряда. Как мы продемонстрировали в упражнениях, выбор нужных данных из нашего представления данных имеет решающее значение для выполнения работы.

Однако данные не всегда сразу извлекаются из памяти в нужном нам формате. Иногда нам приходится самим проделать дополнительную работу, чтобы переформатировать их для выполнения текущей задачи. В этом руководстве будут рассмотрены различные операции, которые мы можем применить к нашим данным, чтобы получить "правильные" входные данные.

Чтобы начать упражнение по этой теме, пожалуйста, нажмите здесь.

Для демонстрации мы воспользуемся данными журнала Wine Magazine.

In [None]:
import pandas as pd
pd.set_option('display.max_rows', 5)
import numpy as np
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)

In [None]:
reviews

# Сводные функции¶
Pandas предоставляет множество простых "сводных функций" (неофициальное название), которые реструктурируют данные каким-либо полезным способом. Например, рассмотрим метод describe():

In [None]:
reviews.points.describe()

Этот метод генерирует высокоуровневую сводку атрибутов данного столбца. Он учитывает тип данных, что означает, что его выходные данные изменяются в зависимости от типа входных данных. Приведенный выше вывод имеет смысл только для числовых данных; для строковых данных мы получаем вот что:

In [None]:
reviews.taster_name.describe()

Если вы хотите получить какую-то конкретную простую сводную статистику по столбцу во фрейме данных или ряду, обычно есть полезная функция pandas, которая позволяет это сделать.

Например, чтобы увидеть среднее значение набранных баллов (например, насколько хорошо вино, получившее среднюю оценку), мы можем использовать функцию mean():

In [None]:
reviews.points.mean()

Чтобы просмотреть список уникальных значений, мы можем воспользоваться функцией unique():

In [None]:
reviews.taster_name.unique()

Чтобы просмотреть список уникальных значений и частоту их появления в наборе данных, мы можем использовать метод value_counts():

In [None]:
reviews.taster_name.value_counts()

# Карты
Карта - это термин, заимствованный из математики, для обозначения функции, которая принимает один набор значений и "сопоставляет" их с другим набором значений. В науке о данных нам часто приходится создавать новые представления на основе существующих данных или преобразовывать данные из формата, в котором они находятся сейчас, в формат, в котором мы хотим, чтобы они были позже. Именно карты выполняют эту работу, что делает их чрезвычайно важными для выполнения вашей работы!

Есть два метода отображения, которые вы будете часто использовать.

map() - это первый и немного более простой способ. Например, предположим, что мы хотели оставить оценки, полученные винами, равными 0. Мы можем сделать это следующим образом:

In [None]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

Функция, которую вы передаете в map(), должна ожидать одно значение из ряда (точечное значение в приведенном выше примере) и возвращать преобразованную версию этого значения. map() возвращает новый ряд, в котором все значения были преобразованы вашей функцией.

apply() - это эквивалентный метод, если мы хотим преобразовать весь фрейм данных, вызывая пользовательский метод для каждой строки.

In [None]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Если бы мы вызвали reviews.apply() с axis='index', то вместо передачи функции для преобразования каждой строки нам нужно было бы предоставить функцию для преобразования каждого столбца.

Обратите внимание, что map() и apply() возвращают новые, преобразованные ряды и фреймы данных соответственно. Они не изменяют исходные данные, на основе которых они вызываются. Если мы посмотрим на первую строку отзывов, то увидим, что она по-прежнему содержит исходное значение баллов.

In [None]:
reviews.head(1)

В Pandas встроено множество распространенных картографических операций. Например, вот более быстрый способ сохранить наш столбец точек:

In [None]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

В этом коде мы выполняем операцию между множеством значений в левой части (все в последовательности) и одним значением в правой части (среднее значение). Pandas просматривает это выражение и вычисляет, что мы должны иметь в виду, вычитая это среднее значение из каждого значения в наборе данных.

Pandas также поймет, что делать, если мы будем выполнять эти операции между рядами одинаковой длины. Например, простым способом объединения информации о стране и регионе в наборе данных было бы выполнить следующее:

In [None]:
reviews.country + " - " + reviews.region_1

Эти операторы работают быстрее, чем map() или apply(), поскольку они используют встроенные в pandas средства ускорения. Все стандартные операторы Python (>, <, == и т.д.) работают таким образом.

Однако они не столь гибки, как map() или apply(), которые могут выполнять более сложные задачи, например, применять условную логику, что невозможно сделать только с помощью сложения и вычитания.

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.