# Индексация, выбор и назначение
Профессиональные специалисты по обработке данных делают это десятки раз в день. Вы тоже можете!

# Вступление
Выбор конкретных значений фрейма данных или серии данных pandas для работы - это неявный шаг практически в любой операции с данными, которую вы будете выполнять, поэтому одна из первых вещей, которую вам нужно усвоить при работе с данными в Python, - это то, как быстро и эффективно выбирать нужные вам точки данных.

Чтобы приступить к выполнению упражнения по этому разделу, пожалуйста, нажмите здесь.

Собственные вспомогательные средства
Собственные объекты Python предоставляют хорошие способы индексации данных. Pandas поддерживает все это, что упрощает начало работы.

Рассмотрим этот фрейм данных:

In [None]:
reviews

В Python мы можем получить доступ к свойству объекта, обратившись к нему как к атрибуту. Например, объект book может иметь свойство title, к которому мы можем получить доступ, вызвав book.title. Столбцы в pandas DataFrame работают во многом таким же образом.

Следовательно, чтобы получить доступ к загородной собственности отзывов, мы можем использовать:

In [None]:
reviews.country

Если у нас есть словарь Python, мы можем получить доступ к его значениям, используя оператор индексации ([]). То же самое мы можем сделать со столбцами во фрейме данных:

In [None]:
reviews['country']

Это два способа выбора определенного ряда из фрейма данных. Ни один из них не является более или менее синтаксически корректным, чем другой, но оператор индексации [] имеет то преимущество, что он может обрабатывать имена столбцов с зарезервированными символами в них (например, если бы у нас был столбец country providence, reviews.country providence не работал бы).

Разве серия pandas не похожа на модный словарь? Так оно и есть, поэтому неудивительно, что для перехода к одному конкретному значению нам нужно всего лишь еще раз использовать оператор индексации []:

In [None]:
reviews['country'][0]

# Индексация в pandas¶
Оператор индексации и выбор атрибутов удобны тем, что они работают так же, как и в остальной экосистеме Python. Новичку это упрощает их использование. Однако в pandas есть свои собственные операторы доступа, loc и iloc. Для более сложных операций вы должны использовать именно их.

Выбор на основе индекса

Индексирование Pandas работает в одной из двух парадигм. Первая - выбор на основе индекса: выбор данных на основе их числового положения в данных. iloc следует этой парадигме.

Чтобы выбрать первую строку данных во фрейме данных, мы можем использовать следующее:

In [None]:
reviews.iloc[0]

И loc, и iloc работают сначала по строке, а затем по столбцу. Это противоположно тому, что мы делаем в родном Python, где сначала столбец, а затем строка.

Это означает, что извлекать строки немного проще, а столбцы - немного сложнее. Чтобы получить столбец с iloc, мы можем сделать следующее:

In [None]:
reviews.iloc[:, 0]

Сам по себе оператор :, который также заимствован из родного языка Python, означает "все". Однако в сочетании с другими селекторами он может использоваться для указания диапазона значений. Например, чтобы выбрать столбец "страна" только из первой, второй и третьей строк, мы могли бы сделать:

In [None]:
reviews.iloc[:3, 0]

Или, чтобы выбрать только вторую и третью записи, мы могли бы сделать:

In [None]:
reviews.iloc[1:3, 0]

Также можно передать список:

In [None]:
reviews.iloc[[0, 1, 2], 0]

Наконец, стоит знать, что при выборе можно использовать отрицательные числа. При этом отсчет начнется с конца значений. Итак, для примера, вот последние пять элементов набора данных.

In [None]:
reviews.iloc[-5:]

Выбор на основе меток¶

Вторая парадигма выбора атрибутов - это та, за которой следует оператор loc: выбор на основе меток. В этой парадигме значение индекса данных, а не их позиция, имеет значение.

Например, чтобы получить первую запись в обзорах, мы могли бы сделать следующее:

In [None]:
reviews.loc[0, 'country']

iloc концептуально проще, чем lock, поскольку он игнорирует индексы наборов данных. Когда мы используем iloc, мы рассматриваем набор данных как большую матрицу (список списков), которую мы должны индексировать по позициям. loc, напротив, использует информацию, содержащуюся в индексах, для выполнения своей работы. Поскольку в вашем наборе данных обычно есть значимые индексы, обычно проще выполнять операции с помощью loc. Например, вот одна операция, которая намного проще с помощью loc:

In [1]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

NameError: name 'reviews' is not defined

Выбор между loc и iloc¶

При выборе или переходе между loc и iloc стоит иметь в виду один "нюанс", который заключается в том, что эти два метода используют несколько разные схемы индексации.

iloc использует схему индексации Python stdlib, в которой включается первый элемент диапазона и исключается последний. Таким образом, в 0:10 будут выбраны записи 0,...,9. loc, тем временем, индексирует все включительно. Таким образом, в 0:10 будут выбраны записи 0,...,10.

Почему это изменение? Помните, что loc может индексировать любой тип stdlib: например, строки. Если у нас есть фрейм данных с индексными значениями Яблоки, ..., Картофель, ..., и мы хотим выбрать "все фрукты в алфавитном порядке между яблоками и картофелем", то гораздо удобнее индексировать df.loc['Яблоки':'Картофель'], чем индексировать что-то другое. например, df.loc["Яблоки", "Картофель"] (t в алфавите стоит после s).

Это особенно сбивает с толку, когда индекс фрейма данных представляет собой простой числовой список, например, 0,...,1000. В этом случае df.iloc[0:1000] вернет 1000 записей, в то время как df.loc[0:1000] вернет 1001 из них! Чтобы получить 1000 элементов, используя loc, вам нужно будет перейти на один уровень ниже и запросить df.loc[0:999].

В противном случае семантика использования loc такая же, как и для iloc.

# Манипулирование индексом
Выбор на основе меток основан на метках в индексе. Важно отметить, что используемый нами индекс не является неизменяемым. Мы можем манипулировать индексом любым способом, который считаем нужным.

Для выполнения этой задачи можно использовать метод set_index(). Вот что происходит, когда мы устанавливаем_index в поле title:

In [None]:
reviews.set_index("title")

Это полезно, если вы можете создать индекс для набора данных, который будет лучше текущего.

# Условный выбор
До сих пор мы индексировали различные уровни данных, используя структурные свойства самого фрейма данных. Однако, чтобы работать с данными интересно, нам часто приходится задавать вопросы, основанные на условиях.

Например, предположим, что нас интересуют вина, произведенные в Италии, качество которых выше среднего.

Мы можем начать с проверки того, является ли каждое вино итальянским или нет:

In [None]:
reviews.country == 'Italy'

В результате этой операции был получен ряд логических значений True/False в зависимости от страны каждой записи. Затем этот результат можно использовать внутри loc для выбора соответствующих данных:

In [None]:
reviews.loc[reviews.country == 'Italy']

В этом фрейме данных около20 000 строк. В оригинале было около130 000. Это означает, что около 15% вин производится в Италии.

Мы также хотели узнать, какие из них лучше, чем в среднем. Вина оцениваются по шкале от 80 до 100 баллов, так что это могут быть вина, набравшие не менее 90 баллов.

Мы можем использовать амперсанд (&), чтобы объединить два вопроса:

In [None]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Предположим, мы купим любое вино, произведенное в Италии или имеющее рейтинг выше среднего. Для этого мы используем трубку (|):

In [None]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

В Pandas есть несколько встроенных средств выбора условий, два из которых мы рассмотрим ниже.

Первый - isin. isin is позволяет выбирать данные, значение которых "находится" в списке значений. Например, вот как мы можем использовать его для выбора вин только из Италии или Франции:

In [None]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Второе значение равно null (и его сопутствующее значение не равно null). Эти методы позволяют выделить значения, которые являются (или не являются) пустыми (NaN). Например, чтобы отфильтровать вина, у которых в наборе данных отсутствует ценник, вот что мы могли бы сделать:

In [None]:
reviews.loc[reviews.price.notnull()]

# Присвоение данных¶
С другой стороны, присвоение данных фрейму данных выполняется просто. Вы можете присвоить либо постоянное значение, либо:

In [None]:
reviews['critic'] = 'everyone'
reviews['critic']

Или с повторяющимся набором значений:

In [None]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.