## Pandas


У нас есть набор данных, который нужно превратить в таблицу. Это делается вызовом конструктора DataFrame() (от англ. data frame, «структура данных»).

Конструктор принимает два аргумента – список данных и названия столбцов, которые должны быть в таблице. Например, если информация о столицах разных стран хранится в переменной atlas:

In [None]:
atlas = [  
    ['Франция','Париж'],  
    ['Россия','Москва'],  
    ['Китай','Пекин'],  
    ['Мексика','Мехико'],  
    ['Египет','Каир'],  
]

и нужно построить таблицу из двух столбцов country (страна) и capital (столица),


In [None]:
geography = ['country', 'capital']

синтаксис вызова конструктора DataFrame() выглядит так:


In [None]:
world_map = pd.DataFrame(data = atlas , columns = geography)

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_3_11_1564569824.png")

Обратите внимание, что DataFrame() – это конструктор библиотеки Pandas, поэтому перед именем конструктора стоит обращение к переменной, в которой библиотека хранится – pd.DataFrame().

In [None]:

atlas = [
    ['Франция','Париж'],
    ['Россия','Москва'],
    ['Китай','Пекин'],
    ['Мексика','Мехико'],
    ['Египет','Каир'],
]
geography = ['country', 'capital']
world_map = pd.DataFrame(data = atlas , columns = geography) # таблица сохраняется в переменной с произвольно выбранным именем world_map
print(world_map) # вывод на экран

## Read CSV

In [None]:
import pandas as pd
df = pd.read_csv('music_log.csv') # аргумент - путь к файлу

DataFrame — это двумерная структура данных Pandas, где у каждого элемента есть две координаты: по строке и по столбцу.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_5_14_1564570113.gif")

Каждая строка — это одно наблюдение, запись об объекте исследования. А столбцы — признаки объектов. В нашем случае одна строка — это одно действие одного пользователя. Прослушивание такой-то композиции в исполнении такой-то группы в течение такого-то времени.

## Read Excel 

In [None]:
import pandas as pd
df = pd.read_excel('/datasets/Экселевский файл.xlsx', sheet_name='Самый первый лист')

Можно вызвать read_excel() и без второго аргумента. Тогда будет взят первый по счёту лист.


## Атрибуты

У DataFrame есть неотъемлемые свойства, значения которых можно запросить. Они называются атрибуты. 

### Columns

In [None]:
print(df.columns)

In [3]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_5_15_1564570153.png")

В данном случае атрибут columns вернул список названий столбцов и сообщил, что каждое из них имеет тип данных object.

### Dtypes

 Для просмотра типа данных каждого столбца лучше всего использовать атрибут dtypes.

In [None]:
print(df.dtypes)

In [4]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_5_16_1564570209.png")

In [5]:
# PANDAS  DTYPE	    PYTHON TYPE	ЗНАЧЕНИЕ
#object	  str	    Строка
#int64	  int	    Целые числа
#float64  float	    Вещественные числа
#bool	  bool	    Логический тип данных

### Shape

О размерах таблицы с данными сообщает её атрибут shape (англ. shape, «форма»). В результате получается кортеж (неизменяемый список) из двух чисел: первое – количество строк, второе – количество столбцов.

In [None]:
print(df.shape)

In [6]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_5_17_1564570254.png")

### Info

Всю информацию, которую предоставляют разные атрибуты DataFrame, можно получить вызовом одного-единственного метода info(). Изучив результаты, которые этот метод возвращает, аналитик выбирает тактику дальнейшей работы с таблицей.

In [None]:
df.info()

In [7]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_5_18_1564570306.gif")

Например, здесь в разных столбцах разное количество элементов с определёнными значениями (non-null). Следовательно, в таблице есть пропущенные значения (null). 

## Индексация DataFrame

К каждой ячейке с данными в DataFrame можно обратиться по её индексу и названию столбца. Мы можем получать различные срезы данных в зависимости от того, какой запрос к DataFrame мы сформулируем. Этот процесс называется индексация. Для DataFrame она проводится разными способами.

In [8]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_6_19_1564570558.png")

In [None]:
Одна ячейка ------------------------.loc[7, 'genre']

Один столбец------------------------.loc[:, 'genre']
Несколько столбцов------------------.loc[:, ['genre', 'Artist']]
Несколько столбцов подряд (срез)----.loc[:, 'user_id': 'genre']

Одна строка-------------------------.loc[1]
Все строки, начиная с заданной------.loc[1:]
Все строки до заданной--------------.loc[:3]
Несколько строк подряд (срез)-------.loc[2:5]

In [9]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_6_20_1564753620.gif")

In [10]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_6_21_1564570629.gif")

Важное замечание: когда мы используем срезы в списках, то конец среза не включается в результат. А вот атрибут .loc[] тем и выделяется, что включает и начало, и конец среза.

На практике чаще применяют сокращенную форму записи для индексации. Но возможности у неё ограничены. Имейте в виду, что она не всегда возвращает те же результаты, что атрибут .loc[] в его полном варианте.

In [None]:
ВИД	                                РЕАЛИЗАЦИЯ                      СОКРАЩЕННАЯ ЗАПИСЬ
Одна ячейка-------------------------.loc[7, 'genre']----------------
Один столбец------------------------.loc[:, 'genre']----------------df['genre']
Несколько столбцов------------------.loc[:, ['genre', 'Artist']]----df[['genre', 'Artist']]
Несколько столбцов подряд (срез)----.loc[:, 'user_id': 'genre']-----
Одна строка-------------------------.loc[1]-------------------------
Все строки, начиная с заданной------.loc[1:]------------------------df[1:]
Все строки до заданной--------------.loc[:3] включая 3--------------df[:3] не включая 3
Несколько строк подряд (срез)-------.loc[2:5]включая 5--------------df[2:5] не включая 5

### Count

Поскольку в указании, какие именно значения считать, нужен логический оператор, такой доступ к значению ячейки называют логическая индексация.

In [11]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_6_23_1564570738.png")

In [None]:
print(battle.loc[battle.loc[:,'В'] == 'X']['В'].count()) 
# используем метод .count() для подсчета записей, удовлетворяющих условию в столбце В

In [12]:
ВИД                                   РЕАЛИЗАЦИЯ                                           СОКРАЩЕННАЯ ЗАПИСЬ
Все строки, удовлетворяющие условию---battle.loc[battle.loc[:,'В'] == 'X']-----------------battle[battle['В'] == 'X']
Столбец, удовлетворяющий условию------battle.loc[battle.loc[:,'В'] == 'X']['В']------------battle[battle['В'] == 'X']['В']
Применение метода---------------------battle.loc[battle.loc[:,'В'] == 'X']['В'].count()----battle[battle['В'] == 'X']['В'].count()

SyntaxError: invalid syntax (<ipython-input-12-828e1fd08c64>, line 1)

In [None]:
### ПРИМЕР
#Посчитайте число прослушанных треков в жанре поп и рок. 

import pandas as pd
df = pd.read_csv('music_log.csv')
entries = ['genre', 'Artist']
genre_fight = pd.DataFrame(data = df, columns = entries)

genre_pop = (genre_fight.loc[genre_fight.loc[:,'genre'] == 'pop']['genre'].count())
genre_rock = (genre_fight.loc[genre_fight.loc[:,'genre'] == 'rock']['genre'].count())
print('Число прослушанных треков в жанре поп равно', genre_pop)
print('Число прослушанных треков в жанре рок равно', genre_rock)

## Series

Series — одномерная таблица, и её элементы можно получить по индексу. Каждый индекс — это номер отдельного наблюдения, и поэтому несколько различных Series вместе составляют DataFrame. В Series хранятся данные одного типа.

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_7_26_1564571077.png")

In [None]:
Один элемент                             total_play.loc[7]                  total_play[7]
Несколько элементов                      total_play.loc[[5, 7, 10]]         total_play[[5, 7, 10]]
Несколько элементов подряд (срез)        total_play.loc[5:10] включая 10    total_play[5:10] не включая 10
Все элементы, начиная с заданного        total_play.loc[1:]                 total_play[1:]
Все элементы до заданного                total_play.loc[:3] включая 3       total_play[:3] не включая 3

Для Series также возможна логическая индексация. Рассмотрим такой пример — пользователю может не понравиться песня, которая начала играть, и он нажмёт кнопку «Следующий трек». Тогда в таблице сохраняется очень малое время прослушивания — от нуля до нескольких секунд. Вы можете проверить, сколько пользователей в течение нескольких секунд — не более 10 — приняли решение пропустить песню, которая только началась.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/5_7_27_1564753804.jpg")

## Set_axis

Чтобы изменить названия столбцов, воспользуйтесь методом set_axis() (англ. set axis, «указать ось»). Он принимает три аргумента:
 - cписок с новыми названиями столбцов;
 - axis (англ. axis, «ось») — ось, которой новые названия присваиваются: 'index', если они даются строкам, и 'columns', если      это список новых названий столбцов;
 - inplace (от англ. in place, «на месте»). Принимает значения True либо False. В первом случае метод set_axis() перестраивает    структуру данных так, что она замещает прежнюю в переменной с тем же именем.

In [3]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_4_31_1564572089.png")

## Isnull

Посчитать в каждом столбце отсутствующие значения можно методом .isnull() (от англ. is null, «является ничем»). Если значение элемента не существует, .isnull() возвращает True, а иначе — False. Суммируют эти True вызовом метода sum() (англ. sum, «сумма»), который в этом случае возвращает общее число элементов без определённых значений.

In [None]:
#ПРИМЕР
print(cholera.isnull().sum())

## Isna

Также подойдёт метод isna() (от английского is NA, «является NA» — что такое NA, мы уже говорили), подсчитывающий пустые значения. В таблице по холере пропущенные значения качественные, так что этот метод отыщет их все.

In [None]:
#ПРИМЕР
print(cholera.isna().sum())

## Fillna

В качестве аргумента выступает заменитель отсутствующих значений.

In [4]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_5_32-1_1564572506.png")

## Dropna

От строк с нулевыми значениями избавляются методом dropna() (от англ. drop NA, «сбросить NA»). Он удаляет любую строку, где есть хоть одно отсутствующее значение.

In [5]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_5_32_1564572583.png")

Теперь удалим правый столбец с пропущенными значениями. Снова вызываем метод dropna(). Как и set_axis(), он имеет ещё и аргумент axis. Если этому аргументу присвоить значение 'columns', он удалит любой столбец, где есть хоть один пропуск.

In [6]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_5_33_1564572648.png")

При объединении данных случается отбрасывать пустые значения. Когда нужно удалить строки с пропусками в конкретном столбце, его название передают параметру subset метода dropna():


In [None]:
dataframe.dropna(subset=['column_name'])

## Duplicated

Грубые дубликаты — повторы — обнаруживают методом duplicated() (англ. duplicated, «удвоенный»). Он возвращает Series со значением True при наличии дубликатов, и False, когда их нет. Чтобы посчитать количество дубликатов в наборе данных, нужно вызвать метод sum():


In [None]:
#ПРИМЕР
print(df.duplicated().sum())

## Drop_duplicates

При вызове метода drop_duplicates() вместе с повторяющимися строками удаляются их индексы.
Последовательность индексов нарушается: после 0 следует 2 и т.д.
    
Поэтому вызов drop_duplicates() соединяют в цепочку с вызовом метода reset_index() (англ. reset index, «переопределить индексы»). Тогда создаётся новый DataFrame, где старые индексы превращаются в обычный столбец под названием index, а индексы всех строк снова следуют в естественном порядке.

Если же мы не хотим создавать новый столбец index, то при вызове reset_index() передаётся аргумент drop со значением True. Все индексы переписываются в порядке возрастания, без пропусков.

In [8]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_6_34_1565618091.jpg")

In [9]:
#Вот такой код сохраняет в переменной df таблицу, очищенную от дубликатов, с новой индексацией.
#df = df.drop_duplicates().reset_index(drop=True)

## Unique

Дубликаты в названиях категорий отследить сложнее, но всё-таки можно. Для просмотра всех уникальных значений в столбце используется метод unique()

In [None]:
#Пример
#print(tennis['name'].unique())

#array(['Рафаэль Надаль', 'Роджер Федерер', 'Roger Federer',
#       'Новак Джокович'], dtype=object)

## Replace

Первый аргумент — текущее значение, а второй — новое, нужное.

In [None]:
#ПРИМЕР
#tennis['name'] = tennis['name'].replace('Roger Federer', 'Роджер Федерер')

## Groupby

Рandas для группировки данных есть метод groupby(). Он принимает как аргумент название столбца, по которому нужно группировать. В случае с делением экзопланет по годам открытия:

Применение метода groupby() к объекту типа DataFrame приводит к созданию объекта особого типа — DataFrameGroupBy. Это сгруппированные данные. Если применить к ним какой-нибудь метод Pandas, они станут новой структурой данных типа DataFrame или Series.

In [None]:
<pandas.core.groupby.DataFrameGroupBy object at 0x7fc1e1ca3400>


Если нужно сравнить наблюдения по одному показателю, метод применяют к DataFrameGroupBy с указанием на один столбец. Нас в первую очередь интересует радиус экзопланет: мы ищем другую Землю. Давайте получим таблицу с единственным столбцом 'radius':

In [None]:
#ПРИМЕР
#exo_number = exoplanet.groupby('discovered')['radius'].count()

## Sort_values

Как всю таблицу, так и отдельные группы изучают, сортируя строки по какому-либо столбцу. В Pandas для этой операции есть метод sort_values() (от англ. sort values, «сортировать значения»). У него два атрибута:

• by = 'имя столбца' — имя столбца, по которому нужно сортировать;

• ascending: по умолчанию True. Для сортировки по убыванию установите значение False.

In [10]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/7_4_36_1564573529.png")

## Max Min

Наибольшее и наименьшее обычно вычисляют только по одному признаку. Например, можно получить минимальное и максимальное значение количества прослушанных секунд композиции (столбец 'total_play_seconds'). Для поиска максимума вызывают метод max():

In [None]:
#df['total_play_seconds'].max()

In [None]:
#Запросим из df строку с максимальным значением, прибегнув к логической индексации с условием
#df[df['total_play_seconds'] == df['total_play_seconds'].max()]

## To_numeric

In [None]:
transactions['amount'] = pd.to_numeric(transactions['amount'])

Метод превращает значения столбца в числовые типы float64 (вещественное число) или int64 (целое число) в зависимости от исходного значения.

У метода to_numeric() есть параметр errors (англ. error — «ошибка, сбой»). От значений, принимаемых errors, зависят действия to_numeric при встрече с некорректным значением:

- errors='raise' (англ. raise, «поднятие, подъём») — дефолтное поведение: при встрече с некорректным значением выдается ошибка, операция перевода в числа прерывается;

- errors='coerce' (англ. coerce, «принуждать») — некорректные значения принудительно заменяются на NaN;

- errors='ignore' (англ. ignore, «игнорировать») — некорректные значения игнорируются, но остаются.

In [None]:
transactions['amount'] = pd.to_numeric(transactions['amount'], errors='coerce')

Особенность метода to_numeric() в том, что при переводе все числа будут иметь тип данных float. Это подходит далеко не всем значениям. 

## Astype

В нужный тип значения переводят методом astype(). Например, аргумент ('int') метода astype() означает, что значение нужно перевести в целое число:

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Frame_3.3_1561106592.jpg")

## To_datetime

Методом to_datetime() превратим содержимое этого столбца в понятные для Python даты.

Для этого строку форматируют, обращаясь к специальной системе обозначений, где:
 - %d — день месяца (от 01 до 31)
 - %m — номер месяца (от 01 до 12)
 - %Y — четырёхзначный номер года (например, 2019)
 - Z — стандартный разделитель даты и времени
 - %H — номер часа в 24-часовом формате
 - %I — номер часа в 12-часовом формате
 - %M — минуты (от 00 до 59)
 - %S — секунды (от 00 до 59)

Преобразуем формат даты 01.04.2019Z11:03:00 из первой строчки датафрейма:
 - Сначала номер дня месяца. В соответствии с таблицей форматов заменяем его на %d: %d.04.2019Z11:03:00
 - Далее точка (ее оставляем без изменений), потом номер месяца: %m: %d.%m.2019Z11:03:00
 - После четырёхзначный номер года, заменяем 2019 на %Y: %d.%m.%YZ11:03:00
 - Букву Z оставляем без изменений: %d.%m.%YZ11:03:00
 - Номер часа в 24-часовом формате заменим на %H: %d.%m.%YZ%H:03:00
 - Количество минут обозначим %M: %d.%m.%YZ%H:%M:00
 - Завершим форматирование обозначением секунд %S: %d.%m.%YZ%H:%M:%S

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/2_tema_4_urok_1561652819.jpg")

Вот такое выражение '%d.%m.%YZ%H:%M:%S' передают в аргумент format метода to_datetime() при переводе строковых значений столбца 'date' в формат datetime:

In [None]:
arrivals['date_datetime']= pd.to_datetime(arrivals['date'], format='%d.%m.%YZ%H:%M:%S')
print(arrivals.head())

Часто приходится исследовать статистику по месяцам: например, узнать, на сколько минут сотрудник опаздывал в среднем. Чтобы осуществить такой расчёт, нужно поместить время в класс DatetimeIndex и применить к нему атрибут month:

In [None]:
arrivals['month'] = pd.DatetimeIndex(arrivals['date']).month

### dt.round

В качестве параметра ему передают строку с шагом округления в часах, днях, минутах или секундах:
 - 'D' — day (от англ. «день»)
 - 'H' — hour (от англ. «час»)
 - 'min' или 'T' — minute (от англ. «минута»)
 - 'S' — second (от англ. «секунда»)

In [11]:
#Округление с шагом в один час:
import pandas as pd 

df = pd.DataFrame({'time': ['11-03-01 17:34']})
df['time'] = pd.to_datetime(df['time'], format='%y-%m-%d %H:%M')
df['time_rounded'] = df['time'].dt.round('1H') # округляем до ближайшего значения с шагом в один час
print(df['time_rounded'])

ModuleNotFoundError: No module named 'pandas'

dt.round() округляет до ближайшего значения — не всегда получается в бóльшую сторону. Четверть шестого после округления методом dt.round() станет пятью часами:

In [None]:
import pandas as pd

df = pd.DataFrame({'time': ['11-03-01 17:15']})
df['time'] = pd.to_datetime(df['time'], format='%y-%m-%d %H:%M')
df['time_rounded'] = df['time'].dt.round('1H') # округляем до ближайшего значения с шагом в один час
print(df['time_rounded'])

Чтобы быть уверенными в том, что время будет округлено к бóльшему значению, обращаются к методу <b>dt.ceil()</b> (от англ. ceiling — «потолок»). К меньшему значению, «вниз», округляют методом <b>dt.floor()</b> (англ. floor, «пол»).


In [None]:
import pandas as pd

df = pd.DataFrame({'time': ['11-03-01 17:15']})
df['time'] = pd.to_datetime(df['time'], format='%y-%m-%d %H:%M')
df['ceil'] = df['time'].dt.ceil('1H') # округляем к потолку
df['floor'] = df['time'].dt.floor('1H') # округляем к полу
print('Время, округлённое вверх', df['ceil'])
print('Время, округлённое вниз', df['floor'])

Номер дня в неделе находят методом <b>dt.weekday</b> (англ. weekday, «будний день»). Понедельник — день под номером 0, а воскресенье — шестой день.


In [None]:
import pandas as pd 

df = pd.DataFrame({'time': ['11-03-07 17:15', '11-04-02 17:15']}) # пн и сб
df['time'] = pd.to_datetime(df['time'], format='%y-%m-%d %H:%M')
df['weekday'] = df['time'].dt.weekday
print(df['weekday'])

Иногда нужно переводить время в другой часовой пояс. За временные сдвиги отвечает <b>pd.Timedelta()</b> (от англ. time delta — «дельта времени, перепад во времени»). Количество часов передают в параметре: (hours=10).

Прибавим 9 часов к московскому времени и узнаем, который час был в Петропавловске-Камчатском, когда в Москве происходили события датафрейма:

In [None]:
import pandas as pd

df = pd.DataFrame({'time': ['11-03-07 17:15', '11-05-02 10:20']})
df['moscow_time'] = pd.to_datetime(df['time'], format='%y-%m-%d %H:%M')
df['petropavlovsk-kamchatsky_time'] = df['moscow_time'] + pd.Timedelta(hours=9)
print(df['petropavlovsk-kamchatsky_time'])

## Merge

merge() применяют к таблице, к которой присоединяют другую. У метода следующие аргументы:
 - right — имя DataFrame или Series, присоединяемого к исходной таблице
 - on — название общего списка в двух соединяемых таблицах: по нему происходит слияние
 - how — чьи id включать в итоговую таблицу. Аргумент how может принять значение left: тогда в итоговую таблицу будут включены    id из левой таблицы. Аргумент right включает id из правой таблицы.

Объединим таблицы data и subcategory_dict со следующими условиями:
 - data — таблица, к которой будем присоединять другую таблицу
 - subcategory_dict — таблица, которую присоединяем к data
 - 'subcategory_id' — общий столбец в двух таблицах, по нему будем объединять
 - how='left' — id таблицы data включены в итоговую таблицу data_subcategory

In [None]:
data_subcategory = data.merge(subcategory_dict, on='subcategory_id', how='left')
print(data_subcategory.head(10))

В таблице-результате работы метода merge() к названиями столбцов добавились _x и _y. Окончания названий столбцов задают в параметре suffixes (от англ. suffix — «суффикс, окончание»):

In [None]:
first_pupil_df.merge(second_pupil_df, on='author', how='left', suffixes=('_записал первый', '_записал второй'))

## Join

Метод join() похож на merge().<br>
Без параметра on этот join() будет искать совпадения по индексам в первом и втором датафреймах. Если же передать параметру on столбец, то join() найдёт его в первом датафрейме и начнёт сравнивать с индексом второго.<br> 
В отличие от merge(), по умолчанию в join() установлен тип слияния how='left'. А параметр suffixes разделён на два независимых: lsuffix (от англ. left suffix, «левый суффикс») и rsuffix (от англ. right suffix, «правый суффикс»). Ещё методом join() можно объединять больше двух таблиц: их набор передают списком вместо второго датафрейма.

In [None]:
df1 = pd.DataFrame({'a': [1, 2, 3, 4], 'b': ['A', 'B', 'C', 'D']})
df2 = pd.DataFrame({'a': [2, 2, 2, 2], 'c': ['E', 'F', 'G', 'H']})
print(df1)
print()
print(df2)
print()
print (df1.join(df2, on='a', rsuffix='_y')['c'])

Каждому значению в столбце 'a' первого датафрейма метод ищет соответствие в индексах второго датафрейма. И находит. В индексах второго датафрейма есть 1, 2 и 3. На экран выводят соответствующие им значения столбца 'c': F, G и H. В индексах второго датафрейма нет 4: join() не находит её и возвращает в итоговый столбец NaN.

## Pivot_table

Аргументы метода:
 - index — столбец или столбцы, по которым группируют данные (название товара)
 - columns — столбец, по значениям которого происходит группировка (даты)
 - values — значения, по которым мы хотим увидеть сводную таблицу (количество проданного товара)
 - aggfunc — функция, применяемая к значениям (сумма товаров)

In [None]:
data_pivot = data_final.pivot_table(index=['category_name', 'subcategory_name'], columns='source', values='visits', aggfunc='sum')
print(data_pivot.head(10))

pivot_table группирует данные, а что с ними делать, указывает значение параметра aggfunc. Например:
 - 'median' — медианное значение;
 - 'count' — количество значений;
 - 'sum' — сумма значений;
 - 'min' — минимальное значение;
 - 'max' — максимальное значение;
 - 'first' — первое значение из группы;
 - 'last' — последнее значение из группы.

В одном вызове pivot_table можно передать параметру aggfunc cписком сразу несколько функций. Например, aggfunc=['median', 'count'] посчитает и медиану, и число значений — в результирующей таблице они будут в соседних столбцах.

In [23]:
#                first count
#                 name  name
#id                         
#00ca1b70     Вероника   131
#0178ce70      Василек   164
#01abf4e9      Гацания    30
#030a9067  Колокольчик   228
#03740f2d      Василек   157

Вы передали список функций в aggfunc и получили двухэтажные названия столбцов. Это вовсе не ошибка, а мультииндекс. Такое случается, когда в индексе не одно значение, а целый список.
В нашей задаче это усложнение излишне. Зададим обычные названия столбцов. Запишем их в атрибуте columns так:

In [None]:
df.columns = ['column_name_1', 'column_name_2', 'column_name_3']

## Lower

In [None]:
giraffe_height = 'жираф БОЛЬШОЙ, ему ВИДНЕЙ'
giraffe_height.lower()

In [None]:
#Переведите названия моделей в нижний регистр методом str.lower(). 
#Сохраните их в новом столбце 'item_lowercase'.
#Распечатайте таблицу после преобразования.
stock['item_lowercase'] = stock['item'].str.lower()

## Apply

Метод берёт значения столбца датафрейма и применяет к ним функцию из своего аргумента. В нашем случае метод apply() следует вызвать для столбца ['age'], так как в нём содержатся данные, которые функция примет на вход. Аргументом метода станет сама функция age_group.

In [None]:
def age_group(age):
        """
        Возвращает возврастную группу по значению возраста age, используя правила:
        - 'дети' при значении age < 18 лет
        - 'взрослые' при значениии age более 18 и менее 64, включая 64
        - 'пенсионеры' во всех остальных случаях
        """

        if age < 18:
                return 'дети'
        if age <= 64:
                return 'взрослые'
        return 'пенсионеры'

clients['age_group'] = clients['age'].apply(age_group)
print(clients.head(10))

In [None]:
import pandas as pd
clients = pd.read_csv('/datasets/stats_by_age_employment.csv')
def age_group_unemployed(row):
"""
Возвращает возврастную группу по значению возраста age и занятости unemployed, используя правила:
- 'дети' при значении age <= 18 лет
- 'безработные' при значении age от 19 до 64 лет включительно и значении unemployed = 0
- 'занятые' при значении age от 19 до 64 лет включительно и значении unemployed = 1
- 'пенсионеры' во всех остальных случаях
"""
    age = row['age']
    unemployed = row['unemployed']

    if age <= 18:
        return 'дети'

    if age <= 64:
        if unemployed == 1:
            return 'безработные'

        return 'занятые'

    return 'пенсионеры'

clients['age_group'] = clients.apply(age_group_unemployed, axis=1)
print(clients.head(10))

## Hist

Гистограмма — это график, который показывает, как часто в наборе данных встречается то или иное значение. Гистограмма объединяет числовые значения по диапазонам, то есть считает частоту значений в пределах каждого интервала. Её построение подобно работе знакомого вам метода value_counts(), подсчитывающего количество уникальных значений в списке. value_counts() группирует строго одинаковые величины и хорош для подсчёта частоты в списках с категориальными переменными.

Параметр bins (англ. «корзины, вёдра») определяет, на сколько областей делить диапазон данных. По умолчанию таких «корзин» 10.

In [None]:
#Построим гистограмму, отображающую количество шаров в боулинге. 
#Допустим, у нас по одному шару каждого номера от 6 до 16:
import pandas as pd

# строим гистограмму
pd.Series([6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]).hist()

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_1_1561400792.png")

Хотя на каждый номер приходится 1 шар, гистограмма не похожа на прямоугольник. Это потому, что по умолчанию параметр bins=10, а шаров 11. Передадим соответствующее число корзин и взглянем на полученный график:

In [None]:
pd.Series([6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]).hist(bins=11)

In [3]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/2_1561400825.png")

Что произойдёт, если в данных шестнадцатый шар вдруг станет шаром под номером 100, а пятнадцатый пропадёт вовсе?

In [None]:
pd.Series([6, 8, 8, 9, 10, 11, 12, 13, 14, 100]).hist() # убрали параметр bins, так как шаров стало 10

In [4]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_5_1561400937.png")

9 шаров со значениями в диапазоне от 5 до 15 и 1 шар с номером от 90 до 100. При таком изображении не видно тонких особенностей распределения значений в диапазоне от 5 до 15 — того, что в нём нет семёрки, а восьмёрок пара.
Вернём детальность, увеличив число корзин до 100.

In [None]:
pd.Series([6, 8, 8, 9, 10, 11, 12, 13, 14, 100]).hist(bins=100)

In [5]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_6_1561400977.png")

На этом графике видно, что восьмёрка удвоена, а семёрка не встречается вовсе. Увеличив число корзин, мы вернули детализацию, однако гистограмма всё ещё не наглядна. 100 слишком похоже на выброс — значение, сильно отличающееся от других элементов в наборе данных.

Изменим масштаб вручную, указав диапазон значений, по которым следует строить график. Границы интересующего нас интервала указывают в параметре range (англ. «диапазон»): range=(min_value, max_value). Нам нужна область от 6 до 14:

In [None]:
pd.Series([6, 8, 8, 9, 10, 11, 12, 13, 14, 100]).hist(range = (6, 14))

In [6]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/6_1561401079.png")

Гистограмма даёт представление о структуре данных. В частности, по ней можно понять, откуда взялось такое среднее арифметическое.

Вот 2 ряда по 10 чисел: их гистограммы очень разные, а среднее у обеих 5.


In [None]:
pd.Series([0, 0, 0, 0, 0, 10, 10, 10, 10, 10]).hist(range=(0, 10))

In [7]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/8_1561401116.png")

In [None]:
pd.Series([4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6]).hist(range=(0, 10))

In [8]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/9_1561401157.png")

Если бы мы смотрели только на среднее значение этих наборов данных, то сказали бы, что они очень похожи. Однако описывающие их гистограммы дают понять, что это два очень разных явления.

## Plot

За построение графиков в Pandas отвечает метод plot() (англ. «график»). Вот простой пример:

In [12]:
df = pd.DataFrame({'a': [2, 3, 4, 5], 'b': [4, 9, 16, 25]})
print(df)
df.plot()

NameError: name 'pd' is not defined

In [13]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/uhfabrb1_1562499087.png")

Метод plot() построил графики по значениям столбцов из датафрейма. На оси абсцисс (x) расположились индексы, а на оси ординат (y) — значения столбцов.

Названия для графиков указывают строкой или переменной в параметре title (англ. «название»):

In [None]:
df.plot(title='A и B')

In [14]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_17_1_1562499571.png")

Элементов в таблице слишком мало, чтобы они складывались в непрерывную линию. Добавим графику точности, передадим параметр <b>style</b>, со значением 'o', чтобы отметить значения таблицы точками.

In [None]:
df.plot(style='o') # 'o' похожа на кружок или точку, запомнить легко

In [15]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/uhfa1_1562499672.png")

Можно задать и другую форму точек. Например, <b>style='х'</b> пометит точки крестиками:

In [16]:
df.plot(style='x') # 'x' - точь-в-точь крестик

NameError: name 'df' is not defined

In [17]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/png_1562499732")

Когда нужен компромиссный вариант: и линии, и точки; передают <b>style='o-'.</b>

In [18]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/___1562499781.png")

Напомним, что по горизонтальной оси отложены индексы. Но что, если такой способ представления не годится для анализа? Можно изменить сами индексы или передать методу plot() параметры осей. Так, оси абсцисс (x) присвоим значения столбца 'b', а оси ординат (y) — значения столбца 'a':


In [None]:
df.plot(x='b', y='a', style='o-')

In [19]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/png_1562499923")

По оси абсцисс идут значения столбца b, а по оси ординат — значения столбца a. Обратите внимание, что Pandas переименовал горизонтальную ось: теперь она — b. А в легенде (списке условных обозначений на графике) осталась только линия со значениями столбца a. **

Ещё не всё идеально: точки упираются в края графика. Скорректируем границы параметрами <b>xlim и ylim</b> — с ними вы познакомились, когда изучали ящик с усами. Напомним, что параметрам xlim и ylim в скобках передают минимальное и максимальное значение. Ограничим ось абсцисс значениями от 0 до 30:


In [None]:
df.plot(x='b', y='a', style='o-', xlim=(0, 30))

In [20]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/__1562499991.png")

Добавим линии сетки: с ними будет легче понять, какие именно значения отображены. Укажем параметр <b>grid</b> (англ. «сетка, решётка»), равный True (это значит, что отображать сетку — нужно):

In [None]:
df.plot(x='b', y='a', style='o-', xlim=(0, 30), grid=True)

In [21]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/png_1562500036")

Размером графика управляют через параметр <b>figsize</b> (от англ. size of a figure — «размер фигуры»). Ширину и высоту области построения в дюймах передают параметру в скобках: figsize = (x_size, y_size). Сравним графики с разными размерами:

In [None]:
df.plot(x='b', y='a', style='o-', xlim=(0, 30), grid=True, figsize=(10, 3));

In [22]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/png_1_1562500178")

Дополнительные параметры:
 - <b>histtype</b> (от англ. the type of histogram, «тип гистограммы»). В параметре указывают тип гистограммы, по умолчанию — это        столбчатая (закрашенная). Значение 'step' (англ. «шаг») чертит только линию.
 - <b>linewidth</b> (от англ. width of line, «толщина линии»). Задаёт толщину линии графика в пикселях.
 - <b>alpha</b> (от термина «альфа-канал»). Назначает густоту закраски линии. 1 — это 100% закраска; 0 — прозрачная линия. С              параметром 0.7 линии чуть прозрачны, так виднее их пересечения.
 - <b>label</b> (англ. «ярлык, этикетка»). Название линии.
 - <b>ax</b> (от англ. axis — «ось»). Метод plot() возвращает оси, на которых был построен график. Чтобы обе гистограммы  расположились    на одном графике, сохраним оси первого графика в переменной ax, а затем передадим её значение параметру ax второго plot().      Так, сохранив оси одной гистограммы и построив вторую на осях первой, мы объединили два графика.
 - <b>legend</b> (англ. «легенда»). Выводит легенду — список условных обозначений на графике. На нашем графике вы можете найти её в      верхнем правом углу.
 - <b>kind</b> - тип графика:<br>
  scatter - рассеяние<br>
  hexbin - Число ячеек по горизонтальной оси задают параметром gridsize, параметр sharex=False. Если значение True, то пропадёт подпись оси x, а без sharex график выйдет неказистым — это «костыльный» обход бага библиотеки Pandas.<br>
  pie - круговая диаграмма<br>
  bar - столбцы

In [None]:
hw.plot(x='height', y='weight', kind='hexbin', gridsize=20, figsize=(8, 6), sharex=False, grid=True)

In [24]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_14_1562657087.png")

### pd.plotting.scatter_matrix(df)

In [None]:
hwa = pd.read_csv('hwa.csv', sep=';')
pd.plotting.scatter_matrix(hwa, figsize=(9, 9))

In [25]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/_15_1562657631.png")

## Corr

Как оценить численно, насколько тесна взаимосвязь? Для этого находят коэффициент корреляции Пирсона. Он помогает определить, как сильно меняется одна величина при изменении другой; и принимает значения от - 1 до 1.<br>
Если с ростом первой величины, растёт вторая, то коэффициент корреляции Пирсона — положительный.<br>
Если при изменении одной величины другая остаётся прежней, то коэффициент равен 0.



Чем ближе коэффициент корреляции Пирсона к крайним значениям: 1 или -1, тем сильнее взаимозависимость. Если значение близко к нулю, значит связь слабая, либо отсутствует вовсе. Бывает, что коэффициент нулевой не потому, что связи между значениями нет, а из-за того, что у неё более сложный, не линейный характер. Потому-то коэффициент корреляции такую связь не берёт.

In [None]:
print(hw['height'].corr(hw['weight']))
print(hw['weight'].corr(hw['height'])) # поменяли местами рост и вес

#0.5196907833692264
#0.5196907833692264

In [None]:
print(hwa.corr())

In [None]:
#                    height    weight       age      male
#height  1.000000  0.940822  0.683689  0.139229
#weight  0.940822  1.000000  0.678335  0.155443
#age     0.683689  0.678335  1.000000  0.005887
#male    0.139229  0.155443  0.005887  1.000000

## Describe

In [None]:
print(data.describe())

In [9]:
count    3.0 # количество наблюдений в наборе данных
mean     2.0 # среднее арифметическое
std      1.0 # стандартное отклонение
min      1.0 # минимальное значение
25%      1.5 # первый квартиль
50%      2.0 # медиана или второй квартиль
75%      2.5 # третий квартиль
max      3.0 # максимальное значение
dtype: float64 # тип данных

SyntaxError: invalid syntax (<ipython-input-9-3828b51b5370>, line 1)

## Булев массив

In [None]:
#Пример
print(df['From'] == 'Moscow')

In [None]:
#Пример
print(df[df['From'] == 'Moscow']) # передаём булев массив как индекс датафрейма

In [None]:
#Пример
print(df[df['Price'] < 21000])

In [None]:
#Пример
df[df['Travel_time_to'] > df['Travel_time_from']]

In [None]:
#Пример
#Чтобы проверить наличие конкретных значений в столбце, вызовем метод isin(). 
#Посмотрим, какие рейсы вылетают после 3 июля 2019:

df[df['Date_From'].isin(('04.07.2019', '05.07.2019'))] # находим элементы столбца Date_From, равные 4 или 5 июля


In [None]:
#И Результат выполнения логической операции True, только если оба условия — True 
#(df['Is_Direct']) & (df['Price'] < 21000)	&

In [None]:
#ИЛИ Результат выполнения — True, если хотя бы одно из условий — True 
#(df['Has_luggage']) ⎮ (df['Price'] < 20000)	⎮

In [None]:
#НЕ Результат выполнения — True, если условие — False
#~((df['Is_Direct']) ⎮ (df['Has_luggage']))	~

In [None]:
#ПРИМЕР
#Выберите дешёвые авиабилеты — те у которых цена меньше максимальной в полтора раза или ещё ниже.
#Выведите на экран полученную выборку.
import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
		'Has_luggage': [True, False, False, True, False],
		'Price': [21032, 19250, 19301, 20168, 31425],
		'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
		'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
		'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
		'Travel_time_from': [995, 230, 605, 365, 255],
		'Travel_time_to': [350, 225, 720, 355, 250],
})
filter_list = df['Price'].max() > df['Price'] * 1.5 

print(df[filter_list]) # впишите нужное условие

In [None]:
#ПРИМЕР
#Выберите строки, где значения столбца 'Travel_time_from' больше или равно 365, или значения 'Travel_time_to' меньше 250. 
#Результат выведите на экран.

import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
		'Has_luggage': [True, False, False, True, False],
		'Price': [21032, 19250, 19301, 20168, 31425],
		'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
		'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
		'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
		'Travel_time_from': [995, 230, 605, 365, 255],
		'Travel_time_to': [350, 225, 720, 355, 250],
})

filtered_data = (df['Travel_time_from'] >= 365) | (df['Travel_time_to'] < 250)

print(df[filtered_data]) # впишите нужное условие

In [None]:
#ПРИМЕР
#Выберите строки, где:
#Полёт с пересадкой;
#Возвращение до 8 июля (ни 9, ни 10, ни 11 июля).
#Результат выведите на экран.

import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
		'Has_luggage': [True, False, False, True, False],
		'Price': [21032, 19250, 19301, 20168, 31425],
		'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
		'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
		'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
		'Travel_time_from': [995, 230, 605, 365, 255],
		'Travel_time_to': [350, 225, 720, 355, 250],
})
new_data = (df['Is_Direct'] == False) & ~(df['Date_To'].isin(('09.07.2019', '10.07.2019', '11.07.2019'))) 
print(df[new_data]) # впишите нужное условие

## Query

Необходимое условие для среза записывается в строке, которую передают как аргумент методу query(). А его применяют к датафрейму. В результате получаем нужный срез.

In [10]:
#ПРИМЕР
import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
        'Has_luggage': [True, False, False, True, False],
        'Price': [21032, 19250, 19301, 20168, 31425],
        'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
        'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
        'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
        'Travel_time_from': [995, 230, 605, 365, 255],
        'Travel_time_to': [350, 225, 720, 355, 250],
})
print(df.query('To == "Barcelona"'))

ModuleNotFoundError: No module named 'pandas'

Условия, указанные в параметре query():
 - поддерживают разные операции сравнения: !=, >, >=, <, <=
 - проверяют, входят ли конкретные значения в список, конструкцией: Date_To in ("07.07.19", "09.07.2019"). Если нужно узнать,      нет ли в списке определённых значений, пишут так: Date_To not in ("07.07.19", "09.07.2019").
 - работают с логическими операторами в привычном виде, где «или» — or , «и» — and, «не» — not. Указывать условия в скобках   м    необязательно. Без скобок операции выполняются в следующем порядке: сначала not, потом and и, наконец, or.


In [None]:
#В строке query() проводят математические операции:
df.query('Travel_time_from < 2 * Travel_time_to ')

#вызывают методы
df.query('Travel_time_from < Travel_time_to.mean()')

#Когда вызываете внешнюю переменную (не из датафрейма), помечайте её знаком @
maximum_price = 20000
df.query('Price <= @maximum_price')

In [None]:
#ПРИМЕР
#Выберите строки, где: Has_luggage равно False и Airline не равно ни S7, ни Rossiya. 
import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
		'Has_luggage': [True, False, False, True, False],
		'Price': [21032, 19250, 19301, 20168, 31425],
		'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
		'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
		'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
		'Travel_time_from': [995, 230, 605, 365, 255],
		'Travel_time_to': [350, 225, 720, 355, 250],
})
print(df.query('Has_luggage == False and Airline not in ("S7", "Rossiya")')) # впишите условие создания нужной выборки

In [None]:
#ПРИМЕР
#Выберите строки, где Airline равно "Belavia", "S7" или "Rossiya", 
#при этом 'Travel_time_from' меньше переменной под названием max_time.
import pandas as pd

df = pd.DataFrame({
    'From': ['Moscow', 'Moscow', 'St. Petersburg', 'St. Petersburg', 'St. Petersburg'], 
    'To': ['Rome', 'Rome', 'Rome', 'Barcelona', 'Barcelona'],
    'Is_Direct': [False, True, False, False, True],
		'Has_luggage': [True, False, False, True, False],
		'Price': [21032, 19250, 19301, 20168, 31425],
		'Date_From': ['01.07.19', '01.07.19', '04.07.2019', '03.07.2019', '05.07.2019'],
		'Date_To': ['07.07.19', '07.07.19', '10.07.2019', '09.07.2019', '11.07.2019'],
		'Airline': ['Belavia', 'S7', 'Finnair', 'Swiss', 'Rossiya'],
		'Travel_time_from': [995, 230, 605, 365, 255],
		'Travel_time_to': [350, 225, 720, 355, 250],
})
max_time = 300
print(df.query('Airline in ("Belavia", "S7", "Rossiya") and Travel_time_from < @max_time'))

In [None]:
#ПРИМЕР query+pivot+plot
(data
         .query('id == "3c1e4c52"')
         .pivot_table(index='date_hour', values='time_spent', aggfunc='median')
         .plot(grid=True, figsize=(12, 5))
);

Когда в переменной сохранён объект Series, конструкция a in @our_series проверит вхождение в список значений, а не индексов:

In [None]:
our_series=pd.Series([10,11,12])
df = pd.DataFrame({
    'a': [0, 1, 10, 11, 12],
    'b': [5, 4, 3, 2, 1],
    'c': ['X', 'Y', 'Y', 'Y', 'Z'],
})
print(df.query('a in @our_series')) # строим срез, в котором значения столбца 'a' равны значениям Series, но не их индексам

Если нужно проверить вхождение в индекс, это указывают явно, дописывая index через точку: a in @our_series.index:

In [None]:
our_series = pd.Series([10,11,12])
df = pd.DataFrame({
    'a': [0, 1, 10, 11, 12],
    'b': [5, 4, 3, 2, 1],
    'c': ['X', 'Y', 'Y', 'Y', 'Z'],
})
print(df.query('a in @our_series.index')) # строим срез, в котором значения столбца 'a' равны индексам Series, т.е. 0, 1 или 2

Когда имеют дело с объектом DataFrame, вхождение в индекс проверяют так же, как в Series — приписав index через точку к имени датафрейма:

In [None]:
df = pd.DataFrame({
    'a': [0, 1, 10, 11, 12],
    'b': [5, 4, 3, 2, 1],
    'c': ['X', 'Y', 'Y', 'Y', 'Z'],
})
our_df = pd.DataFrame ({
    'a1': [2, 4, 6],
    'b1': [3, 2, 2],
    'c1': ['A', 'B', 'C'],
})
print(df.query('a in @our_df.index')) # строим срез, в котором значения столбца 'a' равны индексам датафрейма our_df, т.е. 0, 1 или 2

Для проверки вхождения в какой-либо столбец, передают его имя. Построим срез из значений столбца 'b' первого датафрейма, равных элементам столбца 'b1' второго датафрейма:


In [None]:
df = pd.DataFrame({
    'a': [0, 1, 10, 11, 12],
    'b': [5, 4, 3, 2, 1],
    'c': ['X', 'Y', 'Y', 'Y', 'Z'],
})
our_df = pd.DataFrame ({
    'a1': [2, 4, 6],
    'b1': [3, 2, 2],
    'c1': ['A', 'B', 'C'],
})
print(df.query('b in @our_df.b1')) # строим срез, в котором значения столбца 'b' равны значениям столбца b1 датафрейма our_df

## Where

Выборочно изменяют значения методом where() (от англ. «где»). Ему передают 2 параметра: условие для булева массива и новые значения. Если условие равно True, соответствующее ему значение не изменится; а если False — поменяется на второй параметр метода. Возьмём, к примеру, список покупок:


In [None]:
shopping = pd.Series(['молоко', 'хамон', 'хлеб', 'картошка', 'огурцы'])
print(shopping) # список того, что нужно купить
print()

In [None]:
#Создайте в station_stat_full новый столбец 'group_name', где для сетей АЗС из big_nets_stat названия останутся прежними, 
#а имена остальных измените на 'Другие'.
station_stat_full['group_name'] = station_stat_full['name'].where(station_stat_full['name'].isin(big_nets_stat.index), 'Другие')