# Фильтрация данных в pandas

Одной из самых популярных функций в Excel являются фильтры, которые позволяют в пару нажатий убрать из рассмотрения ненужные данные. В этом уроке мы научимся производить фильтрацию табличных данных в Python:

## Получение данных

Для начала импортируем библиотеку `pandas` и откроем первый лист файла `Superstore.xls`, открытую таблицу сохраним как `orders`:

In [1]:
import pandas as pd
# Вы уже умеете это делать, попробуйте сами или скопируйте из предыдущего урока

Получать данные из таблицы мы научились в предыдущем уроке, перейдем сразу к их сравнению.

## Фильтры

Данные, полученные через методами `loc` и `iloc` могут быть использованы в операциях сравнения, при этом сравнивать можно сравнивать целые столбцы и строки. Для фильтрации данных условие должно быть записано в левой части оператора `loc`, как показано в примере ниже:

In [5]:
orders = pd.read_excel('Superstore.xls', sheet_name = 'Orders')

In [12]:
orders.loc[orders.loc[:, 'Region'] == 'South', :];
orders[orders['Region']=='South'].head(1)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136


В Python можно использовать следующие операторы сравнения: равно (`==`), не равно (`!=`), больше (`>`), больше или равно (`>=`), меньше (`<`), меньше или равно (`<=`).

Условия можно комбинировать с помощью операторов `&` – логическое И, `|` – логическое ИЛИ и круглых скобок:

In [43]:
# Просмотрим офисные принадлежности, проданные в Штате Флорида
orders[(orders['Category']=='Office Supplies') and (orders['State']=='Florida')]; # для пандаса надо "&"

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [29]:
# Продукты, проданные со скидкой больше 60 процентов или проданные дешевле себестоимости
1 and 1

1

Мы очень советуем не использовать сложные условия внутри функции `loc`, а создавать для этого отдельные переменные:

In [36]:
map_1 = orders.loc[:, 'State'] == 'Florida'
map_2 = orders.loc[:, 'State'] == 'Texas'
map_3 = orders.loc[:, 'Discount'] > 0
filter_ = (map_1 | map_2) & map_3
orders.loc[filter_, :]

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
3,4,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775,5,0.45,-383.0310
4,5,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.3680,2,0.20,2.5164
14,15,US-2016-118983,2016-11-22,2016-11-26,Standard Class,HP-14815,Harold Pawlan,Home Office,United States,Fort Worth,...,76106.0,Central,OFF-AP-10002311,Office Supplies,Appliances,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5,0.80,-123.8580
15,16,US-2016-118983,2016-11-22,2016-11-26,Standard Class,HP-14815,Harold Pawlan,Home Office,United States,Fort Worth,...,76106.0,Central,OFF-BI-10000756,Office Supplies,Binders,Storex DuraTech Recycled Plastic Frosted Binders,2.5440,3,0.80,-3.8160
34,35,CA-2018-107727,2018-10-19,2018-10-23,Second Class,MA-17560,Matt Abelman,Home Office,United States,Houston,...,77095.0,Central,OFF-PA-10000249,Office Supplies,Paper,Easy-staple paper,29.4720,3,0.20,9.9468
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9920,9921,CA-2017-149272,2017-03-15,2017-03-19,Standard Class,MY-18295,Muhammed Yedwab,Corporate,United States,Bryan,...,77803.0,Central,OFF-BI-10004233,Office Supplies,Binders,"GBC Pre-Punched Binding Paper, Plastic, White,...",22.3860,7,0.80,-35.8176
9961,9962,CA-2016-168088,2016-03-19,2016-03-22,First Class,CM-12655,Corinna Mitchell,Home Office,United States,Houston,...,77041.0,Central,OFF-PA-10000675,Office Supplies,Paper,Xerox 1919,65.5840,2,0.20,23.7742
9962,9963,CA-2016-168088,2016-03-19,2016-03-22,First Class,CM-12655,Corinna Mitchell,Home Office,United States,Houston,...,77041.0,Central,FUR-BO-10004218,Furniture,Bookcases,Bush Heritage Pine Collection 5-Shelf Bookcase...,383.4656,4,0.32,-67.6704
9972,9973,CA-2017-130225,2017-09-11,2017-09-17,Standard Class,RC-19960,Ryan Crowe,Consumer,United States,Houston,...,77041.0,Central,OFF-EN-10000056,Office Supplies,Envelopes,Cameo Buff Policy Envelopes,99.5680,2,0.20,33.6042


Полученную таблицу можно сохранить в переменную и продолжить работать с ней как с электронной таблицей:

Попробуйте сами написать фильтр для поиска товаров, доставляемых в Нью-Йорк вторым классом.

Фильтр для поиска корпоративных клиентов из штата Канзас, которые покупали бумагу или аксессуары. Сохраните полученные условия и результаты в переменные.