In [1]:
import pandas as pd

# Доступ к данным с использованием логических выражений

# Извлечение данных по условию

   План урока:
    
   - Индексация с использованием логических выражений / Создание булевой маски
   - Выбор строк по одному или нескольким условиям
   - Операторы &, |, ~ (and, or, not)
   - Метод isin()
   - Приоритет операторов

# Индексация с использованием логических выражений

## Создание булевой маски 

    Существует три способа работы с булевой маской:

    1. Создать массив значений True и False вручную
    2. Использовать операторы сравнения над элементами исходного массива
    3. Применить логическое отрицание к текущей маске — поменять True на False и наоборот

In [2]:
s = pd.Series([10, 20, 30, 40, 50, 10, 10], ['a', 'b', 'c', 'd', 'e','f', 'g'])
s

a    10
b    20
c    30
d    40
e    50
f    10
g    10
dtype: int64

In [3]:
# 1 способ
# мы можем создать булеву маску вручную
handmade_mask = [True, True, True, False, False, False, False]
s[handmade_mask]

a    10
b    20
c    30
dtype: int64

In [4]:
# 2 способ
# Используем операторы сравнения над элементами исходной структуры Series (т.е. создаем булеву маску по условию)
# compare_mask - серия с типом данных bool
compare_mask = s>30
compare_mask

a    False
b    False
c    False
d     True
e     True
f    False
g    False
dtype: bool

In [5]:
# для удобства восприятия помещаем маску в переменную compare_mask (можем записать s[s>30] или s[compare_mask])
s[compare_mask]


d    40
e    50
dtype: int64

In [6]:
# 3 способ
# можем создать маску с помощью логического отрицания условия
# Применяем логическое отрицание к текущей маске — то есть меняем True на False и наоборот
opposite_compare_mask = ~compare_mask
# мы можем записать s[opposite_compare_mask] или s[~compare_mask]
s[opposite_compare_mask]

a    10
b    20
c    30
f    10
g    10
dtype: int64

# Выбор строк по одному или нескольким условиям

## Два ключевых момента при выборе на основе нескольких условий:

### - используйте &, | и ~ (а не and, or и not). 
### - при использовании операторов сравнения заключайте каждое условие в круглые скобки

In [7]:
# Получим все элементы структуры s, значение которых равно 10:
s[s==10]

a    10
f    10
g    10
dtype: int64

In [8]:
# Получим все элементы структуры s, значение которых не равно 10:
s[s!=10]

b    20
c    30
d    40
e    50
dtype: int64

In [9]:
# Получим все элементы структуры s, значение которых не равно 10 через отрицание условия:
# обратите внимание, что в этом случае мы отрицаемое условие указываем в круглых скобках
s[~(s==10)]

b    20
c    30
d    40
e    50
dtype: int64

In [10]:
# Получим все элементы структуры s, значения которых находятся в интервале [30, 50):
# каждое условие заключено в круглые скобки
s[(s>=30) & (s<50)]

c    30
d    40
dtype: int64

In [11]:
# Получим все элементы структуры s, значения которых находятся вне интервала [30, 50):
# Если мы отрицаем оба условия, то необходимо поставить еще одни общие скобки
s[~((s>=30) & (s<50))]

a    10
b    20
e    50
f    10
g    10
dtype: int64

In [12]:
d = {'id товара':['W2378', 'B3490','W6754', 'W8954','H2345'],
     'цена (р.)':[120.5, 250, 334, 499.99, 643.5], 
     'количество (шт.)': [100, 250, 456, 360, 550],
     'скидка (%)': [20, 50, 10, 5, 30], 'категория': ['A', 'B', 'A', 'A', 'C']}
df = pd.DataFrame(d)
df

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
0,W2378,120.5,100,20,A
1,B3490,250.0,250,50,B
2,W6754,334.0,456,10,A
3,W8954,499.99,360,5,A
4,H2345,643.5,550,30,C


In [13]:
# Создаем булеву маску по условию - выделим строки таблицы, у которых цена больше 300 рублей:
df['цена (р.)'] > 300

0    False
1    False
2     True
3     True
4     True
Name: цена (р.), dtype: bool

In [14]:
# Выделим строки таблицы, содержащие инфомацию о товарах, у которых цена больше 300 рублей:
df[df['цена (р.)'] > 300]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
2,W6754,334.0,456,10,A
3,W8954,499.99,360,5,A
4,H2345,643.5,550,30,C


In [15]:
# Множественное условие (используем круглые скобки)
# Выделим строки таблицы, содержащие инфомацию о товарах категории 'A', у которых цена больше 300 рублей:
df[(df['цена (р.)'] > 300) & (df['категория'] == 'A')]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
2,W6754,334.0,456,10,A
3,W8954,499.99,360,5,A


In [16]:
df2 = pd.read_csv('files/sample_1.csv')
df2

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [17]:
# Получим булеву серию с помощью строкового метода str.endswith
df2['name'].str.endswith('e')

0     True
1    False
2     True
3     True
4    False
5    False
Name: name, dtype: bool

In [18]:
df2[df2['name'].str.endswith('e')]

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
3,Dave,68,TX,70


# Метод isin 

In [19]:
# для демонстрации работы метода isin воспользуемся все той же серией s
s

a    10
b    20
c    30
d    40
e    50
f    10
g    10
dtype: int64

In [20]:
# передаем в метод isin список из двух элементов 10 и 20
# на выходе получаем булеву серию, указывающую на совпадающие элементы серии s
s.isin([10, 20])

a     True
b     True
c    False
d    False
e    False
f     True
g     True
dtype: bool

In [21]:
# Если значение элемента df находится в списке, то значение элемента в вернувшейся структуре равно True, иначе – False:
df['id товара'].isin(['B3490', 'H2345'])

0    False
1     True
2    False
3    False
4     True
Name: id товара, dtype: bool

In [22]:
# Такая запись эквивалентна выбору строк по условию: df[(df['id товара'] == 'B3490') | (df['id товара'] == 'H2345')])
df[df['id товара'].isin(['B3490', 'H2345'])]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
1,B3490,250.0,250,50,B
4,H2345,643.5,550,30,C


In [23]:
df[(df['id товара'] == 'B3490') | (df['id товара'] == 'H2345')]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
1,B3490,250.0,250,50,B
4,H2345,643.5,550,30,C


In [24]:
# метод isin также может принимать на вход словарь 
df3=df.isin({'id товара':['B3490', 'H2345'], 'скидка (%)':[50, 30], 'категория':['A', 'B']})
df3

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
0,False,False,False,False,True
1,True,False,False,True,True
2,False,False,False,False,True
3,False,False,False,False,True
4,True,False,False,True,False


In [25]:
df[df3['id товара']]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
1,B3490,250.0,250,50,B
4,H2345,643.5,550,30,C


In [26]:
df[df3['скидка (%)']]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
1,B3490,250.0,250,50,B
4,H2345,643.5,550,30,C


In [27]:
df[df3['категория']]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
0,W2378,120.5,100,20,A
1,B3490,250.0,250,50,B
2,W6754,334.0,456,10,A
3,W8954,499.99,360,5,A


In [28]:
df[df3]

Unnamed: 0,id товара,цена (р.),количество (шт.),скидка (%),категория
0,,,,,A
1,B3490,,,50.0,B
2,,,,,A
3,,,,,A
4,H2345,,,30.0,


# Приоритет операторов

# ~ & |

In [29]:
df_multi_1 = df2[(df2['age'] < 35) | ~(df2['state'] == 'NY') & (df2['point'] < 75)]
df_multi_1

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [30]:
df_multi_2 = df2[(df2['age'] < 35) & (df2['point'] < 75) | ~(df2['state'] == 'NY')]
df_multi_2

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [31]:
df_multi_3 = df2[((df2['age'] < 35) | ~(df2['state'] == 'NY')) & (df2['point'] < 75)]
df_multi_3

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
2,Charlie,18,CA,70
3,Dave,68,TX,70
5,Frank,30,NY,57
