<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/09-filter-data.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Выбор строк из таблицы и условное присваивание
#### [Ссылка на видео](https://youtu.be/XL0Y8q-8vAc)

In [1]:
import pandas as pd
import numpy as np
import os

| Символ   | Значние                                      | Пример   |
|:--------:|:--------------------------------------------:|:--------:|
| ==       | Равно <br>(проверка на равентсво двух элементов)<br> | 1==1     |
| !=       | Не равно                                     | 1 != 2   |
| >        | Больше                                       | 5 > 4    |
| >=       | Больше или равно                             | 4 >= 1   |
| <        | Меньше                                       | 5 < 10   |
| <=       | Меньше или равно                             | 8 <= 10  |

#### Проверка на равенство

In [2]:
1 == 1

True

In [None]:
1 == 2

#### Неравенства

In [None]:
5 != 9

In [None]:
6 > 6

In [None]:
6 >= 6

In [3]:
7 < 9

True

In [None]:
10 <= -9

#### Сравнение строк

In [4]:
'pandas' == 'pandas'

True

In [5]:
'pandas' == 'PANDAS'

False

Проверка на вхождение элемента в список

In [None]:
'a' in 'pandas'

In [6]:
'Катя' in ['Маша', 'Даша', 'Паша']

False

In [None]:
'Катя' in ['Маша', 'Даша', 'Катя']

#### Сложные условия

1. and - проверка на то, что 2 условия выполняются одновременно
2. or - проверка на то, что выполняется хотя бы одно из условий
3. not - логическое не (превращает True в False и наоборот)

In [None]:
5 == 5 and 8 == 8

In [None]:
5 == 6 and 8 == 8

In [None]:
6 == 6 or 7 == 90

In [None]:
6 > 11 or 7 == 90

In [7]:
not 45 == 45

False

In [None]:
'Катя' not in ['Маша', 'Даша', 'Катя']

# Условные операции в таблицах

| Символ   | Метод                 | Расшифровка                 | Значние                                      |
|:--------:|:---------------------:|:---------------------------:|:--------------------------------------------:|
| **==**   | **eq**                | **eq**ual                   | Равно (проверка на равентсво двух элементов) |
| **!=**   | **ne**                | **n**ot **e**qual           | Не равно                                     |
| **>**    | **gt**                | **g**reater **t**han        | Больше                                       |
| **>=**   | **ge**                | **g**reater or **e**qual    | Больше или равно                             |
| **<**    | **lt**                | **l**ess **t**han           | Меньше                                       |
| **<=**   | **le**                | **l**ess or **e**qual       | Меньше или равно                             |
|          | **isin**              | is in                       | В (проверка на вхождение)                    |
|          | **isna или isnull**   | is na или is null           | Проверка на пропуск                          |
|          | **notna или notnull** | not na или not null         | Проверка на непропуск                        |
|          | **duplicated**        | duplicated                  | Проверка на дубликат                         |

In [8]:
path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


#### Проверка на равенство

In [9]:
empl['pos_name']

0               Директор магазина
1                  Старший кассир
2                          Кассир
3                          Кассир
4            Продавец-консультант
                   ...           
29367        Продавец-консультант
29368                   Товаровед
29369                   Товаровед
29370    Мастер по ремонту одежды
29371                     Уборщик
Name: pos_name, Length: 29372, dtype: string

In [10]:
empl['pos_name'] == 'Директор магазина'

0         True
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: pos_name, Length: 29372, dtype: boolean

In [11]:
# То же самое, что и в предыдущей ячейке
empl['pos_name'].eq('Директор магазина')

0         True
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: pos_name, Length: 29372, dtype: boolean

То же самое для табельного номера

In [12]:
empl['i_pernr']

0        100000
1             0
2             1
3             2
4             3
          ...  
29367      1372
29368      1615
29369      1748
29370      1616
29371      1687
Name: i_pernr, Length: 29372, dtype: int32

Чтобы можно было дальше работать с результатом как с обычной колонкой, нужно обернуть выражение в круглые скобки 

In [None]:
(empl['i_pernr'] != 1).head()

0     True
1     True
2    False
3     True
4     True
Name: i_pernr, dtype: bool

#### Неравенства

In [14]:
empl['salary']

0        45700.0
1        20000.0
2        12600.0
3        12600.0
4        15400.0
          ...   
29367    38000.0
29368    31800.0
29369    28400.0
29370    35500.0
29371    26400.0
Name: salary, Length: 29372, dtype: float64

In [15]:
empl['salary'] > 30000

0         True
1        False
2        False
3        False
4        False
         ...  
29367     True
29368     True
29369    False
29370     True
29371    False
Name: salary, Length: 29372, dtype: bool

#### Выбор дат

In [16]:
empl['report_dt']

0       2015-01-31
1       2015-01-31
2       2015-01-31
3       2015-01-31
4       2015-01-31
           ...    
29367   2022-12-31
29368   2022-12-31
29369   2022-12-31
29370   2022-12-31
29371   2022-12-31
Name: report_dt, Length: 29372, dtype: datetime64[us]

In [17]:
# дата записывается как строка
empl['report_dt'] == '2022-12-31'

0        False
1        False
2        False
3        False
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: report_dt, Length: 29372, dtype: bool

#### Чем позднее дата, тем она больше

In [18]:
empl['report_dt'] < '2022-12-31'

0         True
1         True
2         True
3         True
4         True
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: report_dt, Length: 29372, dtype: bool

#### Проверка на вхождение

In [19]:
empl['education']

0                          высшее
1        среднее профессиональное
2                   среднее общее
3                   среднее общее
4                   среднее общее
                   ...           
29367    среднее профессиональное
29368               среднее общее
29369               среднее общее
29370    среднее профессиональное
29371    среднее профессиональное
Name: education, Length: 29372, dtype: string

In [None]:
empl['education'] in ['высшее', 'среднее профессиональное']

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [21]:
empl['education'].isin(['высшее', 'среднее профессиональное'])

0         True
1         True
2        False
3        False
4        False
         ...  
29367     True
29368    False
29369    False
29370     True
29371     True
Name: education, Length: 29372, dtype: bool

Оператор in преверяет вхождение элемента в индекс, а не в стобец

In [25]:
'Директор магазина' in empl['pos_name']

False

In [26]:
empl['pos_name']

0               Директор магазина
1                  Старший кассир
2                          Кассир
3                          Кассир
4            Продавец-консультант
                   ...           
29367        Продавец-консультант
29368                   Товаровед
29369                   Товаровед
29370    Мастер по ремонту одежды
29371                     Уборщик
Name: pos_name, Length: 29372, dtype: string

In [27]:
'Директор магазина' in empl['pos_name'].tolist()

True

In [28]:
empl['pos_name'].tolist()

['Директор магазина',
 'Старший кассир',
 'Кассир',
 'Кассир',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Директор магазина',
 'Старший кассир',
 'Кассир',
 'Кассир',
 'Кассир',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Директор магазина',
 'Старший кассир',
 'Кассир',
 'Кассир',
 'Кассир',
 'Кассир',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Директор магазина',
 'Старший кассир',
 'Кассир',
 'Кассир',
 'Кассир',
 'Кассир',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Продавец-консультант',
 'Директор магазин

Проверка вхождения одной строки в другую

In [29]:
empl['pos_name'].str.contains("магазин")

0         True
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: pos_name, Length: 29372, dtype: boolean

#### Проверка на то, пропущенно ли значение

In [30]:
empl['employee_evaluation']

0        5.0
1        5.0
2        5.0
3        3.0
4        NaN
        ... 
29367    6.0
29368    6.0
29369    3.0
29370    7.0
29371    8.0
Name: employee_evaluation, Length: 29372, dtype: float64

In [31]:
empl['employee_evaluation'].isna()

0        False
1        False
2        False
3        False
4         True
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: employee_evaluation, Length: 29372, dtype: bool

In [32]:
empl['employee_evaluation'].notna()

0         True
1         True
2         True
3         True
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: employee_evaluation, Length: 29372, dtype: bool

In [33]:
empl['employee_evaluation'].isnull() 

0        False
1        False
2        False
3        False
4         True
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: employee_evaluation, Length: 29372, dtype: bool

In [34]:
empl['employee_evaluation'].notnull()

0         True
1         True
2         True
3         True
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: employee_evaluation, Length: 29372, dtype: bool

Помимо методов есть аналоги в виде функций с точно такими же названиями

In [None]:
# pd.isna(empl['closest_boss_pos_id'])
# pd.isnull(empl['closest_boss_pos_id'])
# pd.notnull(empl['closest_boss_pos_id'])
# pd.notna(empl['closest_boss_pos_id'])

In [35]:
pd.isna(None)

True

#### Проверка на дубликаты

In [36]:
# проверка каждой строки на уникальность
empl.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Length: 29372, dtype: bool

In [37]:
# Проверка колонки fio на уникальность
empl.duplicated('fio')

0        False
1        False
2        False
3        False
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Length: 29372, dtype: bool

In [38]:
empl['fio'].duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: fio, Length: 29372, dtype: bool

In [39]:
# Проверка колонок fio и report_dt на уникальность
empl.duplicated(['fio', 'report_dt'])

0        False
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Length: 29372, dtype: bool

#### Способы выделения дубликатов

In [40]:
# True если значение встерчечалось в строчках выше
empl.duplicated('fio')

0        False
1        False
2        False
3        False
4        False
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Length: 29372, dtype: bool

In [41]:
# True если значение встерчечалось в строчках ниже
empl.duplicated('fio', keep='last')

0         True
1         True
2         True
3         True
4         True
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Length: 29372, dtype: bool

In [42]:
# True если у значения есть дубликат
empl.duplicated('fio', keep=False)

0        True
1        True
2        True
3        True
4        True
         ... 
29367    True
29368    True
29369    True
29370    True
29371    True
Length: 29372, dtype: bool

### Проверять условия можно и в датафреймах

In [43]:
path_marks = '../tables/школьные оценки.xlsx' if os.path.exists('../tables/школьные оценки.xlsx') else 'https://drive.google.com/uc?id=1v9kRv1I03CXtQ6vFE4mE3hFAty436qAo'
marks = pd.read_excel(path_marks)
marks.head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3


In [44]:
(marks == 5).head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,False,False,False,False,False,False,False,True
1,False,False,False,False,False,True,False,False
2,False,False,False,True,True,False,False,True
3,False,False,True,True,True,True,False,True
4,False,False,False,False,False,False,False,False


#### Методы all и any

In [45]:
(marks
    .drop(columns=['ФИО', 'Пол'])
    .isin([4, 5])
    .all()
)

Математика             False
Русский язык           False
Литература             False
Физика                 False
История                False
Физическая культура    False
dtype: bool

In [46]:
(marks
    .drop(columns=['ФИО', 'Пол'])
    .isin([4, 5])
    .any()
)

Математика             True
Русский язык           True
Литература             True
Физика                 True
История                True
Физическая культура    True
dtype: bool

In [47]:
(marks
    .drop(columns=['ФИО', 'Пол']) 
    .isin([4, 5])
    .all(axis=1)
)

0      False
1      False
2      False
3       True
4      False
       ...  
140    False
141     True
142    False
143    False
144     True
Length: 145, dtype: bool

In [48]:
(marks
    .drop(columns=['ФИО', 'Пол'])
    .isin([4, 5])
    .any(axis=1)
)

0      True
1      True
2      True
3      True
4      True
       ... 
140    True
141    True
142    True
143    True
144    True
Length: 145, dtype: bool

#### Можно сравнивать стобцы таблицы между собой

In [49]:
marks['Математика'] == marks['Русский язык']

0       True
1       True
2      False
3       True
4       True
       ...  
140    False
141     True
142    False
143     True
144    False
Length: 145, dtype: bool

In [50]:
marks['Математика'] > marks['Русский язык']

0      False
1      False
2      False
3      False
4      False
       ...  
140     True
141    False
142    False
143    False
144    False
Length: 145, dtype: bool

# Фильтрация строк

__df[ ]__

__df.loc[ ]__

__df.iloc[ ]__

In [51]:
marks['Математика'] == 3

0       True
1       True
2      False
3      False
4       True
       ...  
140    False
141    False
142     True
143    False
144    False
Name: Математика, Length: 145, dtype: bool

In [52]:
marks[marks['Математика'] == 3].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3


#### Точно так же можно фильтровать объекты класса Series

In [53]:
math = marks['Математика'].copy()
math[math >= 4]

2      4
3      5
5      4
6      4
7      4
      ..
139    5
140    5
141    4
143    4
144    4
Name: Математика, Length: 109, dtype: int64

Возьмем только отличников по физической культуре

In [56]:
marks[marks['Физическая культура'] == 5].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5


### Составные условия

1. & - проверка того, что оба условия выполняются
2. | - проверка того, что хотя бы одно условие выполняется
3. ~ - отрицание (меняет True на False и наоборот)

In [57]:
# отбираем тех, у кого по математике 5, а по русскому 4
marks[(marks['Математика'] == 5) & (marks['Русский язык'] == 4)]

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
13,Петухов Александр Алексеевич,мужской,5,4,4,5,4,5
14,Панфилов Марат Евгеньевич,мужской,5,4,4,4,4,5
20,Коровин Вячеслав Денисович,мужской,5,4,3,5,3,5
40,Серебрякова София Анатольевна,женский,5,4,4,5,3,3
67,Столярова Дарья Глебовна,женский,5,4,4,5,5,3
91,Филатова Валентина Тимуровна,женский,5,4,4,5,5,4
140,Бычкова Александра Борисовна,женский,5,4,3,5,3,5


In [58]:
# Отбираем тех, у кого хотя бы по одному из двух предметов 5
marks[(marks['Математика'] == 5) | (marks['Русский язык'] == 5)].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
9,Сухарев Евгений Валерьевич,мужской,3,5,4,4,5,5


In [59]:
# Отбираем тех, у кого по математике не 5
marks[~(marks['Математика'] == 5)].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5


In [60]:
# Отбираем тех, у кого по математике не 5 и не 4
marks[~(marks['Математика'].isin([5, 4]))].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3


## Несколько условий нужно писать в скобках

Если не использовать скобки:

In [61]:
empl[empl['salary_fork'] == 1 & empl['closest_boss_pos_id'].notnull()].head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
10,2015-02-28,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
22,2015-03-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0


Если использовать скобки (правильный вариант)

In [62]:
empl[(empl['salary_fork'] == 1) & empl['closest_boss_pos_id'].notnull()].head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
41,2015-04-30,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0
72,2015-05-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0
109,2015-06-30,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0


Приоритет у операций и (&), или (|)  выше, чем у операции проверки на равенство

In [63]:
1 == True

True

In [64]:
0 == False

True

Порядок операций, когда мы не используем скобки:

In [65]:
empl['closest_boss_pos_id'].notnull()

0        False
1         True
2         True
3         True
4         True
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: closest_boss_pos_id, Length: 29372, dtype: bool

In [66]:
cnd = 1 & empl['closest_boss_pos_id'].notnull()

# Внутри это условие воспринимается точно так же как
True & empl['closest_boss_pos_id'].notnull()

0        False
1         True
2         True
3         True
4         True
         ...  
29367     True
29368     True
29369     True
29370     True
29371     True
Name: closest_boss_pos_id, Length: 29372, dtype: bool

In [67]:
empl[empl['salary_fork'] == 1 & empl['closest_boss_pos_id'].notnull()].head(3)
empl[empl['salary_fork'] == (1 & empl['closest_boss_pos_id'].notnull())].head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
10,2015-02-28,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
22,2015-03-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0


# Метод query

In [68]:
empl.query('salary_fork == 1').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
41,2015-04-30,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0
72,2015-05-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0
109,2015-06-30,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,1,1988-07-17,среднее общее,6.0,18800.0


In [69]:
empl.query('pos_name == "Продавец-консультант"').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,0,1988-07-17,среднее общее,,15400.0
5,2015-01-31,4,Никифоров Даниил Глебович,мужской,1,Продавец-консультант,18,11,0,0,1967-10-01,среднее профессиональное,,15400.0
6,2015-01-31,5,Грачев Даниил Артёмович,мужской,1,Продавец-консультант,19,11,0,0,1987-02-27,основное общее,,15400.0


In [71]:
empl.query("report_dt == '2022-12-31'").head(3)

  empl.query("report_dt == '2022-12-31'").head(3)


Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
28885,2022-12-31,100213,Васильева Дарья Тимуровна,женский,1,Директор магазина,11,,1,0,1994-02-16,среднее профессиональное,4.0,76600.0
28886,2022-12-31,36,Балашов Петр Максимович,мужской,1,Старший кассир,12,11.0,0,2,1980-09-16,высшее,7.0,42700.0
28887,2022-12-31,712,Филимонов Дмитрий Васильевич,мужской,1,Кассир,13,12.0,0,1,1974-12-12,основное общее,4.0,25000.0


In [70]:
empl.query('report_dt >= "2021-12-31"').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
23199,2021-12-31,100173,Макеева Вероника Григорьевна,женский,1,Директор магазина,11,,1,0,1967-05-31,высшее,4.0,70800.0
23200,2021-12-31,36,Балашов Петр Максимович,мужской,1,Старший кассир,12,11.0,0,2,1980-09-16,высшее,7.0,39900.0
23201,2021-12-31,1334,Максимов Даниил Андреевич,мужской,1,Кассир,13,12.0,0,2,1973-10-20,среднее профессиональное,6.0,27200.0


#### Две нижние записи значат одно и то же

Внутри метода можно использовать стандартные питоновские операторы

In [72]:
empl.query('(report_dt >= "2021-12-31") and (pos_name == "Кассир")').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
23201,2021-12-31,1334,Максимов Даниил Андреевич,мужской,1,Кассир,13,12,0,2,1973-10-20,среднее профессиональное,6.0,27200.0
23202,2021-12-31,1479,Стариков Данил Александрович,мужской,1,Кассир,14,12,0,0,1986-03-28,среднее профессиональное,5.0,19700.0
23203,2021-12-31,1310,Киреев Дмитрий Кириллович,мужской,1,Кассир,15,12,0,1,1978-05-15,среднее общее,6.0,22400.0


In [73]:
empl.query('(report_dt >= "2021-12-31") or not (pos_name == "Кассир")').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


Проверка на вхождение

In [74]:
marks.query('Математика in [3, 4]').head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5


In [75]:
empl.query('(report_dt >= "2021-12-31") | ~(pos_name == "Кассир")').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [76]:
marks.query('Математика not in [3, 4]').head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
13,Петухов Александр Алексеевич,мужской,5,4,4,5,4,5
14,Панфилов Марат Евгеньевич,мужской,5,4,4,4,4,5


Несколько условий, соедиененых союзом и можно записывать в нескольких методах подряд

In [77]:
(empl
    .query('report_dt >= "2021-12-31"')
    .query('pos_name == "Кассир"')
    .head(3)
)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
23201,2021-12-31,1334,Максимов Даниил Андреевич,мужской,1,Кассир,13,12,0,2,1973-10-20,среднее профессиональное,6.0,27200.0
23202,2021-12-31,1479,Стариков Данил Александрович,мужской,1,Кассир,14,12,0,0,1986-03-28,среднее профессиональное,5.0,19700.0
23203,2021-12-31,1310,Киреев Дмитрий Кириллович,мужской,1,Кассир,15,12,0,1,1978-05-15,среднее общее,6.0,22400.0


### Колонка, содержащая пробел выделяется ` (там где ё)

In [78]:
marks.query('`Физическая культура` == 5').head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5


In [79]:
marks.query('`Физическая культура` == История').head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
9,Сухарев Евгений Валерьевич,мужской,3,5,4,4,5,5
11,Бородина Валерия Даниловна,женский,3,4,5,3,5,5


In [82]:
marks[marks['Физическая культура'] == marks['История']].head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
9,Сухарев Евгений Валерьевич,мужской,3,5,4,4,5,5
11,Бородина Валерия Даниловна,женский,3,4,5,3,5,5


#### Использование переменных

In [80]:
students = [
    'Мартынова Елизаваета Фёдоровна',
    'Савина Виктория Тимуровна',
    'Гладкова Мария Максимовна',
    'Лапина Юлия Маратовна',
]

In [85]:
marks.query('ФИО in @students')

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
48,Савина Виктория Тимуровна,женский,4,5,5,3,5,5
71,Гладкова Мария Максимовна,женский,4,4,4,3,4,5
79,Лапина Юлия Маратовна,женский,5,5,4,5,4,3
132,Мартынова Елизаваета Фёдоровна,женский,3,3,3,4,3,4


In [86]:
marks.query(f'ФИО in {students}')

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
48,Савина Виктория Тимуровна,женский,4,5,5,3,5,5
71,Гладкова Мария Максимовна,женский,4,4,4,3,4,5
79,Лапина Юлия Маратовна,женский,5,5,4,5,4,3
132,Мартынова Елизаваета Фёдоровна,женский,3,3,3,4,3,4


In [87]:
date = '2015-01-31'
empl.query('report_dt == @date').head(3)

  empl.query('report_dt == @date').head(3)


Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0


In [88]:
date = '2015-01-31'
empl.query(f'report_dt == "{date}"').head(3)

  empl.query(f'report_dt == "{date}"').head(3)


Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0


Можно использовать методы

In [89]:
empl.query('closest_boss_pos_id.isna()').head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
10,2015-02-28,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
22,2015-03-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0


In [90]:
marks.query('`Физическая культура`.isin([3, 4])').head(3)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3
10,Суслов Артём Глебович,мужской,4,4,4,3,3,4


In [91]:
marks.query("ФИО.str.contains('Данил')")

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
11,Бородина Валерия Даниловна,женский,3,4,5,3,5,5
16,Фомичева Ольга Даниловна,женский,4,4,4,5,4,4
22,Молчанов Владимир Данилович,мужской,4,4,4,4,4,4
41,Щербаков Данил Русланович,мужской,5,5,5,5,5,5
83,Носов Данил Дмитриевич,мужской,4,5,4,4,4,5


Удобно использовать метод query совместно с методом assign

In [92]:
(marks
    .assign(math_rus_history_mean = lambda x: 
            (x["Математика"] + x["Русский язык"] + x["История"]) / 3
           )
    .query('math_rus_history_mean >= 4')
    .drop('math_rus_history_mean', axis=1)
    .head(3)
)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
7,Михайлова Ксения Родионовна,женский,4,4,3,4,4,5


У объектов Series метода query нет. Но их можно переделать в датафрейм

In [93]:
math.to_frame().query('Математика == [4, 5]')['Математика'].head()

2    4
3    5
5    4
6    4
7    4
Name: Математика, dtype: int64

#### Избавляемся от дубликатов

### В метод loc можно передать функцию, которая на вход принимает датафрейм. Возвращать она должна массив True False

Здесь мы хотим вернуть только те строки по стобцам i_pernr и fio, которые представлены в единственном экземпляре

In [94]:
empl.loc[lambda x: ~x.duplicated('i_pernr', keep=False)].head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
573,2016-03-31,69,Рубцов Илья Тимурович,мужской,5,Кассир,55,52,0,0,1997-04-04,основное общее,6.0,15400.0
1239,2016-09-30,129,Борисова Елизаваета Максимовна,женский,5,Продавец-консультант,513,51,0,0,1970-06-13,среднее общее,5.0,19500.0
5170,2018-04-30,483,Медведев Святослав Владимирович,мужской,16,Продавец-консультант,1616,162,0,0,1983-08-03,среднее общее,4.0,21300.0


Метод loc удобно использовать если надо проверить условие на всю строку или на значительную часть строки

In [95]:
marks.loc[lambda x: x
    .drop(columns=['ФИО', 'Пол'])
    .isin([5]) # или можно использовать .eq(5)
    .all(axis=1)
          ]

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
15,Минина Маргарита Кирилловна,женский,5,5,5,5,5,5
23,Яшин Давид Антонович,мужской,5,5,5,5,5,5
38,Кочетков Лев Евгеньевич,мужской,5,5,5,5,5,5
39,Калинин Владимир Олегович,мужской,5,5,5,5,5,5
41,Щербаков Данил Русланович,мужской,5,5,5,5,5,5
108,Дубинин Иван Валерьевич,мужской,5,5,5,5,5,5
113,Астафьева София Александровна,женский,5,5,5,5,5,5


Правда через query это тоже можно сделать

In [96]:
(marks
    .assign(otlichik = lambda x: x.drop(columns=['ФИО', 'Пол'])
                                    .isin([5]).all(axis=1)
           )
    .query('otlichik')
    .drop('otlichik', axis=1)
)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
15,Минина Маргарита Кирилловна,женский,5,5,5,5,5,5
23,Яшин Давид Антонович,мужской,5,5,5,5,5,5
38,Кочетков Лев Евгеньевич,мужской,5,5,5,5,5,5
39,Калинин Владимир Олегович,мужской,5,5,5,5,5,5
41,Щербаков Данил Русланович,мужской,5,5,5,5,5,5
108,Дубинин Иван Валерьевич,мужской,5,5,5,5,5,5
113,Астафьева София Александровна,женский,5,5,5,5,5,5


### Метод drop_duplicates

Оставляем строку если она не встречалась выше в таблице

In [97]:
empl.drop_duplicates().head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0


In [98]:
empl.drop_duplicates('i_pernr', keep='first').head(3) # Это значение по умолчанию

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0


Оставляем строку если она не встречалась ниже в таблице

In [99]:
empl.drop_duplicates('i_pernr', keep='last').head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
146,2015-07-31,11,Мельников Игорь Семёнович,мужской,1,Кассир,16,12.0,0,0,1965-12-01,основное общее,6.0,12800.0
151,2015-07-31,7,Воробьев Семён Александрович,мужской,1,Продавец-консультант,111,11.0,0,0,1985-07-29,среднее общее,5.0,15400.0
180,2015-08-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
251,2015-09-30,22,Ершова Маргарита Николаевна,женский,2,Продавец-консультант,221,22.0,0,0,1996-09-09,среднее общее,4.0,26400.0
291,2015-10-31,34,Свиридова Виктория Тимуровна,женский,2,Продавец-консультант,222,22.0,0,0,1990-08-11,среднее общее,4.0,26800.0


Возвращаем только те строки, которые представленны в единственном экземпляре 

In [100]:
empl.drop_duplicates('i_pernr', keep=False).head(3)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
573,2016-03-31,69,Рубцов Илья Тимурович,мужской,5,Кассир,55,52,0,0,1997-04-04,основное общее,6.0,15400.0
1239,2016-09-30,129,Борисова Елизаваета Максимовна,женский,5,Продавец-консультант,513,51,0,0,1970-06-13,среднее общее,5.0,19500.0
5170,2018-04-30,483,Медведев Святослав Владимирович,мужской,16,Продавец-консультант,1616,162,0,0,1983-08-03,среднее общее,4.0,21300.0


# Присваивание значений на основе условий

In [101]:
marks_copy = marks.copy()
marks_copy.head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3


In [102]:
# Условие на то, что человек хорошист
condition = (
    marks_copy
    .drop(columns=['ФИО', 'Пол'])
    .isin([4, 5])
    .all(axis=1)
)
condition.head()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [106]:
pd.DataFrame(condition)

Unnamed: 0,0
0,False
1,False
2,False
3,True
4,False
...,...
140,False
141,True
142,False
143,False


#### Использование атрибута loc

In [107]:
marks_copy.loc[condition, 'Характеристика'] = 'Учится хорошо'
marks_copy.loc[~condition, 'Характеристика'] = 'Учится плохо'
marks_copy.head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,Характеристика
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5,Учится плохо
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3,Учится плохо
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5,Учится плохо
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5,Учится хорошо
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3,Учится плохо


### where

Синсаксис:

np.where(условие, значение если условие выполняется, значение если условие не выполняется)

In [108]:
np.where(marks.drop(columns=['ФИО', 'Пол']).isin([4, 5]).all(axis=1), # прописываем условие
        'Учится хорошо', 'Учится плохо') # Значение если условие выполняется и не выполняется

array(['Учится плохо', 'Учится плохо', 'Учится плохо', 'Учится хорошо',
       'Учится плохо', 'Учится плохо', 'Учится плохо', 'Учится плохо',
       'Учится плохо', 'Учится плохо', 'Учится плохо', 'Учится плохо',
       'Учится хорошо', 'Учится хорошо', 'Учится хорошо', 'Учится хорошо',
       'Учится хорошо', 'Учится хорошо', 'Учится хорошо', 'Учится плохо',
       'Учится плохо', 'Учится хорошо', 'Учится хорошо', 'Учится хорошо',
       'Учится плохо', 'Учится хорошо', 'Учится плохо', 'Учится плохо',
       'Учится плохо', 'Учится хорошо', 'Учится плохо', 'Учится плохо',
       'Учится хорошо', 'Учится плохо', 'Учится плохо', 'Учится хорошо',
       'Учится плохо', 'Учится плохо', 'Учится хорошо', 'Учится хорошо',
       'Учится плохо', 'Учится хорошо', 'Учится плохо', 'Учится плохо',
       'Учится плохо', 'Учится плохо', 'Учится плохо', 'Учится плохо',
       'Учится плохо', 'Учится плохо', 'Учится плохо', 'Учится хорошо',
       'Учится плохо', 'Учится плохо', 'Учится плохо', 'Уч

In [109]:
(marks
    .assign(characteristic = lambda x: np.where(x.drop(columns=['ФИО', 'Пол'])
                                                 .isin([4, 5]).all(axis=1),
                                        'Учится хорошо', 'Учится плохо'))
    .head()
)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,characteristic
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5,Учится плохо
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3,Учится плохо
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5,Учится плохо
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5,Учится хорошо
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3,Учится плохо


In [110]:
(empl
    .assign(bonus = lambda x: np.where(x['mgmt_flag']==1,
                                       x['salary']*0.2,
                                       x['salary']*0.1)
           )
    .head()
)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary,bonus
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0,9140.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0,2000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0,1260.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0,1260.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0,1540.0


In [111]:
(empl
    .assign(bonus = lambda x: np.where(x['mgmt_flag']==1,
                                       x['salary']*0.2,
                                       500)
           )
    .head()
)

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary,bonus
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0,9140.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0,500.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0,500.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0,500.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0,500.0


### В пандасе есть метод where и mask

In [112]:
empl['salary'].where(empl['mgmt_flag'] == 1, # условие
                     empl['salary'] * 0.2) # значение если условие не выполняется
# Если условие выполняется, то берется значение из колоноки salary

0        45700.0
1         4000.0
2         2520.0
3         2520.0
4         3080.0
          ...   
29367     7600.0
29368     6360.0
29369     5680.0
29370     7100.0
29371     5280.0
Name: salary, Length: 29372, dtype: float64

In [115]:
empl['salary'].mask(empl['mgmt_flag'] == 1, # услвоие
                    empl['salary'] * 1.2) # значение если условие выполняется
# Если условие не выполняется, то берется значение из колоноки salary

0        54840.0
1        20000.0
2        12600.0
3        12600.0
4        15400.0
          ...   
29367    38000.0
29368    31800.0
29369    28400.0
29370    35500.0
29371    26400.0
Name: salary, Length: 29372, dtype: float64

#### Внутри методов можно использовать функции

In [118]:
empl['salary'].where(lambda x: x > 35000, # услвоие
                     empl['salary'] * 1.2) # значение если условие не выполняется
# Если условие выполняется, то берется значение из колоноки salary

0        45700.0
1        24000.0
2        15120.0
3        15120.0
4        18480.0
          ...   
29367    38000.0
29368    38160.0
29369    34080.0
29370    35500.0
29371    31680.0
Name: salary, Length: 29372, dtype: float64

### select
#### Синтаксис:

np.select(список условий, список значений, значение если не выполнилось ни одно условие)

Длинна списоков с условиями и значениями должна быть равна

Условия проверяются в том порядке, в котором они написаны. Если выполнилось одно из условий дальше условия не проверяются

In [119]:
np.select(
    [marks.drop(columns=['ФИО', 'Пол']).isin([5]).all(axis=1),
    marks.drop(columns=['ФИО', 'Пол']).isin([5, 4]).all(axis=1)],
    
    ['Отличник', 'Хорошист'], 'Троешник')

array(['Троешник', 'Троешник', 'Троешник', 'Хорошист', 'Троешник',
       'Троешник', 'Троешник', 'Троешник', 'Троешник', 'Троешник',
       'Троешник', 'Троешник', 'Хорошист', 'Хорошист', 'Хорошист',
       'Отличник', 'Хорошист', 'Хорошист', 'Хорошист', 'Троешник',
       'Троешник', 'Хорошист', 'Хорошист', 'Отличник', 'Троешник',
       'Хорошист', 'Троешник', 'Троешник', 'Троешник', 'Хорошист',
       'Троешник', 'Троешник', 'Хорошист', 'Троешник', 'Троешник',
       'Хорошист', 'Троешник', 'Троешник', 'Отличник', 'Отличник',
       'Троешник', 'Отличник', 'Троешник', 'Троешник', 'Троешник',
       'Троешник', 'Троешник', 'Троешник', 'Троешник', 'Троешник',
       'Троешник', 'Хорошист', 'Троешник', 'Троешник', 'Троешник',
       'Троешник', 'Хорошист', 'Троешник', 'Троешник', 'Троешник',
       'Троешник', 'Хорошист', 'Хорошист', 'Троешник', 'Хорошист',
       'Троешник', 'Троешник', 'Троешник', 'Хорошист', 'Троешник',
       'Хорошист', 'Троешник', 'Троешник', 'Хорошист', 'Троешн

In [120]:
(marks
    .assign(characteristics = lambda x: np.select(
        [x.drop(columns=['ФИО', 'Пол']).isin([5]).all(axis=1),
        x.drop(columns=['ФИО', 'Пол']).isin([5, 4]).all(axis=1)],
        ['Отличник', 'Хорошист'], 'Троешник'))
    .head()
)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,characteristics
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5,Троешник
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3,Троешник
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5,Троешник
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5,Хорошист
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3,Троешник


In [121]:
(marks
    .assign(characteristics=lambda x: np.select(
        [marks.drop(columns=['ФИО', 'Пол']).isin([5]).all(axis=1),
        marks.drop(columns=['ФИО', 'Пол']).isin([5, 4]).all(axis=1)],
        ['Отличник', 'Хорошист'], 'Троешник'))
#     .query('characteristics == "Отличник"')
    .query('characteristics == "Хорошист"')
#     .query('characteristics == "Троешник"')
    .head()
)

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,characteristics
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5,Хорошист
12,Казанцева Мария Владимировна,женский,4,4,4,4,4,5,Хорошист
13,Петухов Александр Алексеевич,мужской,5,4,4,5,4,5,Хорошист
14,Панфилов Марат Евгеньевич,мужской,5,4,4,4,4,5,Хорошист
16,Фомичева Ольга Даниловна,женский,4,4,4,5,4,4,Хорошист


### np.minimum и np.maximum

Функции позволяют сравнивать несколько массивов между собой и возвращать минимум/максимум по каждой строке

In [122]:
np.minimum(marks['Математика'], marks['История'])

0      3
1      3
2      4
3      4
4      3
      ..
140    3
141    4
142    3
143    3
144    4
Length: 145, dtype: int64

In [123]:
np.minimum(marks['Математика'], marks['История'], marks['Физика'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  np.minimum(marks['Математика'], marks['История'], marks['Физика'])


0      3
1      3
2      4
3      4
4      3
      ..
140    3
141    4
142    3
143    3
144    4
Name: Физика, Length: 145, dtype: int64

Массив можно сравнивать с константой

In [124]:
np.maximum(marks['Математика'], 4)

0      4
1      4
2      4
3      5
4      4
      ..
140    5
141    4
142    4
143    4
144    4
Name: Математика, Length: 145, dtype: int64

### Clip

Позволяет обрезать значния. 

Все значения ниже указанного числа станут равны указанному числу

In [125]:
empl['salary']

0        45700.0
1        20000.0
2        12600.0
3        12600.0
4        15400.0
          ...   
29367    38000.0
29368    31800.0
29369    28400.0
29370    35500.0
29371    26400.0
Name: salary, Length: 29372, dtype: float64

In [126]:
empl['salary'].clip(30000)

0        45700.0
1        30000.0
2        30000.0
3        30000.0
4        30000.0
          ...   
29367    38000.0
29368    31800.0
29369    30000.0
29370    35500.0
29371    30000.0
Name: salary, Length: 29372, dtype: float64

In [127]:
# минималььное значение равно 30000
empl['salary'].clip(30000).min()

30000.0

Если указать два значения, то все значения выше второго будут тоже обрезаны

In [128]:
empl['salary'].clip(30000, 90000)

0        45700.0
1        30000.0
2        30000.0
3        30000.0
4        30000.0
          ...   
29367    38000.0
29368    31800.0
29369    30000.0
29370    35500.0
29371    30000.0
Name: salary, Length: 29372, dtype: float64

In [129]:
empl['salary'].clip(30000, 90000).min()

30000.0

In [130]:
empl['salary'].clip(30000, 90000).max()

90000.0

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

Из таблицы w_ends выберите выходные дни

In [131]:
import os
import pandas as pd

path_w_ends = '../tables/выходные.csv' if os.path.exists('../tables/выходные.csv') else 'https://drive.google.com/uc?id=1hAsoXSPTFihFmBuF-E0uSj9pX4gpojwC'

w_ends = pd.read_csv(path_w_ends)
w_ends.head()

Unnamed: 0,Дата,выходной
0,2015-01-01,True
1,2015-01-02,True
2,2015-01-03,True
3,2015-01-04,True
4,2015-01-05,True


In [132]:
w_ends[w_ends['выходной'] == 1]

Unnamed: 0,Дата,выходной
0,2015-01-01,True
1,2015-01-02,True
2,2015-01-03,True
3,2015-01-04,True
4,2015-01-05,True
...,...,...
2907,2022-12-17,True
2908,2022-12-18,True
2914,2022-12-24,True
2915,2022-12-25,True


### Задание 2

Выберите строки таблицы stocks, когда минимальная цена была выше 300

In [133]:
import os
import pandas as pd

path_stocks = '../tables/stocks.parquet' if os.path.exists('../tables/stocks.parquet') else 'https://drive.google.com/uc?id=1weGquTtmR92mKYAeZhZCFHJjndyoSXZt'

stocks = pd.read_parquet(path_stocks)
stocks.head()

Unnamed: 0_level_0,Цена,Откр.,Макс.,Мин.
Дата,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-02-01,180.733,179.88,183.409,178.371
2019-02-01,179.218,179.143,180.669,177.728
2021-02-01,229.402,228.29,229.627,226.187
2022-02-01,311.075,315.381,317.571,305.878
2018-03-01,180.57,179.994,182.5,178.843


In [134]:
stocks[stocks['Мин.'] > 300]

Unnamed: 0_level_0,Цена,Откр.,Макс.,Мин.
Дата,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-02-01,311.075,315.381,317.571,305.878
2021-09-01,319.394,313.281,320.157,312.742
2021-10-01,355.819,352.678,356.628,350.024
2021-11-01,362.658,351.985,362.951,351.982
2021-12-01,338.967,333.347,344.091,332.180
...,...,...,...,...
2021-09-30,354.857,353.269,357.831,350.506
2021-11-30,328.468,326.050,335.359,325.077
2021-12-30,327.720,326.605,329.267,323.636
2022-01-31,315.186,309.324,316.367,309.007


### Задание 3

Из таблицы shops выберите магазины из Москвы, Саратова и Оренбурга

In [135]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops

Unnamed: 0,shop_id,city,adress,shopping_center,size,open_date
0,1,Воронеж,"Пушкинская пл., д. 76",,Мелкий,2015-01-22
1,2,Санкт-Петербург,"ул. Веселая, д. 20",Книга,Крупный,2015-05-11
2,3,Чита,"Тупой пер., д. 1",,Мелкий,2015-11-27
3,4,Липецк,"пр. Гагарина, д. 234",Обезьяна,Средний,2016-04-04
4,5,Челябинск,"пр. Железнодорожников, д. 12",,Мелкий,2016-04-11
5,6,Казань,"ул. Кривая, д. 5",Фараон,Крупный,2016-04-19
6,7,Екатеринбург,"ул. Каспийская, д. 90",Ворона,Крупный,2017-01-17
7,8,Якутск,"ул. Оружейная, д. 100",Спорт,Средний,2017-02-08
8,9,Саратов,"ул. Солнечная, д. 189",Сокол,Средний,2017-05-10
9,10,Кемерово,"ул. Улиточная, д. 8",Калейдоскоп,Средний,2017-08-13


In [138]:
shops[shops['city'].isin(['Москва', "Саратов", "Оренбург"])]

Unnamed: 0,shop_id,city,adress,shopping_center,size,open_date
8,9,Саратов,"ул. Солнечная, д. 189",Сокол,Средний,2017-05-10
11,12,Москва,"ул. Просторная, д. 13",Глобус,Средний,2017-12-31
19,20,Оренбург,"пр. Строителей, д. 7",Степной гигант,Средний,2019-06-27


### Задание 4

Верно ли что все мелкие магазины расположены вне торговых центров?

In [139]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops

Unnamed: 0,shop_id,city,adress,shopping_center,size,open_date
0,1,Воронеж,"Пушкинская пл., д. 76",,Мелкий,2015-01-22
1,2,Санкт-Петербург,"ул. Веселая, д. 20",Книга,Крупный,2015-05-11
2,3,Чита,"Тупой пер., д. 1",,Мелкий,2015-11-27
3,4,Липецк,"пр. Гагарина, д. 234",Обезьяна,Средний,2016-04-04
4,5,Челябинск,"пр. Железнодорожников, д. 12",,Мелкий,2016-04-11
5,6,Казань,"ул. Кривая, д. 5",Фараон,Крупный,2016-04-19
6,7,Екатеринбург,"ул. Каспийская, д. 90",Ворона,Крупный,2017-01-17
7,8,Якутск,"ул. Оружейная, д. 100",Спорт,Средний,2017-02-08
8,9,Саратов,"ул. Солнечная, д. 189",Сокол,Средний,2017-05-10
9,10,Кемерово,"ул. Улиточная, д. 8",Калейдоскоп,Средний,2017-08-13


In [142]:
shops[(shops['size'] == "Мелкий") & (shops['shopping_center'].isnull())]

Unnamed: 0,shop_id,city,adress,shopping_center,size,open_date
0,1,Воронеж,"Пушкинская пл., д. 76",,Мелкий,2015-01-22
2,3,Чита,"Тупой пер., д. 1",,Мелкий,2015-11-27
4,5,Челябинск,"пр. Железнодорожников, д. 12",,Мелкий,2016-04-11
13,14,Вологда,"ул. Сосисочная, д. 42",,Мелкий,2018-03-30
14,15,Новокузнецк,"Волжская ул., д. 94",,Мелкий,2018-04-30
18,19,Архангельск,"пр. Садоводов, д. 39",,Мелкий,2019-02-24


In [143]:
shops[shops["size"] == "Мелкий"]["shopping_center"].isnull().all()

True

### Задание 5

Выведите имена сотрудниковт мужского пола, которые встречаются в таблице empl только 1 раз

In [144]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [147]:
empl[(empl['sex'] == 'мужской') & (~empl['fio'].duplicated(keep=False) == False)]

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12,0,0,1969-11-01,среднее общее,3.0,12600.0
5,2015-01-31,4,Никифоров Даниил Глебович,мужской,1,Продавец-консультант,18,11,0,0,1967-10-01,среднее профессиональное,,15400.0
6,2015-01-31,5,Грачев Даниил Артёмович,мужской,1,Продавец-консультант,19,11,0,0,1987-02-27,основное общее,,15400.0
7,2015-01-31,6,Леонов Николай Артурович,мужской,1,Продавец-консультант,110,11,0,0,1966-02-18,среднее профессиональное,,15400.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29361,2022-12-31,1870,Селиванов Марк Александрович,мужской,23,Продавец-консультант,2319,232,0,0,1981-09-11,среднее профессиональное,5.0,26000.0
29364,2022-12-31,1849,Верещагин Александр Александрович,мужской,23,Продавец-консультант,2322,232,0,0,1988-06-01,среднее профессиональное,6.0,25900.0
29366,2022-12-31,1747,Онищенко Игорь Александрович,мужской,23,Продавец-консультант,2324,232,0,1,1988-02-08,основное общее,5.0,32000.0
29369,2022-12-31,1748,Измайлов Григорий Артемович,мужской,23,Товаровед,2327,233,0,0,1989-12-23,среднее общее,3.0,28400.0


### Задание 6

Сколько уникальных зарплат было в магазинах 31 марта 2020 года?

In [148]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [None]:
empl.loc[empl["report_dt"] == "31-03-2020", "salary"].nunique()

InvalidIndexError: (0        False
1        False
2        False
3        False
4        False
         ...  
29367    False
29368    False
29369    False
29370    False
29371    False
Name: report_dt, Length: 29372, dtype: bool, 'salary')

In [None]:
empl.where(empl['report_dt'] == '31-03-2020')['salary'].drop_duplicates().nunique()

101

### Задание 7

Выведите табельные номера (i_pernr) и имена кассиров и старших кассиров, которые когда-либо зарабатывали в магазине менее 20000. В итоговой таблице не должно быть дубликатов

In [159]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [172]:
empl[['i_pernr', 'fio']].where(empl['salary'] < 20000).drop_duplicates().dropna().values.tolist()

[[1.0, 'Вишневскиая Валентина Константиновна'],
 [2.0, 'Литвинов Александр Максимович'],
 [3.0, 'Черняева Валерия Глебовна'],
 [4.0, 'Никифоров Даниил Глебович'],
 [5.0, 'Грачев Даниил Артёмович'],
 [6.0, 'Леонов Николай Артурович'],
 [7.0, 'Воробьев Семён Александрович'],
 [8.0, 'Жилина Валерия Александровна'],
 [9.0, 'Носова Алена Захаровна'],
 [10.0, 'Колосова Анастасия Богдановна'],
 [11.0, 'Мельников Игорь Семёнович'],
 [32.0, 'Борисов Николай Валерьевич'],
 [35.0, 'Суворов Петр Ярославович'],
 [36.0, 'Балашов Петр Максимович'],
 [39.0, 'Воронцова Марина Ивановна'],
 [40.0, 'Шубина Валерия Ивановна'],
 [41.0, 'Никифорова Вероника Николаевна'],
 [42.0, 'Ефремова Анастасия Ярославовна'],
 [43.0, 'Скрипко Варвара Глебовна'],
 [44.0, 'Соболева Алена Степановна'],
 [45.0, 'Дружинин Давид Данилович'],
 [46.0, 'Павловскиая Светлана Денисовна'],
 [48.0, 'Еремина Вера Валерьевна'],
 [49.0, 'Старостина Елена Артуровна'],
 [50.0, 'Сахарова Александра Степановна'],
 [51.0, 'Зорин Давид Фёдоро

### Задание 8

Выберите тех сотрудников, у которых в июле 2021 года либо не было оценки, либо оценка была выше 7

In [168]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [173]:
empl[
    (empl["report_dt"].dt.month == 7)
    & (empl["report_dt"].dt.year == 2021)
    & ((empl["employee_evaluation"].isnull()) | (empl["employee_evaluation"] > 7))
]

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
20826,2021-07-31,36,Балашов Петр Максимович,мужской,1,Старший кассир,12,11.0,0,2,1980-09-16,высшее,8.0,39900.0
20851,2021-07-31,1457,Алехина Кристина Кирилловна,женский,2,Продавец-консультант,215,22.0,0,0,1972-06-08,среднее профессиональное,,40100.0
20876,2021-07-31,57,Колпакова Раиса Андреевна,женский,4,Старший кассир,43,42.0,0,2,1970-04-02,основное общее,8.0,39900.0
20906,2021-07-31,100141,Родин Руслан Денисович,мужской,6,Директор магазина,61,,1,0,1978-08-14,высшее,8.0,122700.0
20910,2021-07-31,147,Нефедов Лев Михайлович,мужской,6,Старший кассир,65,62.0,0,2,1966-11-07,среднее общее,8.0,39900.0
20943,2021-07-31,1460,Севастьянова Татьяна Ивановна,женский,7,Кассир,712,75.0,0,0,1984-09-30,среднее общее,,19600.0
20944,2021-07-31,1461,Усова Екатерна Константиновна,женский,7,Кассир,713,75.0,0,0,1972-03-17,высшее,,19600.0
20966,2021-07-31,298,Беляков Дмитрий Александрович,мужской,8,Старший кассир,83,82.0,0,2,1976-10-24,высшее,10.0,39900.0
20983,2021-07-31,1463,Прохоров Дмитрий Владимирович,мужской,8,Продавец-консультант,821,82.0,0,0,1993-12-16,среднее общее,,24000.0
20986,2021-07-31,1105,Голикова Елизаваета Олеговна,женский,8,Товаровед,824,82.0,0,2,1988-06-19,среднее профессиональное,8.0,31900.0


### Задание 9

Создайте колонку est. Она будет принимать значение 'Работает хорошо' если оценка больше или равна 6 и 'Работает полохо' иначе

In [174]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [177]:
empl = empl.assign(est = np.where(empl['employee_evaluation'] >= 6,'Работает хорошо', 'Работает плохо'))
empl

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary,est
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0,Работает плохо
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11,0,0,1971-07-07,среднее профессиональное,5.0,20000.0,Работает плохо
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12,0,0,1974-11-29,среднее общее,5.0,12600.0,Работает плохо
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12,0,0,1969-11-01,среднее общее,3.0,12600.0,Работает плохо
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,0,1988-07-17,среднее общее,,15400.0,Работает плохо
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29367,2022-12-31,1372,Морозова Раиса Ярославовна,женский,23,Продавец-консультант,2325,232,0,2,1962-01-13,среднее профессиональное,6.0,38000.0,Работает хорошо
29368,2022-12-31,1615,Фадеева Евгения Данииловна,женский,23,Товаровед,2326,233,0,1,1989-07-12,среднее общее,6.0,31800.0,Работает хорошо
29369,2022-12-31,1748,Измайлов Григорий Артемович,мужской,23,Товаровед,2327,233,0,0,1989-12-23,среднее общее,3.0,28400.0,Работает плохо
29370,2022-12-31,1616,Русаков Евгений Тимурович,мужской,23,Мастер по ремонту одежды,2328,232,0,2,1963-09-19,среднее профессиональное,7.0,35500.0,Работает хорошо


### Задание 10

Создайте колонку est. Она будет принимать значение 'Работает хорошо' если оценка больше или равна 6, 'Работает полохо' если  оценка ниже 6 и 'Непонятно' иначе

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [182]:
empl = empl.assign(
    est=np.where(
        empl["employee_evaluation"] >= 6,
        "Работает хорошо",
        np.where(empl["employee_evaluation"] < 6, "Работает плохо", "Непонятно"
    )
))
empl[empl['est'] == 'Непонятно']

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary,est
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,0,1988-07-17,среднее общее,,15400.0,Непонятно
5,2015-01-31,4,Никифоров Даниил Глебович,мужской,1,Продавец-консультант,18,11,0,0,1967-10-01,среднее профессиональное,,15400.0,Непонятно
6,2015-01-31,5,Грачев Даниил Артёмович,мужской,1,Продавец-консультант,19,11,0,0,1987-02-27,основное общее,,15400.0,Непонятно
7,2015-01-31,6,Леонов Николай Артурович,мужской,1,Продавец-консультант,110,11,0,0,1966-02-18,среднее профессиональное,,15400.0,Непонятно
14,2015-02-28,9,Носова Алена Захаровна,женский,1,Кассир,15,12,0,0,1990-11-16,среднее профессиональное,,12700.0,Непонятно
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28833,2022-11-30,100232,Дегтярева Кристина Дмитриевна,женский,22,Заместитель директора магазина,222,221,1,0,1986-01-17,высшее,,78300.0,Непонятно
28870,2022-11-30,1937,Петровскиая Кристина Андреевна,женский,23,Продавец-консультант,2315,232,0,0,1991-09-21,среднее профессиональное,,26400.0,Непонятно
28923,2022-12-31,1938,Дмитриева Александра Олеговна,женский,2,Уборщик,226,22,0,0,1982-09-23,среднее общее,,35000.0,Непонятно
29067,2022-12-31,1941,Тихомирова Анна Дмитриевна,женский,9,Продавец-консультант,912,92,0,0,1990-09-03,высшее,,27000.0,Непонятно


### Задание 11

Найте минимиальную оценку по русскому языку, математике и истории для каждого школьника

In [183]:
import os
import pandas as pd

path_marks = '../tables/школьные оценки.xlsx' if os.path.exists('../tables/школьные оценки.xlsx') else 'https://drive.google.com/uc?id=1v9kRv1I03CXtQ6vFE4mE3hFAty436qAo'

marks = pd.read_excel(path_marks)
marks.head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3


In [188]:
marks["Минимальная оценка"] = marks[["Русский язык", "Математика", "История"]].min(
    axis=1
)
marks

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,Минимальная оценка
0,Суханова Маргарита Богдановна,женский,3,3,3,3,3,5,3
1,Лаврентьев Давид Анатольевич,мужской,3,3,3,5,3,3,3
2,Винниченко Дарья Максимовна,женский,4,5,5,3,4,5,4
3,Козлова Маргарита Максимовна,женский,5,5,5,5,4,5,4
4,Кулешов Евгений Маратович,мужской,3,3,4,3,4,3,3
...,...,...,...,...,...,...,...,...,...
140,Бычкова Александра Борисовна,женский,5,4,3,5,3,5,3
141,Кулешов Семен Богданович,мужской,4,4,4,4,4,4,4
142,Павловскиая Алена Данииловна,женский,3,4,5,4,3,5,3
143,Лапин Юрий Тимурович,мужской,4,4,4,5,3,5,3


### Задание 12

Проверьте, что день рождения сотрудника (birth_date) и его табельный номер (i_pernr) имеют между собой взаимо однозначное соотвествие. 
 

<details>

<summary>Подсказка (кликните сюда 1 раз, если не можете решить)</summary>
 
Это можно сделать при помощи метода drop_duplicates. Сначала удалите из таблицы дубликаты по дате рождения и по табельному номеру. Посмотрите сколько строк получилось в таблице. А затем из получившейся таблицы уберите дублиты по табельному номеру. Число строк в таблице не должно измениться

</details>

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [190]:
empl[["birth_date", "i_pernr"]].drop_duplicates().drop_duplicates(subset="i_pernr")

Unnamed: 0,birth_date,i_pernr
0,1987-03-11,100000
1,1971-07-07,0
2,1974-11-29,1
3,1969-11-01,2
4,1988-07-17,3
...,...,...
29067,1990-09-03,1941
29073,1990-10-03,1942
29110,1966-02-26,1943
29131,1966-04-23,1928
