In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('https://drive.google.com/uc?export=download&id=1_kMyDROs2lJhIxccn8FXAdzgnB0CsWD1', sep=';', index_col=0)

In [None]:
df2 = pd.read_csv('https://drive.google.com/uc?export=download&id=1Ol1sjmGtBEQ2L7hMaxChxiddn6kgj7hs', sep = ';', index_col=2)

In [None]:
df.head()

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Toyota,Camry,2015,15000,60000,Gasoline
2,Honda,Civic,2018,18000,30000,Gasoline
3,Ford,Focus,2017,16000,40000,Gasoline
4,Tesla,Model 3,2020,35000,20000,Electric
5,BMW,3 Series,2016,24000,55000,Gasoline


In [None]:
df2.head()

Unnamed: 0_level_0,Agent Name,Agent age,Price
Time of deal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-10-30 12:34,John Doe,35,150.5
2024-10-30 09:45,Jane Smith,45,320.0
2024-10-30 14:12,Michael Johnson,28,260.75
2024-10-30 16:50,Emily Davis,30,180.1
2024-10-30 10:25,Chris Wilson,50,400.25


## Фильтрация данных

### Логические операторы

Способов фильтровать данные в Pandas очень много, и один из них – фильтрация с помощью логических операторов (>, <, <=, >=, ==, !=; ~, & и |).

Чтобы это сделать, в квадратных скобках нужно записать ваше логическое условие.

In [None]:
df[df['Brand'] == 'Audi']

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
89,Audi,Q7,2019,60000,28000,Gasoline


После фильтрации с помощью логических операторов можно передать в новых квадратных скобках столбец (или список столбцов), чтобы увидеть не весь отфильтрированный датасет, а только несколько признаков:

In [None]:
df[df['Brand'] == 'Audi'][['Price', 'Mileage']]

Unnamed: 0_level_0,Price,Mileage
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1
6,27000,35000
25,45000,32000
41,37000,42000
57,55000,37000
73,120000,20000
89,60000,28000


Для того, чтобы применить сразу несколько условий, нужно обязательно заключать отдельные условия в скобки и использовать побитовые логические операторы:
* & – логическое И
* | - логическое ИЛИ
* ~ – логическое НЕ

Очень важно также не забывать про порядок выполнения операций.

В следующей строке выберем **ЛИБО** машины марки Porsche, которые стоят не меньше 30000, **ЛИБО** машины марки Audi.

In [None]:
df[(df['Brand'] == 'Porsche') & ~(df['Price'] < 30000) | (df['Brand'] == 'Audi')]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
17,Porsche,Cayenne,2018,55000,36000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
33,Porsche,911,2018,90000,22000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
49,Porsche,Macan,2019,60000,24000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
65,Porsche,Panamera,2018,95000,27000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
81,Porsche,Taycan,2020,120000,11000,Electric


### loc[]

Еще помните **loc[]**? Так вот, с его помощью оказывается можно еще и данные фильтровать, круто, да?

Она принципиально ничем не отличается от фильтрации с помощью **df[фильтр]**, но всегда полезно знать пару-троечку методов, <strike>чтобы вспомнить хотя бы один при необходимости.</strike>

In [None]:
df.loc[df['Brand'] == 'Audi']

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
89,Audi,Q7,2019,60000,28000,Gasoline


Как и в пункте выше, здесь можно смотреть не целиком отфильтрованный датасет, а только некоторые столбики. Можно сделать это двумя способами – как в прошлом пункте вынести название(-я) столбца после в отдельные квадратные скобки. А можно в первых квадратных скобках поставить запятую и после нее передать либо один столбик, либо их список.

In [None]:
df.loc[df['Brand'] == 'Audi'][['Price', 'Mileage']]

Unnamed: 0_level_0,Price,Mileage
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1
6,27000,35000
25,45000,32000
41,37000,42000
57,55000,37000
73,120000,20000
89,60000,28000


In [None]:
df.loc[df['Brand'] == 'Audi', ['Price']]

Unnamed: 0_level_0,Price
Car ID,Unnamed: 1_level_1
6,27000
25,45000
41,37000
57,55000
73,120000
89,60000


Точно так же тут работает и работа с несколькими условиями.

In [None]:
df.loc[(df['Brand'] == 'Porsche') & ~(df['Price'] < 30000) | (df['Brand'] == 'Audi')]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
17,Porsche,Cayenne,2018,55000,36000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
33,Porsche,911,2018,90000,22000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
49,Porsche,Macan,2019,60000,24000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
65,Porsche,Panamera,2018,95000,27000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
81,Porsche,Taycan,2020,120000,11000,Electric


### isin()

Можно фильтровать данные с помощью метода **isin()**, по его названию можно сразу понять, что он делает.

isin() (is in?) возвращает булевый Dataframe, в котором *True* стоит в тех строках оперируемых столбцов, значение которых соответствует переданному значению (значениям). Значения в него вы передаете списком. isin работает почти как фильтрация посредством логических операторов – его тоже нужно заключать в квадратные скобки.

Ниже – 2 способа воспользоваться isin()

In [None]:
new = df['Brand'].isin(['Audi'])

df[new]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
89,Audi,Q7,2019,60000,28000,Gasoline


In [None]:
df[df['Brand'].isin(['Audi', 'Porsche'])]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6,Audi,A4,2019,27000,35000,Gasoline
17,Porsche,Cayenne,2018,55000,36000,Gasoline
25,Audi,Q5,2019,45000,32000,Gasoline
33,Porsche,911,2018,90000,22000,Gasoline
41,Audi,A6,2017,37000,42000,Gasoline
49,Porsche,Macan,2019,60000,24000,Gasoline
57,Audi,TT,2017,55000,37000,Gasoline
65,Porsche,Panamera,2018,95000,27000,Gasoline
73,Audi,R8,2019,120000,20000,Gasoline
81,Porsche,Taycan,2020,120000,11000,Electric


### Фильтрация NaN

**isna()** и **insull()**  возвращают булевую последовательность, в которой по аналогии с isin() *True* стоят в тех строках, где в самом датасете стоит NaN.

**notna()** и **notnull()** работают по такой же схеме, только *True* стоят не на месте Nan, а на месте заполненных значений

In [None]:
df[df['Mileage'].isna()]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1


In [None]:
df[df['Price'].notnull()]

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Toyota,Camry,2015,15000,60000,Gasoline
2,Honda,Civic,2018,18000,30000,Gasoline
3,Ford,Focus,2017,16000,40000,Gasoline
4,Tesla,Model 3,2020,35000,20000,Electric
5,BMW,3 Series,2016,24000,55000,Gasoline
...,...,...,...,...,...,...
96,Volvo,XC40,2020,37000,18000,Gasoline
97,Porsche,718 Cayman,2019,70000,26000,Gasoline
98,Toyota,4Runner,2020,45000,15000,Gasoline
99,Honda,Fit,2018,15000,37000,Gasoline


## Сортировка данных

### Сортировка по значениям

В Pandas можно сортировать датасеты по какому-то столбику (или даже нескольким) с помощью функции **sort_values()**. Вот как она работает:

In [None]:
df.sort_values(['Year'])

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Toyota,Camry,2015,15000,60000,Gasoline
7,Chevrolet,Malibu,2015,14000,65000,Gasoline
38,Nissan,Rogue,2016,19000,52000,Gasoline
21,Chevrolet,Impala,2016,17000,53000,Gasoline
19,Honda,Accord,2016,16000,59000,Gasoline
...,...,...,...,...,...,...
74,Tesla,Cybertruck,2020,85000,10000,Electric
4,Tesla,Model 3,2020,35000,20000,Electric
78,Jeep,Gladiator,2020,45000,18000,Gasoline
81,Porsche,Taycan,2020,120000,11000,Electric


Пожалуй, самые важные аргументы этого метода это:
* *by* – то, по чему мы будем сортировать. Строка или список строк
* *ascending* – Сортировка по убыванию (=False) или по возрастанию (=True; default)
* *inplace* – при True изменения применяются к исходному датасету
* *na_position* – 'first' или 'last' (по умолчанию), определяет где будут находится NaN-значения

In [None]:
df.sort_values(['Year', 'Price'], ascending=[False, True], inplace=False)

Unnamed: 0_level_0,Brand,Model,Year,Price,Mileage,Fuel Type
Car ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
12,Mazda,Mazda3,2020,20000,25000,Gasoline
22,Nissan,Maxima,2020,25000,20000,Gasoline
61,Kia,Sportage,2020,26000,22000,Gasoline
37,Chevrolet,Equinox,2020,27000,25000,Gasoline
83,Honda,CR-V,2020,27000,24000,Gasoline
...,...,...,...,...,...,...
10,Mercedes,C-Class,2016,28000,50000,Gasoline
51,Honda,Ridgeline,2016,33000,54000,Gasoline
56,BMW,7 Series,2016,45000,50000,Gasoline
7,Chevrolet,Malibu,2015,14000,65000,Gasoline


### Сортировка по индексам

Метод **sort_index()** сортирует индексы. Посмотрим на его работу на другом датасете.

In [None]:
df2.sort_index(ascending=False)

Unnamed: 0_level_0,Agent Name,Agent age,Price
Time of deal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-10-30 17:55,Ava Scott,20,174.25
2024-10-30 17:10,Isabella Rivera,26,160.20
2024-10-30 17:05,Sophia Harris,22,180.00
2024-10-30 17:00,Mia Stewart,29,189.60
2024-10-30 16:50,Emily Davis,30,180.10
...,...,...,...
2024-10-30 09:20,Henry Reed,55,350.80
2024-10-30 09:15,Olivia Clark,29,270.80
2024-10-30 09:10,Mason Brown,36,155.90
2024-10-30 09:05,Madison West,28,165.50
