## ☝️ Selects and aggregations

В этом ноутбуке выполняются выборки данных и агрегации для анализа штрафов, марок машин и связанных данных.

### 1. 📝 Загружаем данные и устанавливаем индекс ID

In [2]:
import pandas as pd

df = pd.read_json("../ex02/auto.json")
df.set_index("CarNumber", inplace=True)

df.head()

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E432XX77RUS,1,6500.0,Toyota,Camry
7184TT36RUS,1,2100.0,Ford,Focus
X582HE161RUS,2,2000.0,Ford,Focus
X4128H125RUS,1,7458.528951,Ford,Focus
H234YH197RUS,2,6000.0,Ford,Focus


### 2. Выполнение выборок

🔹 1. Выводим строки, где штрафы больше 2,100

In [3]:
df[df["Fines"] > 2100]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
E432XX77RUS,1,6500.000000,Toyota,Camry
X4128H125RUS,1,7458.528951,Ford,Focus
H234YH197RUS,2,6000.000000,Ford,Focus
707987163RUS,2,2200.000000,Ford,Focus
K330T8197RUS,2,8200.000000,Skoda,Octavia
...,...,...,...,...
O718MM163RUS,2,7458.528951,Ford,Focus
7065C8197RUS,2,11400.000000,Volkswagen,Passat
O22097197RUS,1,24300.000000,Ford,Focus
M0309X197RUS,1,22300.000000,Ford,Focus


🔹 2. Выводим строки, где штрафы больше 2,100 и возврат равен 2

In [5]:
df[(df["Fines"] > 2100) & (df["Refund"] == 2)]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
H234YH197RUS,2,6000.000000,Ford,Focus
707987163RUS,2,2200.000000,Ford,Focus
K330T8197RUS,2,8200.000000,Skoda,Octavia
M592CH197RUS,2,7458.528951,Skoda,Octavia
M298CH161RUS,2,7458.528951,Ford,Focus
...,...,...,...,...
O136HO197RUS,2,7800.000000,Toyota,Corolla
O68897197RUS,2,12300.000000,Ford,Focus
O718MM163RUS,2,7458.528951,Ford,Focus
7065C8197RUS,2,11400.000000,Volkswagen,Passat


🔹 3. Выводим строки с моделями Focus или Corolla

In [6]:
df[df["Model"].isin(["Focus", "Corolla"])]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
7184TT36RUS,1,2100.000000,Ford,Focus
X582HE161RUS,2,2000.000000,Ford,Focus
X4128H125RUS,1,7458.528951,Ford,Focus
H234YH197RUS,2,6000.000000,Ford,Focus
707987163RUS,2,2200.000000,Ford,Focus
...,...,...,...,...
Y163O8161RUS,2,1600.000000,Ford,Focus
M0309X197RUS,1,22300.000000,Ford,Focus
O673E8197RUS,2,600.000000,Ford,Focus
8610T8154RUS,1,2000.000000,Ford,Focus


🔹 4. Выводим строки с определёнными номерами машин

In [7]:
car_numbers = ["Y7689C197RUS", "92928M178RUS", "7788KT197RUS", "H115YO163RUS", "X758HY197RUS"]
df.loc[car_numbers]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y7689C197RUS,2,45000.0,Ford,Focus
Y7689C197RUS,1,36000.0,Ford,Focus
92928M178RUS,1,1200.0,Ford,Focus
92928M178RUS,2,3000.0,Ford,Focus
7788KT197RUS,1,20000.0,Ford,Focus
7788KT197RUS,2,4000.0,Ford,Focus
H115YO163RUS,1,7458.528951,Ford,Focus
H115YO163RUS,2,1100.0,Ford,Focus
X758HY197RUS,2,24200.0,Ford,Focus
X758HY197RUS,2,145200.0,Ford,Focus


### 3. Агрегации по марке и модели

🔹 1. Медиана штрафов, сгруппированная по марке

In [8]:
df.groupby("Make")["Fines"].median()

Make
Audi          4200.000000
BMW           3000.000000
Ford          3000.000000
Skoda         3650.000000
Toyota        7458.528951
Volkswagen    4800.000000
Volvo         6800.000000
Name: Fines, dtype: float64

🔹 2. Медиана штрафов, сгруппированная по марке и модели

In [9]:
df.groupby(["Make", "Model"])["Fines"].median()

Make        Model  
Ford        Focus      3000.0
            Mondeo     7650.0
Skoda       Octavia    3650.0
Toyota      Camry      7200.0
            Corolla    7700.0
Volkswagen  Golf       5400.0
            Jetta      2800.0
            Passat     3200.0
            Touareg    5800.0
Name: Fines, dtype: float64

🔹 3. Количество штрафов по марке и модели

In [10]:
df.groupby(["Make", "Model"])["Fines"].count()

Make        Model  
Ford        Focus      529
            Mondeo       8
Skoda       Octavia     48
Toyota      Camry       17
            Corolla     14
Volkswagen  Golf        20
            Jetta        6
            Passat      23
            Touareg      6
Name: Fines, dtype: int64

🔹 4. Минимум и максимум штрафов по марке и модели

In [11]:
df.groupby(["Make", "Model"])["Fines"].agg(["min", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
Make,Model,Unnamed: 2_level_1,Unnamed: 3_level_1
Ford,Focus,100.0,145200.0
Ford,Mondeo,1100.0,46200.0
Skoda,Octavia,300.0,72500.0
Toyota,Camry,800.0,22400.0
Toyota,Corolla,900.0,34300.0
Volkswagen,Golf,200.0,168000.0
Volkswagen,Jetta,500.0,46000.0
Volkswagen,Passat,100.0,29700.0
Volkswagen,Touareg,500.0,7458.528951


🔹 5. Стандартное отклонение штрафов по марке и модели

In [12]:
df.groupby(["Make", "Model"])["Fines"].std()

Make        Model  
Ford        Focus      12045.600353
            Mondeo     17909.454805
Skoda       Octavia    14191.257307
Toyota      Camry       6473.058533
            Corolla    10463.601454
Volkswagen  Golf       36829.084554
            Jetta      17743.026799
            Passat      6690.081017
            Touareg     2884.742796
Name: Fines, dtype: float64

### 4. Агрегации по номеру машины

🔹 1. Количество штрафов по номеру машины в порядке убывания

In [13]:
violations_count = df.groupby("CarNumber")["Fines"].count().sort_values(ascending=False)
violations_count

CarNumber
96907X197RUS    3
96857X197RUS    3
X256HE161RUS    3
8818C877RUS     3
7248C8197RUS    3
               ..
E33177152RUS    1
E29677161RUS    1
E29577161RUS    1
E28977161RUS    1
H917TC36RUS     1
Name: Fines, Length: 531, dtype: int64

🔹 2. Все строки, соответствующие номеру с наибольшим количеством штрафов

In [14]:
top_violator = violations_count.index[0]
df.loc[top_violator]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
96907X197RUS,1,3000.0,BMW,
96907X197RUS,1,3000.0,BMW,
96907X197RUS,2,3000.0,BMW,


🔹 3. Сумма штрафов по номеру машины в порядке убывания

In [15]:
fines_sum = df.groupby("CarNumber")["Fines"].sum().sort_values(ascending=False)
fines_sum

CarNumber
Y778EE197RUS    192000.0
X758HY197RUS    169400.0
T477KX197RUS     94000.0
Y7689C197RUS     81000.0
Y352O8197RUS     77700.0
                  ...   
K376HE161RUS       100.0
M581CH197RUS       100.0
705787163RUS       100.0
Y166O8161RUS       100.0
K326T8197RUS       100.0
Name: Fines, Length: 531, dtype: float64

🔹 4. Все строки, соответствующие номеру с наибольшей суммой штрафов

In [16]:
top_payer = fines_sum.index[0]
df.loc[top_payer]

Unnamed: 0_level_0,Refund,Fines,Make,Model
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y778EE197RUS,1,24000.0,Volkswagen,Golf
Y778EE197RUS,2,168000.0,Volkswagen,Golf


### 5. Проверка на наличие номеров, связанных с разными моделями

In [17]:
different_models = df.groupby("CarNumber")["Model"].nunique()
different_models[different_models > 1]

Series([], Name: Model, dtype: int64)