In [85]:
import pandas as pd
import numpy as np

## Загружаем данные

In [86]:
data = pd.read_json("../ex02/auto.json")


## Числа должны отображаться с двумя знаками после запятой

- `pd.options.display.float_format`

    - Это настройка *pandas*, которая определяет, как форматировать числа с плавающей точкой при отображении

    - `"{:,.2f}".format` - Указывает шаблон форматирования

In [87]:
pd.options.display.float_format = "{:,.2f}".format

## Обогащение набора данных сэмплом

- Сэмпл не должен содержать новых комбинаций `CarNumber`, `Make` и `Model`
- `Refund` и `Fines` можно взять любые из существующих значений в случайном порядке

---

- `np.random.seed(21)`

    - Устанавливает начальное значение `seed` для генератора случайных чисел в библиотеке *NumPy*

    - Генератор случайных чисел использует это значение для создания предсказуемой последовательности случайных чисел

- `data.sample(n=200, random_state=21)`

    - `sample()` - извлекает случайную подвыборку строк из *DataFrame* `data`

    - `random_state=21` - Задает начальное значение для генератора случайных чисел, обеспечивает воспроизводимость выборки


- содержащий 200 случайно выбранных строк из `data` с сохранением всех столбцов

In [88]:
np.random.seed(21)

sample = data.sample(n=200, random_state=21)

sample

Unnamed: 0,CarNumber,Refund,Fines,Make,Model
445,M0299X197RUS,2,19200.00,Ford,Focus
22,83298C154RUS,2,8594.59,Ford,Focus
93,H957HY161RUS,1,2000.00,Ford,Focus
173,T941CC96RUS,1,2000.00,Ford,Focus
697,H966HY161RUS,1,500.00,Ford,Focus
...,...,...,...,...,...
14,8182XX154RUS,1,200.00,Ford,Focus
623,X796TH96RUS,1,500.00,Ford,Focus
498,T011MY163RUS,2,4000.00,Ford,Focus
536,T341CC96RUS,2,1000.00,Volkswagen,Passat


In [89]:
sample['Refund'] = np.random.choice(data['Refund'], size=200)

sample['Fines'] = np.random.choice(data['Fines'], size=200)

## Объединить сэмпл с исходным DataFrame в новый DataFrame concat_rows

- `pd.concat([data, sample], axis=0, ignore_index=True)`

    - `pd.concat()` - Функция для объединения *DataFrame* или *Series*

    - `axis=0` - Oбъединение происходит по строкам вертикально, то есть строки `sample` добавляются под строки `data`

    - `ignore_index=True` - Сбрасывает исходные индексы обоих *DataFrame*. Cоздает новый последовательный индекс

In [90]:
concat_rows = pd.concat([data, sample], axis=0, ignore_index=True)

concat_rows

Unnamed: 0,CarNumber,Refund,Fines,Make,Model
0,Y163O8161RUS,2,3200.00,Ford,Focus
1,E432XX77RUS,1,6500.00,Toyota,Camry
2,7184TT36RUS,1,2100.00,Ford,Focus
3,X582HE161RUS,2,2000.00,Ford,Focus
4,92918M178RUS,1,5700.00,Ford,Focus
...,...,...,...,...,...
920,8182XX154RUS,1,500.00,Ford,Focus
921,X796TH96RUS,2,40600.00,Ford,Focus
922,T011MY163RUS,1,2300.00,Ford,Focus
923,T341CC96RUS,2,7100.00,Volkswagen,Passat


## Добавлеть новый столбец

#### `Year`
- Series с именем Year, с случайными целыми числами от 1980 до 2019.

---

- `np.random.randint(1980, 2020, size=len(concat_rows))`

    - `np.random.randint(low, high, size)` - генерирует случайные целые числа

        - `low=1980` - Минимальное значение

        - `high=2020` - Максимальное значение

        - `Максимальное значение` - Количество чисел, равное числу строк в `concat_rows`

In [91]:
np.random.seed(21)

years = pd.Series(np.random.randint(1980, 2020, size=len(concat_rows)), name='Year')

- Объедините `Series` с *DataFrame* `concat_rows`, итоговый *DataFrame* назовите `fines`

In [92]:
fines = pd.concat([concat_rows, years], axis=1)
fines

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year
0,Y163O8161RUS,2,3200.00,Ford,Focus,1989
1,E432XX77RUS,1,6500.00,Toyota,Camry,1995
2,7184TT36RUS,1,2100.00,Ford,Focus,1984
3,X582HE161RUS,2,2000.00,Ford,Focus,2015
4,92918M178RUS,1,5700.00,Ford,Focus,2014
...,...,...,...,...,...,...
920,8182XX154RUS,1,500.00,Ford,Focus,1981
921,X796TH96RUS,2,40600.00,Ford,Focus,1992
922,T011MY163RUS,1,2300.00,Ford,Focus,2007
923,T341CC96RUS,2,7100.00,Volkswagen,Passat,2005


## Обогащение данных из другого *DataFrame*

- `surname_data.iloc[0]` - Извлекает первую строку *DataFrame* где значения этой строки становятся новыми именами столбцов

In [93]:
surname_data = pd.read_json("../../datasets/surname.json")

surname_data.columns = surname_data.iloc[0]

surname_data = surname_data.drop(index=0)

surname_data

Unnamed: 0,NAME,COUNT,RANK
1,ADAMS,427865,42
2,ALLEN,482607,33
3,ALVAREZ,233983,92
4,ANDERSON,784404,15
5,BAILEY,277845,72
...,...,...,...
96,WILLIAMS,1625252,3
97,WILSON,801882,14
98,WOOD,250715,84
99,WRIGHT,458980,35


## Создайте `Series` из фамилий без специальных символов

- `.values` - Преобразует *Series* в массив *NumPy*, содержащий только данные столбца без метаданных

In [95]:
surnames = surname_data["NAME"].values

In [97]:
unique_cars = fines['CarNumber'].unique()

np.random.seed(21)

chosen_surnames = np.random.choice(surnames, size=len(unique_cars), replace=True)

owners = pd.DataFrame({
    "CarNumber": unique_cars,
    "SURNAME": chosen_surnames
})

owners

Unnamed: 0,CarNumber,SURNAME
0,Y163O8161RUS,RICHARDSON
1,E432XX77RUS,ROSS
2,7184TT36RUS,MORGAN
3,X582HE161RUS,BAILEY
4,92918M178RUS,LOPEZ
...,...,...
526,O136HO197RUS,CAMPBELL
527,O22097197RUS,HALL
528,M0309X197RUS,BAKER
529,O673E8197RUS,DIAZ


## Добавьте 5 дополнительных записей в *DataFrame* `fines`

In [98]:
new_fines = pd.DataFrame({
    'CarNumber': ['X123YZ77RUS', 'Y456AB77RUS', 'Z789CD77RUS', 'A012EF77RUS', 'B345GH77RUS'],
    'Refund': [1.0, 2.0, 1.0, 2.0, 1.0],
    'Fines': [5000.0, 3200.0, 4100.0, 2800.0, 7500.0],
    'Make': ['Honda', 'Nissan', 'Kia', 'Hyundai', 'Mazda'],
    'Model': ['Civic', 'Sentra', 'Rio', 'Elantra', '3'],
    'Year': [1995, 2005, 2010, 2015, 2018]
})

fines = pd.concat([fines, new_fines], ignore_index=True)

## Удалите последние 20 записей из *DataFrame* `owners` и добавьте 3 новые

In [99]:
owners = owners[:-20]

new_owners = pd.DataFrame({
    'CarNumber': ['C678IJ77RUS', 'D901KL77RUS', 'E234MN77RUS'],
    'SURNAME': ['SMITH', 'JOHNSON', 'WILLIAMS']
})

owners = pd.concat([owners, new_owners], ignore_index=True)

## Объедините оба *DataFrame* разными способами

- `merge()` - для объединения двух DataFrame на основе общего столбца

- `on="CarNumber"` - Указывает столбец, по которому выполняется соединение

- `how="inner"`

    - *Inner join*: 
        - Включает только строки, где *CarNumber* присутствует в обоих *DataFrame*. 
        - Если *CarNumber* есть в `fines`, но отсутствует в `owners` или наоборот, эти строки исключаются

- DataFrame только с номерами машин, присутствующими в обоих *DataFrame*

In [100]:
common_df = fines.merge(owners, on='CarNumber', how='inner')

common_df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,SURNAME
0,Y163O8161RUS,2.00,3200.00,Ford,Focus,1989,RICHARDSON
1,E432XX77RUS,1.00,6500.00,Toyota,Camry,1995,ROSS
2,7184TT36RUS,1.00,2100.00,Ford,Focus,1984,MORGAN
3,X582HE161RUS,2.00,2000.00,Ford,Focus,2015,BAILEY
4,92918M178RUS,1.00,5700.00,Ford,Focus,2014,LOPEZ
...,...,...,...,...,...,...,...
894,8182XX154RUS,1.00,500.00,Ford,Focus,1981,SMITH
895,X796TH96RUS,2.00,40600.00,Ford,Focus,1992,WATSON
896,T011MY163RUS,1.00,2300.00,Ford,Focus,2007,SANDERS
897,T341CC96RUS,2.00,7100.00,Volkswagen,Passat,2005,PEREZ


- *DataFrame* со всеми номерами машин, которые есть в обоих

- `how="outer"` - Включает все строки из fines и owners

In [101]:
full_df = fines.merge(owners, on='CarNumber', how='outer')

full_df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,SURNAME
0,704687163RUS,2.00,1400.00,Ford,Focus,2004.00,ADAMS
1,704787163RUS,2.00,2800.00,Ford,Focus,1992.00,MORGAN
2,704987163RUS,2.00,8594.59,Ford,Focus,1985.00,MITCHELL
3,705287163RUS,2.00,2000.00,Ford,Focus,1980.00,GOMEZ
4,705387163RUS,2.00,700.00,Ford,Focus,1987.00,STEWART
...,...,...,...,...,...,...,...
928,Y973O8197RUS,1.00,34800.00,Ford,Focus,2003.00,YOUNG
929,Y973O8197RUS,1.00,69600.00,Ford,Focus,2017.00,YOUNG
930,Y973O8197RUS,2.00,7600.00,Ford,Focus,1987.00,YOUNG
931,Y973O8197RUS,2.00,6000.00,Ford,Focus,1999.00,YOUNG


- *DataFrame* только с номерами из `fines`

- `how="left"` - Сохраняет все строки из fines

In [102]:
fines_only_df = fines.merge(owners, on='CarNumber', how='left')

fines_only_df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,SURNAME
0,Y163O8161RUS,2.00,3200.00,Ford,Focus,1989,RICHARDSON
1,E432XX77RUS,1.00,6500.00,Toyota,Camry,1995,ROSS
2,7184TT36RUS,1.00,2100.00,Ford,Focus,1984,MORGAN
3,X582HE161RUS,2.00,2000.00,Ford,Focus,2015,BAILEY
4,92918M178RUS,1.00,5700.00,Ford,Focus,2014,LOPEZ
...,...,...,...,...,...,...,...
925,X123YZ77RUS,1.00,5000.00,Honda,Civic,1995,
926,Y456AB77RUS,2.00,3200.00,Nissan,Sentra,2005,
927,Z789CD77RUS,1.00,4100.00,Kia,Rio,2010,
928,A012EF77RUS,2.00,2800.00,Hyundai,Elantra,2015,


- *DataFrame* только с номерами из `owners`

- `how="right"` - Сохраняет все строки из owners

In [103]:
owners_only_df = fines.merge(owners, on='CarNumber', how='right')

owners_only_df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,SURNAME
0,Y163O8161RUS,2.00,3200.00,Ford,Focus,1989.00,RICHARDSON
1,Y163O8161RUS,2.00,1600.00,Ford,Focus,1980.00,RICHARDSON
2,E432XX77RUS,1.00,6500.00,Toyota,Camry,1995.00,ROSS
3,E432XX77RUS,2.00,13000.00,Toyota,Camry,2018.00,ROSS
4,7184TT36RUS,1.00,2100.00,Ford,Focus,1984.00,MORGAN
...,...,...,...,...,...,...,...
897,7608EE777RUS,1.00,4000.00,Skoda,Octavia,2000.00,HILL
898,7608EE777RUS,2.00,900.00,Skoda,Octavia,1991.00,HILL
899,C678IJ77RUS,,,,,,SMITH
900,D901KL77RUS,,,,,,JOHNSON


## Постройте сводную таблицу `pivot table` ИЗ `fines`

- где значения — это суммы штрафов `Fines` по годам `Year`

In [104]:
pivot_table = fines.pivot_table(index='Make', columns='Year', values='Fines', aggfunc='sum')

pivot_table

Year,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Audi,,,,,,,,,,3000.0,...,,,,,,,,,,
BMW,,,,,,,,,,,...,,,3200.0,,,8594.59,,,6500.0,
Ford,75694.59,687789.17,163578.35,71489.17,105994.59,112783.76,93994.59,121900.0,167094.59,102600.0,...,141989.17,124389.17,127300.0,199594.59,112394.59,203300.0,137394.59,309400.0,267594.59,88700.0
Honda,,,,,,,,,,,...,,,,,,,,,,
Hyundai,,,,,,,,,,,...,,,,,,2800.0,,,,
Kia,,,,,,,,,,,...,4100.0,,,,,,,,,
Mazda,,,,,,,,,,,...,,,,,,,,,7500.0,
Nissan,,,,,,,,,,,...,,,,,,,,,,
Skoda,10494.59,,10900.0,11594.59,,10294.59,600.0,5200.0,1500.0,91400.0,...,3100.0,500.0,500.0,12594.59,300.0,46394.59,300.0,1500.0,156200.0,9500.0
Toyota,12000.0,8594.59,2000.0,7200.0,,,,9000.0,,26400.0,...,24000.0,8594.59,10594.59,,900.0,,9600.0,9600.0,24400.0,18100.0


## Сохраните оба DataFrame — `fines` и `owners`

- `fines`

In [105]:
fines.to_csv("fines.csv", index=False)

- `owners`

In [106]:
owners.to_csv("owners.csv", index=False)