In [2]:
import json
import pandas as pd

# Откроем полученный ранее json файл для последующей коррекции данных при необходимости
file_path_new = 'data/team_details_report.json'
with open(file_path_new, 'r') as file:
    data_new = json.load(file)

# Подготовим списки для будущих дата фреймов исходя из json файла
teams_info_list = []
category_wise_spends_list = []
race_wise_spends_list = []

# Обработаем данные для каждого года
for year, content in data_new.items():
    teams_data = content['data']
    
    # Информация о командах
    for team in teams_data:
        team_info = {
            'year': year,
            'team_id': team['id'],
            'team_name': team['name'],
            'total_spends': team['total_spends']
        }
        teams_info_list.append(team_info)
        
        # Расходы гоночных команд по категориям
        for category_spend in team['category_wise_spends']:
            category_spend['team_id'] = team['id']
            category_spend['year'] = year
            category_wise_spends_list.append(category_spend)
        
        # Расходы гоночных команд по гонкам
        for race_spend in team['race_wise_spends']:
            race_spend['team_id'] = team['id']
            race_spend['year'] = year
            race_wise_spends_list.append(race_spend)

# Создаем дата фреймы
teams_info_df = pd.DataFrame(teams_info_list)
category_wise_spends_df = pd.DataFrame(category_wise_spends_list)
race_wise_spends_df = pd.DataFrame(race_wise_spends_list)

In [3]:
# Отсортируем данные по году и команде и обновим индексы для teams_info_df
teams_info_df = teams_info_df.sort_values(by=['year', 'team_id'], ascending=True).reset_index(drop=True)
teams_info_df

Unnamed: 0,year,team_id,team_name,total_spends
0,2022,1,Williams,20041684
1,2022,2,Red Bull,81250000
2,2022,3,Mercedes,65000000
3,2022,4,Mc Laren,55466684
4,2022,5,Ferrari,83416684
5,2022,6,Aston Martin,34400000
6,2022,7,Stake F1 Team Kick Sauber,21250017
7,2022,8,Visa Cash App RB F1 Team,23291684
8,2022,9,Haas F1 Team,18978316
9,2022,10,Alpine,33915000


In [4]:
# Отсортируем данные по году и команде, удалим лишний столбец и обновим индексы для category_wise_spends_df
category_wise_spends_df = category_wise_spends_df.sort_values(by=['year', 'team_id'], ascending=True).reset_index(drop=True).drop(columns='color')
category_wise_spends_df

Unnamed: 0,id,title,sum,team_id,year
0,61,Salaries,20041684,1,2022
1,61,Salaries,81250000,2,2022
2,61,Salaries,65000000,3,2022
3,61,Salaries,55466684,4,2022
4,61,Salaries,83416684,5,2022
...,...,...,...,...,...
125,61,Salaries,33915000,10,2023
126,64,Fuel tank,124000,10,2023
127,83,Driveshafts,54000,10,2023
128,84,Chassis Wiring Looms,150000,10,2023


In [5]:
# Отсортируем данные по году и команде, удалим лишний столбец и обновим индексы для race_wise_spends_df
race_wise_spends_df = race_wise_spends_df.sort_values(by=['year', 'team_id'], ascending=True).reset_index(drop=True).drop(columns='color')
race_wise_spends_df

Unnamed: 0,id,title,sum,team_id,year
0,19,Japanese Grand Prix [2023],385417,1,2022
1,21,Mexico Grand Prix [2023],385417,1,2022
2,25,Dhabi Grand Prix [2023],385417,1,2022
3,8,Monaco Grand Prix [2023],385417,1,2022
4,17,Italian Grand Prix [2023],770834,1,2022
...,...,...,...,...,...
403,15,Belgian Grand Prix [2023],683000,10,2023
404,20,Qatar Grand Prix [2023],665000,10,2023
405,9,Spanish Grand Prix [2023],665000,10,2023
406,22,United States Grand Prix [2023],665000,10,2023


In [6]:
# Запишем готовые датафреймы в csv таблицы, с которыми будем работать дальше
race_wise_spends_df.to_csv('data/race_wise_spends.csv', index=False)    
category_wise_spends_df.to_csv('data/category_wise_spends.csv', index=False)    
teams_info_df.to_csv('data/team_info.csv', index=False)    