Данный датасет скачан с сайта https://data.mos.ru/opendata/ из открытого источника

**Во вложении оставим датасет со скачанным JSON объектом. Сами же мы будет импортировать данные по API**

## Загружаем все необходимые библиотеки 

In [11]:
import requests
import json
import pandas as pd

## Выгрузка данных 

https://apidata.mos.ru/Docs

Мы зарегистрировались на портале, чтобы получить  API  ключ

In [130]:
datasetId= 61321
api_key = ''

url = f'https://apidata.mos.ru/v1/datasets/{datasetId}/features'
url_structure = f'https://apidata.mos.ru/v1/datasets/{datasetId}'

params = {
    'api_key':api_key
}



##### Выгрузка структуры данных

In [54]:
response = requests.get(url_structure,params)
structure_json = response.json()

In [57]:
print('Название датасета:',structure_json['Caption'])
print('Версия датасета:',structure_json['VersionNumber'])
print('Дата выгрузки датасета датасета:',structure_json['VersionDate'])

Название датасета: Открытый реестр тренеров и специалистов (в том числе педагогов дополнительного образования по дополнительным общеразвивающим программам) в области физической культуры и спорта города Москвы
Версия датасета: 1.31
Дата выгрузки датасета датасета: 30.08.2021


In [58]:
df_structure = pd.DataFrame(structure_json['Columns'])
df_structure.head(10)

Unnamed: 0,Name,Caption,Visible,Type,SubColumns
0,LastName,Фамилия,True,STRING,
1,Name,Имя,True,STRING,
2,MiddleName,Отчество,True,STRING,
3,Gender,Пол,True,DICTIONARY,
4,DateOfBirth,Дата рождения,True,DATE,
5,Photo,Фотография,False,FILE,
6,Citizenship,Гражданство,False,CATALOG,"[{'Name': 'Citizenship', 'Caption': 'Гражданст..."
7,PublicPhone,Контактный телефон,False,CATALOG,"[{'Name': 'PublicPhone', 'Caption': 'Контактны..."
8,Email,Адрес электронной почты,False,CATALOG,"[{'Name': 'Email', 'Caption': 'Адрес электронн..."
9,AcademicDegree,"Ученая степень,звание",False,CATALOG,"[{'Name': 'AcademicDegreeName', 'Caption': 'На..."


In [59]:
df_structure['Type'].unique()

array(['STRING', 'DICTIONARY', 'DATE', 'FILE', 'CATALOG', 'INTEGER',
       'NUMBER'], dtype=object)

*Как можно заметить типы столбцов различны, но в данном случае нас интересуют три столбца ('DICTIONARY', 'FILE', 'CATALOG')*

In [60]:
df_structure[df_structure['Type'].isin(['DICTIONARY', 'FILE', 'CATALOG'])]

Unnamed: 0,Name,Caption,Visible,Type,SubColumns
3,Gender,Пол,True,DICTIONARY,
5,Photo,Фотография,False,FILE,
6,Citizenship,Гражданство,False,CATALOG,"[{'Name': 'Citizenship', 'Caption': 'Гражданст..."
7,PublicPhone,Контактный телефон,False,CATALOG,"[{'Name': 'PublicPhone', 'Caption': 'Контактны..."
8,Email,Адрес электронной почты,False,CATALOG,"[{'Name': 'Email', 'Caption': 'Адрес электронн..."
9,AcademicDegree,"Ученая степень,звание",False,CATALOG,"[{'Name': 'AcademicDegreeName', 'Caption': 'На..."
11,Sport,Вид спорта тренера,False,CATALOG,"[{'Name': 'SportName', 'Caption': 'Наименовани..."
12,Education,Профильное образование повиду спорта,False,CATALOG,"[{'Name': 'EducationLevel', 'Caption': 'Уровен..."
13,AdditionalEducation,Дополнительное образование по виду спорта,False,CATALOG,"[{'Name': 'AdditionalEducationLevel', 'Caption..."
14,Attestation,Аттестация по виду спорта,False,CATALOG,"[{'Name': 'AvailabilityOfCertification', 'Capt..."


*Выделим из данного датасета субколонки в отдельные строки*

In [61]:
df_subcolumns = df_structure[df_structure['Type']=='CATALOG'].reset_index(drop=True)

In [62]:
for i in range(df_subcolumns.shape[0]):
    df_structure = df_structure.append(df_subcolumns['SubColumns'].iloc[i])

In [119]:
df_structure = df_structure[df_structure['Type']!='CATALOG']
df_structure.reset_index(drop=True,inplace=True)
df_structure.head()

Unnamed: 0,Name,Caption,Visible,Type,SubColumns
0,LastName,Фамилия,True,STRING,
1,Name,Имя,True,STRING,
2,MiddleName,Отчество,True,STRING,
3,Gender,Пол,True,DICTIONARY,
4,DateOfBirth,Дата рождения,True,DATE,


In [127]:
df_structure['Caption'].nunique()

53

##### Выгрузка основных данных для анализа

In [21]:
response = requests.get('https://apidata.mos.ru/v1/datasets/61321/rows',params)
data_json = response.json()

In [114]:
def modern_dict(json_cells_data):
    mod_dict = json_cells_data.copy()
    for key, value in json_cells_data.items():
        if isinstance(value,list) and value:
            mod_dict.pop(key)
            mod_dict = {**mod_dict, **value[0]}
    return mod_dict

In [120]:
for i in range(len(data_json)):
    data_json[i]=modern_dict(data_json[i]['Cells'])

In [126]:
len(data_json[30])

39

In [129]:
df_structure['Name'].unique()

array(['LastName', 'Name', 'MiddleName', 'Gender', 'DateOfBirth', 'Photo',
       'OtherAchievements', 'SportSpecialization', 'SportActivityGender',
       'SportActivityMinAge', 'SportActivityMaxAge',
       'PersonalAchievement', 'PupilAchievements', 'CoachRankPosition',
       'CoachRankTotal', 'CoachRankAverageScore', 'CoachComments',
       'CoachCommentScore', 'global_id', 'Citizenship', 'PublicPhone',
       'Email', 'AcademicDegreeName', 'AcademicDegreeDate', 'SportName',
       'SeniorityPeriod', 'EducationLevel', 'EducationOrganization',
       'EducationFaculty', 'EducationQualification', 'EducationEndDate',
       'AdditionalEducationLevel', 'AdditionalEducationOrganization',
       'AdditionalEducationFaculty', 'AdditionalEducationQualification',
       'AdditionalEducationEndDate', 'AvailabilityOfCertification',
       'AttestationBeginDate', 'AttestationEndDate',
       'JobOrganizationName', 'JobOrganizationStartDate',
       'SportDiscipline', 'CoachCategoryName', 'Coa

In [117]:
modern_dict(data_json[1]['Cells'])

{'global_id': 901079981,
 'Name': 'Лариса',
 'LastName': 'Алешина',
 'MiddleName': 'Владимировна',
 'Gender': 'женский',
 'DateOfBirth': '01.02.1960',
 'Photo': None,
 'AcademicDegree': [],
 'OtherAchievements': '',
 'Education': [],
 'AdditionalEducation': [],
 'SportSpecialization': 'Большой спорт',
 'SportActivityGender': 'Любой',
 'SportActivityMinAge': 6,
 'SportActivityMaxAge': None,
 'Services': [],
 'PersonalAchievement': '',
 'Rank': [],
 'PupilAchievements': '',
 'FederationMembership': [],
 'CoachRankPosition': None,
 'CoachRankTotal': None,
 'CoachRankAverageScore': None,
 'CoachComments': '',
 'CoachCommentScore': None,
 'Citizenship': 'Россия',
 'PublicPhone': '(499) 242-41-61',
 'Email': 's29@mossport.ru',
 'SportName': 'акробатический рок-н-ролл',
 'SeniorityPeriod': 12,
 'AvailabilityOfCertification': 'нет',
 'AttestationBeginDate': '',
 'AttestationEndDate': '',
 'JobOrganizationName': 'ГБУ «СШ № 29 «Хамовники» Москомспорта',
 'JobOrganizationStartDate': '17.01.2017',

In [101]:
for key, value in data_json[0]['Cells'].items():
    if isinstance(value,list):
        print(value)
        break

[{'SportName': 'акробатический рок-н-ролл', 'SeniorityPeriod': 27}]
