## Парсинг данных из json на Python

### Подключение библиотек

In [83]:
from pathlib import Path
import pandas as pd
import io
import glob
import json

### Получения информации

In [84]:
# загрузка в list пути всех нужных pdf файлов
all_json = glob.glob(r"../Data/*.json")

In [85]:
len(all_json)

14

In [86]:
all_json

['../Data\\Cybersport.Metaratings.json',
 '../Data\\ESforce Holding.json',
 '../Data\\Gett.json',
 '../Data\\Goose Gaming.json',
 '../Data\\MMA.Metaratings.json',
 '../Data\\skillbox.json',
 '../Data\\Vinci Agency.json',
 '../Data\\Гэллэри Сервис.json',
 '../Data\\Здоровье.ру.json',
 '../Data\\Иннотех.json',
 '../Data\\Проект по использованию технологий компьютерного зрения на базе искусственного интеллекта для анализа медицинских изображений.json',
 '../Data\\Промобот.json',
 '../Data\\Студия Артемия Лебедева.json',
 '../Data\\Федерация креативных индустрий.json']

In [87]:
result_list = {
            "nameCompany": [],
            "info": [],
            "text": [],
            "date": [],
            "rate": [],
            "views": [],
            }

### Алгоритм

In [88]:
def parsing_json(url):
    data = {
            "nameCompany": [],
            "info": [],
            "text": [],
            "date": [],
            "rate": [],
            "views": [],
            }
    
    with open(url, 'r', encoding='utf8') as file:
        data_test = json.load(file)

        # создаем "временный" словарь для одной записи
        data_mini = {
            "nameCompany": [],
            "info": [],
            "text": [],
            "date": [],
            "rate": [],
            "views": [],
            }
    
        data_mini['info'] = data_test['info']
        data_mini['nameCompany'] = Path(url).stem # убираем разрешение файла (берем только название)
        
        # проходимся по всем элементам
        for content_all in data_test['refs']:
            if content_all is None:
                data_mini['text'] = "None"
                data_mini['date'] = "None"
                data_mini['rate'] = "None"
                data_mini['views'] = "None"
            else:
                data_mini['text'] = content_all[0]
                data_mini['date'] = content_all[1]['day'] + " " + content_all[1]['month'] + " " + content_all[1]['time']
                data_mini['rate'] = content_all[2]['rate']
                data_mini['views'] = content_all[2]['views']

            for labels in data:
                data[labels].append(data_mini[labels]) 

    return data  

In [89]:
file_name = 'parsing_data_json.csv'
df = pd.DataFrame(data=result_list)

for link in all_json:
    data = parsing_json(link)
    dataset = pd.DataFrame(data=data)
    dataset.to_csv(file_name)
    df = pd.concat([df, dataset])   

df = df.reset_index(drop=True)

### Сохраняем полученный результат

In [90]:
df.head()

Unnamed: 0,nameCompany,info,text,date,rate,views
0,Cybersport.Metaratings,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
1,ESforce Holding,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
2,ESforce Holding,,Из совместного исследования издателя компьютер...,29 июля 13:50,12.0,2800.0
3,ESforce Holding,,По статистике The Esports Observer за I полови...,9 июля 09:33,18.0,6200.0
4,ESforce Holding,,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11.0,10000.0


In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1116 entries, 0 to 1115
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   nameCompany  1116 non-null   object
 1   info         293 non-null    object
 2   text         1116 non-null   object
 3   date         1116 non-null   object
 4   rate         1116 non-null   object
 5   views        1116 non-null   object
dtypes: object(6)
memory usage: 52.4+ KB


In [92]:
# Заменяем оставшиеся NaN на "None"
df = df.fillna("None")

In [93]:
df.head(25)

Unnamed: 0,nameCompany,info,text,date,rate,views
0,Cybersport.Metaratings,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
1,ESforce Holding,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
2,ESforce Holding,,Из совместного исследования издателя компьютер...,29 июля 13:50,12.0,2800.0
3,ESforce Holding,,По статистике The Esports Observer за I полови...,9 июля 09:33,18.0,6200.0
4,ESforce Holding,,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11.0,10000.0
5,Gett,,Минтранс предлагает новую версию законопроекта...,29 марта 10:55,7.0,3500.0
6,Gett,,"По информации «РИА Новости», агрегатор такси «...",11 марта 20:20,8.0,20000.0
7,Gett,,"Как сообщает издание Wired, с 1 марта 2022 год...",22 февраля 19:49,5.0,1100.0
8,Gett,,Китайский агрегатор такси DiDi уйдет с российс...,21 февраля 19:42,8.0,2600.0
9,Gett,,"По информации издания «Известия», антимонополь...",7 февраля 15:47,6.0,4200.0


In [94]:
df = df[~(df['text'] == "None") & ~(df['date'] == "None") & ~(df['rate'] == "None") & ~(df['views'] == "None")]

In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1112 entries, 0 to 1115
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   nameCompany  1112 non-null   object
 1   info         1112 non-null   object
 2   text         1112 non-null   object
 3   date         1112 non-null   object
 4   rate         1112 non-null   object
 5   views        1112 non-null   object
dtypes: object(6)
memory usage: 60.8+ KB


In [96]:
df.head(25)

Unnamed: 0,nameCompany,info,text,date,rate,views
0,Cybersport.Metaratings,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
1,ESforce Holding,,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0
2,ESforce Holding,,Из совместного исследования издателя компьютер...,29 июля 13:50,12.0,2800.0
3,ESforce Holding,,По статистике The Esports Observer за I полови...,9 июля 09:33,18.0,6200.0
4,ESforce Holding,,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11.0,10000.0
5,Gett,,Минтранс предлагает новую версию законопроекта...,29 марта 10:55,7.0,3500.0
6,Gett,,"По информации «РИА Новости», агрегатор такси «...",11 марта 20:20,8.0,20000.0
7,Gett,,"Как сообщает издание Wired, с 1 марта 2022 год...",22 февраля 19:49,5.0,1100.0
8,Gett,,Китайский агрегатор такси DiDi уйдет с российс...,21 февраля 19:42,8.0,2600.0
9,Gett,,"По информации издания «Известия», антимонополь...",7 февраля 15:47,6.0,4200.0


In [97]:
df['nameCompany'].unique()

array(['Cybersport.Metaratings', 'ESforce Holding', 'Gett',
       'Goose Gaming', 'skillbox', 'Vinci Agency', 'Гэллэри Сервис',
       'Здоровье.ру', 'Иннотех',
       'Проект по использованию технологий компьютерного зрения на базе искусственного интеллекта для анализа медицинских изображений',
       'Промобот', 'Студия Артемия Лебедева',
       'Федерация креативных индустрий'], dtype=object)

In [98]:
company_descriptions = {
    'Cybersport.Metaratings': 'Киберспортивное медиа и аналитическая платформа',
    'ESforce Holding': 'Крупнейший холдинг в сфере киберспорта и игровой индустрии',
    'Gett': 'Сервис онлайн-заказа такси и логистических услуг',
    'Goose Gaming': 'Организатор киберспортивных турниров и ивентов',
    'skillbox': 'Онлайн-университет профессий в digital-сфере',
    'Vinci Agency': 'Креативное digital-агентство',
    'Гэллэри Сервис': 'Провайдер IT-решений для бизнеса',
    'Здоровье.ру': 'Онлайн-сервис для управления здоровьем и записи к врачам',
    'Иннотех': 'Компания, разрабатывающая инновационные технологические решения',
    'Проект по использованию технологий компьютерного зрения на базе искусственного интеллекта для анализа медицинских изображений': 'Медицинский ИИ-проект для анализа снимков',
    'Промобот': 'Производитель сервисных роботов',
    'Студия Артемия Лебедева': 'Дизайн-студия и креативное агентство',
    'Федерация креативных индустрий': 'Объединение профессионалов креативных индустрий'
}

df['info'] = df['nameCompany'].map(company_descriptions)

In [99]:
df['views'] = df['views'].astype(int)

In [100]:
df.head(10)

Unnamed: 0,nameCompany,info,text,date,rate,views
0,Cybersport.Metaratings,Киберспортивное медиа и аналитическая платформа,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300
1,ESforce Holding,Крупнейший холдинг в сфере киберспорта и игров...,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300
2,ESforce Holding,Крупнейший холдинг в сфере киберспорта и игров...,Из совместного исследования издателя компьютер...,29 июля 13:50,12.0,2800
3,ESforce Holding,Крупнейший холдинг в сфере киберспорта и игров...,По статистике The Esports Observer за I полови...,9 июля 09:33,18.0,6200
4,ESforce Holding,Крупнейший холдинг в сфере киберспорта и игров...,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11.0,10000
5,Gett,Сервис онлайн-заказа такси и логистических услуг,Минтранс предлагает новую версию законопроекта...,29 марта 10:55,7.0,3500
6,Gett,Сервис онлайн-заказа такси и логистических услуг,"По информации «РИА Новости», агрегатор такси «...",11 марта 20:20,8.0,20000
7,Gett,Сервис онлайн-заказа такси и логистических услуг,"Как сообщает издание Wired, с 1 марта 2022 год...",22 февраля 19:49,5.0,1100
8,Gett,Сервис онлайн-заказа такси и логистических услуг,Китайский агрегатор такси DiDi уйдет с российс...,21 февраля 19:42,8.0,2600
9,Gett,Сервис онлайн-заказа такси и логистических услуг,"По информации издания «Известия», антимонополь...",7 февраля 15:47,6.0,4200
