In [1]:
import json
import pandas as pd

In [2]:
df = pd.DataFrame()

In [3]:
# Функция для загрузки и анализа файла
def parse_cybersport_file(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    results = []
    
    # Проверяем, что refs существует и не None
    if not data.get('refs'):
        print(f"Внимание: в файле {filename} отсутствуют ссылки (refs is null/empty)")
        return pd.DataFrame()  # Возвращаем пустой DataFrame
    
    # Обработка каждой ссылки в файле
    for ref in data['refs']:
        # Проверяем, что ref не None и имеет правильную структуру
        if not ref or len(ref) < 3:
            print(f"Пропущена некорректная ссылка в файле {filename}")
            continue
            
        try:
            # Основная информация из текста
            text = ref[0] if ref[0] else ""
            
            # Извлекаем дату и время (с проверкой)
            date_info = ref[1] if (len(ref) > 1 and isinstance(ref[1], dict)) else {
                'day': '??', 
                'month': '??', 
                'time': '??'
            }
            date_str = f"{date_info.get('day', '??')} {date_info.get('month', '??')} {date_info.get('time', '??')}"
            
            # Извлекаем статистику (с проверкой)
            stats = ref[2] if (len(ref) > 2 and isinstance(ref[2], dict)) else {
                'rate': 0, 
                'views': 0
            }
            
            results.append({
                'text': text,
                'date': date_str,
                'rate': stats.get('rate', 0),
                'views': stats.get('views', 0)
            })
                    
        except Exception as e:
            print(f"Ошибка обработки ссылки в файле {filename}: {str(e)}")
            continue
    
    return pd.DataFrame(results)

In [4]:
list = ['Cybersport.Metaratings.json','ESforce Holding.json', 'Gett.json', 'Goose Gaming.json', 
        'MMA.Metaratings.json', 'skillbox.json', 'Vinci Agency.json', 'Гэллэри Сервис.json', 'Здоровье.ру.json', 'Иннотех.json', 
        'Проект по использованию технологий компьютерного зрения на базе искусственного интеллекта для анализа медицинских изображений.json', 
        'Промобот.json', 'Студия Артемия Лебедева.json', 'Федерация креативных индустрий.json']

In [5]:
for filename in list:
    print(f"Анализ {filename}:")
    current_df = parse_cybersport_file(f'Data/{filename}')
    
    # Добавляем столбец с именем файла для идентификации
    current_df['source_file'] = filename
    
    # Объединяем с основным DataFrame
    df = pd.concat([df, current_df], ignore_index=True)
    
    # Показываем первые строки текущего файла
    display(current_df.head()) 

Анализ Cybersport.Metaratings.json:


Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Cybersport.Metaratings.json


Анализ ESforce Holding.json:


Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,ESforce Holding.json
1,Из совместного исследования издателя компьютер...,29 июля 13:50,12,2800,ESforce Holding.json
2,По статистике The Esports Observer за I полови...,9 июля 09:33,18,6200,ESforce Holding.json
3,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11,10000,ESforce Holding.json


Анализ Gett.json:
Пропущена некорректная ссылка в файле Data/Gett.json


Unnamed: 0,text,date,rate,views,source_file
0,Минтранс предлагает новую версию законопроекта...,29 марта 10:55,7,3500,Gett.json
1,"По информации «РИА Новости», агрегатор такси «...",11 марта 20:20,8,20000,Gett.json
2,"Как сообщает издание Wired, с 1 марта 2022 год...",22 февраля 19:49,5,1100,Gett.json
3,Китайский агрегатор такси DiDi уйдет с российс...,21 февраля 19:42,8,2600,Gett.json
4,"По информации издания «Известия», антимонополь...",7 февраля 15:47,6,4200,Gett.json


Анализ Goose Gaming.json:


Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Goose Gaming.json
1,Из новостей на этой неделе: Unity сменила лого...,13 октября 19:44,6,2500,Goose Gaming.json
2,"На игровую консоль не очень похоже, скорее — н...",9 июня 16:18,41,8800,Goose Gaming.json
3,"Всем привет, в июне OTUS вновь запускает курс ...",30 мая 04:12,7,4000,Goose Gaming.json
4,Источник: knowyourmeme\n\r\nИгра-мем Untitled ...,31 октября 12:44,12,3700,Goose Gaming.json


Анализ MMA.Metaratings.json:
Внимание: в файле Data/MMA.Metaratings.json отсутствуют ссылки (refs is null/empty)


Unnamed: 0,source_file


Анализ skillbox.json:


Unnamed: 0,text,date,rate,views,source_file
0,Сравниваем традиционный способ извлечения знач...,29 марта 17:20,16,5700,skillbox.json
1,Издание «Ведомости» поговорило с участниками р...,28 марта 15:01,2,1600,skillbox.json
2,"Александр Нозик, физик и программист, руководи...",14 марта 13:41,15,6400,skillbox.json
3,Всем привет! В конце 21-го года состоялся пер...,3 марта 10:24,6,576,skillbox.json
4,1 марта VK запустила информационную кампанию в...,1 марта 19:33,7,6500,skillbox.json


Анализ Vinci Agency.json:


Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Vinci Agency.json
1,"Это — подкаст о контент-маркетинге и о тех, кт...",5 октября 11:23,4,883,Vinci Agency.json
2,"Привет, Хабр! Меня зовут Алсу Хлуднева, я — уп...",2 сентября 17:34,1,2200,Vinci Agency.json
3,Алексей Скорик из Vinci Agency специально для ...,4 марта 18:39,14,4800,Vinci Agency.json
4,This post is a continuation of the first part ...,21 января 14:54,13,3000,Vinci Agency.json


Анализ Гэллэри Сервис.json:


Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Гэллэри Сервис.json
1,"Согласно информации издания «РБК», 24 марта 20...",24 марта 14:30,10,5900,Гэллэри Сервис.json
2,3 июня в Москве прошёл myDribbble Meetup 2017....,31 мая 14:37,21,1600,Гэллэри Сервис.json
3,Дайджест собирает свежие статьи по дизайну инт...,7 мая 16:09,24,5400,Гэллэри Сервис.json
4,"По статистике, из более чем 7000 государственн...",23 декабря 03:06,16,8900,Гэллэри Сервис.json


Анализ Здоровье.ру.json:
Пропущена некорректная ссылка в файле Data/Здоровье.ру.json
Пропущена некорректная ссылка в файле Data/Здоровье.ру.json


Unnamed: 0,text,date,rate,views,source_file
0,"Недавно компания 🤗 Hugging Face (стартап, стоя...",сегодня в 11:22,3,320,Здоровье.ру.json
1,"Год назад я написал статью под названием ""Поче...",2 апреля 19:09,-3,9600,Здоровье.ру.json
2,источник: https://www.maximonline.ru/longreads...,25 марта 11:21,1,2900,Здоровье.ру.json
3,"Где тонко, там и рвётся. Жил я себе с Visa одн...",24 марта 12:00,44,13000,Здоровье.ру.json
4,Найти и выбрать квартиру в современном мире — ...,21 марта 10:17,26,7200,Здоровье.ру.json


Анализ Иннотех.json:


Unnamed: 0,text,date,rate,views,source_file
0,На Хабр Карьере запустилась карьерная неделя —...,28 февраля 12:38,8,5500,Иннотех.json
1,"Привет, Хабр, мы — Иннотех. Если говорить офиц...",18 февраля 17:46,-6,1900,Иннотех.json
2,"Привет, Хабр. Меня зовут Максим Мишута, и я ра...",20 января 10:59,4,1300,Иннотех.json
3,"Привет, Хабр! Давно хакатон INNOHACK 2.0, анон...",8 декабря 13:25,5,388,Иннотех.json
4,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Иннотех.json


Анализ Проект по использованию технологий компьютерного зрения на базе искусственного интеллекта для анализа медицинских изображений.json:


Unnamed: 0,text,date,rate,views,source_file
0,Многие из нас ежедневно пользуются поисковыми ...,19 марта 19:19,1,1100,Проект по использованию технологий компьютерно...
1,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Проект по использованию технологий компьютерно...
2,Хочу поделиться с вами обзором интересных докл...,22 ноября 18:07,3,971,Проект по использованию технологий компьютерно...
3,"Если вы в общих чертах представляете себе, как...",20 ноября 13:32,24,12000,Проект по использованию технологий компьютерно...
4,"График Гартнера для тех, кто работает в сфере ...",25 ноября 14:47,32,33000,Проект по использованию технологий компьютерно...


Анализ Промобот.json:


Unnamed: 0,text,date,rate,views,source_file
0,Пермская компания «Промобот» представила второ...,11 января 19:31,14,4700,Промобот.json
1,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Промобот.json
2,Эмоциональный робот ЮляЧто такое мультимодальн...,3 декабря 13:38,2,1300,Промобот.json
3,"На днях стало известно о том, что в России ста...",3 ноября 15:13,5,739,Промобот.json
4,Разработчики из новосибирской команды Pro Cont...,31 октября 08:58,1,22000,Промобот.json


Анализ Студия Артемия Лебедева.json:
Пропущена некорректная ссылка в файле Data/Студия Артемия Лебедева.json


Unnamed: 0,text,date,rate,views,source_file
0,"В прошлой статье, рассказывая про GPT-J-6B, я ...",11 февраля 09:38,1,5200,Студия Артемия Лебедева.json
1,Первые шаги к ребрендингу начались со смены па...,23 декабря 00:58,-1,667,Студия Артемия Лебедева.json
2,Проект ua-hosting.company берёт своё начало ещ...,13 декабря 15:56,44,22000,Студия Артемия Лебедева.json
3,Студия Артемия Лебедева запустила платный онла...,9 декабря 18:02,13,3100,Студия Артемия Лебедева.json
4,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Студия Артемия Лебедева.json


Анализ Федерация креативных индустрий.json:


Unnamed: 0,text,date,rate,views,source_file
0,Фонд содействия инновациям проводит приём заяв...,25 марта 15:35,8,1900,Федерация креативных индустрий.json
1,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6,2300,Федерация креативных индустрий.json
2,Российские власти планируют к концу 2022 года ...,29 июля 11:36,12,3500,Федерация креативных индустрий.json
3,Артур Хачуян — известный российский специалист...,4 января 12:30,15,8300,Федерация креативных индустрий.json
4,"Как менеджер, вы должны заботиться о ваших сот...",1 мая 10:00,20,12000,Федерация креативных индустрий.json


In [6]:
df.to_csv('parsJson.csv', index=False)
df.head()

Unnamed: 0,text,date,rate,views,source_file
0,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0,Cybersport.Metaratings.json
1,7 декабря состоялась церемония награждения лау...,8 декабря 09:30,6.0,2300.0,ESforce Holding.json
2,Из совместного исследования издателя компьютер...,29 июля 13:50,12.0,2800.0,ESforce Holding.json
3,По статистике The Esports Observer за I полови...,9 июля 09:33,18.0,6200.0,ESforce Holding.json
4,Компании SuperData Research и PayPal провели с...,11 апреля 12:43,11.0,10000.0,ESforce Holding.json
