In [1]:
import requests
import json
import pandas as pd
import numpy as np
from datetime import datetime
pd.set_option('display.max_rows', 500)
from isoweek import Week


In [7]:
# потребительская статистика по всем регионам (точки для карты на сайте)
consumer_url = 'https://www.sberindex.ru/data/variety.json'
# бизнес - изменение объема ФОТ
business_fot_url = 'https://www.sberindex.ru/data/salary.json'
#изменение оборотов бизнеса
business_turnover_url = 'https://www.sberindex.ru/data/tournover.json'
# Изменение активности малого бизнеса по регионам по неделям
small_business_regions_url = 'https://www.sberindex.ru/data/evotor-regions.json'
# Изменение активности малого бизнеса по категориям по неделям
small_business_categories_url = 'https://www.sberindex.ru/data/evotor-categories.json'
 # Изменение потребительских трат по категориям, по неделям
consumer_goods_url = 'https://www.sberindex.ru/data/goods.json'

#неидентифицированные данные
unknown_1 = 'https://www.sberindex.ru/data/variety-comparison.json'
unknown_2 = 'https://www.sberindex.ru/data/increase.json'

In [8]:
def collect_data(url):
    '''Сбор данных по ссылке. Возврат датафрейма df и df_len - длина ряда'''
    # сохранение данных по потреб активности по регионам (точки на графике на сайте)
    data = json.loads(requests.get(url).content)
    # длина массива для размеров датафрейма
    df_len = len(data) 
    # из данных забираем названия столбцов
    regions = list(data[0].keys())
    # формируем дф с заданной длиной и столбцами из исходника
    df = pd.DataFrame(index=np.arange(df_len), columns=regions)

    # перенос данных по дням в дф в исходном виде
    index = 0
    for day in data:
        for key, value in day.items():
            df[key][index] = value
        index += 1
        
   
    return df, df_len
    

## Данные по потребительской активности

### Регионы

In [None]:
# сбор
consumer_df, df_len =  collect_data(consumer_url)   
# конвертация в даты
consumer_df['date'] = pd.to_datetime(consumer_df['date'])

# сортировка по столбцу дат
consumer_df.sort_values(by = ['date'], inplace = True)

### Товары

In [None]:
# сбор
consumer_goods_df, df_len = collect_data(consumer_goods_url)
# заполнение столбца недель днями начала недель
consumer_goods_df ['isoweek'] = pd.date_range(start='03/02/20', periods=df_len, freq='7D')

# норм название
consumer_goods_df.rename(columns={"isoweek": "Неделя, начиная с даты (гггг/мм/дд)"}, inplace = True)



In [None]:
# запись в эксель
date = str(datetime.today().year) + '_' + str(datetime.today().month) + '_' + str(datetime.today().day)
filepath = r'C:\\Users\\Egran\\YandexDisk\\database\\sberindex\\'

filename = filepath + 'consumer_data' + '_' + str(date) + '.xlsx'

writer = pd.ExcelWriter(filename, engine='xlsxwriter')

consumer_df.to_excel(writer, sheet_name='Данные по регионам')
consumer_goods_df.to_excel(writer, sheet_name = 'Данные по категориям')

writer.save()

## Бизнес активность

### Изменение ФОТ за указанный месяц

In [11]:
# сбор
business_fot_df, df_len = collect_data(business_fot_url)
    
business_fot_df.rename(columns={"date": "Месяц"}, inplace = True)


### Изменение оборотов бизнеса к аналогичной неделе 2019

In [10]:
# сбор
business_turnover_df, df_len = collect_data(business_turnover_url)

# заполнение столбца недель днями начала недель
week_num = business_turnover_df['isoweek'][0]
w = Week(2020, int(week_num))
week_start = w.monday()
business_turnover_df['isoweek'] = pd.date_range(start=week_start, periods=df_len, freq='7D')

# норм название
business_turnover_df.rename(columns={"isoweek": "Неделя, начиная с даты (гггг/мм/дд)", 
                                    'index' : 'Индекс роста к аналогичной неделе 2019 г.'}, 
                            inplace = True)

### Изменение активности малого бизнеса по категориям

In [12]:
# сбор
small_business_categories_df, df_len = collect_data(small_business_categories_url)
   
# заполнение столбца недель днями начала недель
week_num = small_business_categories_df['isoweek'][0]
w = Week(2020, int(week_num))
week_start = w.monday()
small_business_categories_df['isoweek'] = pd.date_range(start=week_start, periods=df_len, freq='7D')

# норм название
small_business_categories_df.rename(columns={"isoweek": "Неделя, начиная с даты (гггг/мм/дд)"}, 
                            inplace = True)

### Изменение активности малого бизнеса по регионам по неделям

In [9]:
# сбор
small_business_regions_df, df_len = collect_data(small_business_regions_url)

# заполнение столбца недель днями начала недель
# здесь смещается начало отсчета, поэтому будем обновлять его
week_num = small_business_regions_df['isoweek'][0]
w = Week(2020, int(week_num))
week_start = w.monday()
small_business_regions_df['isoweek'] = pd.date_range(start=week_start, periods=df_len, freq='7D' )

# норм название
small_business_regions_df.rename(columns={"isoweek": "Неделя, начиная с даты (гггг/мм/дд)"}, 
                            inplace = True)



In [14]:
# запись в эксель
date = str(datetime.today().year) + '_' + str(datetime.today().month) + '_' + str(datetime.today().day)
filepath = r'C:\\Users\\Egran\\YandexDisk\\database\\sberindex\\'
filename = filepath + 'business_data' + '_' + str(date) + '.xlsx'

writer = pd.ExcelWriter(filename, engine='xlsxwriter')

business_fot_df.to_excel(writer, sheet_name='Изменение ФОТ')
business_turnover_df.to_excel(writer, sheet_name = 'Изменение оборотов')
small_business_categories_df.to_excel(writer, sheet_name = 'Активность по отраслям')
small_business_regions_df.to_excel(writer, sheet_name = 'Активность по регионам')
writer.save()