<a href="https://colab.research.google.com/github/ru-corporate/sandbox/blob/master/boo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Анализ бухгалтерской отчетности российских компаний

[Евгений Погребняк](https://epogrebnyak.github.io/cv/), февраль 2019

1. Где находятся и что представляют из себя исходные данные? 
2. Как их получить и преобразовать для удобного использования?
3. Какие задачи мы можем решать с помощью отчетности?
4. Открытые вопросы для будущей работы

### Рекомендуем ознакомиться

-  [Структура проектов обработки данных](http://drivendata.github.io/cookiecutter-data-science)
- [README](https://github.com/ru-corporate/sandbox/blob/master/README.md) репозитария ![ru-corporate/sandbox](https://https://avatars3.githubusercontent.com/u/42803215?s=200&v=4)


## Исходные данные

 | Цели раздела |
 |------------------------|
 | 1. Знать источник и структуру исходных данных |
 | 2. Понимать использованный способ преобразования данных  в пакете `boo` |


Исходные данные [Росстат раскрывает за 2012-2017 гг.][gks]. 

Примеры файлов:

| Год          |  Компаний  | Размер файла (Мб) |
|--------------|:----------:|:-----------------:|
| [2012][2012] |   765 813  |        525        |
| [2017][2017] | 2 358 756  |       1631        |

[gks]: http://www.gks.ru/opendata/dataset?q=%D0%BE%D1%82%D1%87%D0%B5%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D1%80%D0%B3%D0%B0%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B9+&sort=score+desc%2C+metadata_modified+desc
[2012]: http://www.gks.ru/opendata/dataset/7708234640-bdboo2012
[2017]: http://www.gks.ru/opendata/dataset/7708234640-bdboo2017

На аналогичных данных построены ряд бесплатных и платных сервисов по предоставлению данных, их можно использовать для проверок результатов.

### Плюсы

- открытые данные
- появляются новые версии за предыдущие года
- данные становятся чище (например, нет "битых" строк с неправильным количеством значений)
- с каждым годом увеличивается охват компаний 
- есть контакты ответственного лица, мейл и телефон 
- есть дублирующий сервис для запроса отчетности по ИНН

### Проблемы

- заголовки отдельно от файла, названия переменных изначально не очень понятны
- строки могут быть в разных единицах измерения (тыс. руб., млн руб.)
- дублирование, отсутствующие и искаженные данные, компании-"призраки" 


### Как преодолеть ограничения?

- построить отчетености компании за несколько лет 
- дополнить отсутствующие компании 
- привязать компании к фактическим отраслям
- ввести классификаторы (ОКВЭД, названия регионов)
- связать с другими базами данных


## Как использовать эти данные?


 | Цели раздела |
 |------------------------|
 | 3. Описать возможных пользователей корпоративной отчетности и их потребности |
 
 
 


### 1. Учебные задачи

- бухучет: проверить тождества и связь между частями отчетности (баланс, P&L, CF)
- финанализ: посчитать коэффициенты для оценки финансовой устойчивости и  эффективности
- определить типы компаний по отчтености (торговые, производственные, холдинговые компании)
- как проследить рост продаж, инвестиции в основной капитал, ситуации банкротства
- связь фианнсовых показателей и показателей нацсчетов

### 2. Описательные задачи

- рейтинги крупнейших предприятий (по аналогии с Эксперт, РБК, Коммерсант, Forbes)
- отраслевые рейтинги
- региональная экономика

### 3. Аналитические задачи

- оценка компаний и кредитный риск
- анализ налоговой нагрузки
- развитие малого бизнеса
- инвестиции в основной капитал 

### 4. Исследовательские задачи

- модели кредитного риска
- анализ отраслевой концентрации
- развитие региональной экономики
- малоизвестные подотрасли 
- популярность названий предприятий

## Хватит слов, посмотрим на данные!

 | Цели раздела |
 |------------------------|
 | 4. Прочитать набор данных корпоративной отчетности в виде датафрейма `pandas` |
 | 5. Понимать содержание переменных и связи между ними |



За работу! Загрузим пакет `boo` ("бухгалтерская отчетность организаций")  с github. Проследим также за установкой необходимых зависимостей.

In [1]:
!pip install --upgrade git+https://github.com/ru-corporate/sandbox.git@master

Collecting git+https://github.com/ru-corporate/sandbox.git@master
  Cloning https://github.com/ru-corporate/sandbox.git (to revision master) to /tmp/pip-req-build-knjau5wg
Building wheels for collected packages: boo
  Building wheel for boo (setup.py) ... [?25ldone
[?25h  Stored in directory: /tmp/pip-ephem-wheel-cache-vkvij7zp/wheels/d4/6e/d4/eeca7bd25b87c086542888db1c747824a70ba3ec67b0d3823d
Successfully built boo
Installing collected packages: boo
Successfully installed boo-0.0.2


Пакет `boo` позволяет загрузить и "причесать" данные для более быстрого и удобного использования. Загрузка данных и поготовка данных может занимать длительное время, но на Google Colab все поисходит довольно шустро, а сами файлы некоторое время (кто-то написано сколько?) хранятся на локальной машине и готовы для использования.

In [0]:
import boo

In [3]:
boo.download(2012)
boo.build(2012)

# uncomment when ready to work with larger file
#boo.download(2017)
#boo.build(2017)

Year: 2012
Downloading http://www.gks.ru/opendata/storage/7708234640-bdboo2012/data-20181029t000000-structure-20121231t000000.csv


525447 k [00:47, 11005.59 k/s]
859 lines [00:00, 8588.96 lines/s]

Saved as /root/.boo/rosstat-2012.csv
Year: 2012
Reading and processing CSV file /root/.boo/rosstat-2012.csv


765813 lines [01:22, 9320.70 lines/s]

Saved processed CSV file as /root/.boo/processed-2012.csv





'/root/.boo/processed-2012.csv'

Посмотрим, где эти файлы на локальном диске. Каталог хранения данных будет отличаться на  Windows и Linux машинах.

In [4]:
boo.raw_filepath(2012)

'/root/.boo/rosstat-2012.csv'

In [5]:
boo.processed_filepath(2012)

'/root/.boo/processed-2012.csv'

Посмотрим на содержание каталога `/root/.boo/`. Объем обработанного файла почти в два раза меньше за счет удаления пустых и неиспользуемых столбцов.  Все строки файла переведены в тыс. рублей.

In [6]:
! ls -1 -sA --block-size=M ~/.boo/

total 724M
211M processed-2012.csv
514M rosstat-2012.csv


Загрузим датафрейм c помощью функции [boo.read_dataframe()](https://github.com/ru-corporate/sandbox/blob/44da3817f0432c57aa46e017849db6fc1488e187/boo/boo.py#L74-L88). Фактически мы выполняем `pd.read_csv()` с именем файла `boo.processed_filepath(2012)`  и типом столбцов, таким как `dtype={'inn':str}`. `dtype` ускоряет импорт данных и гарантирует сохранность некоторых типов (например, ИНН остается текстовой строкой,  так как он может начинаться с нуля). 

Чтение фрейма занимает 5-10 секунд.

In [10]:
_df = boo.read_dataframe(2012)

Year: 2012
Reading processed CSV file /root/.boo/processed-2012.csv


Какие колонки у этого набора данных? И что они означают?

In [11]:
_df.columns

Index(['ok1', 'ok2', 'ok3', 'org', 'title', 'region', 'inn', 'okpo', 'okopf',
       'okfs', 'of', 'of_lag', 'ta_fix', 'ta_fix_lag', 'cash', 'cash_lag',
       'ta_nonfix', 'ta_nonfix_lag', 'ta', 'ta_lag', 'tp_capital',
       'tp_capital_lag', 'debt_long', 'debt_long_lag', 'tp_long',
       'tp_long_lag', 'debt_short', 'debt_short_lag', 'tp_short',
       'tp_short_lag', 'tp', 'tp_lag', 'sales', 'sales_lag', 'profit_oper',
       'profit_oper_lag', 'exp_interest', 'exp_interest_lag',
       'profit_before_tax', 'profit_before_tax_lag', 'profit_after_tax',
       'profit_after_tax_lag', 'cf_oper_in', 'cf_oper_in_sales', 'cf_oper_out',
       'paid_to_supplier', 'paid_to_worker', 'paid_interest',
       'paid_profit_tax', 'paid_other_costs', 'cf_oper', 'cf_inv_in',
       'cf_inv_out', 'paid_fa_investment', 'cf_inv', 'cf_fin_in', 'cf_fin_out',
       'cf_fin', 'cf'],
      dtype='object')

In [12]:
import pandas as pd
_c = pd.DataFrame(index=_df.columns)
_c['Описание'] = _c.index.map(boo.whatis)
_c
# FIXME: boo.whatis не обьясняет что такое _lag - значение переменной 
#        на начало периода

Unnamed: 0,Описание
ok1,Код ОКВЭД первого уровня
ok2,Код ОКВЭД второго уровня
ok3,Код ОКВЭД третьего уровня
org,Тип юридического лица (часть наименования орга...
title,Короткое название организации
region,Код региона по ИНН
inn,ИНН
okpo,ОКПО
okopf,ОКОПФ
okfs,ОКФС


### Задания 

Прочитайте еще раз [названия переменных в README](https://github.com/ru-corporate/sandbox/tree/44da3817f0432c57aa46e017849db6fc1488e187#%D0%BE%D0%B1%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F-%D0%BF%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D1%85). Найдите в интернете бухгалтерский отчет какого-нибудь предприятия.

1. Какие части отчтености представляют эти переменные? Как проверить правильность составления баланса? Составьте код для такой проверки.
2. Получите ключевые значения отчетности выбранного предприятия из базы данных. Сравните с данными с сайта. Опишите результат.


## Сделаем набор данных удобным

 | Цели раздела |
 |------------------------|
 | 6.  Преобразовать данные отчетности  для анализа крупнейших компаний реального сектора |





Сначала посмотрим на крупные предприятия - по ним проще найди проверочную информацию и легче понять, есть ли ошибки в отчтености. Наша основная задача сейчас - найти крупные предприятия и сделать отченость более понятной и удобной для работы.

Ограничимся небольшим числом переменных - объем активов, основные средства, продажи, прибыль, денежный поток.


In [13]:
BLN =  10 ** 6
COLUMN_REG = ['region', 'ok1', 'ok2', 'ok3', 'title']
COLUMN_RUB = ['ta', 'of', 'sales', 'profit_before_tax', 'cf']
df = _df[(_df.cf != 0) & (_df.ta > 0)] \
         .set_index("inn") \
         [COLUMN_REG+COLUMN_RUB]

df.loc[:, COLUMN_RUB] = df.loc[:, COLUMN_RUB].divide(other=BLN).round(1)


def dequote(title):
    return boo.row.dequote(str(title))[1] \
           .replace("ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО", "ПАО") \
           .replace("ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО", "ОАО") \
           .replace("НЕФТЕПЕРЕРАБАТЫВАЮЩИЙ ЗАВОД", "НПЗ")\
           .replace("ГЕНЕРИРУЮЩАЯ КОМПАНИЯ ОПТОВОГО РЫНКА ЭЛЕКТРОЭНЕРГИИ", "ОГК")
  

df.loc[:, 'title'] = df.loc[:, 'title'].apply(dequote)

print("Количество компаний (исходное):      ", _df.shape[0])
print("Количество компаний (после фильтров):", df.shape[0])
df.head(10)


Количество компаний (исходное):       765813
Количество компаний (после фильтров): 75417


Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2457009983,24,65,23,1,НОРИЛЬСКИЙ НИКЕЛЬ,6.1,0.0,3.0,0.1,-0.0
3125008321,31,70,20,2,Корпоративные сервисные системы,0.8,0.6,0.2,-0.1,0.0
2312128916,23,70,20,0,КУБАНСКАЯ ГЕНЕРИРУЮЩАЯ КОМПАНИЯ,1.6,1.4,0.2,0.0,-0.0
2309001660,23,40,10,2,ПАО ЭНЕРГЕТИКИ И ЭЛЕКТРИФИКАЦИИ КУБАНИ,43.0,31.2,28.1,-2.2,-1.4
2446000322,24,40,10,12,КРАСНОЯРСКАЯ ГЭС,28.1,16.4,12.5,1.9,-1.7
4200000333,42,40,11,1,КУЗБАССКОЕ ОАО ЭНЕРГЕТИКИ И ЭЛЕКТРИФИКАЦИИ,36.9,5.0,35.4,-0.9,-3.7
2703005461,27,40,30,5,ПРОИЗВОДСТВЕННОЕ ПРЕДПРИЯТИЕ ТЕПЛОВЫХ СЕТЕЙ,0.1,0.1,0.2,0.0,-0.0
2312031047,23,26,61,0,КРАСНОДАРСКИЙ ЗАВОД ЖЕЛЕЗОБЕТОННЫХ ИЗДЕЛИЙ И К...,0.1,0.0,0.1,0.0,-0.0
2420002597,24,45,21,51,БОГУЧАНСКАЯ ГЭС,70.9,67.4,1.4,-0.5,-0.2
3525000101,35,31,20,1,ВОЛОГОДСКИЙ ЭЛЕКТРОМЕХАНИЧЕСКИЙ ЗАВОД,0.0,0.0,0.1,0.0,-0.0


In [14]:
# пример укроченного названия
inn1 = "2607018122"
print(_df[_df.inn == inn1].title)
df.loc[inn1, :].title



95803    ВТОРАЯ ГЕНЕРИРУЮЩАЯ КОМПАНИЯ ОПТОВОГО РЫНКА ЭЛ...
Name: title, dtype: object


'ВТОРАЯ ОГК'

#### TODO: что не сделано

- вставить короткие названия известных компаний
- пояснить смысл ограничения `(_df.cf != 0)`
- показать способ реклассификации отраслей
- сократить список меньше 0.01 млрд активов или продаж
- разбить преобразования на группы, возможно перегруппировать
- выбор отрасли в меню 


### Далее пробуем выборки крупных компаний

In [15]:
df[df.of>0.01].sort_values("ta", ascending=False).head(50)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
7708503727,77,60,10,1,Российские железные дороги,4330.8,3413.7,1366.0,66.2,-67.2
7706107510,77,23,20,0,Роснефть,2492.0,715.8,2595.7,345.6,135.8
8602060555,86,11,10,11,СУРГУТНЕФТЕГАЗ,1797.1,564.0,815.6,195.0,21.0
7708004767,77,74,15,2,ЛУКОЙЛ,1188.8,7.5,39.9,218.7,-11.1
7702038150,77,60,21,23,Московский ордена Ленина и ордена Трудового Кр...,1139.9,973.5,68.4,7.9,32.3
7706664260,77,72,6,0,Атомный энергопромышленный комплекс,1136.4,0.4,1.3,21.4,-8.5
4716016979,47,40,12,0,Федеральная сетевая компания Единой энергетиче...,1123.0,52.8,138.8,-14.2,0.3
7721632827,77,40,11,3,Российский концерн по производству электрическ...,1087.8,933.6,200.5,3.2,-3.7
7706061801,77,60,30,1,Транснефть,908.8,4.1,687.1,17.1,-55.4


In [16]:
df[df.of>0.01].sort_values("profit_before_tax", ascending=False).head(200)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
7706107510,77,23,20,0,Роснефть,2492.0,715.8,2595.7,345.6,135.8
7708004767,77,74,15,2,ЛУКОЙЛ,1188.8,7.5,39.9,218.7,-11.1
7225004092,72,51,51,0,ТНК-ВР Холдинг,693.5,6.1,1084.4,200.7,32.3
8602060555,86,11,10,11,СУРГУТНЕФТЕГАЗ,1797.1,564.0,815.6,195.0,21.0
8608048498,86,11,10,11,ЛУКОЙЛ-Западная Сибирь,508.6,352.5,645.7,140.6,0.0
8401005730,84,27,45,0,НОРИЛЬСКИЙ НИКЕЛЬ,703.0,116.5,288.6,99.3,8.1
5504036333,55,51,51,0,Газпром нефть,754.7,14.7,905.5,96.9,46.6
1644003838,16,11,10,11,Татнефть,474.6,94.8,344.6,86.9,-7.7
7703104630,77,65,23,1,СИСТЕМА,602.9,2.4,26.5,86.3,-11.0
