<a href="https://colab.research.google.com/github/ru-corporate/sandbox/blob/master/boo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Анализ бухгалтерской отчетности российских компаний

[Евгений Погребняк](https://epogrebnyak.github.io/cv/), февраль 2019

1. Где находятся и что представляют из себя исходные данные? 
2. Как их получить и преобразовать для удобного использования?
3. Какие задачи мы можем решать с помощью отчетности?
4. Открытые вопросы для будущей работы

### Рекомендуем ознакомиться

-  [Структура проектов обработки данных](http://drivendata.github.io/cookiecutter-data-science)
- [README](https://github.com/ru-corporate/sandbox/blob/master/README.md) репозитария ![ru-corporate/sandbox](https://https://avatars3.githubusercontent.com/u/42803215?s=200&v=4)


## Исходные данные

 | Цели раздела |
 |------------------------|
 | 1. Знать источник и структуру исходных данных |
 | 2. Понимать использованный способ преобразования данных  в пакете `boo` |


Исходные данные [Росстат раскрывает за 2012-2017 гг.][gks]. 

Примеры файлов:

| Год          |  Компаний  | Размер файла (Мб) |
|--------------|:----------:|:-----------------:|
| [2012][2012] |   765 813  |        525        |
| [2017][2017] | 2 358 756  |       1631        |

[gks]: http://www.gks.ru/opendata/dataset?q=%D0%BE%D1%82%D1%87%D0%B5%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D1%80%D0%B3%D0%B0%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B9+&sort=score+desc%2C+metadata_modified+desc
[2012]: http://www.gks.ru/opendata/dataset/7708234640-bdboo2012
[2017]: http://www.gks.ru/opendata/dataset/7708234640-bdboo2017

На аналогичных данных построены ряд бесплатных и платных сервисов по предоставлению данных, их можно использовать для проверок результатов.

### Плюсы

- открытые данные
- появляются новые версии за предыдущие года
- данные становятся чище (например, нет "битых" строк с неправильным количеством значений)
- с каждым годом увеличивается охват компаний 
- есть контакты ответственного лица, мейл и телефон 
- есть дублирующий сервис для запроса отчетности по ИНН

### Проблемы

- заголовки отдельно от файла, названия переменных изначально не очень понятны
- строки могут быть в разных единицах измерения (тыс. руб., млн руб.)
- дублирование, отсутствующие и искаженные данные, компании-"призраки" 


### Как преодолеть ограничения?

- построить отчетености компании за несколько лет 
- дополнить отсутствующие компании 
- привязать компании к фактическим отраслям
- ввести классификаторы (ОКВЭД, названия регионов)
- связать с другими базами данных


## Как использовать эти данные?


 | Цели раздела |
 |------------------------|
 | 3. Описать возможных пользователей корпоративной отчетности и их потребности |
 
 
 


### 1. Учебные задачи

- бухучет: проверить тождества и связь между частями отчетности (баланс, P&L, CF)
- финанализ: посчитать коэффициенты для оценки финансовой устойчивости и  эффективности
- определить типы компаний по отчтености (торговые, производственные, холдинговые компании)
- как проследить рост продаж, инвестиции в основной капитал, ситуации банкротства
- связь фианнсовых показателей и показателей нацсчетов

### 2. Описательные задачи

- рейтинги крупнейших предприятий (по аналогии с Эксперт, РБК, Коммерсант, Forbes)
- отраслевые рейтинги
- региональная экономика

### 3. Аналитические задачи

- оценка компаний и кредитный риск
- анализ налоговой нагрузки
- развитие малого бизнеса
- инвестиции в основной капитал 

### 4. Исследовательские задачи

- модели кредитного риска
- анализ отраслевой концентрации
- развитие региональной экономики
- малоизвестные подотрасли 
- популярность названий предприятий

## Хватит слов, посмотрим на данные!

 | Цели раздела |
 |------------------------|
 | 4. Прочитать набор данных корпоративной отчетности в виде датафрейма `pandas` |
 | 5. Понимать содержание переменных и связи между ними |



За работу! Загрузим пакет `boo` ("бухгалтерская отчетность организаций")  с github. Проследим также за установкой необходимых зависимостей.

In [1]:
!pip install --upgrade git+https://github.com/ru-corporate/sandbox.git@master

Collecting git+https://github.com/ru-corporate/sandbox.git@master
  Cloning https://github.com/ru-corporate/sandbox.git (to revision master) to /tmp/pip-req-build-knjau5wg
Building wheels for collected packages: boo
  Building wheel for boo (setup.py) ... [?25ldone
[?25h  Stored in directory: /tmp/pip-ephem-wheel-cache-vkvij7zp/wheels/d4/6e/d4/eeca7bd25b87c086542888db1c747824a70ba3ec67b0d3823d
Successfully built boo
Installing collected packages: boo
Successfully installed boo-0.0.2


Пакет `boo` позволяет загрузить и "причесать" данные для более быстрого и удобного использования. Загрузка данных и поготовка данных может занимать длительное время, но на Google Colab все поисходит довольно шустро, а сами файлы некоторое время (кто-то написано сколько?) хранятся на локальной машине и готовы для использования.

In [0]:
import boo

In [3]:
boo.download(2012)
boo.build(2012)

# uncomment when ready to work with larger file
#boo.download(2017)
#boo.build(2017)

Year: 2012
Downloading http://www.gks.ru/opendata/storage/7708234640-bdboo2012/data-20181029t000000-structure-20121231t000000.csv


525447 k [00:47, 11005.59 k/s]
859 lines [00:00, 8588.96 lines/s]

Saved as /root/.boo/rosstat-2012.csv
Year: 2012
Reading and processing CSV file /root/.boo/rosstat-2012.csv


765813 lines [01:22, 9320.70 lines/s]

Saved processed CSV file as /root/.boo/processed-2012.csv





'/root/.boo/processed-2012.csv'

Посмотрим, где эти файлы на локальном диске. Каталог хранения данных будет отличаться на  Windows и Linux машинах.

In [4]:
boo.raw_filepath(2012)

'/root/.boo/rosstat-2012.csv'

In [5]:
boo.processed_filepath(2012)

'/root/.boo/processed-2012.csv'

Посмотрим на содержание каталога `/root/.boo/`. Объем обработанного файла почти в два раза меньше за счет удаления пустых и неиспользуемых столбцов.  Все строки файла переведены в тыс. рублей.

In [6]:
! ls -1 -sA --block-size=M ~/.boo/

total 724M
211M processed-2012.csv
514M rosstat-2012.csv


Загрузим датафрейм c помощью функции [boo.read_dataframe()](https://github.com/ru-corporate/sandbox/blob/44da3817f0432c57aa46e017849db6fc1488e187/boo/boo.py#L74-L88). Фактически мы выполняем `pd.read_csv()` с именем файла `boo.processed_filepath(2012)`  и типом столбцов, таким как `dtype={'inn':str}`. `dtype` ускоряет импорт данных и гарантирует сохранность некоторых типов (например, ИНН остается текстовой строкой,  так как он может начинаться с нуля). 

Чтение фрейма занимает 5-10 секунд.

In [10]:
_df = boo.read_dataframe(2012)

Year: 2012
Reading processed CSV file /root/.boo/processed-2012.csv


Какие колонки у этого набора данных? И что они означают?

In [11]:
_df.columns

Index(['ok1', 'ok2', 'ok3', 'org', 'title', 'region', 'inn', 'okpo', 'okopf',
       'okfs', 'of', 'of_lag', 'ta_fix', 'ta_fix_lag', 'cash', 'cash_lag',
       'ta_nonfix', 'ta_nonfix_lag', 'ta', 'ta_lag', 'tp_capital',
       'tp_capital_lag', 'debt_long', 'debt_long_lag', 'tp_long',
       'tp_long_lag', 'debt_short', 'debt_short_lag', 'tp_short',
       'tp_short_lag', 'tp', 'tp_lag', 'sales', 'sales_lag', 'profit_oper',
       'profit_oper_lag', 'exp_interest', 'exp_interest_lag',
       'profit_before_tax', 'profit_before_tax_lag', 'profit_after_tax',
       'profit_after_tax_lag', 'cf_oper_in', 'cf_oper_in_sales', 'cf_oper_out',
       'paid_to_supplier', 'paid_to_worker', 'paid_interest',
       'paid_profit_tax', 'paid_other_costs', 'cf_oper', 'cf_inv_in',
       'cf_inv_out', 'paid_fa_investment', 'cf_inv', 'cf_fin_in', 'cf_fin_out',
       'cf_fin', 'cf'],
      dtype='object')

In [12]:
import pandas as pd
_c = pd.DataFrame(index=_df.columns)
_c['Описание'] = _c.index.map(boo.whatis)
_c
# FIXME: boo.whatis не обьясняет что такое _lag - значение переменной 
#        на начало периода

Unnamed: 0,Описание
ok1,Код ОКВЭД первого уровня
ok2,Код ОКВЭД второго уровня
ok3,Код ОКВЭД третьего уровня
org,Тип юридического лица (часть наименования орга...
title,Короткое название организации
region,Код региона по ИНН
inn,ИНН
okpo,ОКПО
okopf,ОКОПФ
okfs,ОКФС


### Задания 

Прочитайте еще раз [названия переменных в README](https://github.com/ru-corporate/sandbox/tree/44da3817f0432c57aa46e017849db6fc1488e187#%D0%BE%D0%B1%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F-%D0%BF%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D1%85). Найдите в интернете бухгалтерский отчет какого-нибудь предприятия.

1. Какие части отчтености представляют эти переменные? Как проверить правильность составления баланса? Составьте код для такой проверки.
2. Получите ключевые значения отчетности выбранного предприятия из базы данных. Сравните с данными с сайта. Опишите результат.


## Сделаем набор данных удобным

 | Цели раздела |
 |------------------------|
 | 6.  Преобразовать данные отчетности  для анализа крупнейших компаний реального сектора |





Сначала посмотрим на крупные предприятия - по ним проще найди проверочную информацию и легче понять, есть ли ошибки в отчтености. Наша основная задача сейчас - найти крупные предприятия и сделать отченость более понятной и удобной для работы.

Ограничимся небольшим числом переменных - объем активов, основные средства, продажи, прибыль, денежный поток.


In [26]:
BLN =  10 ** 6
COLUMN_REG = ['region', 'ok1', 'ok2', 'ok3', 'title']
COLUMN_RUB = ['ta', 'of', 'sales', 'profit_before_tax', 'cf']
df = _df[(_df.cf != 0) & (_df.ta > 0)] \
         .set_index("inn") \
         [COLUMN_REG+COLUMN_RUB]

df.loc[:, COLUMN_RUB] = df.loc[:, COLUMN_RUB].divide(other=BLN).round(1)


def dequote(title):
    return boo.row.dequote(str(title))[1] \
           .replace("ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО", "ПАО") \
           .replace("ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО", "ОАО") \
           .replace("НЕФТЕПЕРЕРАБАТЫВАЮЩИЙ ЗАВОД", "НПЗ")\
           .replace("ГЕНЕРИРУЮЩАЯ КОМПАНИЯ ОПТОВОГО РЫНКА ЭЛЕКТРОЭНЕРГИИ", "ОГК")
  

df.loc[:, 'title'] = df.loc[:, 'title'].apply(dequote)

SHORT_NAMES_BY_INN = {
    '2460066195': "РусГидро",
    '4716016979': "ФСК ЕЭС",
    '7702038150': "Московский метрополитен",
    '7721632827': "Концерн Росэнергоатом",
    '7706664260': "Атомэнергопром"
}

def rename(df, rename_dict=SHORT_NAMES_BY_INN):
    """Rename some titles."""
    ix = df.index.isin(list(rename_dict.keys()))
    df.loc[ix, ['title']] = df.loc[ix].index.map(lambda inn: rename_dict[inn])
    return df
  
df = rename(df)
# важное, существенное ограничение
df = df[df.of>0.01]

print("Количество компаний (исходное):      ", _df.shape[0])
print("Количество компаний (после фильтров):", df.shape[0])
df.head(10)


def sort(df, key):
    return df.sort_values(key, ascending=False)
  
def by_title(df, text):
    mask = df.title.map(lambda s: text.lower() in str(s).lower())
    return df[mask]  

Количество компаний (исходное):       765813
Количество компаний (после фильтров): 21096


In [18]:
# пример укроченного названия
inn1 = "2607018122"
print(_df[_df.inn == inn1].title)
df.loc[inn1, :].title



95803    ВТОРАЯ ГЕНЕРИРУЮЩАЯ КОМПАНИЯ ОПТОВОГО РЫНКА ЭЛ...
Name: title, dtype: object


'ВТОРАЯ ОГК'

#### TODO: что не сделано

- пояснить смысл ограничения `(_df.cf != 0)`
- показать способ реклассификации отраслей
- сократить список меньше 0.01 млрд активов или продаж
- разбить преобразования на группы, возможно перегруппировать
- выбор отрасли в меню 


### Далее пробуем выборки крупных компаний

In [25]:
sort(df, "sales").head(50)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
7706107510,77,23,20,0,Роснефть,2492.0,715.8,2595.7,345.6,135.8
7708503727,77,60,10,1,Российские железные дороги,4330.8,3413.7,1366.0,66.2,-67.2
7225004092,72,51,51,0,ТНК-ВР Холдинг,693.5,6.1,1084.4,200.7,32.3
5504036333,55,51,51,0,Газпром нефть,754.7,14.7,905.5,96.9,46.6
5003021311,50,51,51,3,Газпром межрегионгаз,601.2,39.1,828.0,-9.7,6.1
8602060555,86,11,10,11,СУРГУТНЕФТЕГАЗ,1797.1,564.0,815.6,195.0,21.0
7706061801,77,60,30,1,Транснефть,908.8,4.1,687.1,17.1,-55.4
8608048498,86,11,10,11,ЛУКОЙЛ-Западная Сибирь,508.6,352.5,645.7,140.6,0.0
274051582,2,23,20,0,Башнефть,339.6,100.3,489.2,57.2,-6.3


In [22]:
sort(df, "ta").head(50)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
7708503727,77,60,10,1,Российские железные дороги,4330.8,3413.7,1366.0,66.2,-67.2
7706107510,77,23,20,0,Роснефть,2492.0,715.8,2595.7,345.6,135.8
8602060555,86,11,10,11,СУРГУТНЕФТЕГАЗ,1797.1,564.0,815.6,195.0,21.0
7708004767,77,74,15,2,ЛУКОЙЛ,1188.8,7.5,39.9,218.7,-11.1
7702038150,77,60,21,23,Московский метрополитен,1139.9,973.5,68.4,7.9,32.3
7706664260,77,72,6,0,Атомэнергопром,1136.4,0.4,1.3,21.4,-8.5
4716016979,47,40,12,0,ФСК ЕЭС,1123.0,52.8,138.8,-14.2,0.3
7721632827,77,40,11,3,Концерн Росэнергоатом,1087.8,933.6,200.5,3.2,-3.7
7706061801,77,60,30,1,Транснефть,908.8,4.1,687.1,17.1,-55.4


In [24]:
sort(df, "profit_before_tax").head(200)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
7706107510,77,23,20,0,Роснефть,2492.0,715.8,2595.7,345.6,135.8
7708004767,77,74,15,2,ЛУКОЙЛ,1188.8,7.5,39.9,218.7,-11.1
7225004092,72,51,51,0,ТНК-ВР Холдинг,693.5,6.1,1084.4,200.7,32.3
8602060555,86,11,10,11,СУРГУТНЕФТЕГАЗ,1797.1,564.0,815.6,195.0,21.0
8608048498,86,11,10,11,ЛУКОЙЛ-Западная Сибирь,508.6,352.5,645.7,140.6,0.0
8401005730,84,27,45,0,НОРИЛЬСКИЙ НИКЕЛЬ,703.0,116.5,288.6,99.3,8.1
5504036333,55,51,51,0,Газпром нефть,754.7,14.7,905.5,96.9,46.6
1644003838,16,11,10,11,Татнефть,474.6,94.8,344.6,86.9,-7.7
7703104630,77,65,23,1,СИСТЕМА,602.9,2.4,26.5,86.3,-11.0


### Смотрим отдельные холдинги

In [35]:
# Мы видим только российские активы https://www.interrao.ru/company/structure/
sort(by_title(df, "ИНТЕР РАО"), "ta").head(10)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2320109650,23,40,11,1,ИНТЕР РАО ЕЭС,444.7,3.2,42.7,-9.8,9.4
7704784450,77,40,11,0,ИНТЕР РАО - Электрогенерация,229.2,170.3,45.6,-0.3,-6.0


In [34]:
sort(by_title(df, "ЛУКОЙЛ"), "ta").head(10)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7708004767,77,74,15,2,ЛУКОЙЛ,1188.8,7.5,39.9,218.7,-11.1
8608048498,86,11,10,11,ЛУКОЙЛ-Западная Сибирь,508.6,352.5,645.7,140.6,0.0
1106014140,11,11,10,11,ЛУКОЙЛ-Коми,223.4,145.5,279.9,44.5,-0.0
5902201970,59,11,10,11,ЛУКОЙЛ-ПЕРМЬ,176.7,80.2,180.5,52.4,0.0
5905099475,59,23,20,0,ЛУКОЙЛ-Пермнефтеоргсинтез,158.4,18.1,256.7,38.0,0.0
3448017919,34,23,20,0,ЛУКОЙЛ-Волгограднефтепереработка,131.7,34.2,248.7,34.5,-0.0
5250043567,52,23,20,0,ЛУКОЙЛ-НИЖЕГОРОДНЕФТЕОРГСИНТЕЗ,128.3,33.9,326.2,29.9,0.0
3444070534,34,11,10,11,ЛУКОЙЛ-Нижневолжскнефть,127.7,58.3,19.6,-1.8,-0.0
1102057865,11,23,20,0,ЛУКОЙЛ-Ухтанефтепереработка,34.6,7.7,70.0,6.9,-0.0
3900004998,39,11,10,11,ЛУКОЙЛ-Калининградморнефть,26.4,7.5,27.3,4.5,-0.0


In [29]:
by_title(df, "Евраз ")

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2508001449,25,63,11,2,ЕВРАЗ НАХОДКИНСКИЙ МОРСКОЙ ТОРГОВЫЙ ПОРТ,1.7,0.9,2.8,0.9,0.0
4218000951,42,27,16,1,ЕВРАЗ Объединенный Западно-Сибирский металлург...,91.9,42.1,130.6,9.3,1.6
6154062128,61,51,52,21,ЕВРАЗ Металл Инпром,11.4,2.4,30.1,0.1,0.2
6623000680,66,27,11,0,ЕВРАЗ Нижнетагильский металлургический комбинат,265.6,38.1,113.0,28.1,15.5
6615001962,66,13,10,2,ЕВРАЗ Качканарский горно-обогатительный комбинат,59.4,7.3,28.7,10.6,3.3
6623000708,66,13,10,1,ЕВРАЗ Высокогорский горно-обогатительный комбинат,9.3,1.4,7.5,0.0,0.0
7105008754,71,27,13,0,ЕВРАЗ Ванадий Тула,1.6,0.5,4.4,0.2,0.0


In [40]:
# Газпром нефть - отдельное юрлицо "5504036333"
x = sort(by_title(df, "Газпром"), "ta")
x[x.index != "5504036333"].head(10)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7736050003,77,51,51,3,Газпром,10035.7,5569.6,3659.2,753.7,-60.7
5003021311,50,51,51,3,Газпром межрегионгаз,601.2,39.1,828.0,-9.7,6.1
7838306818,78,40,20,2,Газпром газораспределение,271.0,124.7,11.5,0.7,0.3
8903019871,89,11,10,2,Газпром добыча Надым,263.8,156.7,79.9,0.9,-0.7
8905000428,89,11,10,11,Газпромнефть-Ноябрьскнефтегаз,195.6,109.2,147.2,19.4,-0.0
7728260399,77,45,1,0,Газпром инвест Юг,168.3,109.5,14.9,0.0,-6.3
1102054991,11,23,20,0,Газпром переработка,135.8,16.0,34.4,7.8,2.0
8622000931,86,60,30,21,Газпром трансгаз Югорск,126.4,72.9,255.9,3.3,-0.6
7740000044,77,51,18,0,Газпром комплектация,124.5,0.7,3.0,0.6,-2.8
2721152331,27,74,20,13,Газпром инвест Восток,123.0,72.0,3.8,0.2,-0.5


### Смотрим отрасли

In [0]:
def industry(df, ok1):
    return df[df.ok1 == ok1]


def industry2(df, ok1, ok2):
    return df[(df.ok1 == ok1) & (df.ok2 == ok2)]


In [50]:
# TODO: add industry name from okvedv2
sort(industry(df, 64), "ta").head(10)

Unnamed: 0_level_0,region,ok1,ok2,ok3,title,ta,of,sales,profit_before_tax,cf
inn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
7707049388,77,64,20,11,Ростелеком,563.2,331.3,282.9,41.2,3.8
7713076301,77,64,20,1,Вымпел-Коммуникации,514.9,143.2,280.3,46.6,8.0
7740000076,77,64,20,11,Мобильные ТелеСистемы,447.9,141.4,270.8,56.3,-34.4
7812014560,78,64,20,0,МегаФон,384.1,185.1,254.5,54.9,-0.8
7724261610,77,64,11,0,Почта России,208.6,21.5,129.0,0.4,8.8
7710016640,77,64,2,0,Московская городская телефонная сеть,74.5,36.1,35.0,12.7,0.9
7723011906,77,64,20,0,Cвязь объектов транспорта и добычи нефти,52.4,46.4,20.1,2.5,0.0
7725027605,77,64,20,0,Космическая связь,46.3,9.7,6.3,10.2,5.8
7717127211,77,64,20,2,Российская телевизионная и радиовещательная сеть,44.1,0.2,19.8,1.8,1.5
7717020170,77,64,20,12,Московская телекоммуникационная корпорация,30.0,10.6,6.6,0.1,-0.0


In [61]:
from boo.classify.okved import OKVEDv2

# нужен ОКВЭД-1 для 2012 года!

for i in range(0, 99):
  x = sort(industry(df, i), "ta").head(5)
  if not x.empty:
     print (i, OKVEDv2[i])
     print (x.to_string(line_width=200))
 

1 Растениеводство и животноводство, охота и предоставление соответствующих услуг в этих областях
           region  ok1  ok2  ok3                               title    ta    of  sales  profit_before_tax   cf
inn                                                                                                            
2328000083     23    1   30    0                        АГРОКОМПЛЕКС  30.2  13.6   15.0                1.7 -0.1
3123100360     31    1   24    0                          ПРИОСКОЛЬЕ  23.6  12.2   27.9                2.6 -0.2
3252005997     32    1   21    0            БРЯНСКАЯ МЯСНАЯ КОМПАНИЯ  22.4   3.8    0.2                1.0  0.0
3116003662     31    1   24    0  Белгородские гранулированные корма  20.1   8.3   13.6                2.4 -0.0
3110009570     31    1   23    0                Свинокомплекс Короча  17.8   4.7   23.1                0.9 -0.1
2 Лесоводство и лесозаготовки
           region  ok1  ok2  ok3                            title    ta   of  sales  prof

KeyError: ignored