<style>
#notebook-container {
    padding: 15px;
    background-color: #fff;
    min-height: 0;
    -webkit-box-shadow: 0px 0px 0px 0px rgba(87, 87, 87, 0.2);
    box-shadow: 0px 0px 0px 0px rgba(87, 87, 87, 0.2);
</style>

vers. 1.0.0

<a href="../economy/index.html">На главную страницу</a>

In [1]:
from IPython.display import HTML

HTML('''
<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input type="submit" value="Click here to toggle on/off the raw code."></form>
''')

# Список крупнейших компаний России
## Выручка компаний

Некоторое представление об экономики России, можно составить на основе анализа деятельности крупнейших компаний. Такой подход применяется рядом бизнес-изданий: 
- <a href="https://www.rbc.ru/rbc500/"> Рейтинг РБК 500 :Весь бизнес России</a>
- <a href="https://expert.ru/dossier/rating/expert-400/"> Эксперт. Эксперт 400 - рейтинг ведущих российских компаний</a>
- <a href="http://www.forbes.ru/rating/367067-200-krupneyshih-rossiyskih-chastnyh-kompaniy-2018-reyting-forbes"> Форбс. Топ-200 крупнейших российских частных компаний</a>
- <a href="http://www.forbes.ru/rating/369567-zarubezhnyy-kapital-reyting-krupneyshih-inostrannyh-kompaniy-2018"> Форбс. Топ-50 крупнейших иностранных компаний в России</a>
- <a href="https://www.kommersant.ru/apps/117791"> Коммерсант. 600 крупнейших компаний России</a>

Набор данных сформирован перекрестно из нескольких открытых источников. 

В расчете данные компаний АФК "Система", Госкорпораци "Росатом" учитываются совокупно, Госкорпорация "Ростех" учитывается раздельно по ключевым предприятиям. Предприятия Госкорпорации "Роскосмос" учитываются раздельно по ключевым компаниям космической отрасли. Отраслевыя структура соответствует методике РБК.

Описание набора данных:
- Компании в списке упорядочены по величине выручки
- Компании имею порядковый индекс от 0 до n. Первая в списке организация имеет индекс 0, последняя - индекс n. 
- Всего данных о выручке компаний за 5 лет с 2013 по 2017 годы.
- Данные о величине выручки представлены в столбцах: от <b><samp>p2013</samp></b> - для численности персонала за 2013 год, до <b><samp>p2017</samp></b> - для численности персонала за 2017 год.
- Часть данных для отдельных компаний и для определенных периодов отсутствует. Для отсутствующих данных применяются особые методы обработки, которые зависят от целей и вида анализа.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('ggplot')


In [3]:
df = pd.read_excel('./../data/data.xlsx')
df = df.drop(['city', 'p2013', 'p2014', 'p2015', 'p2016', 'p2017', 
             'i2013', 'i2014', 'i2015', 'i2016', 'i2017', 'v'], axis=1)

In [4]:
v = {'2013': df.v2013.sum().astype(int), 
     '2014': df.v2014.sum().astype(int), 
     '2015': df.v2015.sum().astype(int),
     '2016': df.v2016.sum().astype(int),
     '2017': df.v2017.sum().astype(int)}


comp = {'2013': df.v2013.isnull().value_counts()[0],
        '2014': df.v2014.isnull().value_counts()[0],
        '2015': df.v2015.isnull().value_counts()[0],
        '2016': df.v2016.isnull().value_counts()[0],
        '2017': df.v2017.isnull().value_counts()[0]}

comp_len = {'2013': len(df.v2013),
            '2014': len(df.v2014),
            '2015': len(df.v2015),
            '2016': len(df.v2016),
            '2017': len(df.v2017)}

In [5]:
print('\nХарактеристика набора данных: ')
dfv = pd.DataFrame([v, comp_len, comp], index=['company', 'comp', 'data']).T

dfv = dfv.sort_index(ascending=False)
dfv['nodata'] = dfv.comp - dfv.data
dfv['perc_data'] = (dfv.data * 100 / dfv.comp).round(1)
dfv['perc_nodata'] = (100 - dfv.perc_data).round(1)

dfv = dfv[['comp', 'data', 'nodata', 'perc_data', 'perc_nodata', 'company']]
dfv.columns = ['всего компаний', 'есть данные', 'нет данных', 'есть данные %', 'нет данных %', 'всего выручка']
dfv


Характеристика набора данных: 


Unnamed: 0,всего компаний,есть данные,нет данных,есть данные %,нет данных %,всего выручка
2017,661,661,0,100.0,0.0,82452
2016,661,661,0,100.0,0.0,75103
2015,661,659,2,99.7,0.3,70262
2014,661,641,20,97.0,3.0,61493
2013,661,625,36,94.6,5.4,53516


### Набор данных

<pre>
Столбцы: 
- industry       - отрасль к оторой относится компания
- v2013 - v2017  - выручка компаний по годам, (млрд. рублей в текущих ценах)
- forg           - иностранная компания
- state          - компания с госучастием, государство основной собственник
- Nan            - нет данных (в ячейке)
</pre>

In [6]:
pd.options.display.max_rows = 800

In [7]:
df = df.round()
df

Unnamed: 0,name,industry,v2013,v2014,v2015,v2016,v2017,forg,country,state
0,Газпром,Нефть и газ,5119.0,5477.0,6073.0,6111,6546,0,Россия,1
1,ЛУКОЙЛ,Нефть и газ,3794.0,4697.0,5174.0,4744,5475,0,Россия,0
2,Роснефть,Нефть и газ,3176.0,3681.0,4120.0,4134,5030,0,Россия,1
3,Сбербанк России,Финансы,1763.0,2234.0,2911.0,3059,3133,0,Россия,1
4,Российские железные дороги,Транспорт,1774.0,1796.0,1991.0,2133,2252,0,Россия,1
5,ВТБ,Финансы,805.0,989.0,1308.0,1320,1330,0,Россия,1
6,X5 Retail Group,Торговля,535.0,634.0,809.0,1034,1295,0,Россия,0
7,Сургутнефтегаз,Нефть и газ,825.0,875.0,993.0,1006,1156,0,Россия,0
8,Магнит,Торговля,580.0,764.0,951.0,1075,1143,0,Россия,0
9,Росатом,Атомная промышленность,529.0,618.0,821.0,878,967,0,Россия,1
