# Анализ открытых данных ФНС РФ  

## 0. Формирование датасетов из сырых данных

ФНС предоставляет данные в формате xml. В одном наборе данных может содержаться неколько тысяч xml-файлов, данные из которых предстоит объединить в единый датасет. 

Вспомогательные скрипты:

-  [для обработки датасета по численности](https://github.com/Karmanoid/Open-Tax-Data/blob/master/parse_FNS_people.py) 

In [31]:
# загружаем уже сформированные датасеты для работы скриптов

!python -m wget http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3 



100% [......................................................] 3841532 / 3841532
Saved under razorback (2).mp3


## 1. Данные о численности сотрудников

Вспомогательные скрипты, которые выдают аналитику по данным

In [174]:
# импортируем необходимые библиотеки
import pandas as pd
import numpy as np
from pandas import ExcelWriter


def people_distribution (df, data='People'):
    """
    функция на вход берет датасет с численностью сотрудников (по умолчанию колонка - People)
    и выдает распределение компаний по численности сотрудниковв датасете 
    """
    zero=df[df[data]==0]
    print ('\n Компаний со штатом 0 чел.: ',zero[data].count ())
    print ('Всего людей в этих компаниях: ',zero[data].sum ())

    non_zero=df[df[data]!=0]

    one_man_army=df[df[data]==1]
    print ('\n Компаний со штатом 1 чел.: ',one_man_army[data].count ())
    print ('Всего людей в этих компаниях: ',one_man_army[data].sum ())


    man_10=df[(df[data]>1)&(df[data]<=10)]
    print ('\n Компаний со штатом от 2 до 10 чел.: ', man_10[data].count ())
    print ('Всего людей в этих компаниях: ',man_10[data].sum ())


    man_100=df[(df[data]>10)&(df[data]<=100)]
    print ('\n Компаний со штатом от 11 до 100 чел.: ', man_100[data].count ())
    print ('Всего людей в этих компаниях: ',man_100[data].sum ())

    man_1000=df[(df[data]>100)&(df[data]<=1000)]
    print ('\n Компаний со штатом от 101 до 1000 чел.: ', man_1000[data].count ())
    print ('Всего людей в этих компаниях: ',man_1000[data].sum ())

    man_10000=df[(df[data]>1000)&(df[data]<=10000)]
    print ('\n Компаний со штатом от 1001 до 10000 чел.: ', man_10000[data].count ())
    print ('Всего людей в этих компаниях: ',man_10000[data].sum ())

    man_10000_more=df[df[data]>10001]
    print ('\n Компаний со штатом больше 10000 чел.: ', man_10000_more[data].count ())
    print ('Всего людей в этих компаниях: ',man_10000_more[data].sum ())

# загружаем датасет полностью в память
datafile="./2017_people.pkl"
df=pd.read_pickle(datafile)

print ('start')
print ('Общая информация о датасете:')
print ('Всего записей в датасете:',df['People'].count (),'\n',df.describe(),'\n')

people_distribution (df)



top100=df.nlargest(100,'People') # выбираем ТОП-100 компаний по численности

#print (top100.head()) # печатаем 5 компаний из нового датасета

# собираем данные в разрезе региона: медиана численности, стандартное отклонение, мин и макс значение 
top_region=df.groupby(['region'])['region','People'].agg([np.median, np.std, np.min, np.max])


# сохраняем данные в единый файл в формате Excel

writer = ExcelWriter ('./top_workers_2017.xlsx')

# создаем листы

top100.to_excel(writer,'Top-100') # ТОП-100 копаний по численности
top_region.to_excel(writer,'Regions') # сводная информация по регионам

writer.save()

start
Общая информация о датасете:
Всего записей в датасете: 2499543 
                  id        People
count  2.499543e+06  2.499543e+06
mean   1.249772e+06  8.145334e+00
std    7.215561e+05  6.005775e+02
min    1.000000e+00  0.000000e+00
25%    6.248865e+05  1.000000e+00
50%    1.249772e+06  1.000000e+00
75%    1.874658e+06  4.000000e+00
max    2.499543e+06  6.975320e+05 


 Компаний со штатом 0 чел.:  381483
Всего людей в этих компаниях:  0

 Компаний со штатом 1 чел.:  1035048
Всего людей в этих компаниях:  1035048

 Компаний со штатом от 2 до 10 чел.:  788489
Всего людей в этих компаниях:  3295081

 Компаний со штатом от 11 до 100 чел.:  271175
Всего людей в этих компаниях:  7824504

 Компаний со штатом от 101 до 1000 чел.:  22657
Всего людей в этих компаниях:  5538424

 Компаний со штатом от 1001 до 10000 чел.:  683
Всего людей в этих компаниях:  1242375

 Компаний со штатом больше 10000 чел.:  8
Всего людей в этих компаниях:  1424180


In [204]:
"""
объединение данных за разные года и подготовка аналитики
""" 

import pandas as pd
import numpy as np

def people_distribution_intersect (df,data='People' ,suffix_1='2017', suffix_2='2018'):
    """
    функция на вход берет датасет с численностью сотрудников (по умолчанию колонка - People)
    и выдает распределение компаний по численности сотрудниковв датасете 
    """
    year_1=data+'_'+suffix_1
    year_2=data+'_'+suffix_2
    
    zero=df[(df[year_2]==0)&(df[year_1]!=0)]
    print (zero.head())
    print ('\n Компаний, где стало 0 чел. в '+suffix_2+' году: ',zero[year_2].count())
    print ('Всего людей в этих компаниях: ',zero[year_2].sum().astype(int)-zero[year_1].sum().astype(int))
    print ('\n Расширенный анализ обнуленных компаний')
    people_distribution (zero, data=year_1)

    one_man_army=df[df[year_2]==1]
    print ('\n Изменение компаний со штатом 1 чел.: ', one_man_army[year_2].count ().astype(int)-one_man_army[year_1].count().astype(int))
    print ('Изменения в этих компаниях (чел.): ',one_man_army[year_2].sum().astype(int)-one_man_army[year_1].sum ().astype(int))


    man_10=df[(df[year_2]>1)&(df[year_2]<=10)]
    print ('\n Компаний со штатом от 2 до 10 чел.: ', man_10[year_2].count ().astype(int)-man_10[year_1].count ().astype(int))
    print ('Изменения в этих компаниях (чел.):  ',man_10[year_2].sum().astype(int)-man_10[year_1].sum().astype(int))


    man_100=df[(df[year_2]>10)&(df[year_2]<=100)]
    print ('\n Компаний со штатом от 11 до 100 чел.: ', man_100[year_2].count ().astype(int)-man_100[year_1].count ().astype(int))
    print ('Изменения в этих компаниях (чел.):  ',man_100[year_2].sum().astype(int)-man_100[year_1].sum().astype(int))

    man_1000=df[(df[year_2]>100)&(df[year_2]<=1000)]
    print ('\n Компаний со штатом от 101 до 1000 чел.: ', man_1000[year_2].count ().astype(int)-man_1000[year_1].count ().astype(int))
    print ('Изменения в этих компаниях (чел.): ',man_1000[year_2].sum().astype(int)-man_1000[year_1].sum().astype(int))

    man_10000=df[(df[year_2]>1000)&(df[year_2]<=10000)]
    print ('\n Компаний со штатом от 1001 до 10000 чел.: ', man_10000[year_2].count ().astype(int)-man_10000[year_1].count ().astype(int))
    print ('Изменения в этих компаниях (чел.): ',man_10000[year_2].sum().astype(int)-man_10000[year_1].sum().astype(int))

    man_10000_more=df[df[year_2]>10001]
    print ('\n Компаний со штатом больше 10000 чел.: ', man_10000_more[year_2].count ().astype(int)-man_10000_more[year_1].count ().astype(int))
    print ('Изменения в этих компаниях (чел.):  ',man_10000_more[year_2].sum().astype(int)-man_10000_more[year_1].sum().astype(int))
    
# грузим датасеты

datafile=("./2017_people.pkl")
df1=pd.read_pickle(datafile)
#print (df1.info())
df1=df1[['INN','People']]
df2=pd.read_pickle("./2018_people.pkl")
#print (df2.info())
df2=df2[['INN','People']]

#объединяем датасеты за 2017 и 2018, присваваем в новом датасете имена колонок
# объединяем по ИНН

print ('===== JOIN ====')
result=pd.merge (df1, df2, on='INN', how='outer', suffixes=('_2017','_2018'))

result.to_pickle('./merged_people.pkl')

print ('Всего людей в 2017:', result.People_2017.sum())
print ('Всего людей в 2018:', result.People_2018.sum())
print ('Медиана в 2017:', result.People_2017.median())
print ('Медиана в 2018:', result.People_2018.median())


print ('===== АНАЛИЗ  ====')
# новые компании, которых не было в 2017, т.е. по ним отсутствуют данные в прошлом году
new=result[result['People_2017'].isnull()]


print ('Новых компаний:',new.People_2018.count(),'\n')
#print (new.info(), new.head())
print ('Новых людей в 2018 году', new.People_2018.sum())

# показываем распределение по новым компаниям
people_distribution (new,data='People_2018')



print ('Старых компаний:', '\n')
old=result[(result['People_2017'] is not None) & (result['People_2018'].isnull())]
print ('уволено людей в 2018 году', old.People_2017.sum())

# показываем распределение по новым компаниям
people_distribution (old, data='People_2017')





print ('===== INTERSECT ====')
#выбираем данные тех компаниях, по которым есть данные за оба года
print ('Данные о компаниях, данные по ним есть за 2 года')

intersect=pd.merge (df1, df2, on='INN', how='inner', suffixes=('_2017','_2018'))

#print (intersect.head())
print ('Всего компаний в 2017 и 2018 году', intersect.People_2017.count())

# выводим общую численность по таким компаниям

people_distribution_intersect (intersect)
print (' людей в 2017 году', intersect.People_2017.sum())
print ('людей в 2018 году', intersect.People_2018.sum())
print ('разница в людях всего: ', intersect.People_2018.sum().astype(int)-intersect.People_2017.sum().astype(int))



===== JOIN ====
Всего людей в 2017: 20359612.0
Всего людей в 2018: 20826383.0
Медиана в 2017: 1.0
Медиана в 2018: 1.0
===== АНАЛИЗ  ====
Новых компаний: 311149 

Новых людей в 2018 году 3224917.0

 Компаний со штатом 0 чел.:  62418
Всего людей в этих компаниях:  0.0

 Компаний со штатом 1 чел.:  180811
Всего людей в этих компаниях:  180811.0

 Компаний со штатом от 2 до 10 чел.:  56125
Всего людей в этих компаниях:  202773.0

 Компаний со штатом от 11 до 100 чел.:  8544
Всего людей в этих компаниях:  235351.0

 Компаний со штатом от 101 до 1000 чел.:  2441
Всего людей в этих компаниях:  976835.0

 Компаний со штатом от 1001 до 10000 чел.:  803
Всего людей в этих компаниях:  1531255.0

 Компаний со штатом больше 10000 чел.:  7
Всего людей в этих компаниях:  97892.0
Старых компаний: 

уволено людей в 2018 году 2233012.0

 Компаний со штатом 0 чел.:  101555
Всего людей в этих компаниях:  0.0

 Компаний со штатом 1 чел.:  239552
Всего людей в этих компаниях:  239552.0

 Компаний со штатом 

### 2. Данные об уплаченных налогах

In [176]:
import pandas as pd

# словарь налогов для упрощения работы с данными
# колонка Total - сумма налогов, уплаченных компаний
taxes={'УСН':'Налог, взимаемый в связи с применением упрощенной системы налогообложения',
      'ЕНВД':'Единый налог на вмененный доход для отдельных видов деятельности',
      'Акцизы':'Акцизы',
      'Водный налог':'Водный налог',
      'Госпошлина':'Государственная пошлина',
      'ЕСХН':'Единый сельскохозяйственный налог',
      'Отмененные':'Задолженность и перерасчеты по ОТМЕНЕННЫМ НАЛОГАМ и сборам и иным обязательным платежам (кроме ЕСН, страх. Взносов)',
      'Земельный налог':'Земельный налог',
      'Неналоги':'НЕНАЛОГОВЫЕ ДОХОДЫ, администрируемые налоговыми органами',
      'НДС':'Налог на добавленную стоимость',
      'НДПИ':'Налог на добычу полезных ископаемых',
      'НДФЛ':'Налог на доходы физических лиц',
      'Казино':'Налог на игорный',
      'НИ_ФЛ':'Налог на имущество физических лиц',
       'НП':'Налог на прибыль',
      'ПСН':'Налог, взимаемый в связи с применением патентной системы налогообложения ',
      'СРП':'Регулярные платежи за добычу полезных ископаемых (роялти) при выполнении соглашений о разделе продукции',
       'Био':'Сборы за пользование объектами животного мира и за пользование объектами ВБР',
       'Медстрах':'Страховые взносы на обязательное медицинское страхование работающего населения, зачисляемые в бюджет Федерального фонда обязательного медицинского страхования',
       'Соцстрах':'Страховые взносы на обязательное социальное страхование на случай временной нетрудоспособности и в связи с материнством ',
       'ПФР':'Страховые и другие взносы на обязательное пенсионное страхование, зачисляемые в Пенсионный фонд Российской Федерации',
       'Торговый сбор':'Торговый сбор',
       'ТН':'Транспортный налог',
       'Утилизационный сбор':'Утилизационный сбор',
      'Всего':'Total'}


    
# грузим датасеты

datafile=("./2017_taxes.pkl")
df=pd.read_pickle(datafile)

print ('В датасете данные о ', df.INN.count(), ' компаний')

def get_stat_by_tax (df,tax, size, top=5):
    """
    Вспомогательная функция, выводит краткий анализ по налогу: кол-во плательщиков, нулевых деклараций,
    и ТОП плательщиков налога (по умолчанию - 5), также выводим медиану суммы налога
    
    taxdata - объект Dataframe
    size - строка, единицы измерения, 'млн' или 'млрд', если указано иное - выводим все в рублях
    """
    def draw_distribution(df):
        import seaborn as sns
        sns.set(color_codes=True)
        sns.distplot(df[taxes[tax]],norm_hist = True,kde=True, hist=False)
        
    print ('Отчет по: ',[taxes[tax]] )
    if size=='млн' or size=='МЛН':
        divider=1000000
    elif size=='млрд' or size=='МЛРД':
        divider=1000000000
    else:
        divider=1
        print ('Выводим полные суммы')
    
    taxdata=df[[taxes[tax], 'INN']]
    taxpayers=taxdata[taxdata[taxes[tax]]>=0] # плательщик тот, у кого или нулевая декларация или больше. NaN - считаем не плательщиками(нет обязанности)
    print (taxpayers.describe())
    draw_distribution(taxpayers)
    print ('Компаний-плательщиков: ', taxpayers.INN.count())
    print ('Компаний с нулевым налогом: ',taxdata[taxdata[taxes[tax]]==0].INN.count())
    print ('Всего уплачено налога: ',taxpayers[taxes[tax]].sum()/divider ,size,' руб.')
    print ('Медиана налога: ',taxpayers[taxes[tax]].median()/divider ,size,' руб.')
    maximum=taxpayers[taxes[tax]].max()
    print ('Максимальная сумма налога: ',maximum/divider ,size,' руб.')
#    top=taxdata[taxdata[taxes[tax]]==maximum]
    largest=df.nlargest(top,taxes[tax])[[taxes[tax], 'INN']]
#    print ('Крупнейшие плательщики: ',str(top.INN.values))
    print ('Крупнейшие плательщики: ',dict(zip(largest.INN.values, largest[taxes[tax]].values)))
    print ('\n','===Конец отчета===')
# анализ различных налогов и налоговых режимов

get_stat_by_tax (df, 'Всего', size='млн')
#get_stat_by_tax (df, 'ЕНВД', size='млн')


KeyboardInterrupt: 

In [172]:
"""
формируем отчет из списка ИНН по разным датасетам и сохраняем в единый датасет
"""

import pandas as pd
from functools import reduce

INN_list=['7720261827',
'7707009586',
'7709378229',
'9705101614',
'7728169439',
'7709413138',
'7728294503',
'7826705374',
'2536247123',
'7709431786',
'7710446378',
'5024093363',
'3905019765',
'7708797192',
'7704221591',
'7706561875',
'1650130591',
'7730650445',
'7710329843',
'7702278747']

# выбираем налоги

datafile=("./2017_taxes.pkl")
df=pd.read_pickle(datafile)
taxes=df[df['INN'].isin(INN_list)]

# выбираем численность

datafile=("./2017_people.pkl")
df=pd.read_pickle(datafile)
people=df[df['INN'].isin(INN_list)]
people=people[['INN', 'People']]

# выбираем данные из бухотчетности
datafile=("./2017_fin_rep.pkl")
df=pd.read_pickle(datafile)

fin_rep=df[df['INN'].isin(INN_list)]
fin_rep=fin_rep[['INN', 'Cost','Revenue','Profit']]
result=pd.merge (taxes, people, on='INN', how='outer')

dfs = [taxes,people,fin_rep] # store in one list
df_merge = reduce(lambda  left,right: pd.merge(left,right,on=['INN'], how='outer'), dfs)

df_merge.to_excel("output.xlsx")