In [198]:
import pandas as pd
import numpy as np

## Основные константы блока
<ul>
<li><b>strWebSrc</b> - адрес исходника в WWW</li>
<li><b>strNetSource</b> - адрес локального исходника</li>
<li><b>iErrorToInt</b> - число-заполнитель отсутствующих кодов групп и показателей (для удобства использования в индексации)</li>
<li><b>dctIndexColumnsNames</b> - словарь универсальных имен колонок для мультииндекса, в эти колонки разбивается код ОКВЭД</li>
<li><b>dctResultFields</b> - словарь универсальных имен колонок рабочих, часто используемых столбцов набора данных </li>
</ul>

In [199]:
strWebSrc=r'http://data.gov.ru/sites/default/files/opendata/7710168515-Obscherossiyskiyklassifikatorvidovehkonomicheskoydeyatelnosti2014/data-2016-10-17T00-00-00-structure-2016-10-17T00-00-00.json'
#strNetSource=r'smb://commd/statistica/99-Information/ОКВЭД2/ОКВЭД2.xls'
strNetSource=r'/home/egor/csv_source/ОКВЭД2.xls'
iErrorToInt=-1

dctIndexColumnsNames={'CATEGORY':'cat', 'GROUP1':'grp1', 'GROUP2':'grp2', 'CODE':'num'}
dctResultFields={'okvedF':'Idx', 'okved':'Code', 'name':'Name'}

## Читаем коды ОКВЭД в pandas DataFrame
две функции для двух разных источников: <BR/>
1 - с WWW в формате json (как на сайте http://data.gov.ru/) <BR/>
2 - из локального файла Excel (форматы группы Сальникова) <BR/>

## Основное в формате готового DataFrame:
Код ОКВЭД разбивается (разделитель - точка) на четыре группы: <BR/>
1 - категория (латинская заглавная буква)<BR/>
2 - код группы 1 <BR/>
3 - код группы 2 <BR/>
3 - код поакзателя <BR/>
<b>Коды групп и показателей преобразуются в тип INT, отсутствующий код замещяется iErrorToInt</b>

In [200]:
def to_int(x):
    try:
        return int(x)
    except:
        return iErrorToInt
        
def read_from_web(strSource):
    """читает данные в формате json, готовит pandas DataFrame
    разбивает поле Idx (код ОКВЭД) на 4 поля: категория, группа 1, группа 2, код показателя
    коды групп и показателя - число;
    четыре поля кода ОКВЭД => мультииндекс"""
        
    df=pd.read_json(strSource, orient='records', encoding='Cp1251')
    df=df.drop(['system_object_id', 'signature_date', 'global_id', 'Razdel'], axis=1) # возможно, это нужные поля
    df.rename(columns={'Kod':dctResultFields['okved']}, inplace=True)
    df[dctIndexColumnsNames['CATEGORY']], df[dctIndexColumnsNames['GROUP1']], \
    df[dctIndexColumnsNames['GROUP2']], df[dctIndexColumnsNames['CODE']]=df['Idx'].str.split('.').str
    
    df[ list(dctIndexColumnsNames.values())[1:] ]=df[list(dctIndexColumnsNames.values())[1:]].applymap(to_int)
    df[dctIndexColumnsNames['CATEGORY']].astype('category')
    df.set_index( list(dctIndexColumnsNames.values()), inplace=True)
    return df.sort_index() # sort need for slicing

print(read_from_web(strWebSrc))

def read_from_excel(strSource):
    """читает данные в формате xls (НЕ XLSB!!!) из файла В. Сальникова - Дю Галимова, 
    готовит pandas DataFrame
    формирует поле Idx (код ОКВЭД) на основе поля КОД файла, 
    формирует поля: категория, группа 1, группа 2, код показателя
    коды групп и показателя - число;
    четыре поля кода ОКВЭД => мультииндекс"""
    def make_cat_field(df1):
        dfQ=df1[df1[dctIndexColumnsNames['CATEGORY']].notnull()]
        lst=dfQ.index.tolist()+[len(df1)]
        i=0
        while i<len(lst)-1:
            df1.loc[lst[i]:lst[i+1]-1,dctIndexColumnsNames['CATEGORY']]=dfQ.loc[lst[i], dctIndexColumnsNames['CATEGORY']]
            i+=1
        df1.loc[lst[-1]-1,dctIndexColumnsNames['CATEGORY']]=dfQ.loc[lst[i-1], dctIndexColumnsNames['CATEGORY']]
        #df1[dctIndexColumnsNames['CATEGORY']].fillna('0', inplace=True)

        
    df=pd.read_excel(strSource, skiprows=[0,], header=0)
    df.rename(columns={'Код':dctResultFields['okved'], 'Название группировки':dctResultFields['name']}, inplace=True)
    strEx=r'(?P<{CATEGORY}>[A-Z])|(?P<{GROUP1}>\d+)\.?(?P<{GROUP2}>\d+)?\.?(?P<{CODE}>\d+)?'.format(**dctIndexColumnsNames)
    df[list(dctIndexColumnsNames.values())] = df[dctResultFields['okved']].str.extract(strEx, expand=True)
    make_cat_field(df)
    df[dctResultFields['okvedF']]=df[list(dctIndexColumnsNames.values())].fillna('').apply(lambda x: '.'.join(x), axis=1)
    df[dctResultFields['okvedF']]=df[dctResultFields['okvedF']].str.replace(r'\.+$', '')
    
    df[ list(dctIndexColumnsNames.values())[1:] ]=df[list(dctIndexColumnsNames.values())[1:]].applymap(to_int)
    df[dctIndexColumnsNames['CATEGORY']].astype('category')
    
    df=df.drop_duplicates(subset=list(dctIndexColumnsNames.values()), keep='last')
    df.set_index( list(dctIndexColumnsNames.values()), inplace=True)
    return df.sort_index() # sort need for slicing
    
print (read_from_excel(strNetSource))




                          Idx      Code  \
cat grp1 grp2 num                         
A   -1   -1   -1           A.       NaN   
     1   -1   -1         A.01        01   
          1   -1       A.01.1      01.1   
          2   -1       A.01.2      01.2   
          3   -1       A.01.3      01.3   
          4   -1       A.01.4      01.4   
          5   -1       A.01.5      01.5   
          6   -1       A.01.6      01.6   
          7   -1       A.01.7      01.7   
          11  -1      A.01.11     01.11   
               1    A.01.11.1   01.11.1   
               2    A.01.11.2   01.11.2   
               3    A.01.11.3   01.11.3   
               11  A.01.11.11  01.11.11   
               12  A.01.11.12  01.11.12   
               13  A.01.11.13  01.11.13   
               14  A.01.11.14  01.11.14   
               15  A.01.11.15  01.11.15   
               16  A.01.11.16  01.11.16   
               19  A.01.11.19  01.11.19   
               31  A.01.11.31  01.11.31   
           

## Примеры использования полученного DataFrame

In [207]:
res_df=read_from_web(strWebSrc)
#res_df=read_from_excel(strNetSource).loc[~(res_df.index.labels[0] == -1)]
#print(res_df[res_df.index.duplicated(keep=False)]) # find duplicated by 4 indexes (for full OKVED code)

x=pd.IndexSlice

#print(res_df.loc[~(res_df.index.labels[0] == -1)]) # find not-NaN value in categories - row with ВСЕГО

#выборка только категорий
#print(res_df.loc[x[:,iErrorToInt,iErrorToInt,iErrorToInt], x[:]])

#print(res_df.loc[x[('C', 'F'),16:,iErrorToInt,iErrorToInt], x[:]]) # sample 1

mask=res_df['Name'].str.contains(r'^Производство')
mask1=res_df.index.get_level_values('num')>-1 
mask2=res_df.index.get_level_values('cat').str.contains(r'^[^A,F,H, 0-9]{1}')
#print(mask2)
#print(res_df.loc[x[mask,:,:,:], x[:]]) # sample 2

#print(res_df.loc[x[~mask,:,:,:], x[:]]) # sample 3

#print(res_df.loc[mask1 & mask, x[:]]) # sample 4

print(res_df.loc[mask1 & mask & mask2, ['Idx', 'Code']]) # sample 5

#print (res_df)
#print(res_df.loc[ 'A', 1, 11] )

                          Idx      Code
cat grp1 grp2 num                      
C   10   11   1     C.10.11.1   10.11.1
              2     C.10.11.2   10.11.2
              3     C.10.11.3   10.11.3
              4     C.10.11.4   10.11.4
              5     C.10.11.5   10.11.5
              6     C.10.11.6   10.11.6
         12   1     C.10.12.1   10.12.1
              2     C.10.12.2   10.12.2
              3     C.10.12.3   10.12.3
              4     C.10.12.4   10.12.4
              5     C.10.12.5   10.12.5
         13   1     C.10.13.1   10.13.1
              2     C.10.13.2   10.13.2
              3     C.10.13.3   10.13.3
              4     C.10.13.4   10.13.4
              5     C.10.13.5   10.13.5
              6     C.10.13.6   10.13.6
              7     C.10.13.7   10.13.7
         20   3     C.10.20.3   10.20.3
              4     C.10.20.4   10.20.4
              9     C.10.20.9   10.20.9
         41   1     C.10.41.1   10.41.1
              2     C.10.41.2   10.41.2
