In [10]:
# this sets ipython to show plots / images as parts of the notebook
%matplotlib inline
import pylab as plt # this imports pylab (one of the "faces" of matplotlib) into notebook
plt.style.use('fivethirtyeight') # this way we pre-style all plots to "538" style

import pandas as pd  # pandas helps processing the data
import os  # everything os/local_machine related

## 2. Learn how to parse one table to tidy dataframe

In [140]:
df = pd.read_excel('../data/201707180057594.xlsx', index_col=None)  

now let's check it out via excel

lets define schema:
- date
- name
- department
- position
- income 
    - amount
    - type
- spent
    - amount
    - type
- real estate
    - type
    - area
    - managed
    - manager
    - %
- other ownshp
    - type
    - model
    - managed
    - manager
    - %
- relatives (?)

In [92]:
def _get_meta(df):
    '''getting the general info from the declaration'''
    return {
        "date":  df.iloc[0,0].split()[-1][:-2],  ## we will convert that to date later
        "name": df.iloc[5,7].strip(),
        "department": df.iloc[2, 7].strip(),
        "position": df.iloc[6,7].strip()
    }
    

In [93]:
meta = _get_meta(df)
meta

{'date': '31/_12/2016',
 'department': 'Жогорку Кенеш Кыргызской Республики',
 'name': 'Алтыбаева Айнуру Тойчиевна',
 'position': 'Депутат'}

In [94]:
df.iloc[:, :13]

Unnamed: 0,"РАЗДЕЛ X. Сводные сведения о доходах, расходах и имуществе государственного и муниципального служащего,",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,его близких родственников (*) на 31/_12/2016г.,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,Наименование государственного/ муниципального ...,,,,,,701.0,Жогорку Кенеш Кыргызской Республики,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
5,ФИО декларанта,,,,,,702.0,Алтыбаева Айнуру Тойчиевна,,,,,
6,Должность декларанта,,,,,,703.0,Депутат,,,,,
7,Декларант,,,,,,,,,,,,
8,Доходы,,Расходы,,Недвижимое имущество,,,,,,,,
9,(итоговая сумма),,(итоговая сумма),,наименование,,,площадь (кв.м),,"имущество, переданное в доверительное управление",,,


In [95]:
bp = df[(df.iloc[:, 0] == 'Близкий родственник')].index[0]  # split between deputy and his relatives

In [96]:
bp

16

In [97]:
def _remove_null_cols(df):
    mask = pd.DataFrame(df.columns.tolist()).notnull().any(1)
    return df[df.columns[mask]]

In [162]:
content1 = df.iloc[12:bp, :20].copy().dropna(axis=0, how='all')
content1.columns = pd.MultiIndex.from_arrays(df.iloc[[8,9,10], :20].values)
content1 = _remove_null_cols(content1)
content1

Unnamed: 0_level_0,Доходы,Расходы,Недвижимое имущество,NaN,NaN,NaN,NaN,NaN,Движимое имущество,NaN,NaN,NaN,NaN,NaN
Unnamed: 0_level_1,(итоговая сумма),(итоговая сумма),наименование,площадь (кв.м),"имущество, переданное в доверительное управление","имущество, переданное в доверительное управление",NaN,NaN,наименование,сведения о транспортных средствах,"имущество, переданное в доверительное управление","имущество, переданное в доверительное управление",NaN,NaN
Unnamed: 0_level_2,NaN,NaN,NaN,NaN,хозяйствующий субъект,хозяйствующий субъект.1,доля (%),доля (%).1,NaN,NaN,хозяйствующий субъект.2,хозяйствующий субъект.3,доля (%).2,доля (%).3
12,945 120 с.-по месту основной работы,,дом,170.0,,,,,,,,,,
13,74 120 с.- пенсия,,,,,,,,,,,,,


In [99]:
content2 = df.iloc[bp+1:, :20].copy().dropna(axis=0, how='all')
content2.columns = pd.MultiIndex.from_arrays(df.iloc[[8,9,10], :20].values)
content2 = _remove_null_cols(content2)
content2

Unnamed: 0_level_0,Доходы,Расходы,Недвижимое имущество,NaN,NaN,NaN,NaN,NaN,Движимое имущество,NaN,NaN,NaN,NaN,NaN
Unnamed: 0_level_1,(итоговая сумма),(итоговая сумма),наименование,площадь (кв.м),"имущество, переданное в доверительное управление","имущество, переданное в доверительное управление",NaN,NaN,наименование,сведения о транспортных средствах,"имущество, переданное в доверительное управление","имущество, переданное в доверительное управление",NaN,NaN
Unnamed: 0_level_2,NaN,NaN,NaN,NaN,хозяйствующий субъект,хозяйствующий субъект.1,доля (%),доля (%).1,NaN,NaN,хозяйствующий субъект.2,хозяйствующий субъект.3,доля (%).2,доля (%).3
17,483 621 с. - по месту основной работы,,дом,80.0,,,,,лег/автомобиль,"Тойота Раннер, 2007г., V=3955 Б",,,,
18,465 725 с. - от совмещения должностей,,,,,,,,,,,,,
21,* должность указана на 31.12.2016г.,,,,,,,,,,,,,


In [142]:
def _prepare_content(df):
    bp = df[(df.iloc[:, 0] == 'Близкий родственник')].index[0]  # split between deputy and his relatives
    
    cols = pd.MultiIndex.from_arrays(df.iloc[[8,9,10], :20].values)
    content1 = df.iloc[12:bp, :20].copy().dropna(axis=0, how='all')
    content1.columns = cols
    content1 = _remove_null_cols(content1)
    
    content2 = df.iloc[bp+1:, :20].copy().dropna(axis=0, how='all')
    content2.columns = cols
    content2 = _remove_null_cols(content2)
    return content1, content2

In [176]:
def get_indices(df):
    first_level = pd.Series(df.columns.get_level_values(0))
    res_index = first_level[first_level == "Недвижимое имущество"].index[0]
    other_index = first_level[first_level == 'Движимое имущество'].index[0] 
    return res_index, other_index

def _merge_colnames(df):
    cols1 = pd.Series(df.columns.get_level_values(1))
    cols2 = pd.Series(df.columns.get_level_values(2))
    cols2[cols2.isnull()] = cols1[cols2.isnull()]
    return cols2

def _parse_real_estate(df, res_index:int, other_index:int):
    '''get real estate'''
    
    res_df = df.iloc[:, res_index:other_index].dropna(axis=0, how='all')
    res_df.columns = _merge_colnames(res_df)
    return res_df.dropna(axis=1).to_dict(orient='record')


def _parse_other_estate(df, other_index:int):
    '''get real estate'''
    
    odf = df.iloc[:, other_index:].dropna(axis=0, how='all')
    odf.columns = _merge_colnames(odf)
    
    return odf.dropna(axis=1).to_dict(orient='record')


idx = pd.IndexSlice

def _get_values(df, key):
    k = idx[key, :]
    r = df.loc[:, k].iloc[:,0]
    return r[r.notnull()].tolist()

def _parse_content(df):
    result = {}
    cdf = df.copy()
    cdf.sort_index(axis=1, inplace=True)
    result = {"income": _get_values(cdf, 'Доходы'),
              "spendeturs": _get_values(cdf, 'Расходы')}
    
    
    ri, oi = get_indices(df)

    result.update({"real_estate": _parse_real_estate(df, ri, oi),
                   "other_estate": _parse_other_estate(df, oi)})
    return result
    
    

In [177]:


def parse_declaration(df):
    
    r = _get_meta(df)
    
    # split between deputy and his relatives
    c1, c2 = _prepare_content(df)
    
    r["deputy"] = _parse_content(c1)
    r["relatives"] = _parse_content(c2)
    
    return r


In [178]:
_parse_content(content1)

  Data type to force, otherwise infer


{'income': ['945 120 с.-по месту основной работы ', '74 120 с.- пенсия'],
 'other_estate': [],
 'real_estate': [{'наименование': 'дом', 'площадь (кв.м)': 170}],
 'spendeturs': []}

In [179]:
result = parse_declaration(df)

  Data type to force, otherwise infer


In [180]:
result

{'date': '31/_12/2016',
 'department': 'Жогорку Кенеш Кыргызской Республики',
 'deputy': {'income': ['945 120 с.-по месту основной работы ',
   '74 120 с.- пенсия'],
  'other_estate': [],
  'real_estate': [{'наименование': 'дом', 'площадь (кв.м)': 170}],
  'spendeturs': []},
 'name': 'Алтыбаева Айнуру Тойчиевна',
 'position': 'Депутат',
 'relatives': {'income': ['483 621 с. - по месту основной работы ',
   '465 725 с. - от совмещения должностей',
   '* должность указана на 31.12.2016г.'],
  'other_estate': [{'наименование': 'лег/автомобиль ',
    'сведения о транспортных средствах': 'Тойота Раннер, 2007г., V=3955 Б'}],
  'real_estate': [{'наименование': 'дом', 'площадь (кв.м)': 80}],
  'spendeturs': []}}

## Test it

In [188]:
path = '../data/201707172348227.xlsx'
df = pd.read_excel(path, index_col=None)
# result = parse_declaration(df)
# df
df


Unnamed: 0,"РАЗДЕЛ X. Сводные сведения о доходах, расходах и имуществе государственного и муниципального служащего,",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20
0,его близких родственников (*) на 31/_12/2016г.,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,Наименование государственного/ муниципального ...,,,,,,701.0,Жогорку Кенеш Кыргызской Республики,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
6,ФИО декларанта,,,,,,702.0,Абдылдаев Мыктыбек Юсупович,,,...,,,,,,,,,,
7,Должность декларанта,,,,,,703.0,Депутат,,,...,,,,,,,,,,
8,Декларант,,,,,,,,,,...,,,,,,,,,,
9,Доходы,,Расходы,,Недвижимое имущество,,,,,,...,,,Движимое имущество,,,,,,,


8

In [231]:
x = get_meta(df)

In [232]:
x

{'Должность декларанта': 'Депутат',
 'Наименование государственного/ муниципального органа': 'Жогорку Кенеш Кыргызской Республики',
 'ФИО декларанта': 'Абдылдаев Мыктыбек Юсупович'}

In [225]:
result = parse_declaration(df)

AttributeError: 'float' object has no attribute 'strip'