# Сбор и обработка данных

### Приведение данных к панельному виду

#### В этой работе рассмотрены данные по российским банкам с информационной базы СПАРК. Для построения модели, использовались месячные данные с 2013-2018 гг. Данные включают 470 действующих банков и 57 – в состоянии банкротства.Также, в базе есть 1010 недействующих банков, из которых было отобраны банки, которые ликвидировались по причине банкротства (81 банк).

##### Спарк накладывает ограничения на размер скачеваемых файлов. Поэтому данные были скачены частями, а далее объединялись в один файл. 

In [2]:
import pandas as pd
import os

In [3]:
def get_df_in_folder(base_path):
    first_file = base_path + '/' + list(os.walk(base_path))[0][2][0]
    df = pd.read_csv(first_file, header=2, engine='python', sep=';', skipfooter=2)


    for file in list(os.walk(base_path))[0][2][1:]:
        if file.endswith('.csv'):
            df2 = pd.read_csv(base_path + '/' + file, header=2, engine='python', sep=';', skipfooter=2)

            df = df.join(df2, how='right', rsuffix='_right')
            for col in list(df):
                if '_right' in col:
                    del df[col]
    return df

In [10]:
for directory in list(os.walk('.'))[0][1][1:]:
    df_bankruptcy = get_df_in_folder(directory)

In [None]:
df_inacting = get_df_in_folder('.')

In [None]:
df_liquidation = get_df_in_folder('.')

##### Далее переводим данные в панельный вид

In [None]:


def get_panel_col_names(df):
    panel_col_names, panel_col_names_full = {}, []
    for col in list(df):
        try:
            if int(col.split(',')[0].split(' - ')[0]):
                cur_col_name = ','.join(col.split(',')[1:]).lstrip()
                panel_col_names[cur_col_name] = panel_col_names.get(cur_col_name, [])
                panel_col_names[cur_col_name].append(col)
                panel_col_names_full.append(col)
        except ValueError:
            pass
    return panel_col_names, panel_col_names_full

In [None]:
panel_col_names, panel_col_names_full = get_panel_col_names(df)
non_panel_col_names = [col for col in list(df) if col in (set(df) - set(panel_col_names_full))]

In [None]:
new_dict = {col: [] for col in ['index', 'year', 'month'] + non_panel_col_names + list(panel_col_names)}

for index, company in enumerate(df['Наименование полное']):
    if index % 10 == 0:
        print(index)
    for year in range(2013, 2019):
        for month in range(1, 13):
            new_dict['year'].append(year) 
            new_dict['index'].append(index)
            new_dict['month'].append(month) 
            
            for col in non_panel_col_names:
                new_dict[col].append(list(df[(df['Наименование полное'] == company)][col])[0])

            for col in panel_col_names.keys():
                full_col_name = None
                for c in panel_col_names[col]:
                    if str(year) in c and str(month) in c:
                        full_col_name = c
                if full_col_name:
                    new_dict[col].append(list(df[(df['Наименование полное'] == company)][full_col_name])[0])
                else:
                    print(year, col)

In [None]:
df_new = pd.DataFrame(new_dict)

In [3]:
panel_acting = pd.read_csv('panel_acting.csv', sep=';', low_memory=False, index_col=0)
panel_bankruptcy = pd.read_csv('panel_bankruptcy.csv', sep=';', low_memory=False, index_col=0)
panel_liquidation = pd.read_csv('panel_liquidation.csv', sep=';', low_memory=False, index_col=0)
panel_inacting = pd.read_csv('panel_inacting.csv', sep=';', low_memory=False, index_col=0)

##### На следующем этапе нужно из 1010 недействующих банков оставить только те, которые обанкротились. 

In [None]:
inacting_panel = inacting_panel[(inacting_panel['Важная информация'].notnull()) & (inacting_panel['Важная информация'].str.contains('вследствие банкротства '))]

##### Для удобства скачивания файлов были включены частично 2012 и 2019 года. Но так как они не использовались для построения моделей, они были удалены.

In [6]:
panel = [panel_bankruptcy, panel_liquidation, panel_acting, panel_inacting]
for df in panel:
    df = df[df.columns.drop(list(df.filter(regex='2012')))]
    df = df[df.columns.drop(list(df.filter(regex='2019')))]

##### Для анализа удобно использовать индексацию банков. Так как на этапе работы с пропусками будут удалены некоторые строки, индексация проставляется заранее. 

In [7]:
index_for_liquidation = [(i//72+58) for i in range(panel_liquidation.shape[0])]
index_for_acting = [(i//72+399) for i in range(panel_acting.shape[0])]
index_for_inacting =  [(i//72+869) for i in range(panel_inacting.shape[0])]
index_for_bankruptcy = [(i//72+1) for i in range(panel_bankruptcy.shape[0])] 

In [None]:
# старое
panel_bankruptcy['index'] = index_for_bankruptcy
panel_bankruptcy = panel_bankruptcy[["index"] + list(panel_bankruptcy)[:-1]]

panel_liquidation['index'] = index_for_liquidation
panel_liquidation = panel_liquidation[["index"] + list(panel_liquidation)[:-1]]

panel_acting['index'] = index_for_acting
panel_acting = panel_acting[["index"] + list(panel_acting)[:-1]]

panel_inacting['index'] = index_for_inacting
panel_inacting = panel_inacting[["index"] + list(panel_inacting)[:-1]]

#новое
def index(df, index):
    df = df[["index"] + list(df)[:-1]]
    
    return df

index(panel_bankruptcy, index_for_bankruptcy)
index(panel_acting, index_for_acting)
index(panel_inacting, index_for_inacting)
index(panel_panel_liquidation, index_for_panel_liquidation)

### Заполнение пропусков

##### На первом этапе обработки пропусков нужно удалить те строки, когда банки не существовали, так как эти условия не учитываются в данных. 

In [50]:
#старое
panel_liquidation['registration_year'] = panel_liquidation['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
panel_liquidation = panel_liquidation[panel_liquidation['year'] >= panel_liquidation['registration_year']]
del panel_liquidation['registration_year']   

panel_bankruptcy['registration_year'] = panel_bankruptcy['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
panel_bankruptcy = panel_bankruptcy[panel_bankruptcy['year'] >= panel_bankruptcy['registration_year']]
del panel_bankruptcy['registration_year']   

panel_acting['registration_year'] = panel_acting['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
panel_acting = panel_acting[panel_acting['year'] >= panel_acting['registration_year']]
del panel_acting['registration_year']   

panel_inacting['registration_year'] = panel_inacting['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
panel_inacting['liquidation_year'] = panel_inacting['Дата ликвидации'].apply(lambda x: int(x.split('.')[2]))
panel_inacting = panel_inacting[(panel_inacting['liquidation_year'] >= panel_inacting['year']) & (panel_inacting['year'] >= panel_inacting['registration_year'])]
del panel_inacting['registration_year']
del panel_inacting['liquidation_year']
#новое
for df in panel:
    if (df['Статус'] == 'Недействующая').all():
        df['registration_year'] = df['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
        df['liquidation_year'] = df['Дата ликвидации'].apply(lambda x: int(x.split('.')[2]))
        df = df[(df['liquidation_year'] >= df['year']) & (df['year'] >= df['registration_year'])]
        del df['liquidation_year']
        del df['registration_year']
    else:
        df['registration_year'] = df['Дата регистрации'].apply(lambda x: int(x.split('.')[2]))
        df = df[df['year'] >= df['registration_year']]
        del df['registration_year']

##### Далее нужно объеденить все файлы в один.

In [None]:
df = pd.concat(panel)

In [18]:
panel_inacting['Дата ликвидации'] is True

False

In [21]:
'Дата ликвидации' in panel_acting.columns

True

In [48]:
(panel_acting['Статус'] == 'Недействующая').all()

False

IndexError: list index out of range

In [None]:
N = len(v)
step=2
for i in range(0, N):
    if np.isnan(v.values[i]):# and not np.isnan(v.values[i - 1]):
        start = -1
        end = -1
        for i1 in range(i-1, i-1-step,-1):
             if not np.isnan(v.values[i1]) and df['index'].values[i]==df['index'].values[i1]:
                    start = i1
                    break   
        for i1 in range(i+1, i+1+step, 1):
             if not np.isnan(v.values[i1]) and df['index'].values[i]==df['index'].values[i1]:
                    end = i1
                    break
        if (start !=-1) and (end !=-1) and (end - start <= step+1):
            for i1 in range(start+1, end):
                v.values[i1]=(v.values[end]-v.values[start])*(i1 - start)/(end-start) + v.values[start]
            i = end + 1