# Анализ данных и проверка методов обработки данных 1

In [17]:
import pandas as pd
import numpy as np

from data_description import get_data_frame_settings
from processing import obj_to_cat

# Загрузка данных

In [18]:
#data = pd.read_excel("/home/dranik/KFA/university/input_data_diprom.xlsx")

In [19]:
#data.to_csv("/home/dranik/KFA/university/input_data_diprom.csv", index = None)
data = pd.read_csv(
    "/home/dranik/KFA/university/input_data_diprom.csv", 
    na_values = ['-', 'нет информации'],
    parse_dates = [
        'Автомобиль год выпуска1',
        'Автомобиль год выпуска2',
        'Автомобиль год выпуска3',
        'Дата регистрации договора',
        'Дата рождения',
        'Дата планируемого закрытия',
        'Дата фактического закрытия'
    ],
    low_memory = False
)

data = obj_to_cat(data)

# Выпишем начальные настройки данных

In [20]:
get_data_frame_settings(data).to_excel('result/describe_predictors/1_initial.xlsx')

In [21]:
data.shape

(247062, 45)

# Преобразования данных

## Удаления

Столбцы которе никак не обработать

In [22]:
data.drop(
    [
        "Адрес проживания - Населенный пункт", 
        "Место работы", "Кредитный продукт",
        "Вид деятельности по ОКЭД"
    ], 
    axis = 1, inplace = True
)

Будем строить модель без овердрафтов - у них отдельная специфика

In [23]:
data =  data[data["Овердрафт"] == "нет"]
data.drop("Овердрафт", axis = 1, inplace = True)

Некоторые столбцы просто не могут быть получены при регистрации заявки - их нужно удалить

In [24]:
data.drop([
    'Отношение факт срока к плановому при прекращении КД',
    'Причина прекращения договора',
    'Дата фактического закрытия'
],axis = 1, inplace = True)

In [25]:
get_data_frame_settings(data).to_excel('result/describe_predictors/2_delete.xlsx')

## Все что связано с датами

Автомобили - подозрительные столбцы, но с него можно нарезать еще столбцов

In [26]:
data['Автомобиль год выпуска'] = data.iloc[:,[0,1,2]].apply(
    np.max, axis = 1
)
data['Число авто'] = data.iloc[:,[0,1,2]].apply(
    lambda x: (3 - sum(x.isna())), axis = 1
)
data['Есть авто'] = data['Число авто'].apply(
    lambda x: "есть" if x != 0 else "нет"
).astype('category')

Дата регистрации договора и дата планируемого закрытия сами по себе бесполезные столбцы - но вот их разность даёт срок кредита.

In [27]:
data['Срок кредита в днях'] = \
(data['Дата планируемого закрытия'] - data['Дата регистрации договора'])\
.astype('timedelta64[D]')

data.drop([
    'Дата планируемого закрытия',
    'Дата регистрации договора'
], axis = 1, inplace = True)

Из срока и суммы договора можно составить еще один очень логичный проказатель - ежедневный платеж

In [28]:
data['Ежедневный платеж'] = \
data['Сумма договора'] / data['Срок кредита в днях']

Из дат делаем число дней - это приемлемый формат для модели

In [29]:
def date_to_int(date_col):
    return (date_col - pd.Timestamp('19911208')).astype('timedelta64[D]')

date_cols_cond = data.apply(pd.api.types.is_datetime64_any_dtype)
data.loc[:, date_cols_cond] = \
data.loc[:,date_cols_cond].apply(date_to_int)

## Дефолт

In [30]:
data['Y'] = (data['Дефолт'] >= 60).astype('int32')
data.drop('Дефолт', axis = 1, inplace = True)

# Сохранение результата

In [31]:
get_data_frame_settings(data).\
to_excel('result/describe_predictors/3_dates.xlsx')

In [32]:
data.to_csv("/home/dranik/KFA/university/proc_1.csv",index = None)