# Анализ данных и проверка методов обработки данных 1

In [1]:
import pandas as pd
import numpy as np

from data_description import get_data_frame_settings
from processing import obj_to_cat

# Загрузка данных

In [2]:
#data = pd.read_excel("/home/dranik/KFA/university/input_data_diprom.xlsx")

In [3]:
#data.to_csv("/home/dranik/KFA/university/input_data_diprom.csv", index = None)
data = pd.read_csv(
    "/home/dranik/KFA/university/input_data_diprom.csv", 
    na_values = ['-', 'нет информации'],
    parse_dates = [
        'Автомобиль год выпуска1',
        'Автомобиль год выпуска2',
        'Автомобиль год выпуска3',
        'Дата регистрации договора',
        'Дата рождения',
        'Дата планируемого закрытия',
        'Дата фактического закрытия'
    ],
    low_memory = False
)

# Выпишем начальные настройки данных

In [4]:
get_data_frame_settings(data).to_excel(
   'result/describe_predictors/1_initial.xlsx'
)

In [5]:
data.shape

(247062, 45)

# Преобразования данных

## Удаления

Столбцы которе никак не обработать

In [6]:
data.drop(
    [
        "Место работы", "Кредитный продукт",
        "Вид деятельности по ОКЭД"
    ], 
    axis = 1, inplace = True
)

Будем строить модель без овердрафтов - у них отдельная специфика

In [7]:
data =  data[data["Овердрафт"] == "нет"]
data.drop("Овердрафт", axis = 1, inplace = True)

Некоторые столбцы просто не могут быть получены при регистрации заявки - их нужно удалить

In [8]:
data.drop([
    'Отношение факт срока к плановому при прекращении КД',
    'Причина прекращения договора',
    'Дата фактического закрытия'
],axis = 1, inplace = True)

In [9]:
get_data_frame_settings(data).to_excel('result/describe_predictors/2_delete.xlsx')

## Все что связано с датами

Когда был оформлен самый свежий контракт?

In [10]:
data['Дата регистрации договора'].max()

Timestamp('2020-12-21 00:00:00')

Автомобили - подозрительные столбцы, но с него можно нарезать еще столбцов

In [11]:
data['Автомобиль год выпуска'] = data.iloc[:,[0,1,2]].apply(
    np.max, axis = 1
)
data['Число авто'] = data.iloc[:,[0,1,2]].apply(
    lambda x: (3 - sum(x.isna())), axis = 1
)
data['Есть авто'] = data['Число авто'].apply(
    lambda x: "есть" if x != 0 else "нет"
).astype('category')

Дата регистрации договора и дата планируемого закрытия сами по себе бесполезные столбцы - но вот их разность даёт срок кредита.

In [12]:
data['Срок кредита в днях'] = \
(data['Дата планируемого закрытия'] - data['Дата регистрации договора'])\
.astype('timedelta64[D]')

data.drop([
    'Дата планируемого закрытия',
    'Дата регистрации договора'
], axis = 1, inplace = True)

Из срока и суммы договора можно составить еще один очень логичный проказатель - ежедневный платеж

In [13]:
data['Ежедневный платеж'] = \
data['Сумма договора'] / data['Срок кредита в днях']

Из дат делаем число дней - это приемлемый формат для модели

In [14]:
def date_to_int(date_col):
    return (date_col - pd.Timestamp('19911208')).astype('timedelta64[D]')

date_cols_cond = data.apply(pd.api.types.is_datetime64_any_dtype)
data.loc[:, date_cols_cond] = \
data.loc[:,date_cols_cond].apply(date_to_int)

## Адрес проживания - населенный пункт

В первую очередь, конечно, нужно поработать с записью. Вот, например, в выборке есть записи в которых написано "могилев" через "е" и с маленькой буквы.

In [15]:
data.loc[
    data["Адрес проживания - Населенный пункт"] == "могилев"
].shape[0]

51

Проведем преобразование - все символы в нижний регистр, все ё заменим на е и удалим возможные пробелы по сторонам стоки

In [16]:
data["Адрес проживания - Населенный пункт"] = \
data["Адрес проживания - Населенный пункт"].\
str.lower().\
str.replace("ё", "е").\
str.strip()

Первое преобразование, можно разбить на бинарную пременную "Столица" - да/нет

In [17]:
data.loc[
    data['Адрес проживания - Населенный пункт'] == "минск",
    "Столица"
] = "Да"
data.loc[
    data['Адрес проживания - Населенный пункт'] != "минск",
    "Столица"
] = "Нет"

Так же можно использовать еще и областные центры.<br>
1) Бинарная переменна да/нет;<br>
2) Можно оставить их сами по себе а всем остальным дать - "Прочее".

In [18]:
area_centers = [
    "минск", "брест", "гродно", 
    "витебск", "могилев", "гомель"
]

data.loc[
    data["Адрес проживания - Населенный пункт"].isin(area_centers),
    "Областной центр"
] = "Да"
data.loc[
    np.invert(
        data["Адрес проживания - Населенный пункт"].isin(area_centers)
    ),
    "Областной центр"
] = "Нет"

In [19]:
data.loc[
    np.invert(
        data["Адрес проживания - Населенный пункт"].isin(area_centers)
    ),
    "Адрес проживания - Населенный пункт"
] = "другой"

## Дефолт

In [20]:
data['Y'] = (data['Дефолт'] >= 60).astype('int32')
data.drop('Дефолт', axis = 1, inplace = True)

# Сохранение результата

In [21]:
get_data_frame_settings(data).\
to_excel('result/describe_predictors/3_basic_transform.xlsx')

In [22]:
data.to_csv("/home/dranik/KFA/university/proc_1.csv")