In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import re

In [2]:
data = pd.read_csv('./credit_train.csv', encoding = 'cp1251', sep = ';')

In [3]:
data.shape

(170746, 15)

In [4]:
data.head()

Unnamed: 0,client_id,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,1,M,,,UMN,5999800.0,10,1.6,,GRD,КРАСНОДАРСКИЙ КРАЙ,30000.0,1.0,1.0,0
1,2,F,,MAR,UMN,1088900.0,6,1.1,,,МОСКВА,,2.0,0.0,0
2,3,M,32.0,MAR,SPC,1072800.0,12,1.1,,,ОБЛ САРАТОВСКАЯ,,5.0,0.0,0
3,4,F,27.0,,SPC,1200909.0,12,1.1,,,ОБЛ ВОЛГОГРАДСКАЯ,,2.0,0.0,0
4,5,M,45.0,,SPC,,10,1.1,421385.0,SCH,ЧЕЛЯБИНСКАЯ ОБЛАСТЬ,,1.0,0.0,0


__Список исходных переменных включает в себя:__
- категориальный предиктор *Идентификационный номер __[client_id]__*
- категориальный предиктор *Пол __[gender]__*
- количественный предиктор *Возраст __[age]__*
- категориальный предиктор *Семейный статус __[marital_status]__*
- категориальный предиктор *Сфера занятости __[job_position]__*
- количественный предиктор *Сумма кредита __[credit_sum]__*
- количественный предиктор *Срок кредитования __[credit_month]__*
- количественный предиктор *Внутренняя скоринговая оценка __[score_shk]__*
- категориальный предиктор *Образование __[education]__*
- категориальный предиктор *Идентификационный номер тарифа __[tariff_id]__*
- количественный предиктор *Месячный заработок __[monthly_income]__*
- количественный предиктор *Количество кредитов у клиента __[credit_count]__*
- количественный предиктор *Количество просроченных кредитов у клиента __[overdue_credit_count]__*
- категориальная зависимая переменная *Факт открытия кредитного счета в данном банке __[open_account_flg]__*

__ПЛАН ПРЕДВАРИТЕЛЬНОЙ ПОДГОТОВКИ ДАННЫХ__

__До разбиения набора данных на обучающую и контрольную выборки__
- Удаление очевидных бесполезных переменных (переменных у которых количество категорий совпадает с количеством наблюдений, или переменных с одним уникальным значением;
- Преобразование типов данных;
- Нормализация строковых значений (удаление лишних символов, приведение к одному и тому же регистру);
- Обработка дублирующих наблюдений;
- Обработка редких категорий, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить до разбиения на обучающую и контрольную выборки;

__После разбиения набора данных на обучающую и контрольную выборки__
- Выполнение преобразований, максимизирующих нормальность;
- Обработка редких категорий, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить только после разбиения на обучающую и контрольную выборки;
- Стандартизация, дамми-кодирование

In [5]:
# для начала удалим идентификационную переменную client_id. Эта переменная имеет столько же уникальных значений, сколько
# у нас имеется наблюдений

data.drop('client_id', axis = 1, inplace = True)
data.head(5)

Unnamed: 0,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,M,,,UMN,5999800.0,10,1.6,,GRD,КРАСНОДАРСКИЙ КРАЙ,30000.0,1.0,1.0,0
1,F,,MAR,UMN,1088900.0,6,1.1,,,МОСКВА,,2.0,0.0,0
2,M,32.0,MAR,SPC,1072800.0,12,1.1,,,ОБЛ САРАТОВСКАЯ,,5.0,0.0,0
3,F,27.0,,SPC,1200909.0,12,1.1,,,ОБЛ ВОЛГОГРАДСКАЯ,,2.0,0.0,0
4,M,45.0,,SPC,,10,1.1,421385.0,SCH,ЧЕЛЯБИНСКАЯ ОБЛАСТЬ,,1.0,0.0,0


In [7]:
# выведем уникальные значения по переменной living_region с помощью метода .unique()
data['living_region'].unique()

array(['КРАСНОДАРСКИЙ КРАЙ', 'МОСКВА', 'ОБЛ САРАТОВСКАЯ',
       'ОБЛ ВОЛГОГРАДСКАЯ', 'ЧЕЛЯБИНСКАЯ ОБЛАСТЬ', 'СТАВРОПОЛЬСКИЙ КРАЙ',
       'ОБЛ НИЖЕГОРОДСКАЯ', 'МОСКОВСКАЯ ОБЛ',
       'ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - ЮГРА', 'КРАЙ СТАВРОПОЛЬСКИЙ',
       'САНКТ-ПЕТЕРБУРГ', 'РЕСП. БАШКОРТОСТАН', 'ОБЛ АРХАНГЕЛЬСКАЯ',
       'ХАНТЫ-МАНСИЙСКИЙ АО', 'РЕСП БАШКОРТОСТАН', 'ПЕРМСКИЙ КРАЙ',
       'РЕСП КАРАЧАЕВО-ЧЕРКЕССКАЯ', 'САРАТОВСКАЯ ОБЛ', 'ОБЛ КАЛУЖСКАЯ',
       'ОБЛ ВОЛОГОДСКАЯ', 'РОСТОВСКАЯ ОБЛ', 'УДМУРТСКАЯ РЕСП',
       'ОБЛ ИРКУТСКАЯ', 'ПРИВОЛЖСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ', 'ОБЛ МОСКОВСКАЯ',
       'ОБЛ ТЮМЕНСКАЯ', 'ОБЛ БЕЛГОРОДСКАЯ', 'РОСТОВСКАЯ ОБЛАСТЬ',
       'ОБЛ КОСТРОМСКАЯ', 'РЕСП ХАКАСИЯ', 'РЕСПУБЛИКА ТАТАРСТАН',
       'ИРКУТСКАЯ ОБЛАСТЬ', 'ОБЛ СВЕРДЛОВСКАЯ', 'ОБЛ ПСКОВСКАЯ',
       'КРАЙ ЗАБАЙКАЛЬСКИЙ', 'СВЕРДЛОВСКАЯ ОБЛ', 'ОБЛ ОРЕНБУРГСКАЯ',
       'ОБЛ ВОРОНЕЖСКАЯ', 'ОБЛ АСТРАХАНСКАЯ', 'ОБЛ НОВОСИБИРСКАЯ',
       'ОБЛ ЧЕЛЯБИНСКАЯ', 'ОРЕНБУРГСКАЯ ОБЛ', 'СВЕРДЛОВСКАЯ ОБЛАСТЬ'

In [8]:
# теперь с помощью метода .nunique() выведем количество уникальных значений переменной
data['living_region'].nunique()

301

In [9]:
# один и тот же регион может быть записан по разному, кроме того присутствуют иные названия не имеющие отношения к регионам

# увеличим максимальное количество отбражаемых строк
pd.options.display.max_rows = 310

In [10]:
# уникальные значения переменной living_region записываем в отдельный объект regions 
regions = data['living_region'].unique()

In [12]:
# теперь создаем серию у которой в качестве индексных меток и значений будут выступать уникальные значения переменной 
# living_region записанные в regions 
regions = pd.Series(data = regions, index = regions, name = 'regions')
regions

regions
КРАСНОДАРСКИЙ КРАЙ                                                КРАСНОДАРСКИЙ КРАЙ
МОСКВА                                                                        МОСКВА
ОБЛ САРАТОВСКАЯ                                                      ОБЛ САРАТОВСКАЯ
ОБЛ ВОЛГОГРАДСКАЯ                                                  ОБЛ ВОЛГОГРАДСКАЯ
ЧЕЛЯБИНСКАЯ ОБЛАСТЬ                                              ЧЕЛЯБИНСКАЯ ОБЛАСТЬ
СТАВРОПОЛЬСКИЙ КРАЙ                                              СТАВРОПОЛЬСКИЙ КРАЙ
ОБЛ НИЖЕГОРОДСКАЯ                                                  ОБЛ НИЖЕГОРОДСКАЯ
МОСКОВСКАЯ ОБЛ                                                        МОСКОВСКАЯ ОБЛ
ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - ЮГРА    ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - ЮГРА
КРАЙ СТАВРОПОЛЬСКИЙ                                              КРАЙ СТАВРОПОЛЬСКИЙ
САНКТ-ПЕТЕРБУРГ                                                      САНКТ-ПЕТЕРБУРГ
РЕСП. БАШКОРТОСТАН                                       