In [1]:
import numpy as np
import pandas as pd

# увеличиваем количество отображаемых столбцов
pd.set_option('display.max_columns', 60)

### __Список исходных переменных включает в себя:__
- __acc_now_delinq__ - Количество просроченных счетов заемщика
- __addr_state__ - Штат, указанный заемщиком в заявке на кредит
- __annual_inc__ - Ежегодный доход, заявленный заемщиком при регистрации.
- __chargeoff_within_12_mths__ - Количество списаний за 12 месяцев.
- __collections_12_mths_ex_med__ - Количество сборов за 12 месяцев без учета медицинских сборов
- __delinq_2yrs__ - Количество случаев просрочки платежа более чем на 30 дней в кредитной истории заемщика за последние 2 года.
- __dti__ - Коэффициент, рассчитанный с использованием общей суммы ежемесячных выплат заемщика по общей сумме долговых обязательств, исключая ипотеку и запрошенный кредит LC, разделенный на ежемесячный доход, о котором заемщик сообщает самостоятельно.
- __earliest_cr_line__ - Месяц, когда заемщику была открыта самая ранняя кредитная линия, о которой сообщалось.
- __emp_length__ - Стаж работы в годах. Возможные значения: от 0 до 10, где 0 означает менее одного года, а 10 означает десять или более лет.
- __fico_range_high__ - Верхний граничный диапазон, к которому принадлежит FICO заемщика при выдаче кредита.
- __fico_range_low__ - Нижний граничный диапазон, к которому принадлежит FICO заемщика при выдаче кредита.
- __funded_amnt__ - Общая сумма, выделенная на этот кредит на тот момент.
- __home_ownership__ - Статус домовладения, предоставленный заемщиком при регистрации или полученный из кредитного отчета. АРЕНДА, СОБСТВЕННОСТЬ, ИПОТЕКА, ДРУГОЕ
- __inq_last_12m__ - Количество кредитных запросов за последние 12 месяцев
- __installment__ - Ежемесячный платеж, причитающийся заемщику в случае выдачи кредита.
- __int_rate__ - Процентная ставка по кредиту
- __issue_d__ - Месяц, в котором был предоставлен кредит.
- __loan_amnt__ - Указанная сумма кредита, заявленная заемщиком. Если в какой-то момент кредитный отдел уменьшит сумму кредита, то это отразится на этой стоимости.
- __mort_acc__ - Количество ипотечных счетов.
- __mths_since_last_delinq__ - Количество месяцев с момента последней просрочки заемщика.
- __mths_since_recent_bc_dlq__ - Количество месяцев с момента последней просрочки по банковской карте.
- __mths_since_recent_inq__ - Прошло несколько месяцев с момента последнего запроса.
- __num_accts_ever_120_pd__ - Количество счетов, просроченных на 120 или более дней.
- __num_actv_bc_tl__ - Количество активных на данный момент счетов банковских карт.
- __num_rev_accts__ - Количество возобновляемых счетов.
- __num_sats__ - Количество удовлетворительных счетов
- __num_tl_120dpd_2m__ - Количество счетов с просрочкой платежа на 120 дней (обновлено за последние 2 месяца).
- __num_tl_30dpd__ - Количество счетов с просрочкой платежа на 30 дней (обновлено за последние 2 месяца).
- __num_tl_90g_dpd_24m__ - Количество счетов с просрочкой платежа на 90 или более дней за последние 24 месяца.
- __num_tl_op_past_12m__ - Количество счетов, открытых за последние 12 месяцев.
- __open_acc__ - Количество открытых кредитных линий в кредитном досье заемщика.
- __open_il_24m__ - Количество счетов в рассрочку, открытых за последние 24 месяца.
- __open_rv_24m__ - Количество возобновляемых сделок, открытых за последние 24 месяца.
- __percent_bc_gt_75__ - Процент всех счетов банковских карт > 75% от лимита.
- __pub_rec__ - Количество уничижительных публичных записей.
- __pub_rec_bankruptcies__ - Количество официально зарегистрированных банкротств
- __purpose__ - Категория, предоставленная заемщиком для запроса на кредит.
- __revol_util__ - Коэффициент использования возобновляемой линии или сумма кредита, которую заемщик использует по отношению ко всему доступному возобновляемому кредиту.
- __tax_liens__ - Количество налоговых залогов.
- __term__ - Количество платежей по кредиту. Значения указаны в месяцах и могут быть 36 или 60.
- __title__ - Название кредита, предоставленное заемщиком.
- __total_acc__ - Общее количество кредитных линий, находящихся в настоящее время в кредитном файле заемщика.
- __verification_status__ - Указывает, был ли доход подтвержден LC, не подтвержден или был ли подтвержден источник дохода.
- __zip_code;__ - Первые 3 цифры почтового индекса, указанного заемщиком в заявке на кредит.

## __Считывание CSV файла в DataFrame__

In [8]:
# загружаем файл с данными
X_train = pd.read_csv('./X_train.csv', encoding = 'utf8', sep = ',')
X_train.head(3).T 

Unnamed: 0,0,1,2
index,0,1,2
acc_now_delinq,0.0,0.0,0.0
addr_state,UT,CA,NV
annual_inc,80000.0,82000.0,46080.0
chargeoff_within_12_mths,0.0,0.0,0.0
collections_12_mths_ex_med,0.0,0.0,0.0
delinq_2yrs,0.0,0.0,1.0
dti,30.49,7.0,17.32
earliest_cr_line,Oct-1996,Mar-1993,Nov-2000
emp_length,4 years,10+ years,3 years


In [3]:
X_train.shape

(199999, 45)

In [4]:
# загружаем файл с данными
y_train = pd.read_csv('./y_train.csv', encoding = 'utf8', sep = ',')
y_train.head(3)

Unnamed: 0,index,loan_status
0,0,1.0
1,1,
2,2,1.0


In [5]:
y_train.shape

(199999, 2)

## __ПЛАН ПРЕДВАРИТЕЛЬНОЙ ПОДГОТОВКИ ДАННЫХ__

__До разбиения набора данных на обучающую и контрольную выборки__
- Удаление очевидных бесполезных переменных (переменных у которых количество категорий совпадает с количеством наблюдений, или переменных с одним уникальным значением;
- Преобразование типов данных;
- Нормализация строковых значений (удаление лишних символов, приведение к одному и тому же регистру);
- Обработка дублирующих наблюдений;
- Обработка редких категорий, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить до разбиения на обучающую и контрольную выборки;

__После разбиения набора данных на обучающую и контрольную выборки__
- Выполнение преобразований, максимизирующих нормальность;
- Обработка редких категорий, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить только после разбиения на обучающую и контрольную выборки;
- Стандартизация, дамми-кодирование

In [6]:
# выводим информацию о количестве непропущенных наблюдений в переменных и типах переменных
X_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199999 entries, 0 to 199998
Data columns (total 45 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   index                       199999 non-null  object 
 1   acc_now_delinq              199873 non-null  float64
 2   addr_state                  199873 non-null  object 
 3   annual_inc                  199873 non-null  float64
 4   chargeoff_within_12_mths    199869 non-null  float64
 5   collections_12_mths_ex_med  199869 non-null  float64
 6   delinq_2yrs                 199873 non-null  float64
 7   dti                         199873 non-null  float64
 8   earliest_cr_line            199873 non-null  object 
 9   emp_length                  187808 non-null  object 
 10  fico_range_high             199873 non-null  float64
 11  fico_range_low              199873 non-null  float64
 12  funded_amnt                 199873 non-null  float64
 13  home_ownership

### __Удаление очевидных бесполезных переменных (переменных у которых количество категорий совпадает с количеством наблюдений, или переменных с одним уникальным значением)__

In [7]:
# Удаляем очевидную бесполезную переменную index (количество категорий совпадает с количеством наблюдений)
X_train.drop('index', axis = 1, inplace = True)
X_train.head(3)

Unnamed: 0,acc_now_delinq,addr_state,annual_inc,chargeoff_within_12_mths,collections_12_mths_ex_med,delinq_2yrs,dti,earliest_cr_line,emp_length,fico_range_high,fico_range_low,funded_amnt,home_ownership,inq_last_12m,installment,int_rate,issue_d,loan_amnt,mort_acc,mths_since_last_delinq,mths_since_recent_bc_dlq,mths_since_recent_inq,num_accts_ever_120_pd,num_actv_bc_tl,num_rev_accts,num_sats,num_tl_120dpd_2m,num_tl_30dpd,num_tl_90g_dpd_24m,num_tl_op_past_12m,open_acc,open_il_24m,open_rv_24m,percent_bc_gt_75,pub_rec,pub_rec_bankruptcies,purpose,revol_util,tax_liens,term,title,total_acc,verification_status,zip_code;
0,0.0,UT,80000.0,0.0,0.0,0.0,30.49,Oct-1996,4 years,689.0,685.0,16000.0,RENT,1.0,539.03,12.99%,Apr-2016,16000.0,5.0,50.0,65.0,6.0,3.0,4.0,17.0,14.0,0.0,0.0,0.0,3.0,14.0,2.0,3.0,100.0,1.0,1.0,credit_card,56.1%,0.0,36 months,Credit card refinancing,26.0,Source Verified,847xx;
1,0.0,CA,82000.0,0.0,0.0,0.0,7.0,Mar-1993,10+ years,689.0,685.0,6600.0,MORTGAGE,0.0,214.27,10.42%,Sep-2017,6600.0,2.0,,,,0.0,3.0,8.0,5.0,0.0,0.0,0.0,0.0,5.0,0.0,1.0,100.0,1.0,1.0,credit_card,88.3%,0.0,36 months,Credit card refinancing,11.0,Not Verified,900xx;
2,0.0,NV,46080.0,0.0,0.0,1.0,17.32,Nov-2000,3 years,674.0,670.0,10000.0,MORTGAGE,0.0,317.96,8.99%,Aug-2016,10000.0,3.0,10.0,,13.0,0.0,1.0,23.0,7.0,0.0,0.0,0.0,0.0,7.0,0.0,3.0,0.0,0.0,0.0,credit_card,18.1%,0.0,36 months,Credit card refinancing,31.0,Source Verified,895xx;


In [9]:
# выведем уникальные значения по переменной acc_now_delinq с помощью метода .unique()
X_train['acc_now_delinq'].unique()

array([ 0.,  1., nan,  2.,  3.,  5.])

In [12]:
# выведем уникальные значения по переменной addr_state 
X_train['addr_state'].unique()

# теперь с помощью метода .nunique() выведем количество уникальных значений переменной чтобы убедиться в отсутствии 
# неверных записей
X_train['addr_state'].nunique()

50

In [13]:
X_train['annual_inc'].unique()

array([  80000. ,   82000. ,   46080. , ..., 1121869. ,   75643.2,
         65245. ])

In [14]:
X_train['chargeoff_within_12_mths'].unique()

array([ 0.,  1., nan,  2.,  4.,  3.,  5.,  6., 10.,  7.])

In [15]:
X_train['collections_12_mths_ex_med'].unique()

array([ 0.,  1., nan,  2.,  3.,  4., 10.,  7.,  6.,  5., 20.])

In [None]:
X_train['collections_12_mths_ex_med'].unique()