In [1]:
import numpy as np
import pandas as pd

# увеличиваем количество отображаемых столбцов
pd.set_option('display.max_columns', 60)

### __Список исходных переменных включает в себя:__
- __acc_now_delinq__ - Количество просроченных счетов заемщика
- __addr_state__ - Штат, указанный заемщиком в заявке на кредит
- __annual_inc__ - Ежегодный доход, заявленный заемщиком при регистрации.
- __chargeoff_within_12_mths__ - Количество списаний за 12 месяцев.
- __collections_12_mths_ex_med__ - Количество сборов за 12 месяцев без учета медицинских сборов
- __delinq_2yrs__ - Количество случаев просрочки платежа более чем на 30 дней в кредитной истории заемщика за последние 2 года.
- __dti__ - Коэффициент, рассчитанный с использованием общей суммы ежемесячных выплат заемщика по общей сумме долговых обязательств, исключая ипотеку и запрошенный кредит LC, разделенный на ежемесячный доход, о котором заемщик сообщает самостоятельно.
- __earliest_cr_line__ - Месяц, когда заемщику была открыта самая ранняя кредитная линия, о которой сообщалось.
- __emp_length__ - Стаж работы в годах. Возможные значения: от 0 до 10, где 0 означает менее одного года, а 10 означает десять или более лет.
- __fico_range_high__ - Верхний граничный диапазон, к которому принадлежит FICO заемщика при выдаче кредита.
- __fico_range_low__ - Нижний граничный диапазон, к которому принадлежит FICO заемщика при выдаче кредита.
- __funded_amnt__ - Общая сумма, выделенная на этот кредит на тот момент.
- __home_ownership__ - Статус домовладения, предоставленный заемщиком при регистрации или полученный из кредитного отчета. АРЕНДА, СОБСТВЕННОСТЬ, ИПОТЕКА, ДРУГОЕ
- __inq_last_12m__ - Количество кредитных запросов за последние 12 месяцев
- __installment__ - Ежемесячный платеж, причитающийся заемщику в случае выдачи кредита.
- __int_rate__ - Процентная ставка по кредиту
- __issue_d__ - Месяц, в котором был предоставлен кредит.
- __loan_amnt__ - Указанная сумма кредита, заявленная заемщиком. Если в какой-то момент кредитный отдел уменьшит сумму кредита, то это отразится на этой стоимости.
- __mort_acc__ - Количество ипотечных счетов.
- __mths_since_last_delinq__ - Количество месяцев с момента последней просрочки заемщика.
- __mths_since_recent_bc_dlq__ - Количество месяцев с момента последней просрочки по банковской карте.
- __mths_since_recent_inq__ - Прошло несколько месяцев с момента последнего запроса.
- __num_accts_ever_120_pd__ - Количество счетов, просроченных на 120 или более дней.
- __num_actv_bc_tl__ - Количество активных на данный момент счетов банковских карт.
- __num_rev_accts__ - Количество возобновляемых счетов.
- __num_sats__ - Количество удовлетворительных счетов
- __num_tl_120dpd_2m__ - Количество счетов с просрочкой платежа на 120 дней (обновлено за последние 2 месяца).
- __num_tl_30dpd__ - Количество счетов с просрочкой платежа на 30 дней (обновлено за последние 2 месяца).
- __num_tl_90g_dpd_24m__ - Количество счетов с просрочкой платежа на 90 или более дней за последние 24 месяца.
- __num_tl_op_past_12m__ - Количество счетов, открытых за последние 12 месяцев.
- __open_acc__ - Количество открытых кредитных линий в кредитном досье заемщика.
- __open_il_24m__ - Количество счетов в рассрочку, открытых за последние 24 месяца.
- __open_rv_24m__ - Количество возобновляемых сделок, открытых за последние 24 месяца.
- __percent_bc_gt_75__ - Процент всех счетов банковских карт > 75% от лимита.
- __pub_rec__ - Количество уничижительных публичных записей.
- __pub_rec_bankruptcies__ - Количество официально зарегистрированных банкротств
- __purpose__ - Категория, предоставленная заемщиком для запроса на кредит.
- __revol_util__ - Коэффициент использования возобновляемой линии или сумма кредита, которую заемщик использует по отношению ко всему доступному возобновляемому кредиту.
- __tax_liens__ - Количество налоговых залогов.
- __term__ - Количество платежей по кредиту. Значения указаны в месяцах и могут быть 36 или 60.
- __title__ - Название кредита, предоставленное заемщиком.
- __total_acc__ - Общее количество кредитных линий, находящихся в настоящее время в кредитном файле заемщика.
- __verification_status__ - Указывает, был ли доход подтвержден LC, не подтвержден или был ли подтвержден источник дохода.
- __zip_code;__ - Первые 3 цифры почтового индекса, указанного заемщиком в заявке на кредит.

## __Считывание CSV файла в DataFrame__

In [2]:
# загружаем файл с данными
X_train = pd.read_csv('./X_train.csv', encoding = 'utf8', sep = ',')
X_train.head(3).T 

Unnamed: 0,0,1,2
index,0,1,2
acc_now_delinq,0.0,0.0,0.0
addr_state,UT,CA,NV
annual_inc,80000.0,82000.0,46080.0
chargeoff_within_12_mths,0.0,0.0,0.0
collections_12_mths_ex_med,0.0,0.0,0.0
delinq_2yrs,0.0,0.0,1.0
dti,30.49,7.0,17.32
earliest_cr_line,Oct-1996,Mar-1993,Nov-2000
emp_length,4 years,10+ years,3 years


In [3]:
X_train.shape

(199999, 45)

In [4]:
# загружаем файл с данными
y_train = pd.read_csv('./y_train.csv', encoding = 'utf8', sep = ',')
y_train.head(3)

Unnamed: 0,index,loan_status
0,0,1.0
1,1,
2,2,1.0


In [5]:
y_train.shape

(199999, 2)

## __ПЛАН ПРЕДВАРИТЕЛЬНОЙ ПОДГОТОВКИ ДАННЫХ__

__До разбиения набора данных на обучающую и контрольную выборки__
- Удаление очевидных бесполезных переменных (переменных у которых количество категорий совпадает с количеством наблюдений, или переменных с одним уникальным значением;
- Преобразование типов данных;
- Нормализация строковых значений (удаление лишних символов, приведение к одному и тому же регистру);
- Обработка дублирующих наблюдений;
- Обработка редких категорий, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить до разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить до разбиения на обучающую и контрольную выборки;

__После разбиения набора данных на обучающую и контрольную выборки__
- Выполнение преобразований, максимизирующих нормальность;
- Обработка редких категорий, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Импутация пропусков, которую можно выполнить только после разбиения на обучающую и контрольную выборки;
- Конструирование признаков, которое можно выполнить только после разбиения на обучающую и контрольную выборки;
- Стандартизация, дамми-кодирование

In [6]:
# выводим информацию о количестве непропущенных наблюдений в переменных и типах переменных
X_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199999 entries, 0 to 199998
Data columns (total 45 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   index                       199999 non-null  object 
 1   acc_now_delinq              199873 non-null  float64
 2   addr_state                  199873 non-null  object 
 3   annual_inc                  199873 non-null  float64
 4   chargeoff_within_12_mths    199869 non-null  float64
 5   collections_12_mths_ex_med  199869 non-null  float64
 6   delinq_2yrs                 199873 non-null  float64
 7   dti                         199873 non-null  float64
 8   earliest_cr_line            199873 non-null  object 
 9   emp_length                  187808 non-null  object 
 10  fico_range_high             199873 non-null  float64
 11  fico_range_low              199873 non-null  float64
 12  funded_amnt                 199873 non-null  float64
 13  home_ownership

### __Удаление очевидных бесполезных переменных (переменных у которых количество категорий совпадает с количеством наблюдений, или переменных с одним уникальным значением)__

In [7]:
# Удаляем очевидную бесполезную переменную index (количество категорий совпадает с количеством наблюдений)
X_train.drop('index', axis = 1, inplace = True)

### __Изучение данных по каждой категории на наличие переменных с одним уникальным значением и правильности выбранного типа данных__

In [8]:
# выведем уникальные значения по переменной acc_now_delinq с помощью метода .unique()
X_train['acc_now_delinq'].unique()

array([ 0.,  1., nan,  2.,  3.,  5.])

In [9]:
# выведем уникальные значения по переменной addr_state 
X_train['addr_state'].unique()

# теперь с помощью метода .nunique() выведем количество уникальных значений переменной чтобы убедиться в отсутствии 
# неверных записей
X_train['addr_state'].nunique()

50

In [10]:
X_train['annual_inc'].unique()

array([  80000. ,   82000. ,   46080. , ..., 1121869. ,   75643.2,
         65245. ])

In [11]:
X_train['chargeoff_within_12_mths'].unique()

array([ 0.,  1., nan,  2.,  4.,  3.,  5.,  6., 10.,  7.])

In [12]:
X_train['collections_12_mths_ex_med'].unique()

array([ 0.,  1., nan,  2.,  3.,  4., 10.,  7.,  6.,  5., 20.])

In [13]:
X_train['collections_12_mths_ex_med'].unique()

array([ 0.,  1., nan,  2.,  3.,  4., 10.,  7.,  6.,  5., 20.])

In [14]:
X_train['delinq_2yrs'].unique()

array([ 0.,  1.,  2.,  4.,  3.,  5., nan,  6.,  8., 10.,  7.,  9., 11.,
       12., 13., 16., 14., 15., 21., 30., 18., 19., 17., 27.])

In [15]:
X_train['dti'].unique()

array([30.49,  7.  , 17.32, ..., 42.46, 40.73, 43.25])

In [19]:
X_train['earliest_cr_line'].unique()

array(['Oct-1996', 'Mar-1993', 'Nov-2000', 'Jan-2010', 'Jan-2002',
       'Apr-1993', 'Apr-2001', 'Sep-1995', 'Nov-1991', 'Sep-1996',
       'Aug-1998', 'May-1992', 'Apr-1989', 'Feb-2008', 'May-1999',
       'May-1995', 'Feb-2004', 'Sep-2010', 'Jun-2004', 'Mar-2001',
       'Mar-1997', 'Jan-2007', 'Jul-2012', 'Sep-2001', 'Dec-1997',
       'Mar-2000', 'May-1988', 'Apr-1986', 'Aug-2002', 'Dec-1996',
       'Nov-1994', 'Jul-1998', 'May-2002', 'Oct-2002', 'Sep-2003',
       'Dec-2004', 'Apr-1988', 'Sep-1999', 'Feb-2001', 'Sep-1993',
       'Apr-2005', 'May-2001', 'Aug-2000', 'Jan-2004', 'Mar-2005',
       'Oct-2004', 'Apr-1994', 'Oct-2001', 'Jan-2001', 'Feb-2005',
       'Sep-2009', 'Jan-2005', 'Jan-1986', 'Apr-2006', 'Jul-1993',
       'Jul-2000', 'Mar-1994', 'Nov-1985', 'Feb-2006', 'Nov-1997',
       'Aug-2012', 'Dec-1992', 'Mar-1998', 'Feb-1993', 'Oct-1983',
       'Dec-2001', 'Nov-1998', 'Jul-1984', 'Sep-2007', 'Nov-2002',
       'Nov-1995', 'Oct-2005', 'May-1986', 'Nov-1999', 'Oct-20

In [20]:
X_train['emp_length'].unique()

array(['4 years', '10+ years', '3 years', '< 1 year', '5 years', '1 year',
       '7 years', '8 years', '2 years', '9 years', nan, '6 years'],
      dtype=object)

In [21]:
X_train['fico_range_high'].unique()

array([689., 674., 694., 704., 664., 699., 679., 714., 684., 759., 669.,
       774., 754., 724., 729., 744., 749., 739., 709., 814., 764., 719.,
       779., 784., 794., 734., 789., 769., 799.,  nan, 834., 809., 804.,
       819., 824., 844., 829., 839., 850.])

In [22]:
X_train['fico_range_low'].unique()

array([685., 670., 690., 700., 660., 695., 675., 710., 680., 755., 665.,
       770., 750., 720., 725., 740., 745., 735., 705., 810., 760., 715.,
       775., 780., 790., 730., 785., 765., 795.,  nan, 830., 805., 800.,
       815., 820., 840., 825., 835., 845.])

In [23]:
X_train['funded_amnt'].unique()

array([16000.,  6600., 10000., ..., 35325., 39350., 37925.])

In [24]:
X_train['home_ownership'].unique()

array(['RENT', 'MORTGAGE', 'OWN', nan, 'OTHER', 'ANY', 'NONE'],
      dtype=object)

In [25]:
X_train['inq_last_12m'].unique()

array([ 1.,  0., nan,  2.,  3.,  7.,  4.,  6.,  5.,  8., 12., 11., 13.,
       10.,  9., 14., 18., 16., 31., 17., 27., 15., 21., 23., 20., 26.,
       22., 19., 34., 39., 24., 30., 45., 25., 28., 41., 29.])

In [26]:
X_train['installment'].unique()

array([539.03, 214.27, 317.96, ..., 233.13, 725.29, 968.42])

In [27]:
X_train['int_rate'].unique()

array([' 12.99%', ' 10.42%', '  8.99%', ' 11.53%', ' 26.30%', ' 12.12%',
       ' 14.65%', ' 13.59%', '  8.18%', ' 13.49%', ' 24.50%', ' 15.31%',
       ' 18.99%', ' 17.57%', ' 13.11%', '  6.24%', ' 13.33%', ' 11.99%',
       ' 13.67%', '  5.32%', '  6.03%', ' 14.49%', ' 14.99%', ' 13.56%',
       '  8.24%', ' 24.99%', '  9.49%', '  6.89%', ' 14.31%', ' 12.39%',
       '  9.16%', '  7.89%', ' 13.68%', '  9.17%', ' 12.49%', ' 10.64%',
       ' 11.49%', ' 14.09%', ' 12.85%', ' 13.98%', '  8.90%', ' 13.53%',
       ' 14.47%', ' 16.99%', '  8.46%', '  6.46%', ' 12.69%', ' 11.39%',
       ' 12.79%', ' 15.80%', ' 21.45%', ' 11.44%', ' 10.99%', ' 12.62%',
       ' 20.99%', ' 18.25%', '  8.67%', ' 15.41%', ' 11.47%', '  7.99%',
       ' 23.05%', ' 10.49%', '  8.59%', ' 14.08%', ' 15.05%', ' 10.16%',
       ' 22.45%', '  9.99%', ' 10.41%', ' 10.47%', ' 12.73%', '  7.26%',
       ' 16.02%', ' 15.59%', ' 11.71%', ' 12.35%', ' 13.99%', ' 22.99%',
       ' 22.39%', '  9.43%', ' 15.61%', ' 12.98%', 

In [28]:
X_train['issue_d'].unique()

array(['Apr-2016', 'Sep-2017', 'Aug-2016', 'Aug-2015', 'May-2013',
       'Mar-2015', 'May-2017', 'Oct-2015', 'Mar-2017', 'Oct-2014',
       'Mar-2016', 'Dec-2016', 'Apr-2015', 'Apr-2013', 'Sep-2015',
       'Feb-2015', 'Oct-2017', 'Oct-2013', 'Jun-2016', 'Sep-2013',
       'Apr-2017', 'Sep-2018', 'Jul-2014', 'Oct-2016', 'Nov-2014',
       'Jul-2015', 'Jan-2015', 'May-2014', 'Dec-2015', 'Feb-2013',
       'Dec-2013', 'Nov-2012', 'Jan-2014', 'Aug-2018', 'Jul-2019',
       'Jul-2016', 'Mar-2014', 'Jan-2017', 'Nov-2015', 'Aug-2014',
       'Dec-2018', 'Aug-2019', 'Dec-2014', 'Jun-2017', 'Nov-2016',
       'Sep-2012', 'Mar-2018', 'Jul-2018', 'Jun-2015', 'Jul-2017',
       'Dec-2011', 'Apr-2014', 'Feb-2018', 'Jun-2014', 'Mar-2013',
       'Sep-2016', 'Jun-2018', 'May-2019', 'Jul-2012', 'Nov-2017',
       'Aug-2017', 'Oct-2018', 'May-2016', 'Jan-2012', 'Jan-2016',
       'Feb-2016', 'Feb-2020', 'May-2018', 'Mar-2011', 'Feb-2017',
       'Feb-2014', 'Jul-2010', 'Jan-2019', 'Apr-2018', 'Apr-20

In [29]:
X_train['loan_amnt'].unique()

array([16000.,  6600., 10000., ..., 35325., 39350., 37925.])

In [30]:
X_train['mort_acc'].unique()

array([ 5.,  2.,  3.,  0.,  1.,  7.,  4.,  6.,  8., nan, 22., 11.,  9.,
       10., 19., 12., 17., 24., 13., 14., 15., 18., 16., 27., 20., 34.,
       21., 23.])

In [31]:
X_train['mths_since_last_delinq'].unique()

array([ 50.,  nan,  10.,  24.,  51.,  13.,  46.,  72.,   5.,  15.,  33.,
        27.,  32.,  37.,   7.,   9.,  11.,  23.,  22.,  59.,  76.,  78.,
        67.,  31.,  66.,   3.,   8.,  41.,   0.,  34.,  21.,  42.,  45.,
        53.,  62.,  35.,   2.,   4.,  17.,  14.,  48.,  71.,  74.,  36.,
        57.,  29.,  56.,  43.,   6.,  65.,  81.,  19.,  69.,  77.,  30.,
        60.,  47.,  61.,  12.,  54.,  18.,  16.,  52.,  82.,  79.,  28.,
        70.,  20.,  26.,  75.,  73.,  39.,  63.,  25.,  80.,  40.,  83.,
        68.,  44.,  55.,  38.,  49.,   1.,  64.,  96.,  58.,  84.,  91.,
       112.,  88., 158.,  87.,  85.,  98., 188., 102.,  97.,  93., 101.,
        94.,  86., 103., 122., 126.,  92., 110., 121., 130., 113., 108.,
       111., 120.,  90., 124., 105., 115.,  99., 114.,  95., 100., 140.,
       104.,  89., 133., 106., 131., 123., 149., 116., 125., 146., 135.,
       119., 118., 107., 109.])

In [32]:
X_train['mths_since_recent_bc_dlq'].unique()

array([ 65.,  nan,  41.,  46.,  69.,  16.,  67.,  37.,  11.,  23.,  66.,
         5.,  29.,  21.,  79.,  13.,  24.,  34.,  38.,  60.,   7.,  35.,
        39.,  95.,  14.,  62.,  51.,  36.,  56.,  32.,  81.,  80.,  43.,
        61.,  54.,  18.,  30.,  48.,  82.,   4.,  72.,  28.,  74.,  47.,
        17.,  19.,  10.,   3.,  78.,  15.,   9.,  64.,  57.,  40.,  22.,
        25.,  31.,  33.,  99.,  42.,  71.,   6.,  76.,  58.,  50.,  75.,
         8.,  12.,   0.,  45.,  83.,  27.,  68.,  63.,   2.,  55.,  49.,
        77.,  70.,  26.,  20.,  44.,  96.,  73.,  52.,  84.,  59.,  53.,
       124.,  98.,   1., 101.,  87.,  86.,  85.,  88., 158., 107., 120.,
       105., 112.,  97.,  93.,  94., 111., 194.,  89., 103.,  91., 162.,
       122., 126., 121., 102.,  90., 154.,  92., 109., 108., 100., 117.,
       114., 106., 113., 125., 110., 131., 119., 140., 116., 133., 104.,
       128., 123., 134., 130., 149., 156., 146., 135.])

In [33]:
X_train['mths_since_recent_inq'].unique()

array([ 6., nan, 13., 16., 15., 11.,  9.,  4., 23.,  1.,  0., 22.,  7.,
        5.,  8.,  2., 10., 12.,  3., 14., 21., 19., 24., 17., 18., 20.,
       25.])

In [34]:
X_train['num_accts_ever_120_pd'].unique()

array([ 3.,  0.,  1.,  2., nan,  8.,  4.,  5.,  9.,  6.,  7., 19., 11.,
       15., 12., 10., 13., 21., 14., 18., 29., 22., 26., 37., 17., 28.,
       16., 27., 20., 24., 30., 23., 34., 36., 38., 25., 32.])

In [35]:
X_train['num_actv_bc_tl'].unique()

array([ 4.,  3.,  1.,  2.,  6.,  5.,  9.,  0., 11., 12.,  7., 10.,  8.,
       nan, 14., 13., 16., 15., 32., 18., 17., 24., 19., 20., 22., 30.,
       21., 25., 23., 45., 27.])

In [36]:
X_train['num_rev_accts'].unique()

array([ 17.,   8.,  23.,  11.,   3.,   7.,  33.,  22.,  10.,  20.,   9.,
        19.,  41.,  18.,  14.,  12.,  29.,  25.,   6.,  48.,  15.,  16.,
        45.,   5.,  40.,  31.,  34.,  50.,  13.,  21.,  30.,  nan,   4.,
        49.,  26.,   2.,  35.,  28.,  27.,  24.,  32.,  36.,  52.,  38.,
        44.,  58.,  39.,  37.,  57.,  51.,  43.,  47.,   1.,  46.,  55.,
        42.,  53.,  60.,  67.,  56.,  61.,  64.,  62.,  59.,  54.,  72.,
        78.,  71.,  86.,  90.,  63.,  65.,  66.,  69.,  75., 101.,  83.,
        68.,  74.,  82., 112.,  76.,  70., 104.,  96.,  73., 103.,  89.,
        77.,  81.])

In [37]:
X_train['num_sats'].unique()

array([14.,  5.,  7., 19.,  4.,  6.,  8., 11., 10., 30., 16., 15.,  9.,
       12., 31., 17., 13., 21.,  3., 18., 22.,  2., 25., nan, 32., 20.,
       23., 26., 24., 29., 33., 27., 36., 28., 38., 34.,  1., 44., 35.,
       52., 41., 37., 40., 43., 45., 42., 59., 48., 39., 70., 58., 46.,
       57., 51.,  0., 49., 62., 47., 50., 79., 74., 53., 55., 76., 72.,
       78., 80., 81., 63., 61., 60., 56.])

In [38]:
X_train['num_tl_120dpd_2m'].unique()

array([ 0., nan,  1.,  2.])

In [39]:
X_train['num_tl_30dpd'].unique()

array([ 0.,  1., nan,  2.,  3.,  4.])

In [40]:
X_train['num_tl_90g_dpd_24m'].unique()

array([ 0.,  1., nan,  2.,  4.,  3., 10.,  5.,  6.,  7.,  8.,  9., 14.,
       11., 12., 13., 15., 20., 30., 17., 19., 18., 16., 26.])

In [41]:
X_train['num_tl_op_past_12m'].unique()

array([ 3.,  0.,  4.,  1.,  2.,  5.,  6., nan,  7.,  8.,  9., 10., 11.,
       15., 12., 13., 16., 14., 24., 29., 17., 18., 21., 19., 23., 25.,
       20.])

In [42]:
X_train['open_acc'].unique()

array([14.,  5.,  7., 19.,  4.,  8.,  6., 11., 10., 30., 13., 16., 15.,
        9., 12., 31., 17., 21., 37.,  3., 18., 23.,  2., 25., 22., 32.,
       20., 26., 24., 29., 33., 27., nan, 36., 28., 38., 35.,  1., 44.,
       52., 41., 40., 43., 34., 45., 42., 59., 48., 39., 70., 86., 46.,
       57., 51.,  0., 58., 49., 62., 47., 79., 74., 50., 53., 55., 76.,
       72., 78., 80., 81., 63., 61., 60., 56.])

In [43]:
X_train['open_il_24m'].unique()

array([ 2.,  0., nan,  3.,  1.,  4.,  5.,  7.,  6., 11.,  9.,  8., 12.,
       14., 10., 15., 13., 20., 17., 16., 18., 19., 26.])

In [44]:
X_train['open_rv_24m'].unique()

array([ 3.,  1., nan,  2.,  7.,  0.,  5., 14.,  8.,  4.,  6., 12.,  9.,
       10., 11., 24., 21., 13., 18., 15., 16., 20., 17., 19., 23., 25.,
       26., 22., 28., 30., 27., 38., 29., 34., 37., 33.])

In [45]:
X_train['percent_bc_gt_75'].unique()

array([100.  ,   0.  ,  33.3 ,  50.  ,  66.7 ,  62.5 ,  25.  ,  88.9 ,
        60.  ,  20.  ,  40.  ,  57.1 ,  28.6 ,  75.  ,  11.1 ,  42.9 ,
        21.4 ,   8.3 ,    nan,  71.4 ,  16.7 ,   6.7 ,  12.5 ,  55.6 ,
        90.9 ,  14.3 ,  22.2 ,  30.8 ,   6.3 ,  85.7 ,  83.3 ,  80.  ,
        84.6 ,   7.7 ,  90.  ,  87.5 ,  37.5 ,  77.8 ,  92.9 ,  38.5 ,
        18.2 ,  46.2 ,  36.4 ,  44.4 ,  81.8 ,  41.7 ,  10.  ,   5.  ,
        72.7 ,  58.3 ,  53.8 ,  23.5 ,   9.1 ,  15.4 ,  30.  ,  63.6 ,
        68.7 ,   7.1 ,   5.3 ,  27.3 ,  53.3 ,  31.2 ,  70.  ,  54.5 ,
         0.57,  45.5 ,   9.5 ,  31.3 ,  69.2 ,  86.7 ,   0.5 ,  23.1 ,
        78.6 ,  61.5 ,   0.6 ,  13.3 ,  76.5 ,  94.4 ,  11.8 ,  26.7 ,
        92.3 ,  73.3 ,  38.9 ,  11.5 ,   5.6 ,   5.9 ,  21.1 ,   4.5 ,
        31.6 ,  46.7 ,  10.5 ,  29.4 ,  18.8 ,  91.7 ,  52.9 ,   1.  ,
        26.3 ,  35.3 ,  41.2 ,  17.6 ,  43.8 ,  15.  ,  76.9 ,   0.33,
        36.8 ,  35.7 ,  82.4 ,  64.3 ,   6.2 ,  22.7 ,  26.1 ,  17.4 ,
      

In [46]:
X_train['pub_rec'].unique()

array([ 1.,  0.,  2.,  3., nan,  4.,  5., 14.,  8.,  6.,  7., 11., 10.,
        9., 15., 28., 12., 20., 13.])

In [47]:
X_train['pub_rec_bankruptcies'].unique()

array([ 1.,  0.,  2., nan,  3.,  7.,  4.,  5.,  6.,  9.])

In [48]:
X_train['purpose'].unique()

array(['credit_card', 'car', 'other', 'debt_consolidation',
       'major_purchase', 'small_business', 'home_improvement', 'moving',
       'medical', 'wedding', 'vacation', 'house', nan, 'renewable_energy',
       'educational'], dtype=object)

In [49]:
X_train['revol_util'].unique()

array(['56.1%', '88.3%', '18.1%', ..., '103.1%', '173.2%', '109.8%'],
      dtype=object)

In [50]:
X_train['tax_liens'].unique()

array([ 0.,  1.,  2., nan,  3.,  4.,  5., 13.,  7.,  6.,  8., 10.,  9.,
       15., 27., 11., 12., 18.])

In [51]:
X_train['term'].unique()

array([' 36 months', ' 60 months', nan], dtype=object)

In [52]:
X_train['title'].unique()

array(['Credit card refinancing', 'Car financing', 'Other', ...,
       'The Next Step', 'credit cards debt consolidation',
       'Car and Credit Card debt consolidate'], dtype=object)

In [53]:
X_train['total_acc'].unique()

array([ 26.,  11.,  31.,  24.,  16.,  21.,  29.,   7.,  23.,  46.,  34.,
        19.,  25.,  18.,  13.,  20.,  15.,   6.,  14.,  12.,  30.,  50.,
        28.,  32.,  38.,  76.,  10.,  33.,  17.,   5.,  40.,  35.,  36.,
        43.,   8.,  27.,  22.,  42.,   4.,  44.,  52.,  47.,  37.,   9.,
        66.,  41.,  57.,   3.,  63.,  53.,   2.,  45.,  39.,  49.,  70.,
        56.,  69.,  61.,  64.,  54.,  48.,  nan,  51.,  58.,  85.,  55.,
        59.,  65.,  62.,  60.,  84.,  73.,  67.,  74.,  68.,  78.,  82.,
        75.,  77.,  72.,  96.,  81.,  86.,  71.,  79.,  92.,  93.,  80.,
        88.,  95.,  90., 135.,  91.,  83.,  94.,  89., 105.,  87., 109.,
       100., 138.,  97., 112., 157., 102., 123., 125., 106., 101., 108.,
       120., 104., 107.,  98.])

In [55]:
X_train['verification_status'].unique()

array(['Source Verified', 'Not Verified', 'Verified', nan], dtype=object)

In [57]:
X_train['zip_code;'].unique()

array(['847xx;', '900xx;', '895xx;', '853xx;', '453xx;', '767xx;',
       '983xx;', '322xx;', '019xx;', '211xx;', '225xx;', '775xx;',
       '917xx;', '460xx;', '328xx;', '376xx;', '985xx;', '303xx;',
       '207xx;', '038xx;', '786xx;', '294xx;', '079xx;', '282xx;',
       '554xx;', '550xx;', '331xx;', '381xx;', '359xx;', '152xx;',
       '310xx;', '336xx;', '910xx;', '070xx;', '774xx;', '945xx;',
       '441xx;', '921xx;', '370xx;', '442xx;', '212xx;', '665xx;',
       '750xx;', '873xx;', '172xx;', '104xx;', '423xx;', '404xx;',
       '481xx;', '953xx;', '891xx;', '274xx;', '982xx;', '805xx;',
       '972xx;', '799xx;', '933xx;', '087xx;', '200xx;', '773xx;',
       '302xx;', '013xx;', '606xx;', '371xx;', '462xx;', '080xx;',
       '493xx;', '727xx;', '905xx;', '430xx;', '030xx;', '787xx;',
       '926xx;', '560xx;', '956xx;', '472xx;', '711xx;', '936xx;',
       '357xx;', '103xx;', '601xx;', '078xx;', '064xx;', '100xx;',
       '844xx;', '208xx;', '461xx;', '495xx;', '054xx;', '800x

In [58]:
X_train['zip_code;'].nunique()

891