# Прогноз дохода клиентов

 - Задача прогнозирования дохода имеет особенное значение в Банке. 
Эта информация помогает точнее и более релевантно подбирать продукты и условия их приобретения, что в свою очередь вносит существенный вклад в прибыль Банка. 
 - Помимо ценности для Банка, оценка дохода является регуляторным требованием ЦБ в части расчета предельно допустимой кредитной нагрузки для клиента (далее ПДН)

# 1) Импорт библиотек

In [12]:
import pandas as pd # Библиотека для работы с данными в формате CSV
import seaborn as sns # Библиотека для визуализации данных
import matplotlib.pyplot as plt # Библиотека для визуализации данных

# 2) Загрузка исторических данных

In [13]:
df_train = pd.read_csv(
    'hackathon_income_train.csv',
    sep=';'
)
df_test = pd.read_csv(
    'hackathon_income_test.csv',
    sep=';'
)

df = pd.concat(
    [df_train, df_test],
    ignore_index=True
    )

In [14]:
df.info()   # Информация об исторических данных

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Columns: 224 entries, id to first_salary_income
dtypes: float64(34), int64(1), object(189)
memory usage: 256.3+ MB


In [15]:
df.describe()   # Описание исторических данных

Unnamed: 0,id,hdb_bki_total_max_limit,hdb_bki_total_cc_max_limit,hdb_bki_total_pil_max_limit,hdb_bki_active_cc_max_limit,hdb_bki_other_active_pil_outstanding,hdb_bki_total_products,hdb_bki_total_max_overdue_sum,bki_total_auto_cnt,hdb_bki_total_ip_max_limit,...,hdb_bki_total_micro_cnt,hdb_bki_active_pil_cnt,hdb_bki_total_cc_max_overdue,hdb_bki_total_pil_last_days,hdb_bki_active_pil_max_limit,hdb_bki_total_pil_cnt,hdb_bki_total_pil_max_del90,hdb_bki_last_product_days,hdb_bki_other_active_ip_outstanding,hdb_bki_active_cc_max_overdue
count,150000.0,130222.0,120904.0,117643.0,108332.0,65978.0,137285.0,129747.0,125765.0,40324.0,...,130222.0,130222.0,120089.0,117643.0,77245.0,130222.0,110577.0,130222.0,27629.0,105941.0
mean,74999.5,1361677.0,250250.1,595572.6,224051.3,501757.0,13.369938,58489.35,0.203681,3166614.0,...,2.821321,1.568084,16235.17,724.035268,587732.1,6.782441,7.489116,495.482614,3126427.0,6978.554
std,43301.414527,2549925.0,342122.5,924657.3,247479.5,955624.5,21.045049,477058.5,0.784461,3080195.0,...,9.633014,2.273131,71569.26,964.637166,873344.0,7.20192,33.160232,724.15089,3962851.0,34980.27
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12000.0,...,0.0,0.0,0.0,2.0,0.0,0.0,0.0,2.0,0.0,0.0
25%,37499.75,181000.0,70000.0,114117.0,70000.0,38966.93,4.0,0.0,0.0,1430000.0,...,0.0,0.0,0.0,153.0,117500.0,2.0,0.0,101.0,980299.8,0.0
50%,74999.5,562222.0,155000.0,328569.0,150000.0,196589.4,8.0,4535.0,0.0,2352656.0,...,0.0,1.0,150.0,350.0,329000.0,5.0,0.0,237.0,2082831.0,0.0
75%,112499.25,1680000.0,300000.0,722402.6,295000.0,583529.8,16.0,22726.5,0.0,3961857.0,...,1.0,2.0,6374.0,899.0,721000.0,10.0,0.0,559.0,3976280.0,1813.0
max,149999.0,400000000.0,15000000.0,62000000.0,7000000.0,27241270.0,993.0,130660400.0,24.0,175970400.0,...,354.0,57.0,6808735.0,7239.0,52500000.0,122.0,1183.0,7254.0,178350500.0,1519780.0


In [16]:
df.isnull().sum()   # Количество пропусков

id                                                   0
dt                                                   0
target                                           73214
turn_cur_cr_avg_act_v2                           33678
salary_6to12m_avg                               127491
                                                 ...  
label_Above_1M_share_r1                          82335
transaction_category_supermarket_sum_cnt_d15     80649
max_balance_rur_amt_1m_af                       126877
w                                                73214
first_salary_income                             141332
Length: 224, dtype: int64

In [17]:
df.duplicated().sum() # Количество дубликатов

np.int64(0)

In [18]:
df.nunique()    # Количество уникальных значений

id                                              150000
dt                                                  11
target                                           73426
turn_cur_cr_avg_act_v2                          109382
salary_6to12m_avg                                22507
                                                 ...  
label_Above_1M_share_r1                           1308
transaction_category_supermarket_sum_cnt_d15       108
max_balance_rur_amt_1m_af                         8116
w                                                70630
first_salary_income                               8668
Length: 224, dtype: int64

# 3) Разведочный статистический анализ

Гипотеза №1. Целевая переменная обладает несимметричным распределением величины, вследствие чего придется использовать логарифмирование.

Гипотеза №2. Возраст влияет на доход клиента. Юные и престарелые клиенты, скорее всего, выделяются низкими доходами. В то врем как клиенты среднего возраста способны обладать высокими доходами.

Гипотеза №3. Чем выше усредненная ЗП клиента, тем выше его доход, поскольку обычно ЗП является существенной частью дохода.

Гипотеза №4. Доход клиента зависит от среднего по региону, в котором он проживает, пос