**Аналитическая задача** -- по признаковому описанию построить портрет клиента, склонного к положительному отклику на рекламное предложение.

Предполагается, что получив такую оценку для некоторого множества клиентов, компания будет обращаться только к тем из них, которые склонны к отклику.

**Описание полей**

|Признак|Расшифровка|
|--:|:--|
| AGREEMENT_RK | уникальный идентификатор объекта в выборке |
| TARGET | целевая переменная:отклик на маркетинговую кампанию (1 - отклик был зарегистрирован, 0 - отклика не было) |
| AGE |	возраст клиента |
| SOCSTATUS_WORK_FL | социальный статус клиента относительно работы (1 - работает, 0 - не работает)|
| SOCSTATUS_PENS_FL | социальный статус клиента относительно пенсии (1 - пенсионер, 0 - не пенсионер)|
| GENDER | пол клиента |
| CHILD_TOTAL | количество детей клиента |
| DEPENDANTS | количество иждивенцев клиента
| EDUCATION | образование |
| MARITAL_STATUS | семейное положение |
| GEN_INDUSTRY | отрасль работы клиента |
| GEN_TITLE |	должность |
| ORG_TP_STATE |	форма собственности компании|
| ORG_TP_FCAPITAL |	отношение к иностранному капиталу|
| JOB_DIR |	направление деятельности внутри компании|
| FAMILY_INCOME |	семейный доход (несколько категорий)|
| PERSONAL_INCOME |	личный доход клиента (в рублях)|
| REG_ADDRESS_PROVINCE | область регистрации клиента|
| FACT_ADDRESS_PROVINCE | область фактического пребывания клиента |
| POSTAL_ADDRESS_PROVINCE |	почтовый адрес область|
| TP_PROVINCE |	область торговой точки, где клиент брал последний кредит|
| REGION_NM	| регион РФ |
| FL_PRESENCE_FL | наличие в собственности квартиры (1 - есть, 0 - нет)|
| OWN_AUTO | кол-во автомобилей в собственности|
| AUTO_RUS_FL | наличие в собственности автомобиля российского производства ( 1 - есть, 0 - нет)|
| HS_PRESENCE_FL |	наличие в собственности загородного дома (1 - есть, 0 - нет)|
| COT_PRESENCE_FL |	наличие в собственности котеджа (1 - есть, 0 - нет) |
| GAR_PRESENCE_FL |	наличие в собственности гаража (1 - есть, 0 - нет)|
| LAND_PRESENCE_FL | наличие в собственности земельного участка (1 - есть, 0 - нет)|
| FACT_LIVING_TERM | количество месяцев проживания по месту фактического пребывания |
| WORK_TIME | время работы на текущем месте (в месяцах) |
| CREDIT | сумма последнего кредита клиента (в рублях) |
| TERM | срок кредита, мес.|
| LOAN_NUM_PAYM | количество платежей, которые сделал клиент |
| LOAN_DLQ_NUM | количество просрочек, допущенных клиентом |
| LOAN_MAX_DLQ_AMT | максимальная сумма просрочки (в рублях) |
| DATE_CREDIT | дата взятия кредита |

**Примерный план по выполнению проекта**

Шаг 1. Загрузка данных;

Шаг 2. Первичная обработка данных (при необходимости):
- скорректировать заголовки;
- скорректировать типы признаков;
- проверить наличие дублирующихся записей;
- проверить наличие аномальных значений;
- восстановить пропущенные значения.

Шаг 3. Добавьте в таблицу следующие признаки:
- день недели, месяц и год взятия кредита;
- адрес регистрации и адрес фактического пребывания клиента совпадают (1 -- совпадает, 0 -- не совпадает);
- адрес фактического пребывания клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- адрес регистрации клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- почтовый, фактический и адрес регистрации совпадают (1 -- совпадают, 0 -- не совпадают);
- область регистрации, фактического пребывания, почтового адреса и область расположения торговой точки, где клиент брал кредит совпадают (1 -- совпадают, 0 -- не совпадают);

Шаг 4. Провести исследовательский анализ данных:
- исследовать динамику количества кредитов по годам, месяцам;
- исследовать числовые и категориальные признаки в разрезе целевого признака;
- сделать выводы о влиянии признаков на целевой признак.

In [2]:
#Шаг 1. Загрузка данных

import pandas as pd
import numpy as np

df = pd.read_csv("/content/dataset_target_company.csv")

In [3]:
#просмотр данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 37 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   AGREEMENT_RK             15223 non-null  int64  
 1   TARGET                   15223 non-null  int64  
 2   AGE                      15223 non-null  int64  
 3   SOCSTATUS_WORK_FL        15223 non-null  int64  
 4   SOCSTATUS_PENS_FL        15223 non-null  int64  
 5   GENDER                   15223 non-null  int64  
 6   CHILD_TOTAL              15223 non-null  int64  
 7   DEPENDANTS               15223 non-null  int64  
 8   EDUCATION                15223 non-null  object 
 9   MARITAL_STATUS           15223 non-null  object 
 10  GEN_INDUSTRY             13856 non-null  object 
 11  GEN_TITLE                13856 non-null  object 
 12  ORG_TP_STATE             13856 non-null  object 
 13  ORG_TP_FCAPITAL          13858 non-null  object 
 14  JOB_DIR               

In [4]:
df.describe()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,FL_PRESENCE_FL,...,COT_PRESENCE_FL,GAR_PRESENCE_FL,LAND_PRESENCE_FL,CREDIT,TERM,FACT_LIVING_TERM,WORK_TIME,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ_AMT
count,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,...,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,13855.0,15223.0,15223.0,15223.0
mean,65401830.0,0.11903,40.406096,0.90961,0.134468,0.654536,1.099389,0.645208,13853.836323,0.309794,...,0.009788,0.019247,0.043684,14667.959345,8.101031,3039.34,292.212,7.875977,0.195362,243.021626
std,4568181.0,0.323835,11.601068,0.286748,0.341165,0.475535,0.995411,0.812252,9015.467617,0.462424,...,0.098451,0.137397,0.204398,12147.873496,4.09409,262455.4,24364.83,7.955747,0.685022,836.100116
min,59910150.0,0.0,21.0,0.0,0.0,0.0,0.0,0.0,24.0,0.0,...,0.0,0.0,0.0,2000.0,3.0,-26.0,1.0,1.0,0.0,0.0
25%,61920920.0,0.0,30.0,1.0,0.0,0.0,0.0,0.0,8000.0,0.0,...,0.0,0.0,0.0,6500.0,6.0,41.0,24.0,4.0,0.0,0.0
50%,64371000.0,0.0,39.0,1.0,0.0,1.0,1.0,0.0,12000.0,0.0,...,0.0,0.0,0.0,11550.0,6.0,108.0,48.0,5.0,0.0,0.0
75%,67088020.0,0.0,50.0,1.0,0.0,1.0,2.0,1.0,17000.0,1.0,...,0.0,0.0,0.0,19170.0,10.0,204.0,110.0,8.0,0.0,0.0
max,75292240.0,1.0,67.0,1.0,1.0,1.0,10.0,7.0,250000.0,1.0,...,1.0,1.0,1.0,119700.0,36.0,28102000.0,2867959.0,114.0,13.0,28012.2


In [None]:
df.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,GAR_PRESENCE_FL,LAND_PRESENCE_FL,CREDIT,TERM,FACT_LIVING_TERM,WORK_TIME,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ_AMT,DATE_CREDIT
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,0,8000.0,6,220,18.0,6,2,1580.0,2017-10-01 15:09:09
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,0,21650.0,6,137,97.0,6,1,4020.0,2020-10-09 18:58:35
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,0,33126.0,12,251,84.0,11,0,0.0,2015-05-05 11:10:07
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,0,0,8491.82,6,36,168.0,6,3,1590.0,2016-06-19 10:05:49
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,0,21990.0,12,83,101.0,16,2,2230.0,2016-03-13 14:22:06


In [None]:
df.tail()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,GAR_PRESENCE_FL,LAND_PRESENCE_FL,CREDIT,TERM,FACT_LIVING_TERM,WORK_TIME,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ_AMT,DATE_CREDIT
15218,75291424,0,25,1,0,0,1,1,Среднее,Состою в браке,...,0,0,13450.0,10,121,48.0,21,0,0.0,2018-04-11 17:38:21
15219,75291888,0,51,1,0,1,2,0,Среднее специальное,Состою в браке,...,0,0,8991.0,6,300,156.0,3,0,0.0,2021-12-21 18:09:58
15220,75291923,0,22,1,0,1,1,1,Среднее,Не состоял в браке,...,0,0,2700.0,6,48,48.0,5,0,0.0,2016-11-26 10:13:32
15221,75291960,0,60,0,1,1,2,0,Среднее,Вдовец/Вдова,...,0,0,24357.0,10,270,,3,0,0.0,2017-04-07 11:27:54
15222,75292242,0,37,1,0,0,2,0,Среднее,Состою в браке,...,0,0,10245.0,6,432,36.0,3,0,0.0,2018-03-12 18:26:55


In [5]:
#Шаг 2. Первичная обработка данных

In [18]:
#1) Скорректировать заголовки

df.columns = new_columns = ['id','target','age','is_employed','is_pensioner','gender','chids','dependants','education','marital_status','industry',
               'job_title','org_type_state','org_type_capital','job_field','family_income','personal_income','reg_province','fact_address',
               'postal_province','tp_province','region','has_real_state','own_auto','rus_auto','has_house','has_cottage',"has_garage",'has_land',
               'credit','term','residence_duration','work_experience','number_of_payments','overdue_payments','max_of_amount','credit_date']

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 37 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  15223 non-null  int64  
 1   target              15223 non-null  int64  
 2   age                 15223 non-null  int64  
 3   is_employed         15223 non-null  int64  
 4   is_pensioner        15223 non-null  int64  
 5   gender              15223 non-null  int64  
 6   chids               15223 non-null  int64  
 7   dependants          15223 non-null  int64  
 8   education           15223 non-null  object 
 9   marital_status      15223 non-null  object 
 10  industry            13856 non-null  object 
 11  job_title           13856 non-null  object 
 12  org_type_state      13856 non-null  object 
 13  org_type_capital    13858 non-null  object 
 14  job_field           13856 non-null  object 
 15  family_income       15223 non-null  object 
 16  pers