**Аналитическая задача** -- по признаковому описанию построить портрет клиента, склонного к положительному отклику на рекламное предложение.

Предполагается, что получив такую оценку для некоторого множества клиентов, компания будет обращаться только к тем из них, которые склонны к отклику.

**Описание полей**

|Признак|Расшифровка|
|--:|:--|
| AGREEMENT_RK | уникальный идентификатор объекта в выборке |
| TARGET | целевая переменная:отклик на маркетинговую кампанию (1 - отклик был зарегистрирован, 0 - отклика не было) |
| AGE |	возраст клиента |
| SOCSTATUS_WORK_FL | социальный статус клиента относительно работы (1 - работает, 0 - не работает)|
| SOCSTATUS_PENS_FL | социальный статус клиента относительно пенсии (1 - пенсионер, 0 - не пенсионер)|
| GENDER | пол клиента |
| CHILD_TOTAL | количество детей клиента |
| DEPENDANTS | количество иждивенцев клиента
| EDUCATION | образование |
| MARITAL_STATUS | семейное положение |
| GEN_INDUSTRY | отрасль работы клиента |
| GEN_TITLE |	должность |
| ORG_TP_STATE |	форма собственности компании|
| ORG_TP_FCAPITAL |	отношение к иностранному капиталу|
| JOB_DIR |	направление деятельности внутри компании|
| FAMILY_INCOME |	семейный доход (несколько категорий)|
| PERSONAL_INCOME |	личный доход клиента (в рублях)|
| REG_ADDRESS_PROVINCE | область регистрации клиента|
| FACT_ADDRESS_PROVINCE | область фактического пребывания клиента |
| POSTAL_ADDRESS_PROVINCE |	почтовый адрес область|
| TP_PROVINCE |	область торговой точки, где клиент брал последний кредит|
| REGION_NM	| регион РФ |
| FL_PRESENCE_FL | наличие в собственности квартиры (1 - есть, 0 - нет)|
| OWN_AUTO | кол-во автомобилей в собственности| 
| AUTO_RUS_FL | наличие в собственности автомобиля российского производства ( 1 - есть, 0 - нет)|
| HS_PRESENCE_FL |	наличие в собственности загородного дома (1 - есть, 0 - нет)|
| COT_PRESENCE_FL |	наличие в собственности котеджа (1 - есть, 0 - нет) |
| GAR_PRESENCE_FL |	наличие в собственности гаража (1 - есть, 0 - нет)|
| LAND_PRESENCE_FL | наличие в собственности земельного участка (1 - есть, 0 - нет)|
| FACT_LIVING_TERM | количество месяцев проживания по месту фактического пребывания |
| WORK_TIME | время работы на текущем месте (в месяцах) |
| CREDIT | сумма последнего кредита клиента (в рублях) |
| TERM | срок кредита, мес.|
| LOAN_NUM_PAYM | количество платежей, которые сделал клиент | 
| LOAN_DLQ_NUM | количество просрочек, допущенных клиентом |
| LOAN_MAX_DLQ_AMT | максимальная сумма просрочки (в рублях) |
| DATE_CREDIT | дата взятия кредита |

**Примерный план по выполнению проекта**

Шаг 1. Загрузка данных;

Шаг 2. Первичная обработка данных (при необходимости):
- скорректировать заголовки;
- скорректировать типы признаков;
- проверить наличие дублирующихся записей;
- проверить наличие аномальных значений;
- восстановить пропущенные значения.

Шаг 3. Добавьте в таблицу следующие признаки:
- день недели, месяц и год взятия кредита;
- адрес регистрации и адрес фактического пребывания клиента совпадают (1 -- совпадает, 0 -- не совпадает);
- адрес фактического пребывания клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- адрес регистрации клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- почтовый, фактический и адрес регистрации совпадают (1 -- совпадают, 0 -- не совпадают);
- область регистрации, фактического пребывания, почтового адреса и область расположения торговой точки, где клиент брал кредит совпадают (1 -- совпадают, 0 -- не совпадают);

Шаг 4. Провести исследовательский анализ данных:
- исследовать динамику количества кредитов по годам, месяцам;
- исследовать числовые и категориальные признаки в разрезе целевого признака;
- сделать выводы о влиянии признаков на целевой признак. 

In [2]:
import pandas as pd

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


pd.set_option('display.max_columns', None)

FileNotFoundError: [Errno 2] No such file or directory: 'dataset_target_company.csv'

#### <center>Первичная обработка данных.

Для начала переимеименуем название столбцов.

In [None]:
data = df.copy()
data = data.rename(columns = {'AGREEMENT_RK': 'id', 
                       'TARGET': 'reaction', 
                       'AGE': 'age', 
                       'SOCSTATUS_WORK_FL': 'work_status', 
                       'SOCSTATUS_PENS_FL': 'status_pens',
                      'GENDER': 'gender', 
                       'CHILD_TOTAL': 'children', 
                       'DEPENDANTS': 'izh', 
                       'EDUCATION': 'education', 
                       'MARITAL_STATUS': 'marriage', 
                      'GEN_INDUSTRY': 'where_work', 
                       'GEN_TITLE': 'work_tittle', 
                       'ORG_TP_STATE': 'org', 
                       'ORG_TP_FCAPITAL': 'capital_abroad', 
                       'JOB_DIR': 'work_departament', 
                       'FAMILY_INCOME': 'family_income', 
                       'PERSONAL_INCOME': 'pers_income', 
                       'REG_ADDRESS_PROVINCE': 'reg_address', 
                       'FACT_ADDRESS_PROVINCE': 'fact_address', 'POSTAL_ADDRESS_PROVINCE': 'post_address', 
                      'TP_PROVINCE': 'region_tt_credit', 
                       'REGION_NM': 'region', 
                       'FL_PRESENCE_FL': 'home', 
                       'OWN_AUTO': 'auto', 'AUTO_RUS_FL':'rus_auto',
                       'HS_PRESENCE_FL': 'house_out_city', 'COT_PRESENCE_FL': 'big_house', 'GAR_PRESENCE_FL': 'garage', 'LAND_PRESENCE_FL': 'own_land',
                       'FACT_LIVING_TERM': 'how_living_in_fact', 
                       'WORK_TIME': 'time_month_work', 
                       'CREDIT': 'summa_credit', 'TERM': 'time_credit',
                       'LOAN_NUM_PAYM': 'payment', 'LOAN_DLQ_NUM': 'time_not_pay', 'LOAN_MAX_DLQ_AMT': 'max_sum_not_pay', 
                       'DATE_CREDIT':'date_credit'})

In [None]:
data.info()

Рассмотрим, что содержится в каждом признаке

In [None]:
for col in data: 
    print(f'----- признак {col} -----')
    print(data[col].unique())
    print('--'*5)

Изучив типы столбиков и их содержание, было решено только перевести 36 столбик "date_credit" в формат дата.

In [None]:
data = data.astype({'date_credit': 'datetime64[ns]'},
               errors='ignore')
# data.dtypes

In [None]:
print(f'Количество дублирующихся записей - {data.duplicated().sum()}.')

Изучим количество пропущенных значений в каждом столбике.

In [None]:
data.isnull().sum()

Большинство пропусков в стобцах с местом, департаментом и временем работы. Возможно данные пропуски связаны с рабочим статусом человека - 0 (безработный)

In [None]:
data[['id', 'work_status', 'work_tittle', 'where_work', 'work_departament', 'time_month_work']].loc[data['work_status'] == 0]

Действительно, большинство пропусков в стобцах с местом, департаментом и временем работы находится в строках с рабочим статусом - 0, т.е у безроботных. Заменим данные пропуски на "Не работает".     
Также существует ошибка со статусом "0", у клиента, у которого указано место, департамент и время работы. Здесь возможны два варианта, либо это ошибка данных в столбце статус, либо статус поменялся, а данные о работе, остались с предыдущего места.

In [None]:
data['work_tittle'] = np.where((data['work_status']==0), np.where(data['work_tittle'].isna(),'Не работает', data['work_tittle']), data['work_tittle'])

data['where_work'] = np.where((data['work_status']==0), np.where(data['where_work'].isna(),'Не работает', data['where_work']), data['where_work'])

data['work_departament'] = np.where((data['work_status']==0), np.where(data['work_departament'].isna(),'Не работает', data['work_departament']), data['work_departament'])

data['time_month_work'] = np.where((data['work_status']==0), np.where(data['time_month_work'].isna(),'Не работает', data['time_month_work']), data['time_month_work'])


In [None]:
data[['age', 'work_status', 'work_tittle', 'where_work', 'work_departament', 'time_month_work']].loc[data['work_status'] == 0]

In [None]:
data[['age', 'work_status', 'status_pens', 'work_tittle', 'where_work', 'work_departament', 'time_month_work', 'date_credit']].loc[(data['work_status'] == 0)  & (data['work_tittle']!='Не работает')]

Данные люди уже вышли на пенсию и соответственно остались данные о их последнем месте работы и стаже. 

#### <center>Задание: 
Добавьте в таблицу следующие признаки:
- день недели, месяц и год взятия кредита;
- адрес регистрации и адрес фактического пребывания клиента совпадают (1 -- совпадает, 0 -- не совпадает);
- адрес фактического пребывания клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- адрес регистрации клиента и его почтовый адрес совпадают(1 -- совпадает, 0 -- не совпадает);
- почтовый, фактический и адрес регистрации совпадают (1 -- совпадают, 0 -- не совпадают);
- область регистрации, фактического пребывания, почтового адреса и область расположения торговой точки, где клиент брал кредит совпадают (1 -- совпадают, 0 -- не совпадают);

In [None]:
data['data_credit_year'] = data['date_credit'].dt.year

data['data_credit_month'] = data['date_credit'].dt.month

data['data_name_month'] = data['date_credit'].dt.month_name()

data['data_credit_day'] = data['date_credit'].dt.weekday

data['data_day_name'] = data['date_credit'].dt.day_name()

data[['date_credit', 'data_credit_year', 'data_credit_month', 'data_credit_day', 'data_day_name']]

In [None]:
data['fact_and_real_ad'] =  np.where(data['fact_address']== data['reg_address'], 1, 0)

In [None]:
data['fact_and_post_ad'] =  np.where(data['fact_address']== data['post_address'], 1, 0)

In [None]:
data['fact_real_post_ad'] =  np.where(data['fact_and_post_ad'] == data['fact_and_real_ad'], 1, 0)

In [None]:
reg1 =  np.where(data['reg_address'] == data['region_tt_credit'], 1, 0)
data['region_where_crediat'] =  np.where(data['fact_and_post_ad'] == reg1, 1, 0)

In [None]:
data[['fact_address', 'reg_address', 'fact_and_real_ad', 'post_address', 'fact_real_post_ad', 'region_tt_credit', 'region_where_crediat']]

#### <center>Исследовательский анализ данных
- исследовать динамику количества кредитов по годам, месяцам;
- исследовать числовые и категориальные признаки в разрезе целевого признака;
- сделать выводы о влиянии признаков на целевой признак. 

In [None]:
plt.figure(figsize=(13, 6))
ax = sns.countplot(data=data,
                   x='data_credit_year')

ax.set_xlabel('Год');
ax.set_ylabel('Всего взято кредитов');

for container in ax.containers:
    ax.bar_label(container);
    
plt.grid(axis='y')


In [None]:
plt.figure(figsize=(13, 6))
ax = sns.countplot(data=data,
                   x='data_credit_month')

ax.set_xlabel('Месяц');
ax.set_ylabel('Всего взято кредитов');

ax.set_xticklabels(ax.get_xticklabels(),
                   fontsize=8,
                   rotation=45);

for container in ax.containers:
    ax.bar_label(container);
    
plt.grid(axis='y')


Рассмотрим сколько всего человек откликнулось.

In [None]:
data['reaction'].value_counts()

In [None]:
label = ['не откликнулись',  'откликнулись']
fig, axs = plt.subplots()
axs.pie(data['reaction'].value_counts(), labels=label, autopct='%1.2f%%', colors= ['#778899', '#87CEEB'])


plt.show()

Итак, всего 1 812 (или в процентном соотношении - 11,9%) человек откликнулись. Далее изучим наиболее часто встречающиеся признаки среди откликнувшихся и составим портрет клиента.

In [None]:
data1 = data[data['reaction'] == 1]
data1

Разделим признаки на числовые и категориальные.

In [None]:
# числовые
lst_ch = ['pers_income', 'summa_credit', 'time_credit', 'how_living_in_fact', 'payment', 'time_not_pay', 'max_sum_not_pay']
# категориальные
lst_cat = ['age', 'work_status', 'status_pens', 'gender', 'children', 'izh', 'education', 'where_work', 'work_title', 'org', 'capital_abroad', 
           'work_departament','reg_address',  'fact_address', 'region_tt_credit', 'region', 'home', 'auto', 'rus_auto', 'house_out_city', 'big_house', 
           'family_income', 'garage', 'own_land']

Уберем пару пунктов из списка категориальных признаков, поскольку там довольно большое количество вариантов и длинные названия, на графике тяжело будет прочитать, рассмотрим их после построение гистограм: 'where_work', 'work_departament', 'work_tittle', 'region_tt_credit'.

In [None]:
lst_cat2 = ['age', 'work_status', 'status_pens', 'gender', 'children', 'izh', 'education', 'org', 'capital_abroad', 
           'region_tt_credit', 'region', 'home', 'auto', 'rus_auto', 'house_out_city', 'big_house', 
           'family_income', 'garage', 'own_land']

In [None]:
for col in lst_cat2:
    fig, ax = plt.subplots(figsize=(20,10))
    sns.countplot(x = data1[col], hue= 'reaction', data = data1)
    plt.grid(axis='y')
    for container in ax.containers:
        ax.bar_label(container, fontsize=14)
        


In [None]:
where_work_percent = (data1['where_work'].value_counts() / len(data1)) * 100
where_work_table = pd.DataFrame({'Количество': data1['where_work'].value_counts(), 'Процент': where_work_percent.values})

where_work_table

In [None]:
work_departament_percent = (data1['work_departament'].value_counts() / len(data1)) * 100
work_departament_table = pd.DataFrame({'Количество': data1['work_departament'].value_counts(), 'Процент': work_departament_percent.values})

work_departament_table

In [None]:
work_tittle_percent = (data1['work_tittle'].value_counts() / len(data1)) * 100
work_tittle_table = pd.DataFrame({'Количество': data1['work_tittle'].value_counts(), 'Процент': work_tittle_percent.values})

work_tittle_table

In [None]:
region_tt_credit_percent = (data1['region_tt_credit'].value_counts() / len(data1)) * 100
region_tt_credit_table = pd.DataFrame({'Количество': data1['region_tt_credit'].value_counts(), 'Процент': region_tt_credit_percent.values})

region_tt_credit_table

Поскольку у откликнувшихся клиентов в большинстве своем нет недвижимости изучим живут ли они по прописки или нет.

In [None]:
fact_and_real_ad_percent = (data1['fact_and_real_ad'].value_counts() / len(data1)) * 100
fact_and_real_ad_table = pd.DataFrame({'Количество': data1['fact_and_real_ad'].value_counts(), 'Процент': fact_and_real_ad_percent.values})

fact_and_real_ad_table

Практически все живут по прописки, это означает, что скорее всего они живут в доме родителей, и можно предположить, что живут они с ними. Этот критерии тоже можно выделить при составлении портрета - человек живет не один, а со своей семьей.

In [None]:
data1[lst_ch].describe()

In [None]:
fig = plt.figure()
total_axes = len(lst_ch) # общее количество графиков (в данном случае
                             # берем равным количеству колонок в датафрейме
subplt = 1 # номер начального axes
for col in lst_ch:
    plt.subplots(figsize=(15,5))
    ax = sns.histplot(data1[col])

    ax.axvline(data1[col].mean(), color='red', label=f'Выборочное среднее {data1[col].mean():.2f}')
    ax.axvline(data1[col].median(), color='orange', label=f'Медиана {data1[col].median():.2f}')
    ax.axvline(data1[col].mode()[0], color='yellow', label=f'Мода {data1[col].mode()[0]:.2f}')

    q_1 = np.percentile(data1[col].dropna(), 1)
    ax.axvline(q_1, color='green', label=f'1 перцентиль {q_1:.2f}')
    q_5 = np.percentile(data1[col].dropna(), 5)
    ax.axvline(q_5, color='deepskyblue', label=f'5 перцентиль {q_5:.2f}')
    q_95 = np.percentile(data1[col].dropna(), 95)
    ax.axvline(q_95, color='blue', label=f'95 перцентиль {q_95:.2f}')
    q_99 = np.percentile(data1[col].dropna(), 99)
    ax.axvline(q_99, color='purple', label=f'99 перцентиль {q_99:.2f}')

    plt.grid(axis='y')

    plt.legend()
   

Мужчин откликнулось больше, но женщины также откликались, поэтому для составление портрета рассмотрим признаки относительно пола откликнувшихся.

In [None]:
for col in lst_cat2:
    fig, ax = plt.subplots(figsize=(20,10))
    sns.countplot(x = data1[col], hue= 'reaction', data = data1)
    plt.grid(axis='y')
    for container in ax.containers:
        ax.bar_label(container, fontsize=14)
        


Таким образом, рекомендуется настроить рекламу на следующих пользователей:
- мужчина;
- возрастной диапозон 22 - 42;
- работающий;
- должность - специалист, рабочий;
- не имеет детей/имеет 1-2 детей;
- на иждивении не находится никого/ 1-2 человека находятся на иждивении;
- образование среднее или средне специальное;
- работает в частной или государственной компании;
- не имеют в собственности квартиры, автомобиля, загородных домов и коттеджов, гаража и собственной земли;
- живет с семьей;
- доход семьи от 10 до 50 тысяч рублей, персональный доход в среднем составляет 16 173 рубля;
- сумма кредита в среднем 12 тысяч рублей;
- просрочки по кредиту отсутствуют.

- женщина
- 