## Исследование надёжности заёмщиков

**Цель**: проверить гипотезы о клиентах банка для формирования рекомендаций при построении модели кредитного скоринга.

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга**.

Описание данных:

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* ...

**Основные этапы исследования**:
1. Изучение общей информации о данных
2. Предобработка данных: 
    * дубликаты, 
    * аномалии, 
    * ...
3. Проверка гипотез:
    * 
    * 

**Вывод**: ...

In [11]:
# загрузка ВСЕХ нужных библиотек

import pandas as pd
from pymystem3 import Mystem
from collections import Counter
import matplotlib.pyplot as plt

In [12]:
# загрузка данных

data = pd.read_csv('data.csv')

### 1. Изучение общей информации о данных

In [3]:
# head() или sample(), info(), shape(), duplicated(), value_counts(), isnull().sum(),*describe(), *plot(kind='bar')

Рассказать: 
- что обнаружили, 
- сделать предположения, почему могло так произойти, 
- *придумать способы проверки, 
- *если это возможно, реализовать их в следующих шагах
- *зафиксировать возможные рекомендации

In [4]:
data.describe() 

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [16]:
# посмотреть на дубли

data[data.duplicated(keep=False)].sort_values(['dob_years'])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
19321,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,сделка с подержанным автомобилем
15892,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,сделка с подержанным автомобилем
18328,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
3452,0,,29,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости
8629,1,,30,высшее,0,женат / замужем,0,F,сотрудник,0,,покупка коммерческой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
13639,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,автомобиль
3609,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,жилье
12389,0,,64,среднее,1,женат / замужем,0,F,пенсионер,0,,дополнительное образование
5865,0,,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,,операции со своей недвижимостью


In [7]:
# исследуем отдельно проблемные строки

data_isnull = data[data['total_income'].isnull()]

In [6]:
# проверка предположения о симметричности пропусков

data[data['days_employed'].isna() & data['total_income'].isna()].shape[0]

2174

In [8]:
# value_counts() по каждому интересному признаку

In [9]:
# принимаем решение, как именно мы будем проводить обработку, почему именно так, *зафиксировать рекомендации

...

**Промежуточный вывод**

- **children** Присутствует 47 отрицательных значений с "-1", а также аномалия в виде 20 детей ...
- **days_employed** Большая часть данных стобца со знаком "-". Однако, эти данные представляют из себя 84% всей выборки. ... будут заменены на медиану исходя из определенного критерия, который будет описан далее. 
    - Причины пропущенных значений в столбцах **days_employed** и **income**:
        - Во-первых, это может быть из-за неправильной выгрузки данных. Оставим это предположение до того момента, пока не убедимся в неверности других предположений.**Наиболее вероятно**
        - Во-вторых, одной из гипотез было предположение об отсутствии трудового опыта у данной части выборки. Однако, если распределение по возрасту в данной группе равномерное по всем возрастам выборки. Также большая доля этой части выборки трудоустроена. **Гипотеза не подтверждена**
        - В-третьих, возможно, что эта часть выборки не имеет официального трудоустройства. Данная гипотеза вызывает сомнение в связи с тем, что при наличии достаточно большого стажа работы у представителей выборки у ее представителей нет официального трудового стажа. К тому же 18.9% данной выборки являются госслужащими. **Гипотез не подтверждена**
- **age** .. 0 возраст у 101 человека.
- **education & education_id** Необходимо будет привести данную категорийнуй переменную к общему виду. Избавиться от разного регистра. Но можно не тратить на это время и использовать следующий столбец **education_id**. Это позволит использовать меньше памяти и не повлияет на качество анализа.
- ...

### 2. Предобработка данных

In [10]:
# последовательность действий

In [11]:
# замена типа astype(), приведение к нижнему регистру str.lower(), удаление аномалий, категоризация (?), словари (?)

In [12]:
# что-то изменили - > посмотрели не изменилось ли количество дублей

In [None]:
# обработка пустых значений

data['total_income'].fillna(data.groupby(['age_group','education','gender'])['total_income'].transform('median'))

In [None]:
# категории: "на глазок", value_counts(), функция, пандаметод

In [None]:
def income_group(income):
    '''
    Распределение по уровням дохода
    :param income: доход заёмщика
    :return: название категории по уровню дохода
    '''
    try:
        if income <= data['total_income'].quantile(.25).astype('int'):
            return 'низкий доход'
        if data['total_income'].quantile(.25).astype('int') < income <= data['total_income'].quantile(.75).astype('int'):
            return 'средний доход'
        if income > data['total_income'].quantile(.75).astype('int'):
            return 'высокий доход'
    except:
        return 'ошибка'

In [None]:
# проверим работоспособность функции

income_group(20000)

In [None]:
# вариант 

pd.qcut(data['total_income'], 4, ['очень низкий доход', 'низкий доход', 'средний доход', 'высокий доход'])

In [17]:
# словари

educ_dict = data[['education_id', 'education']]
educ_dict = educ_dict.drop_duplicates().reset_index(drop=True)

**Промежуточный вывод**
- ...
- ...
- ...

### 3. Ответы на вопросы

- **Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [22]:
data.groupby(['family_status']).agg({'debt':'mean'}).sort_values(['debt'])

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
вдовец / вдова,0.065625
в разводе,0.07113
женат / замужем,0.075202
гражданский брак,0.09289
Не женат / не замужем,0.097405


In [25]:
data.groupby('family_status')[['debt']].mean().sort_values(['debt']).style.format({'debt': '{:.2%}'})

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
вдовец / вдова,6.56%
в разводе,7.11%
женат / замужем,7.52%
гражданский брак,9.29%
Не женат / не замужем,9.74%


**Промежуточный вывод**
- Клиенты, которые не состоят в официальном браке, могут чаще не отдавать кредитные средства (доля должников на 2 и более процентных пункта выше, чем у остальных клиентов).
- ...
- ...

### 4. Вывод

**Удалось подтвердить гипотезу** о влиянии различных характеристик клиента на факт погашения кредита в срок. Каждый из рассмотренных параметров оказывает влияние на надёжность заёмщика. Рассмотренные факторы по-разному влияют на надёжность заёмщиков. Например, семейное положение оказалось более значимым фактором, чем уровень дохода.

**Зависимость между рассмотренным параметром и возвратом кредита в срок**  
*(коэффициенты в порядке убывания надёжности / возрастания рисков для банка)*  
  

1. **Наличие и количество детей:**  

|Количество детей|Коэффициент надёжности|
|:----|:----|
|нет детей|0.075465|
|многодетные|0.081579|
|1 ребенок|0.091471|
|2 ребенка|0.094499|  
  
...

Полученные данные о связи различных факторов с фактом погашения кредита в срок рекомендуется использовать при построении модели кредитного скоринга в сочетании с другими доступными параметрами.  

- В ходе анализа исходного набора данных было проведено (были устранены пропуски в двух колонках с числовыми значениями - 'total_income' и 'days_employed').  
- После __устранения явных и скрытых дупликатов__ и удаления оставшихся после обогащения пропусков объем датасета сократился на 0.05%
- Были устранены __выбросы__ в колонках 'days_employed' и 'children': в первом случае выбросы возникли в результате системной ошибки (данные были внесены в часах, а не в днях); во втором случае ошибка, вероятнее всего была допущена людьми, вносившими данные в систему
- ...

**Необходимо**

1. Запросить в отделе по работе с клиентами информацию о возможности брать кредит без подтверждения дохода. 

2. Сообщить коллегам, занимающимся выгрузкой о наличие дубликатов, если вопрос не разрешится, запросить индентификационный номер клиента к датасету.

3. Прописать в задаче на поставку данных формат данных (пол только F и M, положительные значения). Приложить информацию о найденных аномалиях.

In [None]:
# лемматизация

unique_purpose = data['purpose'].unique()

In [None]:
lemmas_list = []
m = Mystem()
for purpose in unique_purpose:
    lemmas = ''.join(m.lemmatize(purpose)).strip()
    lemmas_list.append(lemmas)

Выделяются группы:
- операции с автомобилем (ключевое слово - автомобиль)
- операции с недвижимостью (ключевые слова: жилье, недвижимость)
- проведение свадьбы (ключевое слово: свадьба)
- получение образования (ключевое слово: образование)

In [None]:
# Функция для назначения категории цели

def create_category_purpose(row):
    lem_purpose = m.lemmatize(row['purpose'])
    try:
        if 'автомобиль' in lem_purpose:
            return 'операции с автомобилем'
        if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose ):
            return 'операции с недвижимостью'
        if 'свадьба' in lem_purpose:
            return 'проведение свадьбы'
        if 'образование' in lem_purpose:
            return 'получение образования'
    except:
        return 'нет категории'