# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Основные шаги исследования:** 

**1. Прочитать данные из таблицы и изучить общую информацию:**

   - посмотреть начало и конец датасета
   - выявить проблемы в данных
   - сделать предварительные выводы
   - наметить пути решения проблем с данными
  
**2. Выполнить предобработку данных:**


   - привести возможные причины появления пропущенных значений
   - выбрать метод устранения пропущенных значений
   - заполнить пропущенные значения
   - выбрать метод изменения типа данных
   - заменить вещественный тип данных на целочисленный
   - выбрать метод для удаления дубликатов в данных
   - привести возможные причины появления дубликатов
   - удалите дубликаты
   - выделите леммы в значениях столбца с целями получения кредита
   - описать подход к лемматизации целей кредита
   - провести лемматизацию целей кредита
   - перечислить выбранные "словари" для набора данных, и дать пояснения о причинах выбора
   - определить наличие артефактов в данных
   - дать пояснения о возможных причинах
   - обработать артефакты в данных
   - выполнить категоризацию данных

   

**3. Ответить на вопросы:**
   - есть ли зависимость между наличием детей и возвратом кредита в срок?
   - есть ли зависимость между семейным положением и возвратом кредита в срок?
   - есть ли зависимость между уровнем дохода и возвратом кредита в срок?
   - как разные цели кредита влияют на его возврат в срок?

Сопроводить ответы пояснениями - о чём именно говорит полученный результат.

**4. Написать общий вывод**

# Шаг 1. Прочитать данные из таблицы и изучить общую информацию:

In [3]:
import pandas as pd
data = pd.read_csv('D:\\Datasets\\data.csv')
display(data.head(15))
display(data.tail(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля
21511,0,-612.569129,29,высшее,0,гражданский брак,1,F,сотрудник,1,140068.472941,покупка жилья для сдачи
21512,0,-165.377752,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,147301.457769,получение дополнительного образования
21513,0,-1166.216789,35,среднее,1,женат / замужем,0,F,сотрудник,0,250986.142309,покупка жилья
21514,0,-280.469996,27,неоконченное высшее,2,Не женат / не замужем,4,M,компаньон,0,355988.407188,строительство недвижимости
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости



В первом приближении видно, что  в данных есть следующие проблемы:
  - отрицательные значения в колонке days_employed (общий трудовой стаж в днях)
  - пропуски (NaN) в колонке days_employed (общий трудовой стаж в днях)
  - тип данных float64 в колонке days_employed (общий трудовой стаж в днях), для последующего анализа лучше перевести в int64
  - символы в разных регистрах в колонке education (уровень образования клиента), для последующего лучше анализа перевести в нижний
  - пропуски (NaN) в колонке total_income (ежемесячный доход)
  - тип данных float64 в колонке total_income (ежемесячный доход), для последующего анализа лучше перевести в int64


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверка выявила следующие проблемы:
  - количество (19351) значений non-null в колонках days_employed и total_income меньше чем в остальных колонках (21525)
  - количество (19351) значений non-null в колонках days_employed и total_income равны друг другу, возможна есть связь в причине  

In [5]:
display(data.columns)

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Наименование колонок в нижем регистре, использован "змеиный регистр", соответствует предоставленной документации, у всех колонок тип данных object. 

**Вывод:**

Предоставленные данные можно считать пригодными для дальнейшего анализа, после устранения выявленных проблем. 

Основные пути решения:  
 - устранение пропусков, отрицательных значений 
 - приведение к единому типу данных
 - приведение к нижнему ригистру

 

# Шаг 2. Выполнить предобработку данных

##  Обработка пропусков

In [6]:
display(data.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В колонках days_employed (общий трудовой стаж в днях) и total_income (ежемесячный доход) обнаружено одинаковое количество пропусков 
2174, что составляет порядка 10 % от общего количества строк в массиве данных 21525. Необходимо дополнительное исследование.  

In [7]:
empty_value = data[data['days_employed'].isna() == True]
display(empty_value.head(15))
display(empty_value.tail(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21369,2,,42,среднее,1,в разводе,3,M,компаньон,0,,покупка жилой недвижимости
21390,20,,53,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилой недвижимости
21391,0,,52,среднее,1,женат / замужем,0,F,компаньон,0,,покупка жилья для семьи
21407,1,,36,среднее,1,женат / замужем,0,F,компаньон,0,,строительство жилой недвижимости
21414,0,,65,среднее,1,женат / замужем,0,F,пенсионер,0,,покупка своего жилья
21415,0,,54,среднее,1,женат / замужем,0,F,пенсионер,0,,операции с жильем
21423,0,,63,среднее,1,женат / замужем,0,M,пенсионер,0,,сделка с автомобилем
21426,0,,49,среднее,1,женат / замужем,0,F,сотрудник,1,,недвижимость
21432,1,,38,неоконченное высшее,2,Не женат / не замужем,4,F,сотрудник,0,,операции с жильем
21463,1,,35,высшее,0,гражданский брак,1,M,сотрудник,0,,на проведение свадьбы


In [8]:
data['days_employed'] = data['days_employed'].fillna(0)
data['total_income'] = data['total_income'].fillna(0)
display(data.isna().sum())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

После обработки колонок days_employed и total_income в массиве нет пропусков. 

## Замена типа данных

In [9]:
display(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


None

В колонках days_employed и total_income тип данных float64. Для последующего анализа данные лучше привести к единому типу int64

In [10]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
display(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int32 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int32 
 11  purpose           21525 non-null  object
dtypes: int32(2), int64(5), object(5)
memory usage: 1.8+ MB


None

Проверка подтверждает приведение к единому формату int64. 

## Обработка дубликатов

In [11]:
display(data.duplicated().sum())

54

Проверка выявила 54 явных дубликата в массиве данных. 

Возможной причиной появления дубликатов может быть некорректная работа банковского ПО.


In [12]:
duplicated_data = data[data.duplicated()].head(15)
display(duplicated_data)
duplicated_data = data[data.duplicated()].tail(15)
display(duplicated_data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,0,41,среднее,1,женат / замужем,0,F,сотрудник,0,0,покупка жилья для семьи
4182,1,0,34,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,0,свадьба
4851,0,0,60,среднее,1,гражданский брак,1,F,пенсионер,0,0,свадьба
5557,0,0,58,среднее,1,гражданский брак,1,F,пенсионер,0,0,сыграть свадьбу
7808,0,0,57,среднее,1,гражданский брак,1,F,пенсионер,0,0,на проведение свадьбы
8583,0,0,58,высшее,0,Не женат / не замужем,4,F,пенсионер,0,0,дополнительное образование
9238,2,0,34,среднее,1,женат / замужем,0,F,сотрудник,0,0,покупка жилья для сдачи
9528,0,0,66,среднее,1,вдовец / вдова,2,F,пенсионер,0,0,операции со своей недвижимостью
9627,0,0,56,среднее,1,женат / замужем,0,F,пенсионер,0,0,операции со своей недвижимостью
10462,0,0,62,среднее,1,женат / замужем,0,F,пенсионер,0,0,покупка коммерческой недвижимости


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
18755,0,0,58,среднее,1,женат / замужем,0,F,пенсионер,0,0,заняться образованием
19041,0,0,56,среднее,1,гражданский брак,1,F,сотрудник,0,0,на проведение свадьбы
19184,0,0,46,среднее,1,женат / замужем,0,F,сотрудник,0,0,свой автомобиль
19321,0,0,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,0,сделка с подержанным автомобилем
19387,0,0,38,высшее,0,гражданский брак,1,F,компаньон,0,0,на проведение свадьбы
19688,0,0,61,среднее,1,женат / замужем,0,F,пенсионер,0,0,операции с недвижимостью
19832,0,0,48,среднее,1,женат / замужем,0,F,сотрудник,0,0,ремонт жилью
19946,0,0,57,среднее,1,женат / замужем,0,F,сотрудник,0,0,сделка с подержанным автомобилем
20116,0,0,57,среднее,1,гражданский брак,1,M,пенсионер,0,0,свадьба
20165,0,0,42,среднее,1,женат / замужем,0,F,сотрудник,0,0,покупка жилья для семьи


Анализ фрагментов данных с явными дубликатами показал связь с наличием ранее выявленных пропусков в колонках days_employed и total_income, замененных на нулевые значения. Возможно, что обе проблемы имеют одну и туже причину.

Предлагаемый метод решения - удаление явных дубликатов с реиндексацией.

In [13]:
data = data.drop_duplicates().reset_index(drop=True)
display(data.duplicated().sum())

0

Проверка подтверждает отсутствие явных дубликатов в массиве. 

Далее выполним поиск и устранение неявных дубликатов в колонках с типом данным object. 

Наличие возможных артефактов в колонках с типом данных int64 проверим позднее.  

In [14]:
display(data['education'].unique())
display(data['family_status'].unique())
display(data['gender'].unique())
display(data['income_type'].unique())
display(data['purpose'].unique())

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

array(['F', 'M', 'XNA'], dtype=object)

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Проверка выявила наличие неявных дубликтов: 

 - в колонке education (уровень образования клиента) присутствует написание одних и тех же значений разными регистрами
 - в колонке family_status (семейное положение) присутствует написание буквы в верхнем регистре

Предлагаемый метод решения - приведение данных к нижнему регисту. 

 - в колонке gender (пол) присутствует неопределенное значение - XNA. 
 
Предлагаемый метод решения - посчитать количество строк, если не более 1% от общего числа, то изменить на значение группы заемщиков с большим количество выданных кредитов.   

 - в колонке purpose (цель получения кредита) присутствует альтернативное написание идентичных либо близких по смыслу значений 

Предлагаемый метод решения - использовать лемматизацию, как наиболее продвинутый вариант  поиска слов, записанных в разных формах.   

Возможные причины выявленных проблем:
- банковское ПО не использует справочники с предварительно заполненными данными
- банковское ПО не выполняет проверку / приведение в соответствие формату при внесении информации сотрудниками 
- исходные данные агрегированы из разных источников


In [15]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [16]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

Проверка подтверждает отсутствие неявных дубликатов 

In [17]:
display(data[data['gender'] == 'XNA'].count()[0])

1

In [18]:
display(data[data['gender'] == 'F'].count()[0])
display(data[data['gender'] == 'M'].count()[0])


14189

7281

Проверка выявила, что заемщиков женского пола в 2 раза больше чем мужского. Меняем некорректное значение в колонке gender с XNA на F.

In [19]:
data['gender'] = data['gender'].replace('XNA', 'F')
display(data[data['gender'] == 'XNA'].count()[0])
display(data[data['gender'] == 'F'].count()[0])

0

14190

Выполняем проверку, в колонке gender количество значений XNA стало 0, количество значений F было 14189 стало 14190.

Переходим к лемматизации.


## Лемматизация

In [20]:
from pymystem3 import Mystem
m = Mystem()
unique_value_purposes = data['purpose'].str.lower().unique().tolist()
display(unique_value_purposes)

ModuleNotFoundError: No module named 'pymystem3'

Анализ уникальных значений колонки purpose (цель получения кредита) подтверджает правильность выбранного метода решения  - использование лемматизации, как наиболее продвинутого варианта поиска слов, записанных в разных формах.

In [None]:
string = '; '.join(unique_value_purposes)
lemmas = m.lemmatize(string)
from collections import Counter
print(Counter(lemmas))

Выделим леммы в значениях колонки purpose. 

Определим наиболее предпочтительные цели в порядке убывания для дальнейшего использования в качестве словарей:

  - недвижимость
  - автомобиль
  - образование
  - свадьба

В качестве дополнительной проверки корректности выбранных целей, проведем визуальный анализ уникальных значений колонки purpose в связке с количеством выданных кредитов, и сравним с результатом работы функции, считающей количество выданных кредитов по выбранным леммам.  


In [None]:
counts_purpose = (data['purpose'].value_counts())
display(counts_purpose)
print('Итого:', counts_purpose.sum())

In [None]:
def group_purpose(purpose):
    purpose_lemmas = m.lemmatize(purpose)
    if 'недвижимость' in purpose_lemmas or 'жилье' in purpose_lemmas or 'строительство' in purpose_lemmas:
        return 'недвижимость'
    if 'автомобиль' in purpose_lemmas:
        return 'автомобиль'
    if 'образование' in purpose_lemmas:
        return 'образование'
    if 'свадьба' in purpose_lemmas:
        return 'свадьба'
    else: 
        return 'прочее'
data['category_purpose'] = data['purpose'].apply(group_purpose)
display(data['category_purpose'].value_counts())
print('Итого:', data['category_purpose'].count().sum())

Проверка проведена, результаты визуального анализа уникальных значений колонки purpose в связке с количеством выданных кредитов, соответствуют результатам работы функции, считающей количество выданных кредитов по выбранным леммам.

Переходим к выявлению и устранению артефактов в данных.

## Устранение артефактов

In [None]:
display(data['children'].unique())
display(data['days_employed'].unique())
display(data['dob_years'].unique())
display(data['education_id'].unique())
display(data['family_status_id'].unique())
display(data['total_income'].unique())

Проверка колонок с типом данных int64 предварительно выявила наличие следующих артефактов: 
   - в колонке children (количество детей в семье) присутствует отрицательное значение -1 и аномально большое значение 20
   - в колонке days_employed (общий трудовой стаж в днях) присутствуют отрицательные значения и аномально большие значения
   - в колонке dob_years (возраст клиента в годах) присутствует нулевое значение

Необходимо провести более детальный анализ для опеределения оптимальных методов устранения артефактов
 

In [None]:
counts_children = (data['children'].value_counts())
display(counts_children)

Аномальное значение 20 детей встречается 76 раз, отрицательное значение детей - 1 встречается 47 раз. 

Возможная причина выявленных проблем :

 - банковское ПО не выполняет проверку / приведение в соответствие формату при внесении информации сотрудниками
 
Применим метод замены аномальных значений в колонке children: удалим из 20 лишний 0, сделаем отрицательное количество детей положительным.


In [None]:
data['children'] = data['children'].replace(20, 2)
data['children'] = data['children'].replace(-1, 1)
counts_children = (data['children'].value_counts())
display(counts_children)

Проверка подтвердила корректность данных. Количество заемщиков в порядке убывания: без детей, 1 ребенок в семье, 2 ребенка, 3 ребенка и т.д., что соответствует общей демографической ситуации.      

In [None]:
data['days_employed'] = data['days_employed'].abs()
display(data['days_employed'].unique())

Отрицательные значения в колонке days_employed устранены с помощью функции получения модуля числа. 
Проверка подтвердила корректность данных. Дополнительно необходимо перевести дни трудового стажа в годы, сохранить в новой колонке years_employed и проверить на аномалии.


In [None]:
data['years_employed'] = (data['days_employed'] / 365).astype(int)
counts_years_employed = (data[data['years_employed'] > 47])
display(counts_years_employed.count()[0])
display(counts_years_employed.head(15))
display(counts_years_employed.tail(15))

После перевода трудового стажа в годы, проверка выявила в колонке years_employed аномальные значения в количестве 3447 (порядка 16%). Трудовой стаж посчитан в другой еденице измерения, вероятно в часах. Визуальный анализ фрагментов данных дает предположение, что проблемы в основном у пенсионеров, которые обычно имеют максимальное значение трудового стажа. Нужно провести дополнительную проверку.

In [None]:
display(counts_years_employed[counts_years_employed['income_type'] == 'пенсионер'].count()[0])

Проверка показала, что из общего количества аномальных значений трудового стажа 3447 пенсионеров 3443. Если начало трудовой деятельности считать с 18 лет, то до выхода на пенсию в 65 лет трудовой стаж обычно не превышет 47 лет. Поскольку значение трудового стажа не должно повлиять на исследуемые вопросы, в качестве метода решения предлагается устранить данный артефакт заменой аномальных значений трудового стажа в years_employed на 47.   

In [None]:
data.loc[data['years_employed'] > 47, 'years_employed'] = 47
display(data[data['years_employed'] > 47].count()[0])

Проверка подтвердила корректность данных. Далее выполним проверку аномалий в колонке dob_years.

In [None]:
display(data[data['dob_years'] == 0].count()[0])

Проверка выявила в колонке dob_years нулевые значения, на которые ранее были заменены NaN значения. Нужно провести дополнительную проверку и определить метод решения.

In [None]:
display(data[data['dob_years'] == 0].head(15))
display(data[data['dob_years'] == 0].tail(15))

Визуальная проверка не выявила каких-то зависимостей, вероятно NaN значения, которые были заменены на нулевые, в колонку dob_years попали в результате некорректной работы банковского ПО. 

Для решения проблемы с возрастом сделаем выборку с нулевыми значениями из колонки dob_years, определим можно ли по данным в колонке years_employed восстановить возраст с помощью среднеего или медианного значения.   

In [None]:
not_value_dob_years = data[data['dob_years'] == 0]
display(not_value_dob_years['years_employed'].value_counts())

Проверка выявила в колонке years_employed несколько групп данных, выделяющихся количеством,  по которым можно просчитать среднее и медианное значение, чтобы нормализовать данные возраста заемщиков.   

In [None]:
print('Среднее значение трудового стажа заемщика:', int(not_value_dob_years['years_employed'].mean()))
print('Медианное значение трудового стажа заемщика:',int(not_value_dob_years['years_employed'].median()))

В качестве метода решения предлагатся использовать медианное значение трудового стажа  4 года для замены нулевых значений возраста заемщиков в колонке dob_years. С учетом начала трудового в 18 лет, средний возраст заемщика с нулевыми значениями будет 22 года. 

In [None]:
data.loc[data['dob_years'] == 0, 'dob_years'] = 22
display(data[data['dob_years'] == 0].count()[0])

Проверка подтвердила корректность данных, значения в колонке dob_years нормализованы. Далее выполним проверку аномалий в колонке total_income.

In [None]:
display(data[data['total_income'] == 0].count()[0])
display(data[data['total_income'] == 0].head(15))
display(data[data['total_income'] == 0].tail(15))

Проверка выявила в колонке total_income нулевые значения в количестве 2120.  Визуальная проверка не выявила каких-то зависимостей, вероятно NaN значения, которые были заменены на нулевые, в колонку total_income попали в результате некорректной работы банковского ПО.

Информация в колонке total_income потребуется в дальнейшем анализе для подготовки ответов на поставленные вопросы, поэтому нужно пробовать нормализовать данные. 

Для решения проблемы сделаем выборку по типу занятости и определим можно ли по средним или медианным значениям доходов  заемщиков восстановить данные. 

In [None]:
not_value_total_income = data[data['total_income'] == 0]
display(not_value_dob_years['income_type'].value_counts())

In [None]:
mean_total_employees = data[data['income_type'] == 'сотрудник']['total_income'].mean()
median_total_employees = data[data['income_type'] == 'сотрудник']['total_income'].median()
mean_total_pensioners = data[data['income_type'] == 'пенсионер']['total_income'].mean()
median_total_pensioners = data[data['income_type'] == 'пенсионер']['total_income'].median()
mean_total_companions = data[data['income_type'] == 'компаньон']['total_income'].mean()
median_total_companions = data[data['income_type'] == 'компаньон']['total_income'].median()
print('Средний доход сотрудников:', int(mean_total_employees))
print('Медианный доход сотрудников:', int(median_total_employees))
print()
print('Средний доход пенсионеров:', int(mean_total_pensioners))
print('Медианный доход пенсионеров:', int(median_total_pensioners))
print()
print('Средний доход компаньонов:', int(mean_total_companions))
print('Медианный доход компаньонов:', int(median_total_companions))

Средние и медианные практически соответствуют. Предлагается взять медианные значения 3-х основных категорий, посчитать среднее и заменить им нулевые данные.

In [None]:
avrg_total_income = (median_total_employees + median_total_pensioners + median_total_companions) / 3
print('Средний доход основных категорий заемщиков:', int(avrg_total_income))

In [None]:
data.loc[data['total_income'] == 0, 'total_income'] = 135600
display(data[data['total_income'] == 0].count()[0])

Замена проведена. 

Проверка подтвердила корректность данных, значения в колонке total_income нормализованы. 

Работа над устранением артефактов проведена. Приступаем к категоризации данных. 


## Категоризация данных


Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

In [None]:
def category_children(row):
    children = row['children']
    if children == 0:
        return 'без детей'
    elif children == 1:
        return '1 ребенок'
    elif children == 2:
        return '2 ребенка'
    elif 3 <= children < 5:
        return '3-4 ребенка'
    else:
        return 'многодетные'

data['category_children'] = data.apply(category_children, axis=1)

Категоризация по наличию детей проведена

In [None]:
def category_total_income(row):
    total_income = row['total_income']
    if total_income <= 25000:
        return 'сверхнизкий доход'
    if 25000 < total_income <= 50000:
        return 'низкий доход'
    elif 50000 < total_income <= 130000:
        return 'средний доход'
    elif 130000 < total_income <= 2000000:
        return 'высокий доход'
    else:
        return 'сверхвысокий доход'

data['category_total_income'] = data.apply(category_total_income, axis=1)

Категоризация по уровню дохода проведена

In [None]:
def category_family_status(row):
    family_status = row['family_status']
    if (family_status == 'гражданский брак') or (family_status == 'женат / замужем'):
        return 'семейный'
    else:
        return 'одинокий'

data['category_family_status'] = data.apply(category_family_status, axis=1)

Категоризация по семейному положению проведена

**Вывод:**

Предоставленные данные содержали ошибки, основные из них:

- пропуски
- явные и неявные дубликаты
- артефакты (отрицательные значения, аномально большие значения)

Возможные причины выявленных проблем:

- сбои в работе банковского ПО
- банковское ПО не использует справочники с предварительно заполненными данными
- банковское ПО не выполняет проверку / приведение в соответствие формату при внесении информации сотрудниками
- исходные данные агрегированы из разных источников

Используя различные методы данные были нормализованы для дальнешего исседования. 

Заказчику рекомендуется обратить внимание на качество исходной информации при построения модели кредитного скоринга, т.к. даже правильный алгоритм с ошибками на входе приведёт к некорректным результатам и выводам.

# Шаг 3. Ответить на вопросы

**Вопрос: Есть ли зависимость между наличием детей и возвратом кредита в срок?**

In [None]:
grouped_by_children = data.groupby('category_children').agg({'debt': ['count', 'sum', 'mean']})
grouped_by_children.columns =['total', 'debt', '%']
display(grouped_by_children.sort_values('%', ascending=False))

In [None]:
#код ревьюера
data.groupby('children')['debt'].agg(['count', 'mean'])

**Ответ:**

Есть зависимость между наличием детей у заемщика и фактом погашения кредита в срок: 
- многодетные не имеют проблем с возвратом, но их количество в общем массиве очень мало  
- более надежны без детей (7.5% невозврата кредита)
- менее надежны с 2 детьми (9.4% ), а также с 1 ребенком (9.1% невозврата кредита)

Можно предположить, что воспитание детей зачастую связано с возникновением обстоятельств, требующих дополнительных или непредвиденных затрат. 

**Вопрос:  Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [None]:
grouped_by_category_family_status = data.groupby('category_family_status').agg({'debt': ['count', 'sum', 'mean']})
grouped_by_category_family_status.columns =['total', 'debt', '%']
display(grouped_by_category_family_status.sort_values('%', ascending=False))

**Ответ:**

Есть зависимость между семейным положением заемщика и  фактом погашения кредита в срок:

- более надежны семейные (7.9% невозврата кредита)
- менее надежны одинокие (8.5% невозврата кредита)

При незначительной разнице все же можно предположить, что семейные заемщики более ответственные, а в случае проблем с получением дохода для возврата кредита в срок, в качестве резервного варианта, задействуют доходы своей второй половины. 


**Вопрос:  Есть ли зависимость между полом заемщика и возвратом кредита в срок?**

In [None]:
grouped_by_category_gender = data.groupby('gender').agg({'debt': ['count', 'sum', 'mean']})
grouped_by_category_gender.columns =['total', 'debt', '%']
display(grouped_by_category_gender.sort_values('%', ascending=False))

**Ответ:**

Есть зависимость между полом заемщика и фактом погашения кредита в срок:

- более надежны женщины (7.0% невозврата кредита)
- менее надежны мужчины (10.2% невозврата кредита)

Можно предположить, что женщины по своей природе менее склонны к рискам, их больше тревожит угроза штрафных санкций и негативная кредитная история. Также возможно, что в качестве подстраховки они обращаться за финансовой помощью к мужчинам.  

In [None]:
#код ревьюера
data.groupby('gender').debt.mean()

**Вопрос:  Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [None]:
grouped_by_total_income = data.groupby('category_total_income').agg({'debt': ['count', 'sum', 'mean']})
grouped_by_total_income.columns =['total', 'debt', '%']
display(grouped_by_total_income.sort_values('%', ascending=False))

**Ответ:**

Есть зависимость между уровнем дохода заемщика и фактом погашения кредита в срок:

- наиболее надежны с низким (от 25 тыс. руб. до 50 тыс. руб.) уровнем дохода (6.0% невозврата кредита)
- менее надежны со средним (от 50 тыс. руб. до 130 тыс. руб.) уровнем дохода (8.2% невозврата кредита) и высоким (от 130 тыс. руб. до 200 тыс. руб.) уровнем дохода (8.0% невозврата кредита)
- наименее надежны со сверхвысоким (более 200 тыс. руб.) уровнем дохода (50.0% невозврата кредита) и сверхнизким (менее 25 тыс.руб.) уровнем дохода (12.5% невозврата кредита), но их количество в общем массиве очень мало. 

Можно предположить, что средний и высокий уровни дохода повышют аппетит к риску, а низкий доход дисциплинирует. 


**Вопрос:  Как разные цели кредита влияют на его возврат в срок?**

In [None]:
grouped_by_category_purpose = data.groupby('category_purpose').agg({'debt': ['count', 'sum', 'mean']})
grouped_by_category_purpose.columns = ['total', 'debt', '%']
display(grouped_by_category_purpose.sort_values('%', ascending=False))

**Ответ:**

Есть зависимость между между целями кредита заемщика и фактом погашения кредита в срок:

- наиболее надежны, берущие на сделки с недвижимостью (7.2% невозврата кредита)
- менее надежны, берущие на свадьбу (7.9% невозврата кредита)
- наименее надежны, берущие на сделки с автомобилем (9.3% невозврата кредита) и образование (9.2% невозврата кредита)

Можно предположить, что сделки с недвижимостью большинством воспринимаются как долгосрочные инвестиции в свое будущее, а также своих детей. Риск утраты дорогостоящих инвестиций и негативные последствия, в случае несвоевременного погащений кредита оказывают серьезное психологическое давление, поэтому погашение из этой категории выполняется в более приоритетном порядке, может даже за счет просрочки по другим категориям. 



**Сводная информация зависимостей категорий заемщиков и возврата кредита в срок представлена в таблице ниже**

In [None]:
debt_total_pivot = data.pivot_table(index = ['category_family_status', 'category_children', 'category_total_income', 'category_purpose'], columns = 'debt', values = 'purpose', aggfunc = 'count')
debt_total_pivot = debt_total_pivot.fillna(0)
debt_total_pivot['total'] = (debt_total_pivot[1] + debt_total_pivot[0])
display(debt_total_pivot_final.head(30))
display(debt_total_pivot.tail(30))

# Шаг 4. Общий вывод

В предоставленных исходных данных выявлены зависимости между семейным положением, количеством детей в семье, уровнем дохода и целями кредита. 


Профиль заемщика с повышенным риском: 
- одинокий (мужчина) 
- имеющий 2 детей 
- со средним уровнем дохода
- кредит для сделок с автомобилем


Заказчику рекомендуется:
- учесть полученные результаты при построении модели кредитного скоринга для оценки способности потенциального заемщика вернуть кредит в срок
- провести анализ работы банковского ПО и бизнесс процессов кредитного отдела для повышения качества исходных данных и устранения выявленных проблем в данных


## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.