# Исследование надежности заемщиков.

**Описание проекта**

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Вопросы, на которые нужно будет ответить в процессе работы по проекту**

- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

## Обзор данных

- Импорт библиотек
- Чтение таблиц датафрейма
- Изучение общей информации о данных в датафрейме

### Импорт библиотек и сохраниение данных в переменную

Импортируем библиотеку `pandas` для работы с датафреймом.

In [506]:
import pandas as pd

Считываем файл `data.csv` из папки `/datasets` и сохраняем его в переменной `data`

In [507]:
data = pd.read_csv('/datasets/data.csv')

### Получение первичной информации по датафрейму

Изучим начало и конец, а так же информацию и статистику по датафрейму

In [508]:
# Смотрим первые 10 строк датафрейма
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [509]:
# Смотрим последние 10 строк датафрейма
data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


In [510]:
# Смотрим статистику по датафрейму
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [511]:
# Смотрим общую информацию по датафрейму
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Описание столбцов и выявленные проблемы с данными в датафрейме

**Описание столбцов**:

`children` — количество детей в семье

`days_employed` — общий трудовой стаж в днях

`dob_years` — возраст клиента в годах

`education` — уровень образования клиента

`education_id` — идентификатор уровня образования

`family_status` — семейное положение

`family_status_id` — идентификатор семейного положения

`gender` — пол клиента

`income_type` — тип занятости

`debt` — имел ли задолженность по возврату кредитов

`total_income` — ежемесячный доход

`purpose` — цель получения кредита

**Выявленные проблемы:**
- Отрицательные значения в столбце дети
- Отрицательные значения в столбце с трудовым стажем
- Присутствуют пустые строки в столбце с трудовым стажем
- Присутствуют пустые строки в столбце с ежемесячным доходом
- Минимальный возраст - 0
- Максимальный трудовой стаж - 401755 дней или примерно 1100 лет
- 20 Детей выглядит странно
- Разный регистр значений в столбце уровень образования
- Значения с плавающей запятой в столбце с ежемесячным доходом
- Некоторые столбцы требуют переименования для лучшего понимания их содержимого

## Предобработка данных

### Изменение названий столбцов

Сначала переименуем названия столбцов в датафрейме.

In [512]:
# Выведем названия столбцов
data.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [513]:
# Переименовываем столбцы
data.rename(columns = {'children' : 'number_of_children',
                       'dob_years' : 'client_age_in_years',
                       'education' : 'education_level',
                       'education_id' : 'education_level_id',
                       'income_type' : 'employment_type',
                       'debt' : 'credit_debt_status',
                       'total_income' : 'monthly_income',
                       'purpose' : 'credit_purpose'}, inplace = True) 

In [514]:
# Проверяем названия столбцов после переименования
data.columns

Index(['number_of_children', 'days_employed', 'client_age_in_years',
       'education_level', 'education_level_id', 'family_status',
       'family_status_id', 'gender', 'employment_type', 'credit_debt_status',
       'monthly_income', 'credit_purpose'],
      dtype='object')

### Избавление от отрицательных значений

Ранее были выявлены отрицательные значения в столбцах с количеством детей и трудовым стажем.
Сложно сказать что могло быть причиной появления таких значений.
Либо это ошибка ввода данных в БД либо данные могли некоректно выгрузиться из БД.
В любом случае, для дальнейшего исследования, от них нужно избавиться.

In [515]:
# Посмотрим уникальные значения в столбце с количеством детей
data['number_of_children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Выявлены аномальные значения -1 и 20. Сначала разберемся с отрицательными значениями.

In [516]:
# Посмотрим в скольких строках встречается отрицательное значение
data['number_of_children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: number_of_children, dtype: int64

Выявлено 47 строк с отрицательными значениями в столбце с количеством детей.
Скорее всего имела место ошибка ввода данных. Заменим отрицательные значения на положительные по модулю.

In [517]:
# Применяем abs() к столбцу `number_of_children` для избавления от отрицательных значений
data['number_of_children'] = data['number_of_children'].abs()

In [518]:
# Проверяем результат обработки
data['number_of_children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: number_of_children, dtype: int64

Проделаем ту же операцию со столбцом с трудовым стажем.

In [519]:
# Еще раз посмотрим статистику по столбцу `days_employed`
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [520]:
# # Применяем abs() к столбцу `days_employed` для избавления от отрицательных значений
data['days_employed'] = data['days_employed'].abs()

In [521]:
# Проверяем результат обработки
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

От отрицательных значений, мешающих дальнейшему исследованию, избавились.

Максимальные значения в столбцах `days_employed` и `number_of_children` все еще смотрятся аномальными

### Заполнение пропусков

Ранее были выявлены пропуски в столбцах `days_employed` и `monthly_income`.

Требуется проанализировать эти пропуски,
вычислить их долю по отношению к заполенным строкам,
попытаться понять причину их возникновения и заполнить значениями.

Сначала посчитаем долю пропусков по отношению к заполненным строкам.

In [522]:
# Посчитаем количество пропусков в столбце `days_employed`
display('Количество пропусков в столбце days_employed: {:}'.format(data['days_employed'].isna().sum()))
# Посчитаем долю пропусков в столбце `days_employed`
display('Доля пропусков в столбце days_employed: {:.0%}'.format(data['days_employed'].isna().sum() / data['days_employed'].shape[0]))

'Количество пропусков в столбце days_employed: 2174'

'Доля пропусков в столбце days_employed: 10%'

In [523]:
# Посчитаем количество пропусков в столбце `monthly_income`
display('Количество пропусков в столбце monthly_income: {:}'.format(data['monthly_income'].isna().sum()))
# Посчитаем долю пропусков в столбце `monthly_income`
display('Доля пропусков в столбце monthly_income: {:.0%}'.format(data['monthly_income'].isna().sum() / data['monthly_income'].shape[0]))

'Количество пропусков в столбце monthly_income: 2174'

'Доля пропусков в столбце monthly_income: 10%'

Как видно из полученных цифр, количество строк с пропусками, в исследуемых столбцах, одинаковое. Их доля составляет 10% от общего количества строк.

Проверим гипотезу, что пропуски в столбцах находятся в одних и тех же строках.

In [524]:
# Сохраним в переменную результат сравнения датафреймов с пропусками по столбцам `monthly_income` и `days_employed`
data_nan = data[data['days_employed'].isna()] == data[data['monthly_income'].isna()]
# Выведем информацию о данных в получившейся переменной
data_nan.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
number_of_children     2174 non-null bool
days_employed          2174 non-null bool
client_age_in_years    2174 non-null bool
education_level        2174 non-null bool
education_level_id     2174 non-null bool
family_status          2174 non-null bool
family_status_id       2174 non-null bool
gender                 2174 non-null bool
employment_type        2174 non-null bool
credit_debt_status     2174 non-null bool
monthly_income         2174 non-null bool
credit_purpose         2174 non-null bool
dtypes: bool(12)
memory usage: 42.5 KB


Гипотеза подтвердилась. Количество строк в переменной равно количеству пропусков в исследуемых столбцах. 
Соответственно, пропуски в обоих столбцах находятся в одних и тех же строках.

Помотрим несколько строк с пропусками чтобы понять что с ними можно сделать дальше.

In [525]:
# Посмотрим первые 15 строк с пропусками.
data[data['days_employed'].isna()].head(15)

Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level,education_level_id,family_status,family_status_id,gender,employment_type,credit_debt_status,monthly_income,credit_purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Из выборки видно, что пропуски встречаются у клиентов банка разных возрастов, уровня образования, семейного положения и т.д..

Можно предположить, что отсутствие данных в этих столбцах стали следствием ошибкой ввода данных БД или они потерялись при экспорте из БД, а не отсутствием трудового стажа и дохода у клиентов банка.

Т.к. пропущенные значения встречаются в достаточно большом проценте данных, имеет смысл заполнить их медианными значениями.

Использовать медиану, а не просто среднее значение, в данном случае, предпочтительней т.к. это позволит отсечь аномально большие и маленькие значения из расчетов, что даст более объективные средние значения. 

In [526]:
# Заполняем медианными значениями пропуски в столбце `days_employed`
data['days_employed'] = data['days_employed'].fillna(value = data['days_employed'].median())
# Заполняем медианными значениями пропуски в столбце `monthly_income`
data['monthly_income'] = data['monthly_income'].fillna(value = data['monthly_income'].median())
# Проверяем наличие пропусков в датафрейме
data.info()
# Выборочно посмотрим строки, где ранее были пропуски.
# Например по строкам с индексом 82 и 83, где ранее эти пропуски были выявлены
data[82:84]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
number_of_children     21525 non-null int64
days_employed          21525 non-null float64
client_age_in_years    21525 non-null int64
education_level        21525 non-null object
education_level_id     21525 non-null int64
family_status          21525 non-null object
family_status_id       21525 non-null int64
gender                 21525 non-null object
employment_type        21525 non-null object
credit_debt_status     21525 non-null int64
monthly_income         21525 non-null float64
credit_purpose         21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level,education_level_id,family_status,family_status_id,gender,employment_type,credit_debt_status,monthly_income,credit_purpose
82,2,2194.220567,50,высшее,0,женат / замужем,0,F,сотрудник,0,145017.937533,жилье
83,0,2194.220567,52,среднее,1,женат / замужем,0,M,сотрудник,0,145017.937533,жилье


Видно, что пропуски были заменены на медианные значения. Работу по устранинию пропусков можно считать законченой.

### Изучение столбцов на наличие аномалий и их исправление

Пройдемся по всем столбцам по отдельности, поищем аномалии и попробуем их устранить.

**Вернемся к столбцу с количеством детей.**

Ранее было выявлено 76 клиентов с 20-ю детьми. Учитывая что ближайшее максимальное значение 5 детей - тут скорее всего имеет место ошибка ввода данных. Поменяем 20 на 2.

In [527]:
# Посмотрим еще раз уникальные значения в столбце `number_of_children`
data['number_of_children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: number_of_children, dtype: int64

In [528]:
# На всякий случай, посмотрим на нескольких многодетных клиентов
# Создадим переменную `number_of_children_20` с данными таких клиентов
number_of_children_20 = data[data['number_of_children'] == 20]
# Выведем первые 5 строк получившегося датафрема на экран
number_of_children_20.head()

Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level,education_level_id,family_status,family_status_id,gender,employment_type,credit_debt_status,monthly_income,credit_purpose
606,20,880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля


Если очень постараться, к 21 году, можно завести 20 детей, но больше похоже на ошибку.

In [529]:
# Меняем значения 20 на 2
data['number_of_children'] = data['number_of_children'].replace(20, 2)
# Проверяем уникальные значения в столбце после изменений
data['number_of_children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: number_of_children, dtype: int64

Теперь значения в столбце с количеством детей больше похожи на правду

**Посмотрим на столбец с возрастом клиентов.** 

При первичном исследовании датафрейма в нем были выявлены аномалии

In [530]:
# Посмотрим статистику по столбцу `client_age_in_years`
data['client_age_in_years'].describe()

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: client_age_in_years, dtype: float64

Минимальный возраст 0. Выглядит как ошибка. Посмотрим количество таких клиентов.

In [531]:
# Выводим первые 5 уникальные значений в столбце `client_age_in_years` отсоритрованных по возрастанию индекса
data['client_age_in_years'].value_counts().sort_index(ascending=True).head()

0     101
19     14
20     51
21    111
22    183
Name: client_age_in_years, dtype: int64

Выявлено 101 клиентов с возрастом 0. Учитывая что следующее, по возрастанию, значение 19 - считаем это ошибкой.

Можно просто заполнить эти строки средним возрастом, но тогда появятся сорокалетние студенты.

Придется усложнить задачу и заполнить нулевые значения средними значениями по типу занятости `employment_type`.

In [532]:
# Создаем переменную со средним возрастом клиентов сгруппированным по типу занятости.
mean_age_employment_type = data.groupby('employment_type')['client_age_in_years'].mean()
# Округлим значения до целых чисел
mean_age_employment_type = mean_age_employment_type.astype(int)

In [533]:
# Заменяем нулевые значения на средние по типу дохода
data.loc[(data['employment_type'] == 'безработный') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['безработный']
data.loc[(data['employment_type'] == 'в декрете') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['в декрете']
data.loc[(data['employment_type'] == 'госслужащий') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['госслужащий']
data.loc[(data['employment_type'] == 'компаньон') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['компаньон']
data.loc[(data['employment_type'] == 'пенсионер') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['пенсионер']
data.loc[(data['employment_type'] == 'предприниматель') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['предприниматель']
data.loc[(data['employment_type'] == 'сотрудник') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['сотрудник']
data.loc[(data['employment_type'] == 'студент') & (data['client_age_in_years'] == 0), 'client_age_in_years'] = mean_age_employment_type['студент']

In [534]:
# Посмотрим еще раз статистику по столбцу `client_age_in_years`
data['client_age_in_years'].describe()

count    21525.000000
mean        43.495238
std         12.230322
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: client_age_in_years, dtype: float64

Теперь данные в столбце с возрастом клиента `client_age_in_years` выглядят более правдоподобно.

**Разберем подробней столбец с трудовым стажем.**

Ранее в нем были выявлены аномально большие значения. Попробуем что-то с этим сделать.

In [535]:
# Еще раз посмотрим статистику по столбцу
data['days_employed'].describe()

count     21525.000000
mean      60378.032733
std      133257.558514
min          24.141633
25%        1025.608174
50%        2194.220567
75%        4779.587738
max      401755.400475
Name: days_employed, dtype: float64

Максимальное значение 1100 лет. Столько не живут и не работают.

Попробуем выяснить количество клиентов с аномально большим трудовым стажем.

Будем исходить из того что работать можно с 14 лет. Зная возраст, можно вычислить максимально возможный трудовой стаж.(На самом деле все должно расчитываться сложнее, но нам нужны примерные цифры для понимания)

In [536]:
# Создадим отдельный датафрейм для исследования
data_for_employment = data.copy()
# Создадим в этом датафреме отдельный столбец с максимально возможным значением трудового стажа
data_for_employment['max_days_of_employment'] = (data_for_employment['client_age_in_years'] - 14) * 365
# Создадим датафрейм в который сохраним строки по клиентам у которых указанный стаж превышает максимально возможный
wrong_employment_data = data_for_employment[data_for_employment['days_employed'] > data_for_employment['max_days_of_employment']]
# Выведем статистику по столбцам получившегося датафрейма
wrong_employment_data.describe()

Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level_id,family_status_id,credit_debt_status,monthly_income,max_days_of_employment
count,3469.0,3469.0,3469.0,3469.0,3469.0,3469.0,3469.0,3469.0
mean,0.096281,362544.494013,59.272989,0.914961,0.980974,0.052465,137306.641663,16524.641107
std,0.3387,36194.383118,6.631825,0.515591,1.315416,0.222994,80215.465684,2420.61624
min,0.0,2194.220567,19.0,0.0,0.0,0.0,20667.263793,1825.0
25%,0.0,346393.178654,56.0,1.0,0.0,0.0,83104.088771,15330.0
50%,0.0,364906.205736,60.0,1.0,0.0,0.0,119178.882097,16790.0
75%,0.0,383083.871098,64.0,1.0,2.0,0.0,169873.861094,18250.0
max,4.0,401755.400475,74.0,4.0,4.0,1.0,735103.270167,21900.0


Всего 3469 клиента с аномальным рабочим стажем.

Из статистики видно, что средний возрас клиента с аномальным рабочим стажем 59 лет.

Посмотрим разбивку по возрасту в данном датафрейме.

In [537]:
# Выведем первые 15 уникальных значений в столбце `client_age_in_years` отсоритрованных по возрастанию
wrong_employment_data['client_age_in_years'].value_counts().head(15)

59    271
60    243
62    235
61    216
57    212
58    208
63    192
56    184
64    179
55    163
54    145
66    139
65    136
67    132
53    106
Name: client_age_in_years, dtype: int64

Из выборки видно что основная масса клиентов с аномальным стажем - это клиенты возраста 50+.
Есть предположение, что вместо дней указаны часы. Но т.к. в исследовании зависимость между трудовым стажем и возвратом кредита выявлять не требуется - опустим этот вопрос.

**Далее посмотрим столбцы с данными об образовании `education_level` и `education_level_id`.**

In [538]:
# Посмотрим уникальные значения в столбце об уровне образования
data['education_level'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Видим что значения уровня образования записаны в разных регистрах. Нужно будет привести эти строки к нижнему регистру.

In [539]:
# Приводим данные в столбце к нижнему регистру
data['education_level'] = data['education_level'].str.lower()

In [540]:
# Проверим результат
data['education_level'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Осталось 5 уникальных значений. 

Проверим количество id

In [541]:
# Посмотрим уникальные значения в столбце с id уровней образования
data['education_level_id'].unique()

array([0, 1, 2, 3, 4])

5 id и 5 уникальных значений. Со столбцами с данными об образовании разрбрались

**Изучим столбцы с семейным положением `family_status` и `family_status_id`**

In [542]:
# Посмотрим уникальные значения в столбце с семейным положением
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

Видим 5 уникальных значений, повторов нет, но все равно видны записи в разных регистрах.

In [543]:
# Приводим данные в столбце к нижнему регистру
data['family_status'] = data['family_status'].str.lower()

In [544]:
# Проверим результат
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [545]:
# Посмотрим уникальные значения в столбце с id семейного положения
data['family_status_id'].unique()

array([0, 1, 2, 3, 4])

5 id и 5 уникальных значений. Со столбцами с данными о семейном положении разобрались

**Посмотрим данные в столбце пол клиента `gender`**

In [546]:
# Посмотрим уникальные значения в столбце
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

XNA - что-то странное, посмотрим как часто втречается это значение в таблице

In [547]:
# Выведем уникальные значения в столбце
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Значение встречается всего один раз. Просто поменяем его например на M. На исследование это повлиять не должно

In [548]:
# Заменяем аномальное значение
data['gender'] = data['gender'].replace('XNA', 'M')

In [549]:
# Проверяем результат
data['gender'].value_counts()

F    14236
M     7289
Name: gender, dtype: int64

Со столбцом с полом клиентов разобрались. Скорее кто-то просто не указал пол в анкете

**Посмотрим столбец с типом занятости клиентов `employment_type`**

In [550]:
data['employment_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Со столбцом с типом занятости клиентов все в порядке

**Столбец с данными о задолженностях клиентов `credit_debt_status`** проверять не будем, из статистики было видно что там есть только 2 значения: 1 и 0

**Посмотрим столбец с уровнем дохода клиентов `monthly_income`.**

Ранее мы заполняли пустые значения в данном столбце медианными значениями.
Приведем значения в столбце к цельночисленному виду. Так будет удобней работать с данным столбцом, а на результат исследования, отсутствие копеек повлиять не должно.

In [551]:
# Приводим данные в столбце к цельночисленным значениям с помощью astype()
data['monthly_income'] = data['monthly_income'].astype(int)

In [552]:
# Проверим результат
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
number_of_children     21525 non-null int64
days_employed          21525 non-null float64
client_age_in_years    21525 non-null int64
education_level        21525 non-null object
education_level_id     21525 non-null int64
family_status          21525 non-null object
family_status_id       21525 non-null int64
gender                 21525 non-null object
employment_type        21525 non-null object
credit_debt_status     21525 non-null int64
monthly_income         21525 non-null int64
credit_purpose         21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


Теперь с данным столбцом все в порядке

**Посмотрим столбец с целью кредита `credit_purpose`**

In [553]:
# Посмотрим уникальные значения в столбце
display(data['credit_purpose'].unique())
# Посмотрим статистику по столбцу
display(data['credit_purpose'].describe())

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

count       21525
unique         38
top       свадьба
freq          797
Name: credit_purpose, dtype: object

Выявлено 38 уникальных значений. Все значения в нижнем регистре. Аномалий требующих исправления не обнаружено. Нужно будет конечно категоризировать данный столбец для удобства исследования

### Удаление дубликатов.

После выявления и устранения аномалия в датафрейме поищем дубликаты

In [554]:
# Посмотрим количество дубликатов в датафрейме
data.duplicated().sum()

71

Найден 71 дубликат.

Так как в датафрейме нет ключевого значения (id клиента) для понимания задвоились ли данные одного и того же клиента или это просто полное совпадение данных разных клиентов примем одинаковые строки за явные дубликаты и удалим их.

In [555]:
# Удаляем дубликаты с перестройкой индексов
data = data.drop_duplicates().reset_index(drop=True)
# Проверяем результат
data.duplicated().sum()

0

В датафрейме была найдена 71 дублирующаяся строка. Это составляет 0,33% от всех данных. Найденные строки были удалены при помощи метода drop_duplicates() со сбросом индексов

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим словари для уровня образования `education_level` и семейного положения `family_status` клиентов.

Удалим эти столбцы из изначального датафрейма для обращения к словорям по id.

In [556]:
# Создаем датафрейм который будет служить словарем для уровней образования.
education_level_dict = data[['education_level','education_level_id']]
# Удаляем дубликаты из полученного датафрейма с сортировкой по возрастанию id для удобства
education_level_dict = education_level_dict.drop_duplicates().reset_index(drop=True).sort_values('education_level_id')
# Проверяем результат
education_level_dict

Unnamed: 0,education_level,education_level_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [557]:
# Удаление столбца об уровне образования из исходного датафрейма
data = data.drop(columns = ['education_level'],axis = 1)
# Проверяем результат
data.head(5)

Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level_id,family_status,family_status_id,gender,employment_type,credit_debt_status,monthly_income,credit_purpose
0,1,8437.673028,42,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [558]:
# Создаем датафрейм который будет служить словарем для семейного положения.
family_status_dict = data[['family_status','family_status_id']]
# Удаляем дубликаты из полученного датафрейма с сортировкой по возрастанию id для удобства
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True).sort_values('family_status_id')
# Проверяем результат
family_status_dict

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


In [559]:
# Удаление столбца о семейном положении из исходного датафрейма
data = data.drop(columns = ['family_status'],axis = 1)
# Проверяем результат
data.head(5)

Unnamed: 0,number_of_children,days_employed,client_age_in_years,education_level_id,family_status_id,gender,employment_type,credit_debt_status,monthly_income,credit_purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Создали дополнительные словари, сделали декомпозицию исходного датафрейма.

### Категоризация дохода.

Добавим в датафрейм столбец с категорией клиентов по уровню ежемесячного дохода:

- 0–30000 — E
- 30001–50000 — D
- 50001–200000 — C
- 200001–1000000 — B
- 1000001 и выше — A

In [560]:
# Создадим функцию которая, в зависимости от уровня дохода клиента,
# присвоит ему соответствующую категорию и запишет ее в соответстующий столбец `total_income_category`
def total_income_category(row):
    monthly_income = row['monthly_income']
    if monthly_income >= 0 and monthly_income <= 30000:
        return 'E'
    if monthly_income >= 30001 and monthly_income <= 50000:
        return 'D'
    if monthly_income >= 50001 and monthly_income <= 200000:
        return 'C'
    if monthly_income >= 200001 and monthly_income <= 1000000:
        return 'B'
    return 'A'
data['total_income_category'] = data.apply(total_income_category, axis=1)
# Посчитаем количество клиентов разбитых по категориям
data['total_income_category'].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

Категоризацию клиентов по уровню дохода сделали. Большинство клиентов попадают в категории `С` и `B`

### Категоризация целей кредита.

Разобьем цели кредита на категории:

- операции с автомобилем
- операции с недвижимостью
- проведение свадьбы
- получение образования

In [561]:
# Выводим уникальные значения столбца с целями кредита `credit_purpose`
data['credit_purpose'].unique().tolist()

['покупка жилья',
 'приобретение автомобиля',
 'дополнительное образование',
 'сыграть свадьбу',
 'операции с жильем',
 'образование',
 'на проведение свадьбы',
 'покупка жилья для семьи',
 'покупка недвижимости',
 'покупка коммерческой недвижимости',
 'покупка жилой недвижимости',
 'строительство собственной недвижимости',
 'недвижимость',
 'строительство недвижимости',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'операции с коммерческой недвижимостью',
 'строительство жилой недвижимости',
 'жилье',
 'операции со своей недвижимостью',
 'автомобили',
 'заняться образованием',
 'сделка с подержанным автомобилем',
 'получение образования',
 'автомобиль',
 'свадьба',
 'получение дополнительного образования',
 'покупка своего жилья',
 'операции с недвижимостью',
 'получение высшего образования',
 'свой автомобиль',
 'сделка с автомобилем',
 'профильное образование',
 'высшее образование',
 'покупка жилья для сдачи',
 'на покупку автомобиля',
 'ремонт жилью',
 '

In [562]:
# Создадим функцию которая, в зависимости от цели кредита,
# присвоит ей соответствующую категорию и запишет ее в соответстующий столбец `purpose_category`
def purpose_category(row):
    purpose_category_data = row['credit_purpose']
    if 'образован' in purpose_category_data:
             return 'получение образования'
    if 'авто' in purpose_category_data:
             return 'операции с автомобилем'
    if 'свадь' in purpose_category_data:
             return 'проведение свадьбы'
    if 'жиль' in purpose_category_data:
             return 'операции с недвижимостью'
    if 'недв' in purpose_category_data:
             return 'операции с недвижимостью'
    return 'ошибка классификации'
data['purpose_category'] = data.apply(purpose_category, axis=1)
# Посчитаем количество клиентов разбитых по категориям
data['purpose_category'].value_counts()

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

Самой большой популярностью пользуются кредиты на операции с недвижимостью.

## Ответы на вопросы.

### Вопрос 1. Есть ли зависимость между количеством детей и возвратом кредита в срок?:

In [563]:
# Еще раз посмотрим разбивку клиентов по количеству детей
data['number_of_children'].value_counts()

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: number_of_children, dtype: int64

Клиентов с 5-ю детьми всего 9. Возможно выборка по таким клиентам будет не репрезентативна, но мы ее все равно посчитаем.

In [564]:
# Создадим сводную таблицу `children_pivot` в которой подсчитаем отношение не возвращенных в срок кредитов к возвращенным.
children_pivot = data.pivot_table(index = ['number_of_children'],
                                  values = 'credit_debt_status').sort_values(by = 'credit_debt_status', ascending = True)
# Выведем % не возвращенных в срок кредитов
children_pivot * 100

Unnamed: 0_level_0,credit_debt_status
number_of_children,Unnamed: 1_level_1
5,0.0
0,7.543822
3,8.181818
1,9.165808
2,9.492481
4,9.756098


### Вывод

Клиенты с 4-мя(**9,76%**) и 2-мя(**9,49%**) детьми хуже всего возвращают кредиты в срок. Количество клиентов 4-мя детьми не много, выборка по таким клиентам не очень репрезентативна

Клиенты с 5-ю детьми всегда возвращают кредит в срок, но количество таких клиентов не репрезентативно.
Чаще всего возвращают кредиты в срок бездетные клиенты(**7,54%**)

### Вопрос 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?:

In [565]:
# Посмотрим разбивку клиентов по семейному положению
# Т.к. ранее мы создавали словарь для создавали словарь для семейного положения `family_status_dict`
# и в исходном датафрейме оставили только id с помощью merge() создадим отдельный датафрейм по id семейного положения
data_family_status = data.merge(family_status_dict, on='family_status_id', how='left')
# Выведем данные с разбивкой по семейному статусу из этого датафрейма
data_family_status['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [566]:
# Создадим сводную таблицу `family_status_pivot` в которой подсчитаем отношение не возвращенных в срок кредитов к возвращенным.
family_status_pivot = data_family_status.pivot_table(index = ['family_status'],
                                                     values = 'credit_debt_status').sort_values(by = 'credit_debt_status', ascending = True)
# Выведем % не возвращенных в срок кредитов
family_status_pivot * 100

Unnamed: 0_level_0,credit_debt_status
family_status,Unnamed: 1_level_1
вдовец / вдова,6.569343
в разводе,7.112971
женат / замужем,7.545182
гражданский брак,9.347145
не женат / не замужем,9.75089


### Вывод

Хуже всего возвращают кредиты в срок клиенты находящиеся в гражданском браке(**9,34%**) либо не женатые/не замужние(**9,75%**).

Вдовы/вдовцы чаще других возвращают кредиты в срок(**6,57%**).

### Вопрос 3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?:

In [567]:
# Еще раз посмотрим разбивку клиентов по уровням дохода
data['total_income_category'].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

In [568]:
# Создадим сводную таблицу `income_pivot` в которой подсчитаем отношение не возвращенных в срок кредитов к возвращенным.
income_pivot = data.pivot_table(index = ['total_income_category'],
                                values = 'credit_debt_status').sort_values(by = 'credit_debt_status', ascending = True)
# Выведем % не возвращенных в срок кредитов
income_pivot * 100

Unnamed: 0_level_0,credit_debt_status
total_income_category,Unnamed: 1_level_1
D,6.0
B,7.062091
A,8.0
C,8.491508
E,9.090909


### Вывод

Хуже всего возвращают кредиты в срок клиенты с самым маленьким уровнем дохода, категория `E`(**9,09%**), но таких клиентов не много, выборка по данной категории не очень репрезентативная. Следом идут клиенты категории `С`(**8,49%**), эта категория клиентов наиболее широко представлена в исследуемом датафрейме.

Клиенты категории `D` возвращают кредиты в срок чаще других(**6%**)

### Вопрос 4. Как разные цели кредита влияют на его возврат в срок?

In [569]:
# Еще раз посмотрим разбивку клиентов по целям кредита
data['purpose_category'].value_counts()

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

In [570]:
# Создадим сводную таблицу `purpose_pivot` в которой подсчитаем отношение не возвращенных в срок кредитов к возвращенным.
purpose_pivot = data.pivot_table(index = ['purpose_category'],
                                 values = 'credit_debt_status').sort_values(by = 'credit_debt_status', ascending = True)
# Выведем % не возвращенных в срок кредитов
purpose_pivot * 100

Unnamed: 0_level_0,credit_debt_status
purpose_category,Unnamed: 1_level_1
операции с недвижимостью,7.233373
проведение свадьбы,8.003442
получение образования,9.220035
операции с автомобилем,9.359034


### Вывод

Хуже всего возвращают кредиты взятые на `получение отбразования`(**9,22%**) и `операции с автомобилем`(**9,36%**)

Клиенты взявшие кредит на `операции с недвижимостью` (**7,23%**) чаще других возвращают их в срок

## Общий вывод:

В данном проекте была обработана исходная таблица с данными. Заполнены пропущенные значения, обработаны аномальные значения, удалены дубликаты, данные разделены по категориям.

По результатам анализа можно сделать вывод, что идеальный заемщик для банка - **это бездетный**, **вдовец/вдова** с доходом **от 30001 до 50000** взявший кредит на **операцию с недвижимостью**.

Проблемным заемщик - это, скорее всего, клиент **с 2-я детьми**, **в гражданском браке** или **не замужний/не женатый**, с доходом **от 50001 до 200000**, взявший кредит на **получение образования** или на **операции с автомобилем**

**Пожелания по улучшению качества данных в заявках на предоставление кредита:**
- Считать стаж работы в годах. В данный момент очень много аномальных значений трудового стажа.
- Имеет смысл ввести уникальный id клиента, а так же дату и время подачи заявки для более корректной работы с дублями
- Исключить ввод в заявку отрицательных и аномально больших или маленьких значений (отрицательные и аномальные значения в трудовом, отрицательные значения в количестве детей, возраст 0 лет и т.д)
- Категоризировать уровень образования и семейное положение