# Исследование надежности заемщиков

## **Описание проекта**


Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение, количество детей, уровень дохода и цель кредита клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку

## Обзор данных

In [27]:
#импортируем необходимые библиотеки для работы с данными
import pandas as pd

In [28]:
#откроем и сохраним датафрейм clients, содержащий информацию о клиентах банка, с помощью метода read.csv
clients = pd.read_csv('/datasets/data.csv')
#изучим общую информацию о данных вызвав метод info
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Описание данных:**

Перед нами датафрейм, содержащий **21525** строк и **12** столбцов
- `children` — количество детей в семье 
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

Названия столбцов корректны по стилю оформления, но названия некоторых столбцов неудобны для чтения/понимания значений в этих столбцах

2 столбца: `days_employed` и `total_income` содержат прощунные значения

Взглянем на "head" и "tail" таблицы clients

In [29]:
#взглянем на первые и последние 10 строк нашей таблицы 
display(clients.head(10))
display(clients.tail(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


И так же посмотрим на основные описательные статистики по каждому из столбцов, это может помочь сделать определенные выводы

In [30]:
#вызовём метод describe
clients.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Выводы после обзора данных**:

- некорректные названия некоторых столбцов в таблице
- пропущенные значения в столбцах `days_employed` и `total_income`
- аномальные значения : в стобце `days_employed` - отрицательные и очень крупные положительные значения ; в столбце `children` - отрицательные значения; в столбце `dob_years` - минимальное значение "0"
- в столбце `education` присутствуют повторы, написанные разным регистром (одинаковые по смыслу "высшее" и "ВЫСШЕЕ", "среднее" и "СРЕДНЕЕ"),для программного анализа это будут 2 разных значения)
- в столбце `purpose` присутствуют неочевидные повторы (пример: "сыграть свадьбу" и "на проведение свадьбы")

На стадии предобработки данных необходимо устранить все эти недочёты

## Предобработка данных

### Заполнение пропусков

Для начала для удобства работы переименуем названия некоторых столбцов

In [31]:
clients = clients.rename(
    columns={'children':'amount_of_children',
             'dob_years':'age',
             'income_type':'job_type'})

In [32]:
#посчитаем количество пропущенных значений по столбцам 
clients.isna().sum()

amount_of_children       0
days_employed         2174
age                      0
education                0
education_id             0
family_status            0
family_status_id         0
gender                   0
job_type                 0
debt                     0
total_income          2174
purpose                  0
dtype: int64

In [33]:
#посчитаем процент пропущенных значений в столбца days_employed и total_income
nan = clients['total_income'].isna().sum()/clients.shape[0]
display(f'Процент пропущенных значений от общего количества значений:{nan:.0%}')

'Процент пропущенных значений от общего количества значений:10%'

Доля пропушенных значений высокая. Так просто строки с пропущенными значениями удалять нельзя.

Значения пропущенные в столбцах `days_employed` и `total_income`являются количественными.Пропуски в таких переменных заполняют характерными значениями. Это значения, характеризующие состояние выборки — набора данных, выбранных для проведения исследования. Чтобы примерно оценить типичные значения выборки, годятся среднее арифметическое или медиана. 

В столбце `total_income` мы заменим пропущенные значения на медианое значание. Среднее арифметическое не подойдёт , так как в значениях ежемесячного дохода клинетов могут быть аномальные значения. 

In [34]:
#найдём медианное значение total_income
median_income = clients['total_income'].median()
display(median_income)

145017.93753253992

In [35]:
#заменим пропущенные значения в столбце total_income на медианный доход всех клинентов (используем метод fillna)
clients['total_income'] = clients['total_income'].fillna(median_income)
#проверим количество пропущенных значений в таблице
clients.isna().sum()

amount_of_children       0
days_employed         2174
age                      0
education                0
education_id             0
family_status            0
family_status_id         0
gender                   0
job_type                 0
debt                     0
total_income             0
purpose                  0
dtype: int64

Чтобы определиться ,чем заполнять пропуски в столбце `days_employed` сначала разберемся с аномалиями в данном столбце.

### Проверка данных на аномалии и исправления 

В столбце `days_employed` значения-артефакты (аномалии) - отрицательные и невероятно большие положительные. Ещё раз вызовем метод describe конкретно для этого столбца

In [36]:
clients['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [37]:
#посмотрим сколько в таблице отрицательных значений трудового стажа в днях и их медианное значение 
negative_values = clients.loc[clients['days_employed'] < 0,'days_employed'].count()
median_negaive_values = clients.loc[clients['days_employed'] < 0,'days_employed'].median()
display(f'В столбце days_employed {negative_values} отрицательных значений. Их медиана: {median_negaive_values}')

'В столбце days_employed 15906 отрицательных значений. Их медиана: -1630.0193809778218'

In [38]:
#для положительных значений посмотрим их количество и минимальное положительное число
over_positive_values = clients.loc[clients['days_employed'] > 0,'days_employed'].count()
min_over_positive_values = clients.loc[clients['days_employed'] > 0,'days_employed'].min()
display(f'В столбце days_employed {over_positive_values} положительных значений.Минимально положительное значение:{min_over_positive_values}')

'В столбце days_employed 3445 положительных значений.Минимально положительное значение:328728.72060451825'

Отрицательные значения похожи на реальные данные по дням трудового стажа - только со знаком минус. Неплохо было бы знать, *как заполняли данные* , возможно в форме для заполнения данных присутствовал "-". Поменяем отрицательные значения в этих полях на положительные. 

In [39]:
#меняем отрицательные значения на положительные , взяз метод abs, который выдаёт модуль значения
clients['days_employed'] = clients['days_employed'].abs()

Что касается большим положительных значений: скорее всего перепутаны единицы измерения в данном столбце

In [40]:
# посмотрим на таблицу , где будут присутствовать только clients c полжительными значения days_employed
positive_days_employed = clients.loc[clients['days_employed'] > min_over_positive_values]
display(positive_days_employed)

Unnamed: 0,amount_of_children,days_employed,age,education,education_id,family_status,family_status_id,gender,job_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


Значения измеряемые сотнями тысям... возможно это не дни,а часы..
Но для клиента с №18: 400281 часов = 16678 дней = 45 лет трудового стажа. Возраст клиента 53 года. Значит единица измерения "часы" тоже не подходит.
С решением данного вопросы я бы обратился к **источнику данных**

Заменим все сверхположительные значения столбца days_employed на медианное значение

In [41]:
#найдем медианное значение days_employed среди клиентов (без учёта клиентов с сверхположительным значением days_employed)
median_age = clients.loc[clients['days_employed'] < min_over_positive_values,'days_employed'].median()
#заменим все сверхположительные значения на медианное 
clients.loc[clients.days_employed >= min_over_positive_values,'days_employed'] = median_age
#заменим все оставшиеся пропуски и проверим 
clients['days_employed'] = clients['days_employed'].fillna(median_age)
clients.isna().sum()

amount_of_children    0
days_employed         0
age                   0
education             0
education_id          0
family_status         0
family_status_id      0
gender                0
job_type              0
debt                  0
total_income          0
purpose               0
dtype: int64

Разберемся с аномалиями в столбце `children`:

In [42]:
#посмотрим на уникальные значения этого столбца
clients['amount_of_children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

"-1" - невероятное значение. Скорее всего опечатка - заменим на "1"

In [43]:
clients['amount_of_children'] = clients['amount_of_children'].replace(-1,1)

А вот со значением "20" - интереснее. Возможно ли это? Теоретически -да, но....посмотрим на таких людей

In [44]:
clients.loc[clients['amount_of_children'] == 20]

Unnamed: 0,amount_of_children,days_employed,age,education,education_id,family_status,family_status_id,gender,job_type,debt,total_income,purpose
606,20,880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,1630.019381,53,среднее,1,женат / замужем,0,M,компаньон,0,145017.937533,покупка жилой недвижимости
21404,20,494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


76 человек с 20 детьми...выглядит как опечатка. Заменим "20" на "2". Проверим замену

In [45]:
clients['amount_of_children'] = clients['amount_of_children'].replace(20,2)
clients['amount_of_children'].unique()

array([1, 0, 3, 2, 4, 5])

Разберёмся с аномалиями в столбце `age`

In [46]:
#отфильтруем таблицу с age = 0 и посмотрим на неё
clients.loc[clients['age'] == 0]

Unnamed: 0,amount_of_children,days_employed,age,education,education_id,family_status,family_status_id,gender,job_type,debt,total_income,purpose
99,0,1630.019381,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,1630.019381,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,1630.019381,0,среднее,1,женат / замужем,0,F,сотрудник,0,145017.937533,жилье
20462,0,1630.019381,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,1630.019381,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,108.967042,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости


101 строка со значеним "0" в age. Видимо, этот столбец просто не был заполнен. Так как нулевых значений в этом столбце меньше 1% и в дальнейшем для анализа этот столбец не нужен - оставлю эти строки без изменений.

Посмотрим на столбец `education`

In [47]:
clients['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [48]:
#приведём все буквы к нижнему регистру и проверим изменения
clients['education'] = clients['education'].str.lower()
clients['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

Разберемся со столбцом `family_status`

In [49]:
clients['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

С `family_status` все хорошо. Посмотрим на столбец `gender`

In [50]:
clients['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Странное значение XNA. Посмотрим сколько таких людей

In [51]:
clients[clients['gender'] == 'XNA'].count()

amount_of_children    1
days_employed         1
age                   1
education             1
education_id          1
family_status         1
family_status_id      1
gender                1
job_type              1
debt                  1
total_income          1
purpose               1
dtype: int64

1 запись с непонятным gender

Посмотрим на столбец `job_type`

In [52]:
clients['job_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

Здесь всё впорядке

Разберемся со столбцом `purpose`

In [53]:
clients['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Можно выделить 4 группы целей кредитов:
- Недвижимость
- Автомобиль
- Образование 
- Свадьба

In [54]:
#посмотрим на описательные статистики после удаления аномалий. сейчас все значения вписываются в рациональные рамки
clients.describe()

Unnamed: 0,amount_of_children,days_employed,age,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.479721,2164.281083,43.29338,0.817236,0.972544,0.080883,165159.5
std,0.755528,2006.061675,12.574584,0.548138,1.420324,0.272661,97866.07
min,0.0,24.141633,0.0,0.0,0.0,0.0,20667.26
25%,0.0,1025.608174,33.0,1.0,0.0,0.0,107798.2
50%,0.0,1630.019381,42.0,1.0,0.0,0.0,145017.9
75%,1.0,2518.1689,53.0,1.0,1.0,0.0,195543.6
max,5.0,18388.949901,75.0,4.0,4.0,1.0,2265604.0


### Изменение типов данных.

In [55]:
#в столбце total_income не нужна такая точность (6 знаков после запятой). приведём значения к целочисленным
clients['total_income'] = clients['total_income'].astype(int)

###  Удаление дубликатов.

In [56]:
#посмотрим количество дубликатов
display(clients.duplicated().sum())

71

Дубликаты могли образоваться из-за технической проблемы при записи данных, либо из-за человеческого фактора

In [57]:
#удалим эти дубликаты
clients = clients.drop_duplicates().reset_index(drop=True)
display(clients.duplicated().sum())

0

**ВЫВОДЫ**
Предобработка данных закончена: 
- изменены название столбцов на болеее корректные 
- найдены и заменены пропущенные значения в столбцах days_employed и total_income
- найдены и скорректированы аномалии в столбцах days_employed, amount_of_children, age
- приведены к одному регистру одинаковые значения в education
- изменен тип данных в столбце total_income
- удалены дубликаты строк

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

В столбцах  `education` и `family_status` хранятся значения из ограниченного набора, который можно идентифицировать 
по столбцам `education_id` и `family_status_id`. Для удобства чтения главной таблицы clients
создадим 2 новых dataframe, где будет хранится соотношение `education` к `education_id` и 
`family_status` к `family_status_id` соответственно.

In [58]:
#создадим новый dataframe состоящий из двух столбцов education_id,education главной таблицы clients
df_education = pd.DataFrame(clients.loc[:,['education_id','education']])
#удалим дубликаты 
df_education = df_education.drop_duplicates().reset_index(drop = True)
df_education.head

<bound method NDFrame.head of    education_id            education
0             0               высшее
1             1              среднее
2             2  неоконченное высшее
3             3            начальное
4             4       ученая степень>

In [59]:
#создадим новый dataframe состоящий из двух столбцов family_status_id,family_status главной таблицы clients
df_family_status = pd.DataFrame(clients.loc[:,['family_status_id','family_status']])
#удалим дубликаты 
df_family_status = df_family_status.drop_duplicates().reset_index(drop = True)
df_family_status.head

<bound method NDFrame.head of    family_status_id          family_status
0                 0        женат / замужем
1                 1       гражданский брак
2                 2         вдовец / вдова
3                 3              в разводе
4                 4  Не женат / не замужем>

Из главной таблицы clients удалим столбцы `education` и `family_status` и проверим удаление 

In [60]:
del clients['education']
del clients['family_status']

In [61]:
clients.head()

Unnamed: 0,amount_of_children,days_employed,age,education_id,family_status_id,gender,job_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


###  Категоризация дохода.

Разделим клиентов по категориям (A,B,C,D,E,) согласно уровню их дохода (`total_income`):
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.

И создадим отдельный столбец `total_income_category` в датафрейме `clients`, который будет содержать категорию по доходности

In [62]:
#для начала пропишем функцию ,которая будет проходиться по столбцу total_income и присваивать значениям необходимую категорию
def income_category(total_income):
    if total_income <= 30000:
            return 'E'
    if 30001 <= total_income <= 50000:
            return 'D'
    if 50001 <= total_income <= 200000:
            return 'C'
    if 200001 <= total_income <= 1000000:
            return 'B'
    return 'A'

In [63]:
#добавим новый столбец total_income_category в датафрейм clients и посмотрим на него
clients['total_income_category'] = clients['total_income'].apply(income_category)
clients.head()

Unnamed: 0,amount_of_children,days_employed,age,education_id,family_status_id,gender,job_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [64]:
#посмотрим, как распределились значения в новом столбце
clients['total_income_category'].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

### Категоризация целей кредита.

Создадим новый столбец `purpose_category`, который будет содержать категорию назначения кредита 

In [65]:
#для начала пропишем функцию ,которая будет проходиться по столбцу purpose и присваивать значениям необходимую категорию
def purpose_status(purpose):
    if 'образ' in purpose:
              return 'Образование'
    if 'авто' in  purpose:
              return 'Автомобиль'
    if 'свад' in  purpose:
              return 'Свадьба'
    if 'жил' or 'недвиж' in purpose:
              return 'Недвижимость'
    return 'Без категории'

In [66]:
#добавим новый столбец purpose_category в датафрейм clients и посмотрим на него
clients['purpose_category'] = clients['purpose'].apply(purpose_status)
clients.head()

Unnamed: 0,amount_of_children,days_employed,age,education_id,family_status_id,gender,job_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,Недвижимость
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,Автомобиль
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,Недвижимость
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,Образование
4,0,1630.019381,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,Свадьба


In [67]:
#посмотрим , как распределились значения в новом столбце purpose_category
clients['purpose_category'].value_counts()

Недвижимость    10811
Автомобиль       4306
Образование      4013
Свадьба          2324
Name: purpose_category, dtype: int64

Отлично. Все записи разбиты по категориям

## Анализ данных. Ответы на вопросы

### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Чтобы ответить на этот вопрос (и похожие следующие) нам нужно сгруппировать клиентов относительно количества их детей. И в каждой группе вывести процент клиентов , имеющих задолженности по кредитам. Эти проценты сравнить по группам 

Мы можем сделать сводную таблицу. Сгруппируем данные по `amount_of_children`, и применив функцию count, посчитаем количество клиентов с задолженностями и без задолженностей в каждой группе. Добавим новый столбец `percentage_of_debtors`  - процент  клиентов - должников в каждой группе  

In [68]:
#создаём сводную таблицу 
try:
    children_pivot = clients.pivot_table(index = ['amount_of_children'], columns = ['debt'],values = 'age', aggfunc='count')
except: 
    display('Не удалось создать сводную таблицу ')
#вычисляем процент должников по группам и добавляем новый столбец
children_pivot['percentage_of_debtors'] = children_pivot[1] / (children_pivot[0]+ children_pivot[1]) * 100
children_pivot

debt,0,1,percentage_of_debtors
amount_of_children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,7.543822
1,4410.0,445.0,9.165808
2,1926.0,202.0,9.492481
3,303.0,27.0,8.181818
4,37.0,4.0,9.756098
5,9.0,,


**Вывод**:
**Клиентов-должников без детей меньше, чем с детьми. Клиенты ,имеющие детей, выплачивают кредиты примерно на одном уровне.**
Процент должников среди клиентов без детей находится около 7,5%. У клиентов с детьми этот процент выше. Среди клиентов с 5ю детьми должников вообще нет. Но таки клиетов всего в выборке 9 человек - очень мало , чтобы делать какие-то выводы

### Вопрос 2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

Проделаем те же операции, что и в случае с анализом по количеству детей

In [69]:
#несколько шагов назад (по заданию) мы удалили столбец family_status. сейчас для наглядности данных добавим таблицу 
# df_family_status к таблице clients
clients = clients.merge(df_family_status, on = 'family_status_id', how = 'left')

In [70]:
#создадим сводную таблицу
try:
    family_status_pivot = clients.pivot_table(index=['family_status'], columns=['debt'], values='age', aggfunc='count')
except: 
    display('Не удалось создать сводную таблицу ')
#посчитаем процент должников
family_status_pivot['percentage_of_debtors'] = family_status_pivot[1] / (family_status_pivot[0]+ family_status_pivot[1])* 100
family_status_pivot

debt,0,1,percentage_of_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,9.75089
в разводе,1110,85,7.112971
вдовец / вдова,896,63,6.569343
гражданский брак,3763,388,9.347145
женат / замужем,11408,931,7.545182


**Вывод:** **Семейное положение влияет на выплачиваемость кредита в срок** Среди вдов, женатых/замужних людей, людей в разводе должников меньше, чем среди не женатых/не замужних и людей в гражданском браке

### Вопрос 3.Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [71]:
#проделаем те же операции 
try:
    total_income_pivot = clients.pivot_table(index = ['total_income_category'],columns = ['debt'],values = 'age', aggfunc='count')
except: 
    display('Не удалось создать сводную таблицу ')

total_income_pivot['percentage_of_debtors'] = total_income_pivot[1] / (total_income_pivot[0]+ total_income_pivot[1]) * 100
total_income_pivot

debt,0,1,percentage_of_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.0
B,4685,356,7.062091
C,14656,1360,8.491508
D,329,21,6.0
E,20,2,9.090909


**Вывод:** **Уровень дохода влияет на выплачиваемость кредита в срок**
Выборки по категориям  А и Е небольшие, но даже здесь  видно,что должников с низким уровнем дохода больше, чем среди остальных клиентов. 

### Вопрос 4. Как разные цели кредита влияют на его возврат в срок?

In [72]:
#проделаем те же операции
try:
    purpose_pivot = clients.pivot_table(index = ['purpose_category'],columns = ['debt'], values = 'age', aggfunc='count')
except: 
    display('Не удалось создать сводную таблицу ')
    
purpose_pivot['percentage_of_debtors'] = purpose_pivot[1] / (purpose_pivot[0]+ purpose_pivot[1]) * 100
purpose_pivot

debt,0,1,percentage_of_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Автомобиль,3903,403,9.359034
Недвижимость,10029,782,7.233373
Образование,3643,370,9.220035
Свадьба,2138,186,8.003442


**Вывод: Цели кредита влияют на его возврат в срок**. Кредиты за авомобили и образование клиенты выплачивают хуже, чем за недвижимость и свадьбу.

## Общий вывод:

Мы нашли зависимость между количеством детей, семейным положением, уровнем дохода и целями кредита на его срок возврата. Разница некритическая , но при большом объеме клиентов она будет ощутима.

С помощью наших отдельных выводов( ответов на вопросы) мы можем описать "типичного" клиента с наибольшей вероятностью просрочки по выплатам кредита : не женат( не замужем), с детьми, доход - средний и ниже среднего, цель кредита - автомобиль /образование