# Исследование надежности заемщиков.

## Обзор данных

In [1]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
display(df.head(30))
display(df.describe())
df.info()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. Типы данных в столбцах — `object`, `int64`, `float64`.

Согласно документации к данным:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Названия записаны в змеином регистре.

Количество значений в столбцах различаются, следовательно имеются пропуски.

Уже в первых 15 строках можно заметить различное написание одинаковых данных в столбце `education`.

Минимальные значения в столбцах `children` и `days_employed` являются отрицательными, что является аномалией для такого вида данных.

**Выводы**

В каждой строке таблицы — данные о заёмщике. Данные рассказывают о нём: количество детей в семье, общий трудовой стаж в днях, возраст клиента в годах, уровень образования клиента. 

Предварительно можно утверждать, что, данных достаточно для ответов на поставленые вопросы, но встречаются пропуски в данных, различное написание одинаковых данных и аномальные значения.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

### Заполнение пропусков

In [2]:
display(df.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски имеют только столбцы `days_employed`, `total_income` это значит, что данные о стаже и ежемесечном доходе по какой-то причине отсутствуют 

отсутствующие данные состовляют около 10%

Первым напрашивается вывод, что эти люди просто не имеют стажа и дохода, но этот вывод неверен, так как в обзоре данных мы звметели, что как минимум один из кредиторов не имеющих эти данные является госслужащим, следовательно графа доход должна быть заполнена

Возможно это ошибка системы или люди не смогли предоставить точные данные

Поэтому, так как мы не можем добыть эти данные у заказчика дополнительно, единственным выходом будет замерить их на медианный показатель, чтобы значение NaN (которое при расчётах предстаёт как 0) не портило дальнейшие расчёты

Выбран медианный показатель, а не средний, так как на этапе обзора данных видно, что есть слишком сильно выбивающиеся из общих данные в столбце `days_employed`

In [3]:
df_days_employed_abs = abs(df['days_employed']) # так как мы пока не приступили к исправлению анамалий, исправим их локально
median_days_employed = df_days_employed_abs.median()
median_total_income = df['total_income'].median()
df['days_employed'] = df['days_employed'].fillna(median_days_employed)
df['total_income'] = df['total_income'].fillna(median_total_income)
display(df.isna().sum())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Проверка данных на аномалии и исправления.

In [4]:
display(df[df['children'] <= -1]['children'].count())

47

Отрицательный показатель в столбце `children` имеют всего 47 строк, это довольно небольшое отклонение, которое моголо возникнуть из-за невнемательности заполняющего, который случайно внёс знак "-"

Заменим их модулем

In [5]:
df['children'] = abs(df['children'])
display(df[df['children'] <= -1]['children'].count())

0

In [6]:
df['children'] = abs(df['children'])
display(df[df['children'] > 10].groupby('children')['children'].count())
print('кол-во человек имеющих 2 ребёнка:', df[df['children'] == 2]['children'].count())

children
20    76
Name: children, dtype: int64

кол-во человек имеющих 2 ребёнка: 2055


In [7]:
df['children'] = df['children'].where(df['children'] != 20, 2)
display(df[df['children'] > 10].groupby('children')['children'].count())
print('кол-во человек имеющих 2 ребёнка:', df[df['children'] == 2]['children'].count())

Series([], Name: children, dtype: int64)

кол-во человек имеющих 2 ребёнка: 2131


20 детей это слишком, скорее всего кто-то вписал лишний нолик. Какие же невнимательные люди заполняют датасет - то нолик лишний, то минус. Исправили анамально большое кол-во детей, заменив их на 2 и проверили всё ли прошло правильно 
                              

In [8]:
display(df[df['days_employed'] < 0 ]['days_employed'].count())

15906

Аномальных данных в столбце  `days_employed` намного больше и вряд ли столько ошибок могло возникнуть из-за неправильно внесённого "-"

Скорее всего проблема в том, что формулой по которой заполняется этот столбец является: дата окончания работы минус дата начала работы

И если эти даты поменять местами итогом будет отрицательное значение, решением такой задачи тоже является использование модуля

In [9]:
display(df[df['days_employed'] < 0 ].groupby('income_type')['income_type'].count())

income_type
в декрете              1
госслужащий         1312
компаньон           4577
предприниматель        1
сотрудник          10014
студент                1
Name: income_type, dtype: int64

In [10]:
df['days_employed'] = abs(df['days_employed'])
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [11]:

display(df[df['days_employed'] / 365 >= df['dob_years']])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


Несмотря на то, что отрицательных значений в этой колонке нет, в ней всё равно осталась анамалия

Эта колонка со стажем работы в днях, значит если мы переведём значения в годы, эта колонка не должна превышать значения в колонке `dob_years`

Но почему-то таких значений: 3529

Возможная причина - некоторые значения почемуто записаны не в днях, а в часах

Исправим это с помощью метода loc и were, если после этого ещё останутся ненадлежащие значения, придётся искать иную причину такой анамалии

In [12]:
display('строк с аномалиями до исправления', len(df.loc[df['days_employed'] / 365 >= df['dob_years']]) )
df['days_employed'] = (
    df['days_employed']
    .where((df['days_employed'] / 365) <= df['dob_years'], df['days_employed'] / 24)
)
display('после', len(df.loc[df['days_employed'] / 365 >= df['dob_years']]))


'строк с аномалиями до исправления'

3529

'после'

155

Большая часть значений ушла, но остались люди у которых по какой-то причине нет возраста и это мешает подсчёту, а также небольшая часть аномально высоких значений

Для того чтобы исправить данные исправим возраст на медианный

In [13]:
df['dob_years'] = (
    df['dob_years']
    .where((df['days_employed'] / 365) <= df['dob_years'], df['dob_years'].median())
)
display('строк с аномалиями после исправления', len(df.loc[df['days_employed'] / 365 >= df['dob_years']]))

'строк с аномалиями после исправления'

39

Осталось 39 строк с аномальными значениями это чуть больше одной тысячной % 

Такой небольшой аномалией можно пренибречь, но раз уж мы взялись за это, доведём до конца и исправим значения в колонке `days_employed` на медианное

In [14]:
df['days_employed'] = (
    df['days_employed']
    .where((df['days_employed'] / 365) <= df['dob_years'], df['days_employed'].median())
)
display('строк с аномалиями после исправления', len(df.loc[df['days_employed'] / 365 >= df['dob_years']]))

'строк с аномалиями после исправления'

0

Нам удалось заменить аномальные данные, для каждого столбца своим способом

У большенства данных удалось найти причину неисправности, но небольшой процент данных пришлось заменить на медианное значение

###  Изменение типов данных.

In [15]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Удаление дубликатов.

In [16]:
display(df.duplicated().sum()) #кол-во дубликатов
display(df['education'].unique()) #уникальнык значения
display(df['family_status'].unique())
display(df['gender'].unique())
display(df['income_type'].unique())
display(df['purpose'].unique())

54

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

array(['F', 'M', 'XNA'], dtype=object)

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Датафреймм имеет явные дубликаты и возможно неявные

In [17]:
df['education'] = df['education'].str.lower()
print(f'Кол-во дубликатов после изменения регистра в столбце education: {df.duplicated().sum()}')
df = df.drop_duplicates().reset_index(drop=True)
print(f'Осталось дубликатов: {df.duplicated().sum()}')

Кол-во дубликатов после изменения регистра в столбце education: 71
Осталось дубликатов: 0


С помощью метода .str.lower() привели столбец education к стандартизированому виду и тем самым выявили неявные дубликаты

Дубликатов было 54, а стало 71 

С помощью метода drop_duplicates() мы удалили все дубликаты, а спомощью метода reset_index(drop=True) исправили индексацию

In [18]:
print('Людей с гендепром XNA: ',df[df['gender'] == 'XNA']['gender'].count()) 

Людей с гендепром XNA:  1



Явныные дубликаты могли появиться из-за плохого интернета и несколько раз отправившейся формы, неявные дубликаты присутствуют из-за того, что людям позволили заполнять вручную форму. Исправить это можно автоматизировав выбор уровня образования клиента из предложенного списка 
 
И наконец мы проверили количество людей с гендером XNA
 
Так как такой человек всего один, мы не стали менять его жизнь и позволили остаться кем он хочет, ведь один человек не испортит нам статистику

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [19]:
education = df[['education_id', 'education']] 
display(education.head())
display('было дубликатов', education.duplicated().sum())
education = education.drop_duplicates().reset_index(drop=True)
display('стало', education.duplicated().sum())
family_status = df[['family_status_id', 'family_status']]
display(family_status.head())
display('было дубликатов', family_status.duplicated().sum())
family_status = family_status.drop_duplicates().reset_index(drop=True)
display('стало', education.duplicated().sum())

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


'было дубликатов'

21449

'стало'

0

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак


'было дубликатов'

21449

'стало'

0

In [20]:
del df['education']
del df['family_status']
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Мы создали два новых датафрейма со столбцами:
education_id и education — в первом;
family_status_id и family_status — во втором.
Удалили из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id. Новые датафреймы — это те самые «словари», к которым мы сможем обращаться по идентификатору.

###  Категоризация дохода.

In [21]:
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000 and total_income > 30000:
        return 'D'
    if total_income <= 200000 and total_income > 50000:
        return 'C'
    if total_income <= 1000000 and total_income > 200000:
        return 'B'
    return 'A' 

df['total_income_category'] = df['total_income'].apply(total_income_category)
display(df.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Мы разделили доход заёмщика на 5 категорий, где "А" - максимальный доход,  "Е" - минимальный и вывели эти данные в отдельный столбец

###  Категоризация целей кредита.

In [22]:
def purpose_category(purpose):
    if 'авто' in purpose :
        return 'операции с автомобилем'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образов' in purpose:
        return 'получение образования'
    if 'жи' in purpose:
        return 'операции с недвижимостью'
    return 'иная операция' 

df['purpose_category'] = df['purpose'].apply(purpose_category)
display(df.head())


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Мы разделили цели заёмщика на 4 категории и вывели в отдельный столбец

## Ответы на вопросы.

### Вопрос 1


**Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [23]:
debt_child = df.pivot_table(index='children', values='debt', aggfunc=['sum', 'count'])
debt_child.columns = ['sum', 'count']
debt_child['porcent'] = debt_child['sum'] / debt_child['count']
debt_child['porcent'] *= 100
display(debt_child)

Unnamed: 0_level_0,sum,count,porcent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14091,7.543822
1,445,4855,9.165808
2,202,2128,9.492481
3,27,330,8.181818
4,4,41,9.756098
5,0,9,0.0


**Вывод 1**


Небольшая зависимость между количеством детей и возвратом кредита в срок есть

Не смотря на то, что с возростанием количества детей количество задолженностей уменьшается, процент от всех должников в основном растёт, но не строго вверх

Если опираться на полученные данные, то наиболее одобряемыми заёмщиками будут люди с 5ю детьми, но наиболее правельным будет исключить их из выборки, так как таких людей всего 9 и если хотя бы ещё один человек возьмёт кредит и оставит задолжность, процент подскочит с 0 сразу до 10, то есть это не очень большая выборка для анализа и лучше её исключить

Поэтому лучшим заёмщиком будет бездетный, нежели человек с 5ю детьми, но при выборе между 1 ребёнком или 2мя детьми или 2мя и 3мя детьми и так далее, выбор не так очевиден ведь разница всего в 1-2%



### Вопрос 2

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [24]:
family_status_debt = df.pivot_table(index='family_status_id', values='debt', aggfunc=['sum', 'count'])
family_status_debt.columns = ['sum', 'count']
family_debt = family_status_debt.merge(family_status, on='family_status_id')
del family_debt['family_status_id']
family_debt['porcent'] = family_debt['sum'] / family_debt['count']
family_debt['porcent'] *= 100
display(family_debt)

Unnamed: 0,sum,count,family_status,porcent
0,931,12339,женат / замужем,7.545182
1,388,4151,гражданский брак,9.347145
2,63,959,вдовец / вдова,6.569343
3,85,1195,в разводе,7.112971
4,274,2810,Не женат / не замужем,9.75089


**Вывод 2**

Зависимость между семейным положением и возвратом кредита в срок есть, но также небольшая 

Люди никогда не состоявшие в зарегестрированых отношениях больше склонны к накоплению долга

А более своевременно оплачивают долги - вдовы и вдовцы



### Вопрос 3

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [25]:
total_income_debt = df.pivot_table(index='total_income_category', values='debt', aggfunc=['sum', 'count'])
total_income_debt.columns = ['sum', 'count']
total_income_debt['porcent'] = total_income_debt['sum'] / total_income_debt['count']
total_income_debt['porcent'] *=100
display(total_income_debt)

Unnamed: 0_level_0,sum,count,porcent
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,25,8.0
B,356,5041,7.062091
C,1360,16016,8.491508
D,21,350,6.0
E,2,22,9.090909


**Вывод 3**

По имеющимся у нас данным нельзя сказать, что есть прямая зависимость между уровнем дохода и возвратом кредита в срок

Людей с критически низким и критически высоким доходом не так много для корректного анализа, а в остальных 3х категориях % не имеет прямой зависимости, только люди с самым средним зароботком на  1,5% более кредитоспособны

### Вопрос 4

**Как разные цели кредита влияют на его возврат в срок?**

In [26]:
purpose_category = df[['purpose_category', 'debt']]
purpose_category_grouped = purpose_category.groupby('purpose_category').sum() # кол-во людей с разными целями имеющих задолжнрсти
purpose_category_grouped['all'] = purpose_category['purpose_category'].value_counts() # кол-во людей с разными целями
purpose_category_grouped['procent_debt'] = (purpose_category_grouped['debt'] / purpose_category_grouped['all']) * 100
purpose_category_grouped['procent_debt'] = purpose_category_grouped['procent_debt'].astype('int')
display(purpose_category_grouped)

Unnamed: 0_level_0,debt,all,procent_debt
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,403,4306,9
операции с недвижимостью,782,10811,7
получение образования,370,4013,9
проведение свадьбы,186,2324,8


**Вывод 4**

Наиболее некредитоспособными являются люди с целями - `операции с автомобилем` и `получение образования`
Надёжнее являются люди с целью `операции с недвижимостью`
Но зависимость также небольшая - разница всего в паре процентов

## Общий вывод:


В этом проекте нам удалось ответить на 4 поставленых вопроса:

- Есть ли зависимость между количеством детей и возвратом кредита в срок?

Да

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Да

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Нет, но если повторить исследование через некоторое время с бОльшим количеством людей с минимальными и максимальными доходами, вывод может измениться

- Как разные цели кредита влияют на его возврат в срок?

Наиболее кредитоспособными являются люди с целью -  `операции с недвижимостью`, наименее  - `операции с автомобилем` и `получение образования`



Каждая зависимость колеблится в пределах 3-4% , это очень небольшая зависимость, но насколько важно такое колебание решать уже заказчику

Наиболее благоприятный клиент - бездетный вдовец/вдова с уровнем дохода 50000 - 200000 тысяч рублей, с целью кредита - операции с автомобилем или получение образования

Семейное положение и количество детей клиента на факт погашения кредита в срок влияет, а уровень достатка не очень 

Также имеются пропуски и аномалии в данных, при исправлении которых самостоятельно, могли возникнуть погрешности в анализе данных

Большенство пропусков и аномалий  возникло из-за факта заполнения датасета человеком

Лучшим решением, воизбежание такого, будет автоматизация процесса и категоризация 

Например кол-во детей: отсутствуют, 1, 2, 3, многодетный. Иное человек выбрать не сможет и уйдёт сразу большое количество анамалий таких как - неверный регистр, пропуски, лишние пробелы,  "-", "0" и тд

