# Исследование надёжности заёмщиков

## План проекта
1.[Открыть файл с данными](#cell1)

2.[Предобработка данных](#cell2)

3.[Ответы на вопросы](#cell3)

4.[Общий вывод](#cell4)

## Шаг 1. Откройте файл с данными и изучите общую информацию
<a id='cell1'></a>

1.Вызвал библиотеку pandas.

In [125]:
import pandas as pd

2.Прочитал содержимое файла data.csv и сохранил его в датафрейме credit_score.

In [126]:
credit_score = pd.read_csv('/datasets/data.csv')

3.Ознакомился со сводной информацией в таблице, вызвав метод info().

In [127]:
credit_score.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


4.Ознакомился с данными вызвав методы head().

In [128]:
credit_score.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


5.Ознакомился с данными вызвав методы describe()

In [129]:
credit_score.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**:
1. Значения в столбцах 'education' и 'family_status', имеют разный регистр.
2. Имеются аномальные значения и пропуски типа NaN в столбце 'days_employed' и 'total_income'.
3. Столбец 'days_employed' должен иметь тип данных int, т.к трудовой стаж в днях должен быть целочисленным.
4. В столбце 'purpose' имеются значения 'сыграть свадьбу / на проведение свадьбы' и т.п, которые необходимо привести к единому значению объединенному по смыслу.

## Шаг 2. Предобработка данных
<a id='cell2'></a>

### Обработка пропусков

1. Подсчитал пропущенные значения методами isnull() и sum().

In [130]:
credit_score.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

2. Произвел подсчет медианы месячного дохода в зависимости от типа занятости примення groupby и median().

In [131]:
income_type_median = credit_score.groupby('income_type')['total_income'].median()

3. При помощи merge подсоединил датасет с медианами к основному датасету. В итоге в каждой строчке должно появиться медианное значение, которое можно использовать при замене пустых значений.

In [132]:
credit_income = credit_score.merge(income_type_median, on='income_type', how='left')

4. Произвел замену пропущенных значений в столбце 'total_income_x' на медианы дохода в зависимости от типа занятости методом fillna().

In [133]:
credit_income['total_income_x'] = credit_income['total_income_x'].fillna(credit_income.loc[:,'total_income_y'])

5. Избавляюсь от отрицательных значений в столбце 'days_employed'.

In [134]:
credit_income['days_employed'] = credit_income['days_employed'].abs()

6. Подсчитал медианы трудового стажа клиента исходя из возраста.

In [135]:
dob_years_median = credit_score.groupby('dob_years')['days_employed'].median()

7. При помощи merge подсоединил датасет с медианами к основному датасету. В итоге в каждой строчке должно появиться медианное значение, которое можно использовать при замене пустых значений.

In [136]:
credit_income_dob = credit_income.merge(dob_years_median, on='dob_years', how='left')

8. Произвел замену пропущенных значений в столбце'days_employed', для замены использовал медианы посчитанные в зависимости от среднего возраста клиента, учитывая его тип занятости.Использовал метод fillna().

In [137]:
credit_income_dob['days_employed_x'] = credit_income_dob['days_employed_x'].fillna(credit_income_dob.loc[:,'days_employed_y'])

9. Удаляю столбцы 'days_employed_y', 'total_income_y', чтобы облегчить датафрейм.

In [138]:
credit_income_dob.drop(columns = ['days_employed_y', 'total_income_y'], axis=1, inplace=True )

10. После замены, провел проверку наличия пропущенных значений методами isnull() и sum().

In [139]:
print(credit_income_dob.isnull().sum())

children            0
days_employed_x     0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income_x      0
purpose             0
dtype: int64


**Вывод** Имеются пропуски в столбцах 'days_employed' и 'total_income'. Произвел замену пропущенных значений на значение медианы по данным столбцам.

### Замена типа данных

1. Изменил типа данных в столбце ['days_employed'] на integer. 

In [140]:
credit_income_dob['days_employed_x'] = credit_income_dob['days_employed_x'].astype('int')

2. Проверил полученный результат, вызвав метод info()

In [141]:
credit_income_dob.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed_x     21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income_x      21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.1+ MB


**Вывод**: Столбец 'days_employed' теперь имеет тип данных int, т.к трудовой стаж в днях должен быть целочисленным.

### Обработка дубликатов

1. Перевел столбцы 'education' и 'family_status' в нижний регистр, чтобы в дальнейшем с ними было легче работать.

In [142]:
credit_income_dob['education'] = credit_income_dob['education'].str.lower()
credit_income_dob['family_status'] = credit_income_dob['family_status'].str.lower()

2. Проверил результат изменений регистра в столбце 'family_status' при помощи метода unique().

In [143]:
credit_income_dob['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

3. Проверил результат изменений регистра в столбце 'education' при помощи метода unique().

In [144]:
credit_income_dob['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

4. Изменил значения -1 и 20 на 1 и 2 в столбце 'children'

In [145]:
credit_income_dob['children'] = credit_income_dob['children'].replace(-1, 1)
credit_income_dob['children'] = credit_income_dob['children'].replace(20, 2)

5. Проверил полученные значения при помощи метода unique()

In [146]:
credit_income_dob['children'].unique()

array([1, 0, 3, 2, 4, 5])

**Вывод**: В столбцах 'education' и 'family_status' изменил регистр. Произвел замену некорректных значений в столбце 'children'.

### Лемматизация

1. Импортировал библиотеку pymystem3.

In [147]:
from pymystem3 import Mystem
m = Mystem()

2. Создал список из значений столбца purpose используя метод unique()

In [148]:
purposes = credit_income_dob['purpose'].unique()
print(purposes)

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


3. Лемматизировал список purposes, полученный список лемм добавил в пустой список lemmas.

In [149]:
lemmas = []
for i in purposes:
    lemma = m.lemmatize(i)
    lemmas.append(lemma)
print(lemmas)

[['покупка', ' ', 'жилье', '\n'], ['приобретение', ' ', 'автомобиль', '\n'], ['дополнительный', ' ', 'образование', '\n'], ['сыграть', ' ', 'свадьба', '\n'], ['операция', ' ', 'с', ' ', 'жилье', '\n'], ['образование', '\n'], ['на', ' ', 'проведение', ' ', 'свадьба', '\n'], ['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n'], ['покупка', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n'], ['недвижимость', '\n'], ['строительство', ' ', 'недвижимость', '\n'], ['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n'], ['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n'], ['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['жилье', '\n'], ['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n'], ['автомобиль', '\n'], ['заниматьс

4. Разбил на категории по леммам.

In [150]:
def purpose_change(purpose):
    lemmas_row = m.lemmatize(purpose)
    for i in lemmas_row:
        if 'свад' in i:
            return  'свадьба'
        if 'образов' in i:
            return 'образование'
        if 'авто' in i:
            return 'автомобиль'
        if 'недвиж' or 'жил' in i:
            return  'недвижимость'

5. Добавим новый столбец purpose_lemm в датафрейм и посмотрим полученные значения столбца.

In [151]:
credit_income_dob['purpose_lemm'] = credit_income_dob['purpose'].apply(purpose_change)
credit_income_dob['purpose_lemm'].value_counts()

недвижимость    19308
автомобиль        973
свадьба           797
образование       447
Name: purpose_lemm, dtype: int64

**Вывод**: Новый столбец 'purpose_lemm' имеет значения объедененные по смыслу при помощи лемматизации.

### Категоризация данных

1. Написал функцию, которая оценивает статус семьи в зависимости от количества детей.

In [152]:
def children_group(child):

        if child == 0:
                return 'нет детей'
        if child >= 1 and child < 3:
                return 'немногодетная семья'
        return 'многодетная семья'

2. Вывел данные из столбца 'total_income', которые пригодятся в оценке показателя платежеспособности по кредиту.

In [153]:
print(credit_income_dob.describe())

           children  days_employed_x     dob_years  education_id  \
count  21525.000000     21525.000000  21525.000000  21525.000000   
mean       0.479721     66625.441069     43.293380      0.817236   
std        0.755528    138779.625382     12.574584      0.548138   
min        0.000000     -2143.000000      0.000000      0.000000   
25%        0.000000       686.000000     33.000000      1.000000   
50%        0.000000      1946.000000     42.000000      1.000000   
75%        1.000000      5333.000000     53.000000      1.000000   
max        5.000000    401755.000000     75.000000      4.000000   

       family_status_id          debt  total_income_x  
count      21525.000000  21525.000000    2.152500e+04  
mean           0.972544      0.080883    1.652253e+05  
std            1.420324      0.272661    9.804367e+04  
min            0.000000      0.000000    2.066726e+04  
25%            0.000000      0.000000    1.077982e+05  
50%            0.000000      0.000000    1.425944e+

3. Написал функцию, которая оценивает показатель платежеспособности по кредиту исходя из уровня заработной платы. Разделил на категории по квартилям: 25% - 107798.2, 50% - 142594.4, 75% - 195549.9. 

In [154]:
def income_group(cash):

        if cash <= 107798.2:
                return 'низкий доход'
        if cash > 107798.2 and cash <= 142594.4:
                return 'средний доход'
        if cash > 142594.4 and cash <= 195549.9:
                return 'высокий доход'
        return 'сверхвысокий доход'

4. Добавил в датафрейм столбцы 'children_group' и 'income_group', где хранятся результаты применения функции children_group() и income_group().

In [155]:
credit_income_dob['children_group'] = credit_income_dob['children'].apply(children_group)
credit_income_dob['income_group'] = credit_income_dob['total_income_x'].apply(income_group)
credit_income_dob.head(5)

Unnamed: 0,children,days_employed_x,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income_x,purpose,purpose_lemm,children_group,income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,недвижимость,немногодетная семья,сверхвысокий доход
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,недвижимость,немногодетная семья,средний доход
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,недвижимость,нет детей,высокий доход
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,недвижимость,многодетная семья,сверхвысокий доход
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,недвижимость,нет детей,высокий доход


**Вывод**: В датафрейм добавлен столбец 'children_group' в котором хранятся значения статуса семьи в зависимости от количества детей: нет детей - количество детей 0, немногодетная семья - количество детей 1-2, многодетная семья - количество детей больше или равно 3. Также в датафрейм добавлен столбец 'income_group' в котором хранятся значения показателя платежеспособности.

## Шаг 3. Ответьте на вопросы
<a id='cell3'></a>

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

1. Для подсчета общего количества людей имеющих разное семейное положение, использую следующее условие credit_score['children_group'] == 'children_group' и функцию len(). Результаты записываю в переменные: no_children_total, low_children_total, many_children_total. В переменных суммировал показатели по категориям: нет детей - количество детей 0, немногодетная семья - количество детей 1-2 и многодетная семья у которых количество детей больше 3.


In [156]:
no_children_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'нет детей'])
low_children_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'немногодетная семья'])
many_children_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'многодетная семья'])

3. Нахожу общее количество людей с разным статусом в зависимости от количества детей и имеющих задолженности по кредиту. 
    Использую функцию sum() и следующие условия: 
                                 [credit_score['children_group'] == 'нет детей']['debt']
                                 [credit_score['children_group'] == 'немногодетная семья']['debt']
                                 [credit_score['children_group'] == 'многодетная семья']['debt'].

In [157]:
no_children_debt = credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'нет детей']['debt'].sum()
low_children_debt = credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'немногодетная семья']['debt'].sum()
many_children_debt = credit_income_dob.loc[credit_income_dob.loc[:,'children_group'] == 'многодетная семья']['debt'].sum()

4. Создаю список списков с необходимыми значениями для дальнейшего вывода в таблицу.

In [158]:
debt_children_list = [['нет детей', no_children_total, no_children_debt],
             ['немногодетная семья',low_children_total, low_children_debt],
             ['многодетная семья', many_children_total, many_children_debt],
            ]

5. Вывожу полученные значения в таблицу.

In [159]:
print('Статус семьи        | Общее количество | Количество должников| Количество недолжников| Процент должников')
print('--------------------------------------------------------------------------------------------------------')

for row in debt_children_list:

    print('{: <19} | {: >16} | {: >19} | {: >20}| {: >10.2%}'.format(row[0], row[1], row[2], row[1]-row[2], row[2]/row[1]))

Статус семьи        | Общее количество | Количество должников| Количество недолжников| Процент должников
--------------------------------------------------------------------------------------------------------
нет детей           |            14149 |                1063 |                13086|      7.51%
немногодетная семья |             6996 |                 647 |                 6349|      9.25%
многодетная семья   |              380 |                  31 |                  349|      8.16%


**Вывод**: Самый большой процент должников среди семей имеющих статус "немногодетная семья" у которых количество детей 1-2. Минимальная доля у семей со статусом "нет детей". Семья со статусом "многодетная семья" у которых количество детей больше 3, занимает среднее положение среди должников.

**Вывод**: Вывод о том, что на детей приходится тратить, большую долю денежных средств, очевиден; поэтому люди у которых нет детей чаще берут кредит и чаще его возвращают. Семьи с 1-2 детьми более распространены чем многодетные семьи. Многодетным семьям государство оказывает поддержку, их финансовое состояние более устойчиво в отличии от немногодетной семьи.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

1. Для подсчета общего количества людей имеющих разное семейное положение, использую следующее условие credit_score['family_status'] == 'family_status' и функцию len(). Результаты записываю в переменные: married_total, not_married_total, civil_mariage_total, divorced_debt_total, widow_widower_total.

In [160]:
married_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'женат / замужем'])
not_married_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'не женат / не замужем'])
civil_marriage_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'гражданский брак'])
divorced_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'в разводе'])
widow_widower_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'вдовец / вдова'])

3. Нахожу общее количество семей с разным семейным положением и имеющих задолженности по кредиту. 
    Использую функцию sum() и следующие условия: 
                                 [credit_score['family_status'] == 'женат / замужем']['debt']
                             [credit_score['family_status'] == 'не женат / не замужем']['debt']
                                 [credit_score['family_status'] == 'гражданский брак']['debt']
                                 [credit_score['family_status'] == 'в разводе']['debt']
                                 [credit_score['family_status'] == 'вдовец / вдова']['debt'].

In [161]:
married_debt = credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'женат / замужем']['debt'].sum()
not_married_debt = credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'не женат / не замужем']['debt'].sum()
civil_marriage_debt = credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'гражданский брак']['debt'].sum()
divorced_debt = credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'в разводе']['debt'].sum()
widow_widower_debt = credit_income_dob.loc[credit_income_dob.loc[:,'family_status'] == 'вдовец / вдова']['debt'].sum()


4. Создаю список списков с необходимыми значениями для дальнейшего вывода в таблицу.

In [162]:
debt_family_list = [['женат / замужем', married_total, married_debt],
             ['не женат / не замужем', not_married_total, not_married_debt],
             ['гражданский брак', civil_marriage_total, civil_marriage_debt],
             ['в разводе', divorced_total, divorced_debt],
             ['вдовец / вдова', widow_widower_total, widow_widower_debt],
            ]

5. Вывожу полученные значения в таблицу.

In [163]:
print('Семейное положение   | Общее количество | Количество должников| Количество недолжников| Процент должников')
print('---------------------------------------------------------------------------------------------------------')

for row in debt_family_list:

    print('{: <21} | {: >16} | {: >19} | {: >22}| {: >10.2%}'.format(row[0], row[1], row[2], row[1]-row[2], row[2]/row[1]))

Семейное положение   | Общее количество | Количество должников| Количество недолжников| Процент должников
---------------------------------------------------------------------------------------------------------
женат / замужем       |            12380 |                 931 |                  11449|      7.52%
не женат / не замужем |             2813 |                 274 |                   2539|      9.74%
гражданский брак      |             4177 |                 388 |                   3789|      9.29%
в разводе             |             1195 |                  85 |                   1110|      7.11%
вдовец / вдова        |              960 |                  63 |                    897|      6.56%


**Вывод**: Самый большой процент должников среди людей имеющих статус "не женат / не замужем", на втором месте люди имеющие статус "гражданский брак", на третьем месте люди имеющие примерно одинаковые показатели со статусами "женат / замужем" и "в разводе". Минимальный процент у людей со статусом "вдовец / вдова".

**Вывод**: Выделю две категории людей: 
1. Люди у которых не было официального брака ( не женат / не замужем, гражданский брак).
2. Люди которые состояли в официальном браке или состоят (женат / замужем, в разводе, вдовец / вдова).

**Вывод**: Первая категория менее добросовестно выплачивает кредит нежели вторая. Касательно второй категории, видимо это связано с более развитым чувством ответственности, приобретенным за время официального брака.


- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

1. Для подсчета общего количества семей имеющих ежемесячную заработную плату ниже и выше среднего использую функцию value_counts().

In [164]:
credit_income_dob['income_group'].value_counts()

средний доход         5523
низкий доход          5382
сверхвысокий доход    5382
высокий доход         5238
Name: income_group, dtype: int64

2. Результаты записываю в переменные: low_mean и more_mean.

In [165]:
mean_indicator_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'средний доход'])
low_indicator_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'низкий доход'])
superhigh_indicator_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'сверхвысокий доход'])
high_indicator_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'высокий доход'])

3. Нахожу общее количество семей с разным уровнем заработной платы и имеющих задолженности по кредиту. 
    Использую функцию sum() и следующие условия:
                                             [credit_score['income_group'] == 'income_value']['debt']
                                           

In [166]:
mean_indicator_debt = credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'средний доход']['debt'].sum()
low_indicator_debt = credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'низкий доход']['debt'].sum()
superhigh_indicator_debt = credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'сверхвысокий доход']['debt'].sum()
high_indicator_debt = credit_income_dob.loc[credit_income_dob.loc[:,'income_group'] == 'высокий доход']['debt'].sum()

In [167]:
debt_income_list = [['средний доход', mean_indicator_total, mean_indicator_debt],
             ['низкий доход', low_indicator_total, low_indicator_debt],
             ['сверхвысокий доход', superhigh_indicator_total, superhigh_indicator_debt],
             ['высокий доход', high_indicator_total, high_indicator_debt],
            ]

4. Вывожу доли должников среди людей имеющих различные статусы заработной платы. 

In [168]:
print('Показатель платежеспособности   | Общее кол-во | Кол-во должников| Кол-во недолжников| % должников')
print('--------------------------------------------------------------------------------------------------------')

for row in debt_income_list:

    print('{: <31} | {: >12} | {: >15} | {: >18}| {: >10.2%}'.format(row[0], row[1], row[2], row[1]-row[2], row[2]/row[1]))


Показатель платежеспособности   | Общее кол-во | Кол-во должников| Кол-во недолжников| % должников
--------------------------------------------------------------------------------------------------------
средний доход                   |         5523 |             483 |               5040|      8.75%
низкий доход                    |         5382 |             427 |               4955|      7.93%
сверхвысокий доход              |         5382 |             386 |               4996|      7.17%
высокий доход                   |         5238 |             445 |               4793|      8.50%


**Вывод**: Самый высокий процент должников среди людей со средним и высоким доходом, минимальный процент у людей со сверхвысоким и низким доходом. Неудивительно, что должников меньше среди людей со сверхвысоким и низким доходом, у первых достаточно средств для погашения кредита, а вторые стараются не ухудшать свое итак не лучшее финансовое положение. Показатели по среднему и высокому доходу не сильно отличаются, люди с такими доходами чаще имеют долг по кредиту, видимо эта категория людей хуже соотносит свое финансовое состояние с возможностью выплаты суммы по кредиту.

- Как разные цели кредита влияют на его возврат в срок?

1. Для подсчета общего количества людей берущих кредит в зависимости от целей использую следующие условия credit_score['purpose_lemm'] == 'purpose' и фунцкию len(). Результаты записываю в переменные: real_estate_purpose, automobile_purpose, wedding_purpose, education_purpose.

In [169]:
real_estate_purpose_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'недвижимость'])
automobile_purpose_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'автомобиль'])
wedding_purpose_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'свадьба'])
education_purpose_total = len(credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'образование'])

3. Нахожу общее количество людей с разным целями по кредиту и имеющих задолженности. 
    Использую функцию sum() и следующие условия:
                                             [credit_score['purpose_lemm'] == 'недвижимость']['debt']
                                             [credit_score['purpose_lemm'] == 'автомобиль']['debt']
                                             [credit_score['purpose_lemm'] == 'свадьба']['debt']
                                             [credit_score['purpose_lemm'] == 'образование']['debt']

In [170]:
real_estate_purpose_debt = credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'недвижимость']['debt'].sum()
automobile_purpose_debt = credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'автомобиль']['debt'].sum()
wedding_purpose_debt = credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'свадьба']['debt'].sum()
education_purpose_debt = credit_income_dob.loc[credit_income_dob.loc[:,'purpose_lemm'] == 'образование']['debt'].sum()

4. Вывожу доли должников среди людей имеющих различные цели получения кредита. 

In [171]:
debt_family_list = [['недвижимость', real_estate_purpose_total, real_estate_purpose_debt],
             ['автомобиль', automobile_purpose_total, automobile_purpose_debt],
             ['свадьба', wedding_purpose_total, wedding_purpose_debt],
             ['образование', education_purpose_total, education_purpose_debt],
            ]

In [172]:
print('Цель кредита        | Общее количество | Количество должников| Количество недолжников| Процент должников')
print('--------------------------------------------------------------------------------------------------------')

for row in debt_family_list:

    print('{: <19} | {: >16} | {: >19} | {: >20}| {: >10.2%}'.format(row[0], row[1], row[2], row[1]-row[2], row[2]/row[1]))

Цель кредита        | Общее количество | Количество должников| Количество недолжников| Процент должников
--------------------------------------------------------------------------------------------------------
недвижимость        |            19308 |                1559 |                17749|      8.07%
автомобиль          |              973 |                  86 |                  887|      8.84%
свадьба             |              797 |                  64 |                  733|      8.03%
образование         |              447 |                  32 |                  415|      7.16%


**Вывод**: Процент должников, среди людей имеющих разные цели кредита примерно одинаковый, немного выделяется цель 'образование'.

## Шаг 4. Общий вывод
<a id='cell4'></a>

1. Максимальный процент людей у которых была задолженность по кредиту это люди со статусами: 'немногодетная семья', 'не женат / не замужем', 'средний доход' и 'высокий доход'.
2. Минимальный процент людей у которых была задолженность по кредиту это люди со статусами: 'нет детей', 'вдовец / вдова', 'низкий доход' и 'сверхвысокий доход'.
3. Процент должников, в зависимости от цели кредита, почти одинаковый.

### Вывод: Семейное положение, количество детей и уровень заработной платы влияет на  факт погашения кредита в срок, а цели не влияют.     Клиент, который реже имеет долги по кредиту обладает следующими статусами - 'вдовец / вдова', 'нет детей',  'низкий доход' или 'сверхвысокий доход'. Клиент, который чаще имеет долги по кредиту обладает следующими статусами - 'немногодетная семья', 'не женат / не замужем',  'средний доход' или 'высокий доход'. Исходя из вышеисложенного, вдова у которой нет детей и имеющая сверхвысокий доход предпочтительнее для выдачи кредита, нежели незамужняя дама с двумя детьми и средним доходом.