<a href="https://colab.research.google.com/github/daryafralova/CodeTasks/blob/main/Pandas_%D0%9F%D0%BB%D0%B0%D1%82%D0%B5%D0%B6%D0%B5%D1%81%D0%BF%D0%BE%D1%81%D0%BE%D0%B1%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Название датасета:** Надежность заёмщиков - исследование платёжеспособности

**Цель:** Определить влияние различных характеристик клиентов на вероятность своевременного погашения кредита ответив на следующие вопросы:

1.   Влияет ли количество детей на своевременный возврат кредита?
2.   Влияет ли семейное положение на своевременный возврат кредита?
3.   Влияет ли уровень дохода на своевременный возврат кредита?
4.   Влияют ли цели кредита на его своевременный возврат?







**Ход иследования**

1.   Обзор данных
2.   Предобработка данных
3.   Ответы на вопросы исследования
4.   Общий вывод





In [None]:
import gdown
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

###Загрузка и обзор данных


*   Проверка на наличие ошибок
*   Оценка качества данных и влияние найденных ошибок на качество  исследования



In [None]:
gdown.download('https://drive.google.com/uc?id=14zOYNZI7w7TvLVZIhJLmoustW04Bznti')

Downloading...
From: https://drive.google.com/uc?id=14zOYNZI7w7TvLVZIhJLmoustW04Bznti
To: /content/data.csv
100%|██████████| 3.32M/3.32M [00:00<00:00, 26.9MB/s]


'data.csv'

In [None]:
data = pd.read_csv('/content/data.csv', sep=',')

In [None]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


*   children — количество детей в семье
*   days_employed — общий трудовой стаж
*   dob_years — возраст клиента
*   education — уровень образования клиента
*   education_id — идентификатор уровня образования
*   family_status — семейное положение
*   family_status_id — идентификатор семейного положения
*   gender — пол клиента
*   income_type — тип занятости
*   debt — имел ли задолженность по возврату кредитов
*   total_income — ежемесячный доход
*   purpose — цель получения кредита



In [None]:
#Вывод типы данных всех столбцов
display(data.dtypes)

Unnamed: 0,0
children,int64
days_employed,float64
dob_years,int64
education,object
education_id,int64
family_status,object
family_status_id,int64
gender,object
income_type,object
debt,int64


In [None]:
#смотрим есть ли NaN значения
data.isna().sum()

Unnamed: 0,0
children,0
days_employed,2174
dob_years,0
education,0
education_id,0
family_status,0
family_status_id,0
gender,0
income_type,0
debt,0


In [None]:
#Смотрим кол-во дубликатов
data.duplicated().value_counts()

Unnamed: 0,count
False,21471
True,54


In [None]:
# вывод показателей
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


По первичному обзору данных выявили следующие аномалии по следующим столбцам:
*   children- кол-во детей не может быть отрицательным -1.000000
*   children- кол-во детей в кол-ве 20.000000 тоже выглядит подозрительным
*   days_employed-Общий трудовой стаж также выглядит подозрительно так как есть и слишком большие значения и отрицательные тоже
*   dob_years - возраст также не может быть равен 0
*   total_income - нужно проверить на выбросы
*   Также в данных присутствуют дубликаты, которые следует удалить
*   Найдены данные с NaN значениями которые нужно будет обработать





###Предварительная обработка данных


*   Удаление дубликатов
*   Обработка пропущенных значений
*   Обработка аномалий по столбцам : children, dob_years
*   Преобразование типов данных
*   Обзор данных по остальным столбцам
*   Проверка данных после предварительной обработки







**Удаляем дубликаты**

In [None]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

**Обработка пропущенных значений**

В двух столбцах есть пропущенные значения. Один из столбцов с пропущенными значениями — total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца income_type.

**Почему берём медиану, а не среднее?**

*   Медиана устойчива к выбросам. Если у одного человека в группе очень высокий доход (например, миллионы), среднее значение может сильно исказиться
*   Среднее значение чувствительно к аномалиям, тогда как медиана более точно отражает типичное значение дохода.



In [None]:
for t in data['income_type'].unique():#получаем список уникальных значений в столбце income_type,  for перебирает каждое из этих значений
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \#income_type == i- выбираем строки с конкретным типом дохода + фильтруем строки где total_income пустой (isna())
    data.loc[(data['income_type'] == t), 'total_income'].median() #вычисляется медианное значение столбца total_income

In [None]:
data.isna().sum() #проверяем результат

Unnamed: 0,0
children,0
days_employed,2120
dob_years,0
education,0
education_id,0
family_status,0
family_status_id,0
gender,0
income_type,0
debt,0


Один из столбцов с пропущенными значениями — days_employed — хранит данные о стаже.Заполним пропуски в нём медианными значениями по типу занятости income_type

Также изменим отрицательные значения(стаж не может быть отрицательным, это аномальные значения)

In [None]:
# возьмем модуль значений с помощью abs()
data['days_employed'] = data['days_employed'].abs()

In [None]:
# выведем медианное значение трудового стажа в днях
data.groupby('income_type')['days_employed'].agg('median')

Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
безработный,366413.652744
в декрете,3296.759962
госслужащий,2689.368353
компаньон,1547.382223
пенсионер,365213.306266
предприниматель,520.848083
сотрудник,1574.202821
студент,578.751554


**Заполним пропуски в столбце days_employed медианными значениями по типу занятости income_type.**

In [None]:
for i in data['income_type'].unique(): #получаем список уникальных значений в столбце income_type,  for перебирает каждое из этих значений
    data.loc[(data['income_type'] == i) & (data['days_employed'].isna()), 'days_employed'] = \#income_type == i- выбираем строки с конкретным типом дохода + фильтруем строки где days_employed пустой (isna())
    data.loc[(data['income_type'] == i), 'days_employed'].median() #заменяем строки где days_employed пустой медианным значением

In [None]:
data.isna().sum()  #проверяем результат

Unnamed: 0,0
children,0
days_employed,0
dob_years,0
education,0
education_id,0
family_status,0
family_status_id,0
gender,0
income_type,0
debt,0


**Столбец children**

In [None]:
# Подсчет количества уникальных значений в столбце 'children' DataFrame
data['children'].value_counts()

Unnamed: 0_level_0,count
children,Unnamed: 1_level_1
0,14107
1,4809
2,2052
3,330
20,76
-1,47
4,41
5,9


In [None]:
#Удаляем аномальные значения из children
data = data[(data['children'] != -1) & (data['children'] != 20)] #создаёт булевый массив (True, False), где True означает, что значение в столбце children не равно -1
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

**Cтолбец dob_years**

In [None]:
# Посмотрим количество строк в датафрейме, где возраст меньше 18 лет(минимальны возраст заёмщика)
data.loc[data['dob_years'] < 18, 'dob_years'].count()

100

In [None]:
#Посмотрим, являются ли строки с возрастом менее 18 лет - нулём. Для этого посчитаем кол-во строк меньше 18 лет и не равных 0.
data.loc[(data['dob_years'] < 18) & (data['dob_years'] != 0), 'dob_years'].count()

0

In [None]:
# Пройдемся циклом  по уникальным значениям колонки income_type
# Найдем среднее значение
# Заполним пропуски полученными значениями
for t in data['income_type'].unique():
    mean_value = data.loc[data['income_type'] == t, 'dob_years'].mean()
    data.loc[(data['dob_years'] == 0) & (data['income_type'] == t), 'dob_years'] = mean_value

  data.loc[(data['dob_years'] == 0) & (data['income_type'] == t), 'dob_years'] = mean_value


In [None]:
data.loc[data['dob_years'] == 0, 'dob_years'].count()

0

**Преобразование типов данных**

In [None]:
data['total_income'] = data['total_income'].astype(int) # меняем вещественные значения на целочисленные
data['days_employed'] = data['days_employed'].astype(int) # меняем вещественные значения на целочисленные
data['education'] = data['education'].str.lower() # приводим к нижнему регистру столбец education

**Обзор данных по остальным столбцам**

In [None]:
# Смотрим на значения столбца education
data['education'].sort_values().value_counts()

Unnamed: 0_level_0,count
education,Unnamed: 1_level_1
среднее,15091
высшее,5228
неоконченное высшее,741
начальное,282
ученая степень,6


In [None]:
# Смотрим на значения столбца gender
data['gender'].sort_values().value_counts()

Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
F,14107
M,7240
XNA,1


In [None]:
# Посмотрим на строку с некорректным значением в столбце gender
data.loc[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10690,0,2358,24.0,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905,покупка недвижимости


Вывод по столбцу gender: определить пол не представляется возможным.

Т.к. столбец gender для исследований нам не понадобится оставим это значение как есть, чтобы не нарушать данные.

**Проверка данных после предварительной обработки**

In [None]:
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,4529,43.0,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21467,0,343937,67.0,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21468,1,2113,38.0,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21469,3,3112,38.0,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [None]:
data.info() # методом info проверим тип переменных в колонках

<class 'pandas.core.frame.DataFrame'>
Index: 21348 entries, 0 to 21470
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21348 non-null  int64  
 1   days_employed     21348 non-null  int64  
 2   dob_years         21348 non-null  float64
 3   education         21348 non-null  object 
 4   education_id      21348 non-null  int64  
 5   family_status     21348 non-null  object 
 6   family_status_id  21348 non-null  int64  
 7   gender            21348 non-null  object 
 8   income_type       21348 non-null  object 
 9   debt              21348 non-null  int64  
 10  total_income      21348 non-null  int64  
 11  purpose           21348 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.1+ MB


In [None]:
# вывод показателей
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21348.0,21348.0,21348.0,21348.0,21348.0,21348.0,21348.0
mean,0.473674,67231.124461,43.49049,0.817079,0.974283,0.081132,165318.4
std,0.752199,139348.906185,12.234565,0.549115,1.421299,0.273044,98279.9
min,0.0,24.0,19.0,0.0,0.0,0.0,20667.0
25%,0.0,1025.0,33.0,1.0,0.0,0.0,107559.5
50%,0.0,1996.0,43.0,1.0,0.0,0.0,142594.0
75%,1.0,5347.5,53.0,1.0,1.0,0.0,195788.5
max,5.0,401755.0,75.0,4.0,4.0,1.0,2265604.0


**Вывод по результатам предварительной обработки данных**



*   Дубликаты удалены
*   Пропущенных значений больше нет
*   Аномалии по столбцам children и dob_years не выявлены
*   Преобразовали столбцы days_employed и total_income к типу данных int
*   По столбцу gender выявлена запись с непонятным описанием.Но так как различие по гендерному признаку не пригодиться в дальнейшем анализе данных, данную аномалию оставили без изменений, чтобы не нарушать целостность данных
*   По столбцу days_employed - Отрицательных значений нет. Минимальное значение - 24 дня. Максимальное значение 401755 стажа - аномально. Допустим, что это значение в часах, тогда получим около 16740 дней стажа(что соответствует примерно 46 годам стажа). Учитывая, что максимальный возраст клиента 75 лет, предположение, что аномальные значения приведены в часах считаю верным. Приведем все аномальные значения в столбце к значениям в днях. Т.к. миниальный возраст для оформления по трудовому договору - 16 лет, а максимальное значение возраста - 75 лет. Возьмем границу стажа равную 59 лет (округлив получим 21500 дней). Все значения выше будем считать ошибочными и разделим их на 24 часа, приведя к дням




In [None]:
# Приводим аномальные значения в столбце days_employed к значениям в днях
data.loc[data['days_employed'] > 21500, 'days_employed'] = data.loc[data['days_employed'] > 21500, 'days_employed'] / 24

 15583.125      14330.70833333]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  data.loc[data['days_employed'] > 21500, 'days_employed'] = data.loc[data['days_employed'] > 21500, 'days_employed'] / 24


In [None]:
# Проверим
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.0,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.0,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.0,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.0,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177.75,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.0,27.0,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.0,43.0,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.0,50.0,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.0,35.0,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.0,41.0,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [None]:
data['days_employed'] = data['days_employed'].astype(int) # с помощью метода astype() преобразуем данные к типу int
data.head() # проверка

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


##Категоризация данных для дальнейшего анализа

Создадим столбец total_income_category с категориями:

*   0–30000 — 'E';
*   30001–50000 — 'D';
*   50001–200000 — 'C';
*   200001–1000000 — 'B';
*   1000001 и выше — 'A'.







In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)


Сформирует новый столбец purpose_category, в который войдут следующие категории:

*   'операции с автомобилем',
*   'операции с недвижимостью',
*   'проведение свадьбы',
*   'получение образования'.








In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

**Выведем перечень уникальных целей взятия кредита**

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Проверяем как выглядят наши данные для дальнейшего анализа**

In [None]:
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,4529,43.0,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21467,0,14330,67.0,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем
21468,1,2113,38.0,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21469,3,3112,38.0,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем


##Анализ данных

1. Влияет ли количество детей на своевременный возврат кредита?
 Для ответа на этот вопрос сделаем следующее:
*   Cоздадим дополнительный столбец в датафрейме, в котором сделаем категоризацию по кол-ву детей
*   Cоздадим сводную таблицу.



In [None]:
# Функция категоризации по детям
def children_category(children):
    if 1 <= children <= 2:
        return 'есть дети'
    if children >= 3:
        return 'многодетный'
    else:
        return 'нет детей'

In [None]:
# Создаем столбец children_rank
data['children_rank'] = data['children'].apply(children_category)

In [None]:
# Проверяем результат. Выведем последние 5 значений
data.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_rank
21466,1,4529,43.0,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью,есть дети
21467,0,14330,67.0,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,C,операции с автомобилем,нет детей
21468,1,2113,38.0,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью,есть дети
21469,3,3112,38.0,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,B,операции с автомобилем,многодетный
21470,2,1984,40.0,среднее,1,женат / замужем,0,F,сотрудник,0,82047,на покупку автомобиля,C,операции с автомобилем,есть дети


In [None]:
debt_children = data.groupby(['children_rank', 'debt'])['gender'].count().unstack() #группируем по children_rank и debt, и с помощью  (unstack()) преобразуем таблиуцу с 2мя столбцами
debt_children.columns = ['no_debt', 'debt'] # Переименовываем столбцы
debt_children['share_of_debtors'] = debt_children['debt'] / (debt_children['debt'] + debt_children['no_debt'])# Считаем долю должников
debt_children['share_of_debtors'] = debt_children['share_of_debtors'].map('{:.1%}'.format)# Переводим долю в проценты
debt_children = debt_children.sort_values(by='share_of_debtors', ascending=False) # Сортируем по убыванию
display(debt_children)

Unnamed: 0_level_0,no_debt,debt,share_of_debtors
children_rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
есть дети,6223,638,9.3%
многодетный,349,31,8.2%
нет детей,13044,1063,7.5%


Вывод: Наличие детей повышает вероятность задолжености. Вероятно, это связано с дополнительными расходами на детей. Однако, можно заметить, что в многодетных семьях уровень должников ниже (8.2%), чем в семьях с одним или двумя детьми (9.3%). Это может быть связано либо с тем, что существуют программы поддержки многодетных семей или количество заемщиков в категории "многодетный" для данного сравнения недостаточно. Для категории граждан без детей самый низкий показатель должников (7.3%).

2.Влияет ли семейное положение на своевременный возврат кредита?

In [None]:
debt_family_status = data.groupby(['family_status', 'debt'])['gender'].count().unstack() #Группируем по family_status и debt
debt_family_status.columns = ['no_debt', 'debt']# Переименовываем столбцы
debt_family_status['share_of_debtors'] = debt_family_status['debt'] / (debt_family_status['debt'] + debt_family_status['no_debt'])# Считаем долю должников
debt_family_status['share_of_debtors'] = debt_family_status['share_of_debtors'].map('{:.1%}'.format)# Переводим долю в проценты
debt_family_status = debt_family_status.sort_values(by='share_of_debtors', ascending=False)# Сортируем по убыванию
display(debt_family_status)

Unnamed: 0_level_0,no_debt,debt,share_of_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2523,273,9.8%
гражданский брак,3761,385,9.3%
женат / замужем,11339,927,7.6%
в разводе,1105,84,7.1%
вдовец / вдова,888,63,6.6%


Вывод: Холостые и живущие в граждансокм браке пары больше подвержены риску стать должниками. Вероятно, это связано с тем, что у них больше свободы действий по распоряжению своими средствами. У них нет совместных накоплений, каждый распоряжается своими средствами по своему. Остальные категории, побывавшие в браке или на текущей момент в браке имеют меньшие проценты должников. Наиболее низкий процент у категории вдовец/вдова (6.6%). Это может быть связано с дополнительными средствами, доставшимися по наследству.

3.Влияет ли уровень дохода на своевременный возврат кредита?

In [None]:
debt_total_income = data.groupby(['total_income_category', 'debt'])['gender'].count().unstack() #Группируем по total_income_category и debt
debt_total_income.columns = ['no_debt', 'debt']# Переименовываем столбцы
debt_total_income['share_of_debtors'] = debt_total_income['debt'] / (debt_total_income['debt'] + debt_total_income['no_debt'])# Считаем долю должников
debt_total_income['share_of_debtors'] = debt_total_income['share_of_debtors'].map('{:.1%}'.format)# Переводим долю в проценты
debt_total_income = debt_total_income.sort_values(by='share_of_debtors', ascending=False)# Сортируем по убыванию
display(debt_total_income)

Unnamed: 0_level_0,no_debt,debt,share_of_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,20,2,9.1%
C,14585,1353,8.5%
A,23,2,8.0%
B,4660,354,7.1%
D,328,21,6.0%


Вывод: Категория граждан (С) со средним доходом (50001–200000) больше подвержены риску стать должниками. Несмотря на то, что в итоговой таблицы должников данная категория граждан имеет не самый высокий процент по должникам, для точного исследования мы должны рассматривать репрезентативные выборки(категории граждан). Соответственно категории "E" и "A" мы не берем в расчет (из-за маленькой выборки), а выводы делаем опираясь на категории C, B, D. Сравнивая эти категории делаем вывод, что наибольший риск стать должниками у категории C, а наименьший у категории D.

4. Влияют ли цели кредита на его своевременный возврат?

Сформирует новый столбец purpose_category, в который войдут следующие категории:

'операции с автомобилем',
'операции с недвижимостью',
'проведение свадьбы',
'получение образования'.

In [None]:
debt_purpose_category = data.groupby(['purpose_category', 'debt'])['gender'].count().unstack()
debt_purpose_category.columns = ['no_debt', 'debt']# Переименовываем столбцы
debt_purpose_category['share_of_debtors'] = debt_purpose_category['debt'] / (debt_purpose_category['debt'] + debt_purpose_category['no_debt'])# Считаем долю должников
debt_purpose_category['share_of_debtors'] = debt_purpose_category['share_of_debtors'].map('{:.1%}'.format)# Переводим долю в проценты
debt_purpose_category = debt_purpose_category.sort_values(by='share_of_debtors', ascending=False)# Сортируем по убыванию
display(debt_purpose_category)

Unnamed: 0_level_0,no_debt,debt,share_of_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3881,400,9.3%
получение образования,3620,369,9.3%
проведение свадьбы,2141,183,7.9%
операции с недвижимостью,9974,780,7.3%


Вывод: Граждане, берущие кредиты на получение образования и операции с автомобилем больше подвержены риску стать должниками. Эти две категории имеют одинаковый процент должников (9.3%). Граждане, которые берут кредит для проведения операций с недвижимостью более отвественно подходят к его погашению.

###Общий вывод

*   Наличие детей повышает вероятность задолжености.
*   Холостые и живущие в граждансокм браке пары больше подвержены риску стать должниками.
*   Категория граждан со средним доходом (50001–200000) больше подвержены риску стать должниками.
*   Граждане, берущие кредиты на получение образования и операции с автомобилем больше подвержены риску стать должниками.



