# Исследование надежности заемщиков

## Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку

## Цель проекта

Нужно предобработать данные и ответить на 4 вопроса:

* Есть ли зависимость между количеством детей и возвратом кредита в срок?

* Есть ли зависимость между семейным положением и возвратом кредита в срок?

* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

* Как разные цели кредита влияют на его возврат в срок?

### Шаг 1. Обзор данных

In [1]:
# импортировал библиотеку
import pandas as pd

In [2]:
# создал переменную df и сохранил в неё файлы таблицы
df = pd.read_csv('/datasets/data.csv') 
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# посмотрел общую информацию таблицы
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Шаг 2.0 Выявление пропусков

In [4]:
# нашёл количество пропусков во всей таблицы
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски обнаружены в столбце days_employed и total_income, в остальных столбцах пропусков нет

In [5]:
# вывел на экран 15 первых строк, чтобы найти пропуски, выявлены пропуски NaN
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Доля столбцов со значениями от в двух столбцах с пропущенными значениями состовляет 10%

В данном случае пропуски могли возникнуть из-за ошибки выгрузки данных, так как выявлен один тип пропусков и это отображено в двух столбцах со значениями

Пропуски количественных переменных лучше заполнить медианым значением, потому что данные в столбцах days_employed и total_income сильно различаются и будет неправильно использовть среднее значение

В столбце days_employed много отрциательных значений и их следут заменить на положительные, так как навряд ли трудовой стаж может измеряться в отрицательных числах

### Шаг 2.1 Заполнение пропусков

In [6]:
# перевёл отрицательные числа в положительные с помощью метода abs()
df['days_employed'] = df['days_employed'].abs()
# применил метод median() к столбцу days_employed
days_employed_median = df['days_employed'].median()
days_employed_median 

2194.220566878695

In [7]:
# заполнил пропуски числом 2194.220566878695 в столбце days_employed
df['days_employed'] = df['days_employed'].fillna(days_employed_median)
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [8]:
# применил метод median() к столбцу total_income
total_income_median = df['total_income'].median()
total_income_median

145017.93753253992

In [9]:
# заполнил пропуски числом 145017.93753253992 в total_income
df['total_income'] = df['total_income'].fillna(total_income_median)
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Шаг 2.2 Проверка данных на аномалии и исправления

In [10]:
# вывел на экран 10 первых строк
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [11]:
# нашёл макстмальное значение в столбце children
df['children'].max()

20

In [12]:
# нашёл минимальное значение в столбце children
df['children'].min()

-1

In [13]:
# нашёл макстмальное значение в столбце days_employed
df['days_employed'].max()

401755.40047533

In [14]:
# нашёл минимальное значение в столбце days_employed
df['days_employed'].min()

24.14163324048118

In [15]:
# нашёл макстмальное значение в столбце dob_years
df['dob_years'].max()

75

In [16]:
# нашёл минимальное значение в столбце dob_years
df['dob_years'].min()

0

In [17]:
# нашёл уникальные значения в столбце education
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [18]:
# нашёл макстмальное значение в столбце education_id
df['education_id'].max()

4

In [19]:
# нашёл минимальное значение в столбце education_id
df['education_id'].min()

0

In [20]:
# нашёл уникальные значения в столбце family_status
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [21]:
# нашёл макстмальное значение в столбце family_status_id
df['family_status_id'].max()

4

In [22]:
# нашёл минимальное значение в столбце family_status_id
df['family_status_id'].min()

0

In [23]:
# нашёл уникальные значения в столбце gender
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [24]:
# нашёл уникальные значения в столбце income_type
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [25]:
# нашёл макстмальное значение в столбце debt
df['debt'].max()

1

In [26]:
# нашёл минимальное значение в столбце debt
df['debt'].min()

0

In [27]:
# нашёл макстмальное значение в столбце total_income
df['total_income'].max()

2265604.028722744

In [28]:
# нашёл минимальное значение в столбце total_income
df['total_income'].min()

20667.26379327158

In [29]:
# нашёл уникальные значения в столбце purpose
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Одну аномалию я уже нашёл в столбце days_employed и заменил отрицательные числа на положительные

Найдена одна из аномалий в столбце children, значение -1 никак не может быть, так невозможно иметь -1 ребёнка

Ешё видна аномалия в столбце days_employed, максимальное значение равно 401755 дней и это точно ошибка, так как получается у этого человека трудовой стаж 1000 лет

Других аномалий не выявлено

### Шаг 2.3. Изменение типов данных

In [30]:
# заменил вещественный тип данных на целочисленный в столбце total_income
df['total_income'] = df['total_income'].astype('int')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [31]:
# заменил вещественный тип данных на целочисленный в столбце days_employed
df['days_employed'] = df['days_employed'].astype('int')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.4. Удаление дубликатов

In [32]:
# с помощью метода duplicated() нашёл строки дубликаты
df.duplicated().sum()

54

In [33]:
# заменил все значения в столбце education на строчные буквы
df['education'] = df['education'].str.lower()
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


In [34]:
df = df.drop_duplicates().reset_index(drop=True) # удалил дубликаты при помощи метода reset_index() и аргумента (drop=True), чтобы не создать столбец со старыми значениями индексов
df.duplicated().sum() # проверил на наличие дубликатов 

0

Дубликаты могут появляться по разным причинам, это может быть сбой в системе при отправке данных или человеческий фактор при написание данных

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма

In [35]:
# создал переменную education_dict и поместил туда два столбца education_id и education
education_dict = df[['education_id','education']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
education_dict.duplicated().sum()

0

In [36]:
# создал переменную family_status_dict и поместил туда два столбца family_status_id и family_status
family_status_dict = df[['family_status_id', 'family_status']]
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
family_status_dict.duplicated().sum()

0

In [37]:
# удалил столбец education
df.pop('education')
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [38]:
# удалил столбец family_status
df.pop('family_status')
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода

In [39]:
# написал функцию total_income_category и поместил параметр category, чтобы распределить по категориям
def total_income_category(category):
    if category <= 30000:
        return 'E'
    elif 30001 <= category <= 50000:
        return 'D'
    elif 50001 <= category <= 200000:
        return 'C'
    elif 200001 <= category <= 1000000:
        return 'B'
    return 'A'
# создал новый столбец total_income_category и пременил к столбцу total_income метод apply()
df['total_income_category'] = df['total_income'].apply(total_income_category) 
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита

In [40]:
# нашёл уникальыне значения в столбце purpose
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [41]:
# написал функцию purpose_category и поместил параметр purpose, чтобы распределить по целям операции 
def purpose_category(operation):
    if (operation == 'приобретение автомобиля') or (operation == 'на покупку подержанного автомобиля') or (operation == 'на покупку своего автомобиля') or (operation == 'автомобили') or (operation == 'сделка с подержанным автомобилем') or (operation == 'автомобиль') or (operation == 'свой автомобиль') or (operation == 'сделка с автомобилем') or (operation == 'на покупку автомобиля'):
        return 'операция с автомобилем'
    if (operation == 'покупка жилья') or (operation == 'операции с жильем') or (operation == 'покупка жилья для семьи') or (operation == 'покупка недвижимости') or (operation == 'покупка коммерческой недвижимости') or (operation == 'покупка жилой недвижимости') or (operation == 'строительство собственной недвижимости') or (operation == 'недвижимость') or (operation == 'операции с коммерческой недвижимостью') or (operation == 'строительство жилой недвижимости') or (operation == 'жилье') or (operation == 'операции со своей недвижимостью') or (operation == 'покупка своего жилья') or (operation == 'операции с недвижимостью') or (operation == 'покупка жилья для сдачи') or (operation == 'ремонт жилью'):
        return 'операции с недвижимостью'
    if (operation == 'сыграть свадьбу') or (operation == 'на проведение свадьбы') or (operation == 'свадьба'):
        return 'проведение свадьбы'
    return 'получение образования'
# создал новый столбец purpose_category и пременил к столбцу purpose метод apply()
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операция с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Ответы на вопросы

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [42]:
# создал сводную таблицу по категории children и узнал количесвто людей отдавших долг вовремя и количество должников
df_pivot_children = df.pivot_table(index='children', columns='debt', values='total_income', aggfunc='count')
df_pivot_children

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
-1,46.0,1.0
0,13028.0,1063.0
1,4364.0,444.0
2,1858.0,194.0
3,303.0,27.0
4,37.0,4.0
5,9.0,
20,68.0,8.0


Значения -1 и 0 не подходят для этого условия и дальше их не будем использовать

In [43]:
df_pivot_children = df_pivot_children.fillna(0) # заменил пропущенное значение на 0

In [44]:
# добавил новый столбец с общей суммой каждой категории
df_pivot_children['sum'] = df.groupby('children')['children'].count()
df_pivot_children

debt,0,1,sum
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-1,46.0,1.0,47
0,13028.0,1063.0,14091
1,4364.0,444.0,4808
2,1858.0,194.0,2052
3,303.0,27.0,330
4,37.0,4.0,41
5,9.0,0.0,9
20,68.0,8.0,76


In [45]:
# нашёл разницу между количесвтом должиников и общим количесвтом людей в категориях, умножил отношение на 100
df_pivot_children['ratio'] = df_pivot_children[1] / df_pivot_children['sum'] * 100
df_pivot_children

debt,0,1,sum,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
-1,46.0,1.0,47,2.12766
0,13028.0,1063.0,14091,7.543822
1,4364.0,444.0,4808,9.234609
2,1858.0,194.0,2052,9.454191
3,303.0,27.0,330,8.181818
4,37.0,4.0,41,9.756098
5,9.0,0.0,9,0.0
20,68.0,8.0,76,10.526316


##### Вывод 1: Гипотеза не подтвердилась
Зависимостью таковой нет, по данным видно, что доли должников почти одинаковы

Выделяется только у кого есть 5 детей, в этой категории нет должников, но это больше похоже на аномалию, так как имеет маленькое количество детей

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [46]:
# создал сводную таблицу по категории family_status_id и узнал количесвто людей отдавших долг вовремя и количество должников
df_pivot_family = df.pivot_table(index='family_status_id', columns='debt', values='total_income', aggfunc='count')
df_pivot_family

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,3763,388
2,896,63
3,1110,85
4,2536,274


In [47]:
# добавил новый столбец с общей суммой каждой категории
df_pivot_family['sum'] = df.groupby('family_status_id')['family_status_id'].count()
df_pivot_family

debt,0,1,sum
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11408,931,12339
1,3763,388,4151
2,896,63,959
3,1110,85,1195
4,2536,274,2810


In [48]:
# нашёл разницу между количесвтом должиников и общим количесвтом людей в категориях, умножил отношение на 100
df_pivot_family['ratio'] = df_pivot_family[1] / df_pivot_family['sum'] * 100
df_pivot_family

debt,0,1,sum,ratio
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,11408,931,12339,7.545182
1,3763,388,4151,9.347145
2,896,63,959,6.569343
3,1110,85,1195,7.112971
4,2536,274,2810,9.75089


##### Вывод 2: Гипотеза подтвердилась, но частично
Зависимость имеется, но небольшая. По данным видно, что категории 0, 1 и 3 имеют меньше должников по кредитам, чем категории 1 и 4, это дасточно для частичной подтверждение гипотезы

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [49]:
# создал сводную таблицу по категории total_income_categoryи узнал количесвто людей отдавших долг вовремя и количество должников
df_pivot_category = df.pivot_table(index='total_income_category', columns='debt', values='total_income', aggfunc='count')
df_pivot_category

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4685,356
C,14656,1360
D,329,21
E,20,2


In [50]:
# добавил новый столбец с общей суммой каждой категории
df_pivot_category['sum'] = df.groupby('total_income_category')['total_income_category'].count()
df_pivot_category

debt,0,1,sum
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,25
B,4685,356,5041
C,14656,1360,16016
D,329,21,350
E,20,2,22


In [51]:
# нашёл разницу между количесвтом должиников и общим количесвтом людей в категориях, умножил отношение на 100
df_pivot_category['ratio'] = df_pivot_category[1] / df_pivot_category['sum'] * 100
df_pivot_category

debt,0,1,sum,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,23,2,25,8.0
B,4685,356,5041,7.062091
C,14656,1360,16016,8.491508
D,329,21,350,6.0
E,20,2,22,9.090909


##### Вывод 3: Гипотеза не подтвердилась
Зависимость наблюдается, но очень маленькая. По данным видно, что категории B и D имееют чуть меньше должников, чем остальные категории, но этого не достаточно для подтверждение гипотезы

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [52]:
# создал сводную таблицу по категории purpose_category и узнал количесвто людей отдавших долг вовремя и количество должников
df_pivot_purpose = df.pivot_table(index='purpose_category', columns='debt', values='total_income', aggfunc='count')
df_pivot_purpose

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с недвижимостью,9464,728
операция с автомобилем,3903,403
получение образования,4208,424
проведение свадьбы,2138,186


In [53]:
# добавил новый столбец с общей суммой каждой категории
df_pivot_purpose['sum'] = df.groupby('purpose_category')['purpose_category'].count()
df_pivot_purpose

debt,0,1,sum
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,9464,728,10192
операция с автомобилем,3903,403,4306
получение образования,4208,424,4632
проведение свадьбы,2138,186,2324


In [54]:
# нашёл разницу между количесвтом должиников и общим количесвтом людей в категориях, умножил отношение на 100
df_pivot_purpose['ratio'] = df_pivot_purpose[1] / df_pivot_purpose['sum'] * 100
df_pivot_purpose

debt,0,1,sum,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с недвижимостью,9464,728,10192,7.142857
операция с автомобилем,3903,403,4306,9.359034
получение образования,4208,424,4632,9.153713
проведение свадьбы,2138,186,2324,8.003442


##### Вывод 4: Гипотеза не подтвердилась
Цели кредита почти никак не влияют на количесвто должников. По данным видно, что все доли почти одинаковы, можно выделить категории: операции с недвижимостью и проведение свадьбы, но их различие между другими данными не существенное, поэтому гипотеза не подтвержадется

## Общий вывод: Мы проверили четыре гипотезы и установили:
   1. Есть ли зависимость между количеством детей и возвратом кредита в срок? 

Гипотеза не подтвердилась
   
   2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

Гипотеза частично подтвердилась
   
   3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Гипотеза не подтвердилась
   
   4. Как разные цели кредита влияют на его возврат в срок?

Гипотеза не подтвердилась