# Исследование надежности заемщиков

Это первая часть проекта, она будет проверена автоматически. Вторую часть проверит ревьюер. 

Кредитный отдел банка планирует построить модель кредитного скоринга, чтобы оценить способность потенциального заемщика отдать кредит в срок. Для этого нужно оценить зависимость погашения кредита в срок от ряда факторов.

**Цель исследования** - установить влияние ряда факторов на возврат кредита в срок:
1. Количество детей
2. Семейное положение
3. Уровень дохода
4. Цель кредита

Данные получены из файла `data.csv`, полученного от банка

**Ход исследования:**
1. Обзор данных
2. Предобработка данных
3. Проверка гипотез и формирование вывода


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [2]:
try:
    data = pd.read_csv('data.csv')
except:
    data = pd.read_csv('/datasets/data.csv') # прочитайте csv-файл

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [3]:
data.head(20) # ваш код здесь

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [4]:
data.info() # ваш код здесь

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [5]:
data.isna().sum() # ваш код здесь

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [6]:
for elem in data['income_type'].unique():
    data.loc[(data['income_type'] == elem) & (data['total_income'].isna()), 
             'total_income'] = data.loc[data['income_type'] == elem, 'total_income'].median()
data['total_income'].isna().sum()    

    
    

0

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [7]:
data['days_employed'] = data['days_employed'].abs()
data.head(10) # ваш код здесь

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [8]:
data.groupby('income_type')['days_employed'].median() # ваш код здесь

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [9]:
data['children'].unique() # ваш код здесь

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [10]:
data = data.loc[(data['children'] != -1) & (data['children'] != 20)] 
# ваш код здесь

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [11]:
data['children'].unique() # ваш код здесь

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждому типу занятости `income_type`.**

In [12]:
for elem in data['income_type'].unique():
    data.loc[(data['days_employed'].isna()) & (data['income_type'] == elem),
             'days_employed'] = data.loc[data['income_type'] == elem]['days_employed'].median()# ваш код здесь

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [13]:
data['days_employed'].isna().sum() # ваш код здесь

0

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [14]:
data['total_income'] = data['total_income'].astype('int') # ваш код здесь

### Обработка дубликатов

**Задание 14. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()# посчитайте дубликаты

54

In [16]:
data.drop_duplicates() # удалите дубликаты

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


**Задание 15. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [17]:
data['education'] = data['education'].str.lower()
# ваш код здесь

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [18]:
def categorize_income (income): 
    if income <= 30000: 
        return 'E' 
    if income <= 50000:
        return 'D'
    if income <=200000:
        return 'C'
    if income <= 1000000:
        return 'B'
    return 'A'
    # создайте функцию categorize_income()

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income) # примените функцию методом apply()

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [20]:
data['purpose'].unique() # ваш код здесь

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [21]:
def categorize_purpose (purpose):
    if ('автомобиля' in purpose or 
        'автомобили' in purpose or
        'автомобиль' in purpose or 
        'автомобилем' in purpose):
        return 'операции с автомобилем' 
    if ('жилья' in purpose or 
        'жильем'in purpose or 
        'недвижимости' in purpose or 
        'недвижимость' in purpose or 
        'недвежимостью' in purpose or 
        'жилью' in purpose or
        'жилье' in purpose):
        return 'операции с недвижимостью'
    if ('свадьбу' in purpose or 
        'свадьбы' in purpose or 
        'свадьба' in purpose):
        return 'проведение свадьбы' 
    return 'получение образования' 
 # создайте функцию categorize_purpose()

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose) 
# примените функцию методом apply()

**Задание 19. Установить, есть ли зависимость между количеством детей и возвратом кредита в срок.**

In [23]:
data['children'].value_counts() #для начала ознакомимся с количеством строк по каждому из значений столбца

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Мы видим довольно неравномерное распределение, значительно преобладает количество заемщиков без детей, в то время как многодетных совсем немного. Попробуем немного сгладить это распределение и разделим заимщиков на три группы:
- нет детей
- имеет 1-2 ребенка
- многодетные (от 3х детей)

In [24]:
def children_group (children): #создаем функцию, которая разделит заемщиков на 3 категории, в зависимости от значения столбца 'children'
    if children >= 3:
        return 'многодетные'
    if 1 <= children < 3:
        return 'имеет 1-2 ребенка'
    return 'нет детей'

#children_group(2) - проверка функции: работает верно

data['children_group'] = data['children'].apply(children_group) #добавляем столбец с категорией по количеству детей в датафрейм
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category,children_group
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью,имеет 1-2 ребенка
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем,имеет 1-2 ребенка
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью,нет детей
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования,многодетные
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы,нет детей
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью,нет детей
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью,нет детей
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования,нет детей
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы,имеет 1-2 ребенка
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью,нет детей


In [25]:
children_debt_grouped = data.groupby('children_group').agg({'debt':['count', 'sum']})
children_debt_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
children_group,Unnamed: 1_level_2,Unnamed: 2_level_2
имеет 1-2 ребенка,6873,638
многодетные,380,31
нет детей,14149,1063


С помощью метода группировки и функции мы составили таблицу с общим количеством заемщиков по каждой из категорий и с количеством задолженностей в каждой группе. Видно, что наибольшее количество задолженностей в группе заемщиков, которые не имеют детей. Однако это не означает, что они чаще нарушают сроки платежей, тк таких заемщиков в два раза больше, чем заемщиков с детьми (14149 и 6873+380 соответственно).

In [26]:
children_debt_grouped['percent'] = (children_debt_grouped['debt']['sum'] / children_debt_grouped['debt']['count'])*100
children_debt_grouped.sort_values(by='percent', ascending='True')

Unnamed: 0_level_0,debt,debt,percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
нет детей,14149,1063,7.512898
многодетные,380,31,8.157895
имеет 1-2 ребенка,6873,638,9.2827


***Вывод:*** Из полученной таблицы и проведенных нами расчетов можно сделать вывод, что категория заемщиков с 1-2 детьми имеет наибольшую долю должников, а категория заемщиков без детей - наименьшую долю (9.3% и 7.5% соответственно). 
Да, действительно количество детей оказывает небольшое влияние на погашение кредита в срок, так лица без детей чаще возвращают кредит без задолженностей. 
Однако достоверно сказать о зависимости между количеством детей и погашением кредита в срок мы не можем, так как нужно оценить статистически полученные результаты.

**Задание 20. Установить, есть ли зависимость между семейным положением и возвратом кредита в срок.**

In [27]:
data['family_status'].value_counts() #для начала ознакомимся с данными: посмотрим, какие значения есть в столбце семейного статуса и сколько заемщиков в каждом.

женат / замужем          12302
гражданский брак          4160
Не женат / не замужем     2799
в разводе                 1189
вдовец / вдова             952
Name: family_status, dtype: int64

In [28]:
family_dict = data[['family_status', 'family_status_id']].drop_duplicates().reset_index(drop=True)
family_dict #посмотрим соответствие между id и семейным положением

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [29]:
pivot_family = data.pivot_table(index=['family_status_id'], values='debt', aggfunc=['count', 'sum', 'mean']).reset_index()
pivot_family['percent'] = pivot_family['mean']*100
print(family_dict)
pivot_family.sort_values(by='percent', ascending=True) #сформируем сводную таблицу для наглядности оценки заивисимости семейного положения и возврата кредита в срок
#решила сформировать сводную по id, так таблица выглядит более компактно, а выше вывела таблицу-справочник с id и семейным положением

           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  Не женат / не замужем                 4


Unnamed: 0_level_0,family_status_id,count,sum,mean,percent
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt,debt,Unnamed: 5_level_1
2,2,952,63,0.066176,6.617647
3,3,1189,84,0.070648,7.06476
0,0,12302,927,0.075354,7.53536
1,1,4160,385,0.092548,9.254808
4,4,2799,273,0.097535,9.753483


***Вывод:*** По полученным данным из сводной таблицы можем сделать вывод, что в данном банке наибольшую долю должников содержит категория холостых заемщиков, а также состоящих в гражданском браке (9.8% и 9.3% соответственно). Наиболее исправно платят вдовы/вдовцы (6.6% должников).
Да, действительно, семейное положение оказывает влияние на погашение кредита в срок, однако более достоверно оценить различия можно, использую статистические методы.

**Задание 21. Установить, есть ли зависимость между уровнем дохода и возвратом кредита в срок.**

In [30]:
income_dict = data[['total_income', 'total_income_category']].drop_duplicates().reset_index(drop=True)
income_dict.sort_values(by='total_income', ascending=True)

Unnamed: 0,total_income,total_income_category
12738,20667,E
11383,21205,E
14065,21367,E
1434,21695,E
12473,21895,E
...,...,...
14902,1711309,A
17898,1715018,A
8106,1726276,A
16913,2200852,A


Довольно большое количество различных значений в различных категориях дохода, поэтому в данном случае создавать справочник будет не совсем удобно. 
Однако мы помним, как распределяли категории, в зависимости от дохода (продублирую сюда):
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'

In [31]:
income_grouped = data.groupby('total_income_category').agg({'debt': ['count', 'sum']})
income_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,25,2
B,5014,354
C,15992,1353
D,349,21
E,22,2


В данном случае видно, что большую часть всех заемщиков составляют лица со средним доходом 50-200 тысяч, а крайние значения (минимальные и максимальные) встречаются значительно реже. Этого и следовало ожидать, однако объединить эти данные (как в 19 задании) мы не можем. Можно только разбить категорию С на подкатегории, но сейчас делать этого не будем. Будем работать с данными в таком виде.

In [32]:
income_grouped['percent'] = (income_grouped['debt']['sum'] / income_grouped['debt']['count'])*100
income_grouped.sort_values(by='percent', ascending=True)

Unnamed: 0_level_0,debt,debt,percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,349,21,6.017192
B,5014,354,7.060231
A,25,2,8.0
C,15992,1353,8.46048
E,22,2,9.090909


`Выбираю метод группировки, а не сводную таблицу, тк в данном случае столбец, по которому группируем и значения, по которым проводим расчеты - один и тот же столбец 'debt'. В задании 20 применила сводную таблицу, тк это тоже удобно и наглядно. Но всё же в данных заданиях предпочла бы пользоваться именно группировкой.`

***Вывод:*** Из полученных данных в таблице мы видим, что максимальную долю должников содержит категория дохода Е - с доходом менее 30 тысяч (9%). А минимальная доля должников в категории D - с доходом от 30 до 50 тысяч (6%). Однако наблюдается неравномерное распределение количества исследуемых лиц в разных категориях. Так группы B и C составляют большую часть, а группы A и E - около 0.1% от всех заемщиков. Проанализировав данные в самых многочисленных группах, можем установить, что заемщики с бОльшим доходом (категория B) более добросовестно соблюдают сроки погашения кредита, имеют меньше должников, чем заемщики из категории С (7% и 8.5% соответственно).

**Задание 22. Как разные цели кредита влияют на его возврат в срок?**

In [33]:
purpose_grouped = data.groupby('purpose_category').agg({'debt':['count', 'sum']})
purpose_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,count,sum
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4288,400
операции с недвижимостью,10780,780
получение образования,3997,369
проведение свадьбы,2337,183


Хм, большую часть кредитов берут всё же на операции с недвижимостью. Остальные категории распределились примерно в равных долях.

In [34]:
purpose_grouped['percent'] = (purpose_grouped['debt']['sum'] / purpose_grouped['debt']['count'])*100
purpose_grouped.sort_values(by='percent', ascending=True)

Unnamed: 0_level_0,debt,debt,percent
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с недвижимостью,10780,780,7.235622
проведение свадьбы,2337,183,7.830552
получение образования,3997,369,9.231924
операции с автомобилем,4288,400,9.328358


***Вывод:*** Из полученных данных можем сделать вывод, что наибольшие доли должников содержат категории заемщиков, цели которых операции с автомобилем или получение образования(9.3% и 9.2% соответственно), а минимальная доля должников в категории лиц с целью операций с недвижимостью (7.2%). 
Да, возможно, незначительное влияние цель кредита оказывает на погашение его в срок, однако стоит изучить подробнее достоверность таких отличий, чтобы точно сделать вывод о значимости такого влияния.

**Задание 23. Приведите возможные причины появления пропусков в исходных данных.**

Интересный факт, который сразу обращает на себя внимание, что пропуски в исходных данных содержатся только в двух столбцах, причем равное количество. Это данные о днях трудоустройства и о доходе. Вернувшись к заданию 4, я проверила, что эти пропуски допущены у одних и тех же людей. То есть вряд ли пропуски можно назвать случайными.

Возможно, это связано с тем, что люди, которые не подавали сведения о своем трудовом стаже не принесли, соответственно, и справку о доходах из налоговой. Возможно произошел какой-то сбой в системе и эти документы просто не были занесены в базу данных. Может быть, эти люди вообще с одного предприятия (что вряд ли, уж очень много, более 2 тысяч), но вероятность есть.

Но больше я склоняюсь к версии, что подавая заявку, эти лица просто не принесли соответствующие документы, может быть, они были еще не готовы или заемщики работали неофициально.

**Задание 24. Почему заполнить пропуски медианным значением - лучшее решение для количественным переменных?**

Медиана - это такое значение, которое находится в середине ряда. В отличие от среднего значения, на медиану не оказывают влияния аномальные значения (как максимальные, так и минимальные). Она более объективно отражает наиболее характерное значение в ряду. 

## Вывод ##

**Цель** исследования заключалась в оценке факторов, которые влияют на возврат кредита в срок. 
В ходе исследования было сформировано **четыре гипотезы**:

На возврат кредита в срок влияет:
1. Количество детей
2. Семейное положение
3. Уровень дохода
4. Цель кредита

Для проверки первой гипотезы было выделено три категории заемщиков: лица, у которых нет детей, лица у которых 1-2 ребенка и многодетные родители (от 3 и более детей). Да, заемщики без детей выплачивают кредит более добросовестно и имеют меньшую долю должников, в то время как лица с 1-2 детьми чаще нарушают сроки погашения кредита. Однако достоверно установить корреляционную связь мы не можем без дополнительных статистических методов. Поэтому первую гипотезу можно считать подтвержденной, но требуется дополнительное изучение вопроса. 

При проверке второй гипотезы заемщики были разделены на 5 групп: состоящие в официальном браке, состоящие в гражданском браке, состоящие в разводе, овдовевшие и холостые. Установлено, что чаще нарушают сроки погашения кредита заемщики в разводе и холостые. А лица, которые состоят в официальном браке имеют меньше всего задолженностей. В данной гипотезе различия можно назвать более значимыми, чем в предыдущей. Можно считать гипотезу подтвержденной. Однако для уточнения зависимости можно дпоолнительно применить статистические методы.

В ходе проверки третьей гипотезы заемщики были разделены на 5 категорий, в зависимости от уровня дохода: 
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.
Установлено, что заемщики с минимальным доходом (менее 30 тысяч) имеют большую долю должников, при этом меньше всех задолженностей у категории D. Проанализировав данные в самых многочисленных группах, можем установить, что заемщики с бОльшим доходом (категория B) более добросовестно соблюдают сроки погашения кредита, имеют меньше должников, чем заемщики из группы С (7% и 8.5% соответственно). Однако настораживает тот факт, что категория E и категория A в данном банке составляют совсем небольшую долю (22 и 25, что соответствует 0.1% от общего количества заемщиков), поэтому достоверными полученные результаты считать нельзя, требуется лучше изучить этот вопрос, возможно, с помощью статистических методов. Считаю данную гипотезу пока частично подтвержденной.

Для проверки четвертой гипотезы было выделено 4 основных группы целей: операции с недвижимостью, операции с автомобилем, получение образования и проведение свадьбы. Обнаружено, что больше должников среди тех, кто занимает на операции с автомобилем и на получение образования, минимальное количество должников среди заемщиков для операций с недвижимостью. Цель кредита может оказывать влияние на погашение его в срок, можно считать гипотезу подтвержденной для данного банка, однако требуется дополнительное изучение с помощью статистических методов.

Таким образом, мы установили, что такие факторы, как количество детей, семейное положение, уровень дохода и цель кредита, действительно могут влиять на возврат кредита в срок, среди заемщиков данного банка можно выделить определенные группы людей, которые более склонны к задолженностям, однако данный вопрос требует дполнительного изучения, проведения статистического исследования для проверки достоверности и значимости полученных результатов.
