# Исследование надежности заемщиков


Исследование предполгает работу с данными, представленными в виде датафрейма. В ходе выполнения исследования предстоит пройти все шаги выполнения проекта от знакомства с данными до представления финального решения задачи со всеми необходимыми результатами и выводами. 
Результатом исследования станет ответ на вопрос: зависит ли надёжность заёмщиков от факторов, представленных в датафрейме?


## Общая информация о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [3]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


- В датафрейме содержится основная информация о заёмщиках - каждый столбец соответствует определенному фактору (количество детей, число отработанных дней, возраст, образование, семейное положение, пол, тип дохода, наличие просроченных платежей по кредиту, доход и цель кредита. 
- Часть ячеек содержит пустые ячейки, в связи с этим придётся заняться предобработкой данных.
- Сопоставив предстоящие гипотезы исследования, которые предстоит подтвердить или опровергнуть, с имеющимися данными, можно сделать вывод, что их достаточно для анализа - все факторы, перечисленные в зависимостях, есть в датафрейме.

## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [5]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [6]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = (
    data.loc[(data['income_type'] == t), 'total_income'].median())

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [7]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [8]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [10]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [12]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = (
    data.loc[(data['income_type'] == t), 'days_employed'].median())

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [13]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [14]:
data.info(memory_usage='deep')
data['total_income'] = data['total_income'].astype(int)
data['total_income'] = data['total_income'].astype('uint32')
data['dob_years'] = data['dob_years'].astype('uint8')
data.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   days_employed     21402 non-null  float64
 2   dob_years         21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   income_type       21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  total_income      21402 non-null  float64
 11  purpose           21402 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 11.8 MB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------    

### Обработка дубликатов

**Задание 14. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

54

In [16]:
data = data.drop_duplicates()

**Задание 15. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [17]:
data['education'] = data['education'].str.lower()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [18]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [21]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Исследуйте данные и ответьте на вопросы

**Задание 19. Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [23]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
children_debt = data.groupby('children')['debt'].sum()
children_all = data.groupby('children')['children'].count()
print(children_all)

children
0    14107
1     4809
2     2052
3      330
4       41
5        9
Name: children, dtype: int64


Для ответа на данный вопрос было создано две переменных типа **Series**, в `children_debt` хранится число людей (сгруппированных по количеству детей), имевших задолженность по возврату кредитов, в `children_all` - общее число людей (сгруппированных по количеству детей).

Также были оценены размеры выборок - очевидно, что число многодетных (3 и более детей) человек сильно меньше остальных.

Теперь можно посчитать процент людей, вернувших кредит в срок, в зависимости от числа детей:

In [24]:
for index in children_debt.index:
    print(f'Процент возврата кредита в срок для {index} детей: {(children_all[index]-children_debt[index])/children_all[index]:.2%}')

Процент возврата кредита в срок для 0 детей: 92.46%
Процент возврата кредита в срок для 1 детей: 90.77%
Процент возврата кредита в срок для 2 детей: 90.55%
Процент возврата кредита в срок для 3 детей: 91.82%
Процент возврата кредита в срок для 4 детей: 90.24%
Процент возврата кредита в срок для 5 детей: 100.00%


In [25]:
pivot_table_debtors = data.pivot_table(index='children', values='debt', aggfunc='sum')
pivot_table_debtors = pivot_table_debtors.reset_index()
pivot_table_debtors['debt'] = pivot_table_debtors['debt']*100/children_all
pivot_table_debtors

Unnamed: 0,children,debt
0,0,7.535266
1,1,9.232689
2,2,9.454191
3,3,8.181818
4,4,9.756098
5,5,0.0


Промежуточные выводы следующие: чаще всего возвращают кредит либо люди без детей, либо с тремя детьми. При этом заметен сильно большой разбег для людей с 4 и 5 детьми: первые реже всех платят в срок, а вторые платят в срок всегда.

Во-первых, это связано с тем, что выборки для этих групп малы по сравнению с остальными, и могут быть неинформативными.
Во-вторых, стоит проверить другие зависимости.

In [26]:
for children in range(3,6):
    children_count=data[data['children']==children]
    print(children_count.groupby('total_income_category')['children'].count())

total_income_category
A      1
B     88
C    236
D      5
Name: children, dtype: int64
total_income_category
B     7
C    34
Name: children, dtype: int64
total_income_category
B    4
C    4
D    1
Name: children, dtype: int64


Было принято решение проверить финансовую отчетность всех многодетных людей, и по вышеполученным данным можно сделать вывод, что, в основном, многодетные люди зарабатывают от 50 т.р. до 200 т.р., вторая по популярности категория - более 200 т.р. То есть, с этой точки зрения преобладающее большинство многодетных людей - обеспеченные.

Поскольку вряд ли все люди с пятью детьми убеждены всегда возвращать кредит в срок, а люди с четырьмя, наоборот, в 10% случаев не стремятся этого сделать, такая статистика была получена из-за разных размеров выборок.

Чтобы получить более точные данные, следует все многодетные семьи объединить:

In [27]:
children_debt[3]+=children_debt[4]
children_debt[3]+=children_debt[5]
children_debt = children_debt.loc[:3]

children_all[3]+=children_all[4]
children_all[3]+=children_all[5]
children_all = children_all.loc[:3]

for index in children_debt.index:
    print(f'Процент возврата кредита в срок для {index} детей: {(children_all[index]-children_debt[index])/children_all[index]:.2%}')

Процент возврата кредита в срок для 0 детей: 92.46%
Процент возврата кредита в срок для 1 детей: 90.77%
Процент возврата кредита в срок для 2 детей: 90.55%
Процент возврата кредита в срок для 3 детей: 91.84%


**Вывод:** 

После всех проделанных действий были получены более точные результаты: чаще всего возвращают кредит в срок люди без детей, и этой информации можно доверять, поскольку выборка для такой категории самая большая. Вероятно, такие люди - карьеристы, и в большинстве случаев не теряют платежеспособность.

Затем идет категория многодетных людей. Она появилась в процессе исследования, в ней соединено 3 категории, но на результаты это не сильно повлияло: до слияния процент возврата у людей с тремя детьми был **91.82%**, а после слияния у категории людей с тремя и более детей повысился всего на 0.02%. Зато таким образом удалось избавиться от аномально большого процента возврата в срок для людей с 5 детьми. 

Реже всех возвращают кредит в срок люди с одним или двумя детьми. Результаты для этих двух категорий не сильно отличаются (хотя выборка людей с одним ребенком более, чем в 2 раза больше), поэтому, возможно, имеет смысл таким же образом объединить их в одну категорию, процент возврата от этого действия изменится лишь на десятые процента.

Отвечая на поставленный в задаче вопрос, можно сказать, что зависимость между количеством детей и возвратом кредита в срок есть, но для более детального исследования требуются равнозначные выборки.

**Задание 20. Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [28]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
family_status_all = data.groupby('family_status')['family_status'].count()
family_status_debt = data.groupby('family_status')['debt'].sum()
print(family_status_all)
for index in family_status_all.index:
    print(f'Процент возврата кредита в срок для семейного положения "{index}" : {(family_status_all[index]-family_status_debt[index])/family_status_all[index]:.2%}')


family_status
Не женат / не замужем     2796
в разводе                 1189
вдовец / вдова             951
гражданский брак          4146
женат / замужем          12266
Name: family_status, dtype: int64
Процент возврата кредита в срок для семейного положения "Не женат / не замужем" : 90.24%
Процент возврата кредита в срок для семейного положения "в разводе" : 92.94%
Процент возврата кредита в срок для семейного положения "вдовец / вдова" : 93.38%
Процент возврата кредита в срок для семейного положения "гражданский брак" : 90.71%
Процент возврата кредита в срок для семейного положения "женат / замужем" : 92.44%


In [29]:
data[data['family_status']=='Не женат / не замужем']['days_employed'].median()

1572.328284580025

In [30]:
data[data['family_status']=='в разводе']['days_employed'].median()

2186.0812054161734

In [31]:
data[data['family_status']=='вдовец / вдова']['days_employed'].median()

337768.2600622073

**Вывод:** 
Метод поиска ответа на вопрос был такой же, как и в предыдущем задании. Нашли общее количество людей в каждой группе, поместили в переменную `family_status_all`. После этого нашли для каждой группы число людей, не вернувших кредит в срок (`family_status_debt`).

Для категорий *вдовец/вдова* и *в разводе* процент возврата кредита в срок больше, чем для других категорий, но выборки по этим категориям сильно меньше, чем по остальным, поэтому в точности результата нельзя быть уверенным.

Довольно странно, что категория *Не женат / не замужем* возвращает кредит в срок реже всех, при этом такие же холостые люди после брака (*в разводе*) занимают второе место в этом рейтинге.

Возможно, люди, не бывавшие в браке, в большинстве своём еще молоды, и их финановое положение еще недостаточно стабильно, но проверить это невозможно из-за отсутствия данных о возрасте клиентов. Косвенная оценка возраста - трудовой стаж, и его медианные значения действительно отражают, что люди в разводе должны быть несколько старше.

Для вдовцов косвенная оценка возраста получилась аномально большой, что в нашей выборке свойственно пенсионерам. В целом, и так логично, что большинство людей из этой категории будет приходиться именно на пенсионеров.

Ответ к задаче: зависимость между семейным положением и возвратом кредита в срок есть, но ее следует проверять на равнозначных выборках, т.к., скорее всего, семейные пары должны быть самыми платёжеспособными, а в этом исследовании это оказалось не так.

**Задание 21. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [32]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
total_income_category_all = data.groupby('total_income_category')['total_income_category'].count()
total_income_category_debt = data.groupby('total_income_category')['debt'].sum()
print(total_income_category_all)
for index in total_income_category_all.index:
    print(f'Процент возврата кредита в срок для уровня дохода "{index}" : {(total_income_category_all[index]-total_income_category_debt[index])/total_income_category_all[index]:.2%}')


total_income_category
A       25
B     5014
C    15938
D      349
E       22
Name: total_income_category, dtype: int64
Процент возврата кредита в срок для уровня дохода "A" : 92.00%
Процент возврата кредита в срок для уровня дохода "B" : 92.94%
Процент возврата кредита в срок для уровня дохода "C" : 91.51%
Процент возврата кредита в срок для уровня дохода "D" : 93.98%
Процент возврата кредита в срок для уровня дохода "E" : 90.91%


**Вывод:** 
Уровень дохода оценивался по сформированному в *Задании 16* столбцу `total_income_category`.

В датафрейме практически нет данных для категорий уровня дохода *A* и *E* (т.е. самых обеспеченных и самых необеспеченных людей), поэтому эти выборки могут содержать ошибочные данные. При увеличении этих выборок статистика возвратов кредитов в срок может поменяться как в большую, так и в меньшую стороны. С этой точки зрения наиболее информативными являются категории *B* и *C*. 

Категория *B* (уровень дохода от 200 т.р. до 1 млн. р.) имеет больший процент вовзрата кредита в срок по сравнению с категорией *С* (уровень дохода от 50 т.р. до 200 т.р.), что логично, т.к. чем меньше человек зарабатывает, тем больше риск того, что он не погасит кредит. 

А вот люди с уровнем дохода от 30 т.р. до 50 т.р. (категория *D*) по имеющимся данным возвращают кредит в срок чаще, чем выше перечисленные. Скорее всего, это связано с тем, что данных по этой категории сильно меньше, чем по *B* и *C*.

Зависимость между уровнем дохода и возвратом кредита в срок есть, и, скорее всего, при равнозначных выборках процент возврата в срок будет постепенно уменьшаться от *A* к *E*.

**Задание 22. Как разные цели кредита влияют на его возврат в срок?**

In [33]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
purpose_category_all = data.groupby('purpose_category')['purpose_category'].count()
purpose_category_debt = data.groupby('purpose_category')['debt'].sum()
print(purpose_category_all)
stat_for_debts_purpose_category = []
for index in purpose_category_all.index:
    stat_for_debts_purpose_category.append((purpose_category_all[index]-purpose_category_debt[index])/purpose_category_all[index])
    print(f'Процент возврата кредита в срок для уровня дохода "{index}" : {stat_for_debts_purpose_category[-1]:.2%}')

purpose_category
операции с автомобилем       4281
операции с недвижимостью    10754
получение образования        3989
проведение свадьбы           2324
Name: purpose_category, dtype: int64
Процент возврата кредита в срок для уровня дохода "операции с автомобилем" : 90.66%
Процент возврата кредита в срок для уровня дохода "операции с недвижимостью" : 92.75%
Процент возврата кредита в срок для уровня дохода "получение образования" : 90.75%
Процент возврата кредита в срок для уровня дохода "проведение свадьбы" : 92.13%


**Вывод:** 
В данном случае все выборки имеют значительное количество данных, нет существенно малых или существенно больших по размеру категорий. И полученная статистика вполне соответствует действительности: чаще всего платят в срок люди, взявшие кредит на недвижимость (учитывая, что это, как правило, самые большие кредиты, такие клиенты самые надёжные). После них идут люди, которые берут кредит для проведения свадьбы (что тоже вполне логично, ведь после свадьбы появляется семейный бюджет и платежеспособность растёт).

Равнозначные выборки операций с автомобилем и образованием имеют равносильные результаты: процент возврата в срок практически одинаков и меньше вышеперечисленных категорий. Здесь тоже есть логическое объяснение. Например, в случае с автомобилями, могут возникать непредвиденные ремонты, ДТП и т.д., что сильно повлияет на платежеспособность клиента. А в случае с получением образования можно дополнительно проверить информацию об уровне образования и уровне дохода таких клиентов, и, вероятно, эти факторы влияют на такой низкий процент возврата.

**Задание 23. Приведите возможные причины появления пропусков в исходных данных.**

*Ответ:* причинами появления пропусков в исходных данных могли стать такие факторы, как:
- отсутствие официального дохода;
- человеческий фактор - сотрудник забыл внести эти данные или они не были предоставлены.

**Задание 24. Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.**

*Ответ:* пропуски были обнаружены только в количестве отработанных дней и доходе. Если сгруппировать данные по виду занятости человека и найти медианы для этих двух значений, то мы получим что-то вроде тренда для каждой группы. То есть, медианы отразят приближенные к часто встречающимся числам значения. 

Если же вместо медиан взять математическое ожидание, то такое значение может дать неточное описание из-за выбросов. Таким образом, среднее может оказаться на порядок выше или ниже часто встречающихся значений, и именно поэтому заполнение пропусков медианами - лучшее решение.

## Общий вывод.

В ходе исследования были пройдены все стадии выполнения проекта. Была поставлена задача - определить влияние разных факторов на возврат кредита в срок. Данные были получены и я с ними ознакомился, выявил некоторые проблемы и аномалии. После был проведен процесс предобработки - все эти проблемы в виде пропущенных значений, явных и неявных дубликатов, аномальных значений, неверных типов данных были устранены. Также были добавлены новые категориальные столбцы для решения поставленной задачи.

Проверка всех гипотез заключалась в поиске зависимости влияния фактора на возврат кредита в срок. Насколько я понимаю, отсутствие зависимости может быть только в том случае, если для всех категорий будет получен одинаковый результат. Елси же результаты различаются, то какая-то зависимость может быть выявлена. 

Прежде, чем писать выводы, я выполнил все задачи, и мне показалось, что зависимости нигде нет, ведь результаты не сильно различаются - в пределах 1-2%. Но, проанализировав, я понял, что это не так, ведь в случае с банками - 1-2% - это тысячи кредитных случаев, а такая цифра имеет большое значение (например, для принятия решения о повышении процентной ставки для той или иной категории кредитов).

В каждой из задач я столкнулся с одной и той же проблемой - все выборки неравнозначны. Хотя по ним и можно было сделать какие-то выводы, но все же выводы могут различаться, если уравнять категории по количеству клиентов. Особенно мне не понравились результаты в *Задании 20* - зависимость семейного положения от процента возврата в срок. Мне кажется, что они должны быть другими при равнозначных выборках, и стоит это проверить:

In [34]:
new_len = 700 #Возьмем любое число, которое будет соответствовать размеру выборки
for index in family_status_all.index:
    new_data = data[data['family_status']==index].reset_index(drop=True) #Формируем датасет с выборкой по семейному положению
    new_data = new_data.loc[:new_len,:] #Укорачиваем этот датасет до желаемого размера выборки
    debt = new_data['debt'].sum()
    print(f'{index}: ',end='')
    print(f'{(new_len-debt)/new_len:.2%}')

Не женат / не замужем: 92.43%
в разводе: 92.29%
вдовец / вдова: 93.71%
гражданский брак: 91.29%
женат / замужем: 92.00%


И очевидно, что результаты стали совсем другими!
Вдовцы и вдовы по-прежнему лидируют по проценту возврата кредита в срок, но остальной рейтинг весь поменялся. 

Но здесь появляются и другие мысли. Вряд ли в банк приходит равное количество вдовцов и женатых людей подавать заявку на оформление кредита. Аналогично вряд ли придёт равное количество людей, не имеющих детей, и людей, у которых их 5. То есть, в реальности выборки все-таки не будут равнозначными. А это уже наводит на новую идею - **все факторы оказывают влияние на процент возврата кредита в срок**.

Не нужно упираться в равнозначные выборки, а стоит пронаблюдать зависимость нескольких факторов на возврат кредита. Т.е. одновременно рассматривать, например, влияние семейного положения и числа детей. Но это уже другие гипотезы, которые стоит рассмотреть в другом, более объемном, исследовании.