# Исследование надежности заемщиков


<font color='Blue'><b>
## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
### Описание данных
1. children — количество детей в семье
2. days_employed — общий трудовой стаж в днях
3. dob_years — возраст клиента в годах
4. education — уровень образования клиента
5. education_id — идентификатор уровня образования
6. family_status — семейное положение
7. family_status_id — идентификатор семейного положения
8. gender — пол клиента
9. income_type — тип занятости
10. debt — имел ли задолженность по возврату кредитов
11. total_income — ежемесячный доход
12. purpose — цель получения кредита
### Порядок действий
1. Проведем общий анализ поступивших данных.
2. Проведем предобработку данных
2.1 Удалим пропуски
2.2 Обработаем аномальные значения
2.3. Обработаем дубликаты
2.4. Проведем категоризацию данных для последующего анализа.
Вывод данных проведем 3мя разными способами. В цикле, с использованием сводной таблицы и с помощью группировки.     
    
</b></font><br>

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income2(income):
    try:
        if 0 <= income <= 70000:
            return 'E'
        elif 70001 <= income <= 100000:
            return 'D'
        elif 100001 <= income <= 150000:
            return 'C'
        elif 150001 <= income <= 400000:
            return 'B'
        elif income >= 400001:
            return 'A'
    except:
        pass
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass
    

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)
data['total_income_category2'] = data['total_income'].apply(categorize_income2)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

Далее будет применяться практически одна и таже функция с простой логикой. Перебираем категории, которые сравниваем (количество детей, семейный статус, уровень дохода, цель кредита). И для каждого уникального элемента в категории считаем количество элементов и суммируем для них количество задержек возврата кредита. Далее считаем конверсию и выводим на печать. Первичный код лишен красоивого вывода. Это скорее технический вывод не для презентации. Но для понимания, что все сделано правильно. Далее код может быть дополнен украшательством.

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
#data.head(10)
for i in data['children'].unique():
    count_adult = data[data['children']==i]['children'].count()
    count_debt = data[data['children']==i]['debt'].sum()
    conv = count_debt/count_adult
    #print('Детей', i,'Заемщиков',count_adult, 'Просрочек', count_debt, 'Конверсия',  conv)
    print(f'Детей - {i:1}    Заемщиков {count_adult:<10} Просрочек {count_debt:<10} Конверсия  {conv*100:0f}%')

    


Детей - 1    Заемщиков 4808       Просрочек 444        Конверсия  9.234609%
Детей - 0    Заемщиков 14091      Просрочек 1063       Конверсия  7.543822%
Детей - 3    Заемщиков 330        Просрочек 27         Конверсия  8.181818%
Детей - 2    Заемщиков 2052       Просрочек 194        Конверсия  9.454191%
Детей - 4    Заемщиков 41         Просрочек 4          Конверсия  9.756098%
Детей - 5    Заемщиков 9          Просрочек 0          Конверсия  0.000000%


**Вывод:Конверсией для 5 детей пренебрегаем по причине малой выборки. Заемщики без детей более надежны. Данные по конверсии в зависимости от количества детей разнятся. Но малую конверсию для 3 детей можно обьяснить малой выборкой. В целом от количества детей практически не зависит** 

<font color='DarkBlue'><b>Комментарий ревьюера 2</b></font><br>
<font color='DarkMagenta'>👉 Можно сделать вот так, через функцию.</font>

In [30]:
# Комментарий ревьюера 2
# Создаем копию датасета, что бы не работать с исходным
temp = data.copy()
# Напишем функцию, так как все задачи аналогичны
def que(category):
    data_temp = temp.pivot_table(index=category, values='debt', aggfunc=['count', 'sum', 'mean'])
    data_temp.columns = ['Всего кредитополучателей', 'Всего должников', 'Доля должников']
    # Оформим таблицу цветным градиентом, но можно ее вывести и просто display(data_temp)
    display(data_temp.style.format("{:.3f}").background_gradient(cmap='Blues', axis=0))
    
que('children')
que('income_type')

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091.0,1063.0,0.075
1,4808.0,444.0,0.092
2,2052.0,194.0,0.095
3,330.0,27.0,0.082
4,41.0,4.0,0.098
5,9.0,0.0,0.0


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
безработный,2.0,1.0,0.5
в декрете,1.0,1.0,1.0
госслужащий,1451.0,86.0,0.059
компаньон,5047.0,374.0,0.074
пенсионер,3812.0,216.0,0.057
предприниматель,2.0,0.0,0.0
сотрудник,11015.0,1054.0,0.096
студент,1.0,0.0,0.0


#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [24]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
for i in data['family_status'].unique():
    count_status = data[data['family_status']==i]['family_status'].count()
    count_debt = data[data['family_status']==i]['debt'].sum()
    conv = count_debt/count_status
    #print('Семейное положение', i,'Заемщиков',count_status, 'Просрочек', count_debt, 'Конверсия',  conv)
    print(f'Семейное положение - {i:<25}Заемщиков {count_status:<8} Просрочек {count_debt:3}   Конверсия  {conv*100:0f}%')



Семейное положение - женат / замужем          Заемщиков 12261    Просрочек 927   Конверсия  7.560558%
Семейное положение - гражданский брак         Заемщиков 4134     Просрочек 385   Конверсия  9.313014%
Семейное положение - вдовец / вдова           Заемщиков 951      Просрочек  63   Конверсия  6.624606%
Семейное положение - в разводе                Заемщиков 1189     Просрочек  84   Конверсия  7.064760%
Семейное положение - Не женат / не замужем    Заемщиков 2796     Просрочек 273   Конверсия  9.763948%


**Вывод: Довольно странное распределение. По убыванию надежности: вдовцы, в разводе, женатые, гражданский брак, не женат.Обьяснение довольно простое: данные статусы коррелируются условно с возрастом заемщика. Так сказать - не женат, гражданский брак, женат, в разводе, вдовец - этапы жизненного пути :) В таком случае с возрастом растет насыщенность потребностями и при этом растут доходы. А чем заемщик моложе, тем ему больше надо и у него меньше доход ** 

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [25]:
 Конверсия  {conv*100:0f}%')
print('0  -  E  -  30000  -  D  -  50000  -  C  -  200000  -  B  -  1 000 000  - A  -       ')
data_pivot = data.pivot_table(index='total_income_category', values = 'debt', aggfunc=['count', 'sum', 'mean'])
data_pivot.columns = ['Всего заемщиков', 'Всего должников','Доля должников']
print (data_pivot.sort_values(by='Доля должников', ascending = True))   
#print (data.groupby('purpose_category').agg({'debt':['count','sum', 'mean']}))
print()
print('0  -  E  -  70000  -  D  -  100000  -  C  -  150000  -  B  -  400 000  - A  -       ')
data_pivot = data.pivot_table(index='total_income_category2', values = 'debt', aggfunc=['count', 'sum', 'mean'])
data_pivot.columns = ['Всего заемщиков', 'Всего должников','Доля должников']
print (data_pivot.sort_values(by='Доля должников', ascending = True))   
#print (data.groupby('purpose_category').agg({'debt':['count','sum', 'mean']}))

# Ваш код будет здесь. Вы можете создавать новые ячейки.

0  -  E  -  30000  -  D  -  50000  -  C  -  200000  -  B  -  1 000 000  - A  -       
                       Всего заемщиков  Всего должников  Доля должников
total_income_category                                                  
D                                  349               21        0.060172
B                                 5014              354        0.070602
A                                   25                2        0.080000
C                                15921             1353        0.084982
E                                   22                2        0.090909

0  -  E  -  70000  -  D  -  100000  -  C  -  150000  -  B  -  400 000  - A  -       
                        Всего заемщиков  Всего должников  Доля должников
total_income_category2                                                  
A                                   528               31        0.058712
E                                  1464              101        0.068989
B                               

**<font color='DarkBlue'><b>Вывод:Отсутствует какая-либо закономерность. Первоначальное предположение, что с ростом доходов уменьшается конверсия, не оправдалась. В тоже время такой неожиданный результат обьясняется несбалансорованностью выборок
Я попробовал изменить критерии при категорозиции, использую следующую схему 0-70000-100000-150000-400000-. 
Это позволило значительно выровнять категории по кол-ву элементов в выборке. Хотя по прежнему помним, что
заполнив пропуски медианой мы теряем элементы в крайних категориях - A и E. Тем не менее, они уже довольно репрезентативны, что позволяет сделать вывод: наиболее аккуратны в выплатах самая богатая и самая бедная категория. Что довольно объяснимо. Богатые имеют большой запас прочности по выплатам. А бедные вынуждены жить в условиях жесткого бюджетирования. Они не в состоянии купить даже предметы первой необходимости, не прибегая к кредитованию. В итоге у них преобладает потребительское кредитование на небольшие покупки. Которые закрываются за короткий период. Низкий доход не позволяет им кредитоваться на значимые покупки с длительным сроком кредитования</b></font><br>** 

In [26]:
# Комментарий ревьюера 2
temp = data.copy()
start, stop = 3, 8 # начальное и конечное количество категорий
while start <= stop:
    temp['new_category'] = pd.qcut(temp['total_income'], q=start, precision=0)
    que('new_category')
    start += 1

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 119218.0]",7111.0,580.0,0.082
"(119218.0, 172357.0]",7238.0,627.0,0.087
"(172357.0, 2265604.0]",6982.0,525.0,0.075


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 107507.0]",5333.0,427.0,0.08
"(107507.0, 142594.0]",5450.0,480.0,0.088
"(142594.0, 195842.0]",5216.0,444.0,0.085
"(195842.0, 2265604.0]",5332.0,381.0,0.071


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 98514.0]",4267.0,344.0,0.081
"(98514.0, 132113.0]",4266.0,358.0,0.084
"(132113.0, 161380.0]",4266.0,373.0,0.087
"(161380.0, 214604.0]",4266.0,358.0,0.084
"(214604.0, 2265604.0]",4266.0,299.0,0.07


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 92092.0]",3556.0,285.0,0.08
"(92092.0, 119218.0]",3555.0,295.0,0.083
"(119218.0, 142594.0]",3672.0,327.0,0.089
"(142594.0, 172357.0]",3566.0,300.0,0.084
"(172357.0, 228893.0]",3427.0,276.0,0.081
"(228893.0, 2265604.0]",3555.0,249.0,0.07


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 87287.0]",3048.0,233.0,0.076
"(87287.0, 113563.0]",3047.0,262.0,0.086
"(113563.0, 137465.0]",3047.0,263.0,0.086
"(137465.0, 155314.0]",3047.0,264.0,0.087
"(155314.0, 184554.0]",3047.0,257.0,0.084
"(184554.0, 242009.0]",3047.0,242.0,0.079
"(242009.0, 2265604.0]",3048.0,211.0,0.069


Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
new_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.0, 83837.0]",2667.0,206.0,0.077
"(83837.0, 107507.0]",2666.0,221.0,0.083
"(107507.0, 127546.0]",2666.0,233.0,0.087
"(127546.0, 142594.0]",2784.0,247.0,0.089
"(142594.0, 166525.0]",2549.0,223.0,0.087
"(166525.0, 195842.0]",2667.0,221.0,0.083
"(195842.0, 254250.0]",2665.0,196.0,0.074
"(254250.0, 2265604.0]",2667.0,185.0,0.069


#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [27]:
# Ваш код будет здесь. Вы можете создавать новые ячейки.
for i in data['purpose_category'].unique():
    count_purpose = data[data['purpose_category']==i]['purpose_category'].count()
    count_debt = data[data['purpose_category']==i]['debt'].sum()
    conv = count_debt/count_purpose
    print(f'Цель кредита - {i:<30}Заемщиков {count_purpose:<10} Просрочек {count_debt:<10} Конверсия  {conv*100:0f}%')
print()
data_pivot = data.pivot_table(index='purpose_category', values = 'debt', aggfunc=['count', 'sum', 'mean'])
data_pivot.columns = ['Всего заемщиков', 'Всего должников','Доля должников']
print (data_pivot.sort_values(by='Доля должников', ascending = True))   
print()
print (data.groupby('purpose_category').agg({'debt':['count','sum', 'mean']}))


Цель кредита - операции с недвижимостью      Заемщиков 10751      Просрочек 780        Конверсия  7.255139%
Цель кредита - операции с автомобилем        Заемщиков 4279       Просрочек 400        Конверсия  9.347978%
Цель кредита - получение образования         Заемщиков 3988       Просрочек 369        Конверсия  9.252758%
Цель кредита - проведение свадьбы            Заемщиков 2313       Просрочек 183        Конверсия  7.911803%

                          Всего заемщиков  Всего должников  Доля должников
purpose_category                                                          
операции с недвижимостью            10751              780        0.072551
проведение свадьбы                   2313              183        0.079118
получение образования                3988              369        0.092528
операции с автомобилем               4279              400        0.093480

                           debt               
                          count  sum      mean
purpose_category      

**Вывод: Тут очевидное разделение. Операции с недвижимостью и проведение свадьбы наиболее надежны. Возможно это обьясняется так. Свадьба это относительно небольшая сумма, которая закрывается единоразово за счет подарков на свадьбу. Операции с недаижимостью идут на очень большой срок, четко опираются на существенный и надежный доход заемщика. Также возможные проблемы по потере недвижимости в залоге по кредиту вынуждают максимально аккуратно относиться к возврату такого кредита. Кредит на образование чаще всего подразумевает выплату с последующей зарплаты. До которой еще надо добраться. И в целом молодой человек в начале жизненного пути с очень большой неопределенностью. Покупка автомобиля это эмоциональная покупка. Всегда хочется купить автомобиль лучше, чем можешь себе позволить.** 

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ: Пропуски в 2х категориях - трудовой стаж в днях и доход. Трдовой стаж вдобавок и с аномальными данными. Безработные и пенсионеры имеют медианный стаж в 1000 лет. Это какой-то технический сбой. Также очень много отрицательных значений и формат float64. Вообще эта категория никак не участвует в проекте и может быть удалена без потерь. Мусорная категория. Пропуски в доходе довольно понятны. Доход может быть необычно большой, до обидного маленький, неофициальный, отсутствующий. Странно другое. С точки зрения банка, доход заемщика это главная характеристика. И тут точно должен быть порядок. * 

<font color='Blue'><b>
Возможные причины пропусков:
1. Отсутствующие значения при сборе данных
2. Ошибка в процессе передачи данных 
3. Человеческий фактор
4. Технические проблемы
5. Намеренное отсутствие данных
6. Выборочные исследования
7. Пропуски в данных из-за условий эксперимента.

В нашем случае есть один очень важный момент - пропуски в 2х категориях в одних и тех же строках. Это позволяет предположить, что информация собиралась из разных источников (н-р, филиалы банка) и либо у них была разная форма для заполнения. Либо при передаче данных возникла ошибка. Либо уже при сведении данных была допущена халатность со стороны программиста. Н-р данные были записаны в иной форме чем остальные и при сведении несоответствие нужному формату обратабывалось простановкой пустых значений. В пользу неаккуратности программиста говорит и столбец с трудовым стажем, премущественно из неправдаподобных значений и колонка с доходом, где ланные в формате float64 с 4мя знакама после запятой.
    </b></font><br>

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ: Наличие аномальных значений в выборке очень сильно повлияло бы на среднюю. Хотя, как по мне, имеет смысл сначала примерять среднюю. Если нет аномальных выбросов. Приведу пример. Интересует выборка по количкеству детей в семьях. И допустим так случилось, что в существующей выборке большинство семей без детей. Тогда все пропуски будут заполнены 0, как медианным значением, что явно не соответсвует логике. С другой стороны дробное количество тоже не поставить :) В общем болььшое количество нулей в выборке может сыграть плохую шутку с использованием медианы. * 

### Шаг 4: общий вывод.

В целом все промежуточные выводы изложены по мере получения данных. Ожидалось, что конверсия в исследованиях будет различаться более существенно. Такая близость результатов заставляет усомниться в правильности использованного метода. Хотя тут 2x2=4. Одно существенное дополнение. Что лично мне не понравилось в исследовании и что я бы изменил на будущее. Наряду с явно лишними категориями, никак не участвуюшими в исследовании, категория debt слишком упрощена. Это просто булева переменная имел или нет задержки по кредиту. Я бы данную характеристику рассматривал иначе. Ввел бы понятие - среднее и максимальное количество дней задержки. Исходя из этого ввел бы категоризацию. Поясню на примере. Задержка сроком до 3 дней - техническая и никак не отражающая финансовый статус заемщика. Н-р у человека есть большое количество счетов и он ими активно оперирует. В ходе этого какие-то счета могут обнуляться. получив уведомление о непроведении выплаты по кредиту человек перераспределяет деньги и следующее списание через 3 дня проходит без проблем. Еще одна категория - человек ведет активную финансовую жизнь и свободные активы держит на финансовом рынке. Получив уведомление о неоплаченном крелите, он продает фин.активы. Но деньги на счет получает в течении недели со дня продажи акций, н-р. То есть человек довольно состоятелен, но возможно недостаточно аккуратен в планировании. Следующая категория - человек, живущий от зарплаты до зарплаты. Он обладает хорощим доходом, крайне аккуратен в плане финансовой дисциплины, но зависим от внешнего фактора. И ему могут задерживать выплаты зп :) Поэтому наряду с категорией "0", "0-3", "4-7,"имеет смысл вводить категорию "8-14". Также немаловажно количество просрочек. Очевидно, что вся эта статистика нужна для кредитного отдела банка для оценки надежности потенциального заемщика.

<font color='Blue'><b>
## Общий вывод
В рамках исследлвания был проделан следуюший обьем работы:  
Проведена предобратотка данных:  
Заполнены пропущенные значения в данных о доходах и стаже медианными значениями для каждого типа занятости  
Отрицательные значения о стаже заменили на положительные  
Удалили строки с аномальным количеством детей (-1, 20). При этом мы не оценили предварительно объем удаляемых данных, который мог оказаться значительным. По факту таких данных оказалось 194, что мало при общем объеме в 21525 и не повлияло на результат в значительной мере.  
Изменили тип данных у дохода на целый.  
Ввели категории по типу дохода и цели кредитования.  
После чего провели анализ зависимостей. Для этого мы оцениввали число заемщиков в категории, количество задержек выплат среди них и считали пропорцию. Далее сравнивали категории по этой пропорции.  
Вывод из исследования следующий:  
1. Семьи без детей надежнее  
2. Семейное положение - наименее надежные неженатые или в гражданском браке.  
3. Уровень дохода особо не влияет.  
4. Цели кредита - наименее надежны кредиты на автомобиль и образование.  
    
Результат по 3му вопросу не удовлетворил. В результате категоризации были получены неравномерные выборки, что не позволило сделать адекватные выводы. Была заменена градация разделения на выборки, что позволило получить более равномерное разделение и адекватный результат.  
Также в процессе эксперимента я попробовал удалить строки с пропущенными значениями вместо заполнения медианой и оценил как поменяется статистика исследуемых пораметров. Значительных изменений не произошло. Поэтоиу дааный блок не вошел в финальный проект.  
### Рекомендации для будущих исследований
1. Аккуратнее относиться к сведению данных из разных источников.  
2. Ввести иную градацию уровней дохода для более равномерных выборок  
3. Проводить анализ по другим категориям, имеющимися в данных. А именно - возраст, пол, образование, тип занятости
4. При оценке параметра надежности использовать более сложную шкалу. Вместо булевой переменной ввести средний срок задержки, количество задержек, макс.кол-во дней задержки. </b></font><br>