# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

Выдвину несколько гипотез, которые можно проверить
Гипотеза 1: Люди, у которых есть дети более ответственно подходят к выплатам кредитов
    Семейные люди способны брать ответственность, как за себя, так и за других. Это дает больший толчок к выполнению своих обязанностей
Гипотеза 2: Многодетные семьи могут иметь проблемы с кредитами
    Большее кол-во детей - большие траты

**Вывод:** 

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [22]:
sum_debt = data['debt'].sum()
debt_with_children = (data.loc[data['children'] != 0, 'debt'].sum() / sum_debt)
debt_without_children = (data.loc[data['children'] == 0, 'debt'].sum() / sum_debt)

print('Доля просрочек по кредитам у семей с детьми {:.0%}'.format(debt_with_children))
print("Доля просрочки кредитов у семей без детей {:.0%}".format(debt_without_children))

def debt_depending_on_children():
    if debt_without_children > debt_with_children:
        print("Доля просрочки кредитов у кого нет детей больше, чем у тех, у кого есть дети. Гипотеза 1 подтверждена")

    elif debt_without_children < debt_with_children:
        print("Доля просрочки кредитов у семей с детьми больше, чем у тех, у кого нет детей. Гипотеза 1 опровергнута")
    
debt_depending_on_children()


Доля просрочек по кредитам у семей с детьми 39%
Доля просрочки кредитов у семей без детей 61%
Доля просрочки кредитов у кого нет детей больше, чем у тех, у кого есть дети. Гипотеза 1 подтверждена


In [23]:
sum_debt = data['debt'].count().sum()
debt_with_many_children = (data.loc[data['children'] == 5, 'debt'].sum() / sum_debt)
print('Доля просрочек по кредитам у многодетных семей с пятью детьми {:.0%}'.format(debt_with_many_children))

Доля просрочек по кредитам у многодетных семей с пятью детьми 0%


Получился странный результат, указывающих, что у многодетных семей c 5-ю детьми доля просрочек по кредитам 0 %. 
Выведем информацию о просрочках кредитов по всем семьям с детьми

In [24]:
cost = data.pivot_table(index = [ 'children'], values = 'debt', aggfunc = {'count','sum'})
cost = cost.rename(columns={'count':'Кол-во семей','sum':'Кол-во просрочек'})
cost['доля'] = round(cost['Кол-во просрочек']/cost['Кол-во семей'], 3)
cost = cost.sort_values(by='доля', ascending=True)
display(cost)

Unnamed: 0_level_0,Кол-во семей,Кол-во просрочек,доля
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,0,0.0
0,14091,1063,0.075
3,330,27,0.082
1,4808,444,0.092
2,2052,194,0.095
4,41,4,0.098


**Вывод:** 

Можно сделать вывод, что с ростом детей доля просрочек по кредитам растет. Таким образом, у многодетных семей 
действительно есть проблемы с выплатами кредитов.
Что касается семей с пятью детьми - их слишком было мало в выборке, чтобы сделать вывод, что семьи с 5-ю 
детьми отлично выплачивают кредиты.

Проверим, как семейное положение влияет на просрочки по кредитам. 

In [25]:
target = data.pivot_table(index = [ 'family_status'], values = 'debt', aggfunc = {'count','sum'})
target = target.rename(columns={'count':'total','sum':'target'})
target['share'] = round(target['target']/target['total'], 3)
target = target.sort_values(by='share', ascending=True)
display(target)

Unnamed: 0_level_0,total,target,share
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,951,63,0.066
в разводе,1189,84,0.071
женат / замужем,12261,927,0.076
гражданский брак,4134,385,0.093
Не женат / не замужем,2796,273,0.098


Вывод: Одинокие люди хуже других выплачивают кредиты. По-видимому, брак - это способность принять на себя ответственность и люди, которые не были ни разу в браке - это либо молодые, еще не устоявшиеся, или люди, которые, в принципе, избегают ответственности. Отсюда склонность к невыплатам. Аналогично с гражданским браком, это люди, которые не до конца берут на себя ответственность. При этом лучше всех справляются вдовы/вдовцы, это люди, которые понимают, что все, что есть не вечно, им уже неоткуда ждать помощь. Вполне возможно, что это внезапные меры взять кредит, а не показатель того, что человек не способен брать на себя ответственность, что касается и разводов. 
Люди, которые находятся в браке, имеют также задолженности, здесь может влиять на невыплаты к примеру наличие детей. 

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Гипотеза1: Чем больше доход, тем человек меньше имеет задолженностей по кредитам

In [26]:
target = data.pivot_table(index = [ 'total_income_category'], values = 'debt', aggfunc = {'count','sum'})
target = target.rename(columns={'count':'total','sum':'target'})
target['share'] = round(target['target']/target['total'], 3)
target = target.sort_values(by='share', ascending=True)
display(target)

Unnamed: 0_level_0,total,target,share
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,21,0.06
B,5014,354,0.071
A,25,2,0.08
C,15921,1353,0.085
E,22,2,0.091


БЫЛО: Нет прямой зависимости просрочек кредитов от увеличения дохода. При этом люди, из самой низкой категории заработков действительно
справляются хуже всего с выплатами кредитов.
Лучше всего справляется категория E. Пограничная категория, у которых есть заработок, но небольшой, видимо 
это стремление не съехать в категорию E. Можно даже сделать вывод на основе данных, что здесь с ростом дохода растет доля просрочек
по кредитам(от D до A). Возможно, что категория C выбилась по причине огромного кол-ва людей в выборке.
СТАЛО: По группам А, D, E крайне мало данных, чтобы на них опираться. Однако, прослеживается тенденция по категории B и C увеличение просрочек с увеличением заработка. Но в целом, выборка неинформативна для того, чтобы сделать вывод.

**Вывод:** 

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [27]:
target = data.pivot_table(index = [ 'purpose_category'], values = 'debt', aggfunc = {'count','sum'})
target = target.rename(columns={'count':'total','sum':'target'})
target['share'] = round(target['target']/target['total'], 3)
target = target.sort_values(by='share', ascending=True)
display(target)

Unnamed: 0_level_0,total,target,share
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,0.073
проведение свадьбы,2313,183,0.079
операции с автомобилем,4279,400,0.093
получение образования,3988,369,0.093


**Вывод:** 

Лучше всего справляются с выплатами, когда берут кредиты на жилье. Видимо страх остаться на улице выше, чем повышение комфорта. 
На операции с автомобилем и получение образования вышла одинаковая доля просрочек - повышение комфорта - это не закрытие
базовых потребностей. Здесь самая большая доля просрочек.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* Пропуски были в столбцах days_employed и total_income. Здесь можно учитывать человеческий фактор - человек не захотел 
отвечать. 

Возможно данные пришли из разных источников, в одном из которых не требовалось указывать данные категории

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

### Шаг 4: общий вывод.

Целью анализа являлось определить, как влияют различные факторы на долги/просрочки по кредитам - семейное положение, 
уровень дохода, кол-во детей и цели, под которые взят кредит.
Перед анализом была проведена предобработка данных, так как в данных были обнаружены пропуски в столбцах с данными о доходах и кол-ве проработанных дней. Кол-во пропусков в этих столбцах оказалось одинаковым. Возможно данные пришли из разных источников, где не требовалось заполнять данные категории. Пропуски в данных о доходах были заменены медианным значением с аналогичном типом занятости. 
Также в проработанных днях встретились аномальные значения - отрицательные числа. Они были заменены на положительные значения. Эта категория не участвовала в общем анализе.
По кол-ву детей доля выплат кредитов находится в интервале значений - от 0,075 до 0,098, где доля просрочек росла с увеличением детей. Чем больше детей, тем больше различных финансовых трудностей
Для семей, у которых оказалось 5 детей, доля просрочек равна нулю, но так как в выборке участвовало всего 9 людей, это не показательная информация.
Семейное положение - просрочки по кредитам находятся в пределах от 0,066 до 0,098. Наибольшие просрочки приходятся на людей, которые никогда не были в официальном браке. Лучше всех справляются вдовы/вдовцы, далее идут люди, которые были в разводе, далее люди, которые замужем/женаты, гражданский брак, неженатые/не замужние. 
По уровню дохода вышла не информативная выборка, так как кол-во участвующих сильно рознилось, чтобы сделать вывод о прямой зависимости уровня дохода и выплат по кредитам. Однако, из полученной выборки получилось, что самая маленькая доля выплат по кредитам у людей с самым низким доходом до 30 к. 
По целям на кредиты - просрочки находятся в пределах от 0,073 до 0,093. Лучше всего справляются люди, взявшие кредиты на ипотеку, хуже всех справляются люди, взявшие кредиты на образование или операции с автомобилем, вышла одинаковая доля - 0,093. Люди, которые закрывают базовые потребности более замотивированы, чем люди, которые повышают свой комфорт. 
Таким образом, нельзя сказать, что есть абсолютно точная прямая зависимость от каждого фактора. При этом при сочетании нескольких факторов могут быть гарантированные задержки в выплате кредитов. Наприме, неженатый мужчина с 4 детьми, взявший кредит себе не образование и т.д.