# Исследование надежности заемщиков


Заказчик — кредитный отдел банка. Разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Во второй части проекта вы выполните шаги 3 и 4. Их вручную проверит ревьюер.
Чтобы вам не пришлось писать код заново для шагов 1 и 2, мы добавили авторские решения в ячейки с кодом. 



## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [57]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [58]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [59]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [60]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [61]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [62]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [63]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [64]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [65]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [66]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [67]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [68]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [69]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [70]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [71]:
data.duplicated().sum()

71

In [72]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [73]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [74]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [75]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [76]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [77]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [78]:

def que(category):
        data_temp = data.pivot_table(index=category, values='debt', aggfunc=['count', 'sum', 'mean'])
        data_temp.columns = ['Всего кредитополучателей', 'Всего должников', 'Доля должников']
        return(data_temp)

display(que(data['children']))

Unnamed: 0_level_0,Всего кредитополучателей,Всего должников,Доля должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


**Вывод:** 
На таблице указана доля отношения количества задолженности по кредиту к общему количеству клиентов, сгруппированных по количеству детей.

Несмотря на то, что у клиентов с 5тью детьми 100% возврат кредита вовремя, нужно принимать во внимание, что общее количество клиентов с данным количеством детей - 9, что намного меньше, чем количество остальных клиентов с другим количеством детей. А так же, общее количество клиентов с 4мя детьми меньше всех оставшихся из данной категории. Исходя из этого, следующие категории не будем рассматривать. В итоге, можно отметить, что клиенты с 2мя детьми на 1.9% чаще не возвращают кредит в срок в отличии от клиентов без детей. Самая высокая доля должников - клиенты с 2мя детьми, соответственно, данные клиенты слабее возвращают кредит.



#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [79]:
#Cоздадим сводную таблицу используя метод pivot_table() и выведем данные о количестве клиентов 
#по семейному положению, разделенные по условию "имел ли задолженность по возврату кредитов"

family_pivot = data.pivot_table(index = ['family_status'], \
                                columns = ['debt'], \
                                values = 'purpose', aggfunc='count')
# Добавим столбец с общим количеством клиентов с соответствующим семейныйм положением
family_pivot['sum'] = family_pivot[0] + family_pivot[1]

# Добавим столбец процентного отношения количества клиентов не возвращающих долг вовремя на общее число клиентов
family_pivot['percent'] = family_pivot[1]/family_pivot['sum'] *100

# Отсортируем в порядке убывания по столбцу 'percent'
family_pivot = family_pivot.sort_values(by='percent', ascending = False)
family_pivot

debt,0,1,sum,percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,2523,273,2796,9.763948
гражданский брак,3749,385,4134,9.313014
женат / замужем,11334,927,12261,7.560558
в разводе,1105,84,1189,7.06476
вдовец / вдова,888,63,951,6.624606


**Вывод:** 
На таблице указан процент отношения количества задолженности по кредиту к общему количеству клиентов, сгруппированных по семейному статусу. Данные таблицы не сильно разнятся, клиенты со семейным статусом - 'Не женат / не замужем' чуть чаще не возвращают кредит вовремя, а именно на 3.1%, в отличии от клиентов с семейным статусом 'вдовец / вдова'.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [119]:
# Создадим DataFrame с описанием уровня дохода, для дальнейшего объединения и ясности таблицы
category = pd.DataFrame({'Уровень дохода':['наивысочайший', 'высокий', 'средний', 'низкий', 'наинизший' ], 'total_income_category':['A','B','C','D','E']})

#Cоздадим сводную таблицу используя функцию для вывода данных о количестве клиентов, должников и доли должников
#по уровню дохода
income_pivot = que(data['total_income_category'])

#Объединим таблицу данных с описанием уровня дохода
data_income_new = category.merge(income_pivot, on= 'total_income_category', how='left')
#Удалим столбец, с краткой категорией уровня дохода клиента
data_income_new = data_income_new.drop(columns = ['total_income_category'])

#Отсортируем в порядке убывания по столбцу 'Доля должников'
data_income_new = data_income_new.sort_values(by='Доля должников', ascending = False)

display(data_income_new)


Unnamed: 0,Уровень дохода,Всего кредитополучателей,Всего должников,Доля должников
4,наинизший,22,2,0.090909
2,средний,15921,1353,0.084982
0,наивысочайший,25,2,0.08
1,высокий,5014,354,0.070602
3,низкий,349,21,0.060172


**Вывод:** 
На таблице указана доля должников по кредиту, сгруппированных по категориям уровня дохода. Общее количество кредитополучателей с уровнями дохода "наинизший" и "наивысочайший" сильно отстают от количества остальных критериев. Исходя из этого, следущие категории не будем рассматривать. Оставшиеся данные доли должников не сильно разнятся, клиенты относящиеся к категории со средним уровнем дохода на 2% чаще не возвращают кредит вовремя, в отличии от клиентов категории с низким уровнем дохода. Самая высокая доля должников - у клиентов со средним заработком.

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [81]:
#Cоздадим сводную таблицу используя метод pivot_table() и выведем данные о количестве клиентов 
#по категории цели кредита, разделенные по условию "имел ли задолженность по возврату кредитов"

purpose_pivot = data.pivot_table(index = ['purpose_category'], \
                                columns = ['debt'], \
                                values = 'purpose', aggfunc='count')
# Добавим столбец с общим количеством клиентов с соответствующей целью кредита
purpose_pivot['sum'] = purpose_pivot[0] + purpose_pivot[1]

# Добавим столбец процентного отношения количества клиентов не возвращающих долг вовремя на общее число клиентов
purpose_pivot['percent'] = purpose_pivot[1]/purpose_pivot['sum'] *100

# Отсортируем в порядке убывания по столбцу 'percent'
purpose_pivot = purpose_pivot.sort_values(by='percent', ascending = False)
purpose_pivot

debt,0,1,sum,percent
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
операции с автомобилем,3879,400,4279,9.347978
получение образования,3619,369,3988,9.252758
проведение свадьбы,2130,183,2313,7.911803
операции с недвижимостью,9971,780,10751,7.255139


**Вывод:** 
 На таблице указан процент отношения количества задолженности по кредиту к общему количеству клиентов, сгруппированных по категории целеи кредита. Данные таблицы не сильно разнятся, клиенты взявшие кредит на "операции с автомобилем" на 2% чаще не возвращают кредит вовремя, в отличии от клиентов взявших кредит на целью "операции с недвижимостью". 

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* 
Причиной пропусков в большинстве случаев, может быть человеческий фактор. Опечатки, ошибки, человек может спутать данные и так далее.
А также причиной пропусков могут быть технологические ошибки: при копировании данных, неправильном считывании, смене формата, в том числе и при записи данных

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 

Данные могут значительно разниться между собой, как и количество наибольших данных и количество наименьших данных также отличительны друг от друга. При условии если наибольшее значение на порядок больше от остальных данных, то результат среднего значения заметно смещается вверх. Поэтому, целесообразно заполнять пропуски медианным значением.

### Шаг 4: общий вывод.

Исходя из данных полученных выше, можно сделать вывод, что есть некоторая зависимость между количеством детей, семейным положением, уровнем дохода, целями кредита. Эта зависимость незначительная, но разница в 2%-3% в больших данных могут иметь существенную значимость в анализе данных.
По данным анализа самыми ненадежными клиентами оказались клиенты с 2мя детьми, неженатые/незамужние, со средним уровнем дохода, которые брали кредит для операций с автомобилем. А самыми надежными клиентами оказались бездетные клиенты, вдовцы/вдовы, с низким уровнем дохода, которые брали кредит на недвижимость.