# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


### Цели исследования
1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

### Описание данных


| Название столбца       | Значение                                   |
|------------------------|--------------------------------------------|
| ***children***         | количество детей в семье                   |
| ***days_employed***    | общий трудовой стаж в днях                 |
| ***dob_years***        | возраст клиента в годах                    |
| ***education***        | уровень образования клиента                |
| ***education_id***     | идентификатор уровня образования           |
| ***family_status***    | семейное положение                         |
| ***family_status_id*** | идентификатор семейного положения          |
| ***gender***           | пол клиента                                |
| ***income_type***      | тип занятости                              |
| ***debt***             | имел ли задолженность по возврату кредитов |
| ***total_income***     | ежемесячный доход                          |

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
# импортируем нужные библиотеки
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer('russian').stem  # создаем объект SnowballStemmer
from pymystem3 import Mystem
mystem = Mystem().lemmatize # создаем объект Mystem

Installing mystem to C:\Users\Chuck/.local/bin\mystem.exe from http://download.cdn.yandex.net/mystem/mystem-3.1-win-64bit.zip


In [2]:
# прочитаем предоставленный датасет
data = pd.read_csv('../data/data.csv')

# посмотрим информацию о содержании колонок
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Датасет содержит 21525 сэмплов и 12 столбцов, из них 2 столбца с данными типа float64, 5 с int64 и 5 с данными типа object.
В столбцах days_employed и total_income присутствуют пропуски данных, причем в обоих столбцах содержится одинаковое количество строк с пропусками - 2174.
Также, как минимум, в столбцах children, debt и dob_years выглядит избыточным использование int64.
Давайте посмотрим на содержание датасета и статистические данные численных столбцов.

In [34]:
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [35]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Из полученных данных можно сделать следующие выводы:**
1. У столбцов children, dob_years, education_id, family_status_id, debt максимальные значения никогда не превысят int64, так что можем смело конвертировать их в int8 сэкономив память.
2. В столбце children минимальное значение равно -1, что явно говорит о наличии недостоверных данных в данном столбце.
3. Столбец days_employed выглядит довольно странно, очень много отрицательных и слишком больших значений.
4. В столбце education необходимо привести данные к нижнему регистру для дальнейшего удобства работы с ними

Для начала преобразуем типы данных для экономии памяти.
Для наглядности создадим датафрейм, содержащий информацию об исходном датасете и датасете с преобразованными типами данных.

In [36]:
data_compressed = data.astype({'children': 'int8', 'days_employed': 'float32', 'dob_years': 'int8', 'education_id': 'int8', 'family_status_id': 'int8', 'debt': 'int8', 'total_income': 'float32'})
pd.DataFrame(data=[
    data.memory_usage(),
    data_compressed.memory_usage(),
    data.memory_usage() - data_compressed.memory_usage(),
    100 / (data.memory_usage() / (data.memory_usage() - data_compressed.memory_usage()))
    ]
).rename({0: 'before_optimization', 1: 'after_optimization', 2: 'compressed_bytes', 3: '%_compress'})

Unnamed: 0,Index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
before_optimization,128.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0,172200.0
after_optimization,128.0,21525.0,86100.0,21525.0,172200.0,21525.0,172200.0,21525.0,172200.0,172200.0,21525.0,86100.0,172200.0
compressed_bytes,0.0,150675.0,86100.0,150675.0,0.0,150675.0,0.0,150675.0,0.0,0.0,150675.0,86100.0,0.0
%_compress,0.0,87.5,50.0,87.5,0.0,87.5,0.0,87.5,0.0,0.0,87.5,50.0,0.0


Простым преобразованием типов данных удалось уменьшить потребление памяти от 50% до 87.5%.

In [46]:
data_compressed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int8   
 1   days_employed     19351 non-null  float32
 2   dob_years         21525 non-null  int8   
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int8   
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int8   
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int8   
 10  total_income      19351 non-null  float32
 11  purpose           21525 non-null  object 
dtypes: float32(2), int8(5), object(5)
memory usage: 1.1+ MB


Теперь датасет использует 1.1 MB памяти вместо 2 MB. Мы добились экономии памяти в ~45%.

**Вывод**

## Шаг 2. Предобработка данных

### Обработка пропусков

**Вывод**

### Замена типа данных

**Вывод**

### Обработка дубликатов

**Вывод**

### Лемматизация

**Вывод**

### Категоризация данных

**Вывод**

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

**Вывод**

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

**Вывод**

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

**Вывод**

- Как разные цели кредита влияют на его возврат в срок?

**Вывод**

## Шаг 4. Общий вывод

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [ ]  файл изучен;
- [ ]  определены пропущенные значения;
- [ ]  заполнены пропущенные значения;
- [ ]  есть пояснение, какие пропущенные значения обнаружены;
- [ ]  описаны возможные причины появления пропусков в данных;
- [ ]  объяснено, по какому принципу заполнены пропуски;
- [ ]  заменен вещественный тип данных на целочисленный;
- [ ]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [ ]  удалены дубликаты;
- [ ]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [ ]  описаны возможные причины появления дубликатов в данных;
- [ ]  выделены леммы в значениях столбца с целями получения кредита;
- [ ]  описан процесс лемматизации;
- [ ]  данные категоризированы;
- [ ]  есть объяснение принципа категоризации данных;
- [ ]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [ ]  в каждом этапе есть выводы;
- [ ]  есть общий вывод.