# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель работы**: Провести анализ данных займщиков для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Задачи работы**:

1. Изучить данные.

2. Выполнить предообработку данных.

3. Выявить зависимость между наличием детей и возвратом кредита в срок.

4. Выявить зависимость между семейным положением и возвратом кредита в срок.

5. Выявить зависимость между уровнем дохода и возвратом кредита в срок.

6. Выявить какие разные цели кредита влияют на его возврат в срок.

**План работы**:

1. Изучение общей информации о предоставленных данных

2. Определить и заменить пропуски

3. Выявить и удалить дубликаты

4. Изменить тип данных

5. Провести леммитизацю

6. Категоризовать данные

7. Выявить наличие зависимостей различный факторов на возврат кредита в срок

8. Формулировка общего вывода

## Изучение общей информации

### Импорт библиотеки, чтение файла

Импорт библиотек, с которыми предстоит работать в ходе проекта

In [136]:
import pandas as pd 
from pymystem3 import Mystem
m = Mystem()

Чтение файла с данными и сохранение в переменную df

In [137]:
df = pd.read_csv('/datasets/data.csv') 

### Обзор данных

Получение первых 10 строк таблицы df для ознакомления с данными

In [138]:
df.head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получение общей информации о данных в таблице df

In [139]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверка стиля названий столбцов таблицы 

In [140]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

Вывод описательных статистик таблицы

In [141]:
df.describe().T 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
children,21525.0,0.538908,1.381587,-1.0,0.0,0.0,1.0,20.0
days_employed,19351.0,63046.497661,140827.311974,-18388.949901,-2747.423625,-1203.369529,-291.095954,401755.4
dob_years,21525.0,43.29338,12.574584,0.0,33.0,42.0,53.0,75.0
education_id,21525.0,0.817236,0.548138,0.0,1.0,1.0,1.0,4.0
family_status_id,21525.0,0.972544,1.420324,0.0,0.0,0.0,1.0,4.0
debt,21525.0,0.080883,0.272661,0.0,0.0,0.0,0.0,1.0
total_income,19351.0,167422.302208,102971.566448,20667.263793,103053.152913,145017.937533,203435.067663,2265604.0


Исходя из статистических покателей таблицы видно, что столбцах "children", "days_employed" есть отрицательные значения, в столбце "children" есть выброс (максимальное значение равно 20)  и в столбце "days_employed" есть выброс (максимальное значение равно 401755.400475), что маловероятно для реальной жизни.

Подсчет пропущенных значений в столбцах

In [142]:
df.isna().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Подсчет количества явных дубликатов

In [143]:
df.duplicated().sum() 

54

**Вывод**

- В каждой строке таблицы — данные о заемщике. 
- Колонки описывают: пол, общий стаж работы в днях, образование, уровень дохода, семейное положение, цель взятия кредита заемщика.
- Пользуясь методами head(), info(), describe() было выявлено: в таблице 12 столбцов, 21525 строк, типы данных: float64(2), int64(5), object(5). 
- Наименование столбцов корректно. 
- Встречаются пропуски, дубликаты, отрицательные значения и выбросы в данных.
- В 2174 строках из 21525 пропущен общий трудовой стаж в столбце "days_employed" и в 2174 строках из 21525 пропущен общий ежемесячный доход в столбце "total_income". В датафрейме 54 явных дубликата.

## Предобработка данных

### Обработка пропусков

С помощью метода isna().sum() подсчет пропущенных значений в столбцах

In [144]:
df.isna().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

 В столбцах "days_employed" и "total_income " обнаружены пропуски в 2174 строках.

Методом isna() найдём все строки с пропусками в столбце "days_employed"и просмотрим первые 10

In [145]:
df[df['days_employed'].isna()].head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Методом isna() найдём все строки с пропусками в столбце total_income и просмотрим первые 10

In [146]:
df[df['total_income'].isna()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Пропущенные значения в столбцах 'days_employed' и 'total_income' находятся в одних и тех же строках.
Так как пропущенные значения в этих двух столбцах имеют вещественный тип данных - NaN, заменим пропуски медианным значением.

Заменим пропуски медианным значением в столбце 'total_income'.

In [147]:
for income_type in df['income_type'].unique():
    med = df.loc[df['income_type'] == income_type, 'total_income'].median()
    print(income_type, med)
    df.loc[(df['total_income'].isna()) & (df['income_type'] == income_type), 'total_income'] = med

сотрудник 142594.39684740017
пенсионер 118514.48641164352
компаньон 172357.95096577113
госслужащий 150447.9352830068
безработный 131339.7516762103
предприниматель 499163.1449470857
студент 98201.62531401133
в декрете 53829.13072905995


Проверим количество пропусков после преобразований

In [148]:
print(df['total_income'].isna().sum()) 

0


Заменим пропуски медианным значением в столбце 'days_employed'.

In [149]:
for children in df['children'].unique():
    med_1 = df.loc[df['children'] == children, 'days_employed'].median()
    print(children, med_1)
    df.loc[(df['days_employed'].isna()) & (df['children'] == children), 'days_employed'] = med_1

1 -1416.1418430096792
0 -1036.583485642851
3 -1681.245020557907
2 -1634.3422270463668
-1 -1391.963377710656
4 -1866.4264055759927
20 -957.2512784292198
5 -1231.5714864842407


Проверим пропуски после преобразования

In [150]:
print(df['days_employed'].isna().sum()) 

0


In [151]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Теперь во всех столбцах одинаковое количество строк - 21525.

**Вывод**

- С помощью метода isna() в столбцах 'days_employed' и 'total_income' были обнаружены пропуски в одних и тех же строках - NaN. NaN - имеет вещественный тип данных (float64), поэтому заменили пропуски медианными значениями в сочетании с группировкой по одной перемнной.
- Причины пропуска могуть быть связаны с ошибкой оператора, вследствие чего произошла неверная выгрузка, необходимо обратиться к отделу или оператору, которые занимаются этим, рассказать проблему и исправить ошибку.
- Также обнаружены неадекватные цифры стажа, стоят завышенные значения (max значение = 401755.400475). При использовании этих значений в расчетах, мы бы получили неправльную картину. Но так как этот столбец не задействован в исследовании и выявлении заданных зависисмостей оставим данные в таком виде. На дальнейших ход исследования они не повлияют.

### Замена типа данных

В двух столбцах 'total_income' и 'days_employed' вещественный тип данных (float64). С помощью метода astype() приведем данные к целочисленному типу. Выбран метод astype(), так как он приводит значения в нужный тип данных, в отличие, например, от метода to_numeric(), который приводит все числа исключительно к типу данных float.

Приведем данные столбца 'total_income' к целочисленному типу.

In [152]:
df['total_income'] = df['total_income'].astype('int') 

Приведем данные столбца 'days_employed' к целочисленному типу.

In [153]:
df['days_employed'] = df['days_employed'].astype('int') 

#### Оптимизация хранения числовых данных с использованием подтипов

Для просмотра сколько памяти используют типы данных напишкм функцию df_usage(pandas_obj).

In [154]:
def df_usage(pandas_obj):
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b = pandas_obj.memory_usage(deep=True).sum()
    else: # если это не DataFrame, то это Series
        usage_b = pandas_obj.memory_usage(deep=True)
    usage_mb = usage_b / 1024 ** 2 # в мегабайты
    return "{:03.2f} MB".format(usage_mb)

Оптимизируем наши данные с целочисленным типом данных применяя вышенаписанную функцию df_usage(pandas_obj) и функцию pd.to_numeric()

In [155]:
df_int = df.select_dtypes(include=['int'])
converted_int = df_int.apply(pd.to_numeric,downcast='unsigned')

print(df_usage(df_int))
print(df_usage(converted_int))


1.15 MB
0.49 MB


Посмотрим на какие подтипы в итоге у нас произошла замена

In [156]:
compare_ints = pd.concat([df_int.dtypes,converted_int.dtypes],axis=1)
compare_ints.columns = ['before','after']
compare_ints.apply(pd.Series.value_counts)

Unnamed: 0,before,after
uint8,,4
uint32,,1
int64,7.0,2


Исходя из результата видим, что теперь из 7 столбцов с целочисленным типом данных: 4 столбца нашего датафрейма имеют тип данных uint8, 1 столбец имеет тип данных uint32 и 2 столбца так и остались с типом данных int64.
Использования памяти упало с 1,15 до 0,49 мегабайт, мы снизили потребление памяти на 58%.

Создадим копию нашего датафрейма, используем эти оптимизированные числовые столбцы вместо тех, что присутствовали в нём изначально, и посмотрим на общий показатель использования памяти после оптимизации.

In [157]:
optimized_df = df.copy()

optimized_df[converted_int.columns] = converted_int

print(df_usage(df))
print(df_usage(optimized_df))

13.49 MB
12.83 MB


Потребление памяти снизилось на 5 %.

#### Оптимизация хранения данных объектных типов с использованием категориальных переменных

В нашем датафрейме есть два набора словарей "education - education_id" и "family_status - family_status_id". В столбцах "education" и "family_status" содержатся значения из ограниченного набора. Вследствие чего мы можем объектные данные в стобцах "education" и "family_status" преобразовать в категориальные.

In [158]:
#До
dow_education = optimized_df.education
print(dow_education.head())
#После преобразования 
dow_cat_ed = dow_education.astype('category')
print(dow_cat_ed.head())

0     высшее
1    среднее
2    Среднее
3    среднее
4    среднее
Name: education, dtype: object
0     высшее
1    среднее
2    Среднее
3    среднее
4    среднее
Name: education, dtype: category
Categories (15, object): [ВЫСШЕЕ, Высшее, НАЧАЛЬНОЕ, НЕОКОНЧЕННОЕ ВЫСШЕЕ, ..., начальное, неоконченное высшее, среднее, ученая степень]


Сравним потребление памяти до/после преобразования столбца

In [159]:
print(df_usage(dow_education))
print(df_usage(dow_cat_ed))

2.29 MB
0.02 MB


Как видно, сначала потреблялось 2.29 мегабайт памяти, а после оптимизации — лишь 0.02 мегабайт, что означает 99% улучшение этого показателя.

In [160]:
#до
dow_family = optimized_df.family_status
print(dow_family.head())
#после преобразования
dow_cat_fm = dow_family.astype('category')
print(dow_cat_fm.head())

0     женат / замужем
1     женат / замужем
2     женат / замужем
3     женат / замужем
4    гражданский брак
Name: family_status, dtype: object
0     женат / замужем
1     женат / замужем
2     женат / замужем
3     женат / замужем
4    гражданский брак
Name: family_status, dtype: category
Categories (5, object): [Не женат / не замужем, в разводе, вдовец / вдова, гражданский брак, женат / замужем]


In [161]:
print(df_usage(dow_family))
print(df_usage(dow_cat_fm))

2.93 MB
0.02 MB


Как видно, сначала потреблялось 2.93 мегабайт памяти, а после оптимизации — лишь 0.02 мегабайт, что означает 99% улучшение этого показателя.

In [162]:
optimized_df['family_status'] = optimized_df['family_status'].astype('category')

In [163]:
optimized_df['education'] = optimized_df['education'].astype('category')

Проверим, произошла ли замена

In [164]:
optimized_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null uint8
education           21525 non-null category
education_id        21525 non-null uint8
family_status       21525 non-null category
family_status_id    21525 non-null uint8
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null uint8
total_income        21525 non-null uint32
purpose             21525 non-null object
dtypes: category(2), int64(2), object(3), uint32(1), uint8(4)
memory usage: 1.0+ MB


После оптимизации типов данных получили новый оптимизированный датафрейм optimized_df, который имеет размер в два раза меньше относительно исходного. Теперь в датафрейме существуют следующие типы данных: int64, object, category и подтипы данных: uint8, uint32.

**Вывод**

После замены и оптимизации хранения типов данных в памяти, мы получили новый оптимизированный датафрейм optimized_df, который в два раза меньше относительно исходного (было 2 МВ, стало 1.0 MB). Теперь в датафрейме находятся следующие типы данных: int64, object, category и подтипы данных: uint8, uint32.  

### Обработка дубликатов

#### Поиск и удаление явных дубликатов

С помощью метода duplicated() найдем количество дубликатов / совпадений

In [165]:
optimized_df.duplicated().sum()

54

Наглядно посмотрим таблицу дубликатов / совпадений

In [166]:
duplicated_optimized_df = optimized_df[df.duplicated()].head() 
print(duplicated_optimized_df)

      children  days_employed  dob_years education  education_id  \
2849         0          -1036         41   среднее             1   
4182         1          -1416         34    ВЫСШЕЕ             0   
4851         0          -1036         60   среднее             1   
5557         0          -1036         58   среднее             1   
7808         0          -1036         57   среднее             1   

         family_status  family_status_id gender income_type  debt  \
2849   женат / замужем                 0      F   сотрудник     0   
4182  гражданский брак                 1      F   сотрудник     0   
4851  гражданский брак                 1      F   пенсионер     0   
5557  гражданский брак                 1      F   пенсионер     0   
7808  гражданский брак                 1      F   пенсионер     0   

      total_income                  purpose  
2849        142594  покупка жилья для семьи  
4182        142594                  свадьба  
4851        118514                  св

Удалим дубликаты без создаия нового столбца со старыми значениями индексов

In [167]:
optimized_df = optimized_df.drop_duplicates().reset_index(drop=True)

Проверим ушли ли дубликаты / совпадения

In [168]:
optimized_df.duplicated().sum() 

0

#### Поиск и удаления неявных дубликатов

Посмотрим уникальные значения столбцов для выявления неявных дубликатов. Неявные дубликаты ищем методом unique() в сочетании с методом sort_values(), который выдает значения в порядке возрастания.

Просмотр уникальных значений для столбца 'children'

In [169]:
optimized_df['children'].sort_values().unique() 

array([-1,  0,  1,  2,  3,  4,  5, 20])

В столбце 'children' мы видим отрицательные значения и число 20. Предположительно поставили случайно, поэтому есть смысл привести данные столбца к абсолютным значениям. Число 20 также введено по ошибке, заменим его на медианное значение, так как непоятно хотели внести в таблицу число 2 или 0.

Избавимся от минус с помощью функции abs() в столбце 'children'

In [170]:
optimized_df['children'] = optimized_df['children'].abs() 

Заменим число 20 медианным значенимем с помощью логической индексации.

In [171]:
med_2 = optimized_df.loc[df.loc[:, 'children'] != 20]['children'].median()
df['children'] = df['children'].replace(20, med_2)

Проверим с помощью метода sort_values() как изменился столбец 'children' после преобразований.

In [172]:
print(optimized_df['children'].value_counts())

0     14107
1      4856
2      2052
3       330
20       76
4        41
5         9
Name: children, dtype: int64


Убедились, что нет теперь отрицательных значений и цифры 20.

Просмотр уникальных значений для столбца 'days_employed'

In [173]:
optimized_df['days_employed'].sort_values().unique() 

array([-18388, -17615, -16593, ..., 401675, 401715, 401755])

В столбце 'days_employed' присутсвуют отрицательные значения. Предположительно при заполнении таблицы '-' поставили случайно. Приведем данные столбца к абсолютным значениям с помощью функции abs().

Избавимся от минус с помощью функции abs() в столбце 'days_employed'

In [174]:
optimized_df['days_employed'] = optimized_df['days_employed'].abs() 

Проверим сработала ли функция abs()

In [175]:
optimized_df['days_employed'].sort_values().unique() 

array([    24,     30,     33, ..., 401675, 401715, 401755])

Просмотр уникальных значений для столбца 'dob_years'

In [176]:
optimized_df['dob_years'].sort_values().unique() 

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75], dtype=uint64)

В столбце 'dob_years' нет дубликатов

Просмотр уникальных значений для столбца 'education'

In [177]:
optimized_df['education'].sort_values().unique() 

[ВЫСШЕЕ, Высшее, НАЧАЛЬНОЕ, НЕОКОНЧЕННОЕ ВЫСШЕЕ, Начальное, ..., высшее, начальное, неоконченное высшее, среднее, ученая степень]
Length: 15
Categories (15, object): [ВЫСШЕЕ, Высшее, НАЧАЛЬНОЕ, НЕОКОНЧЕННОЕ ВЫСШЕЕ, ..., начальное, неоконченное высшее, среднее, ученая степень]

В столбце 'education' используется разный регистр букв, вследствие чего образуются дубликаты.

Приведем все значения столбца к нижнему регистру с помощью метода str.lower()

In [178]:
optimized_df['education'] = optimized_df['education'].str.lower()

Проверим сработал ли метод str.lower()

In [179]:
print(optimized_df['education'].value_counts()) 

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64


После проверки убедились, что нет больше неявных дубликатов в данном столбце.

In [180]:
optimized_df['education_id'].sort_values().unique() 

array([0, 1, 2, 3, 4], dtype=uint64)

В столбце 'education_id' нет дубликатов

In [181]:
optimized_df['family_status'].sort_values().unique() 

[Не женат / не замужем, в разводе, вдовец / вдова, гражданский брак, женат / замужем]
Categories (5, object): [Не женат / не замужем, в разводе, вдовец / вдова, гражданский брак, женат / замужем]

В столбце 'family_status' нет дубликатов

In [182]:
optimized_df['family_status_id'].sort_values().unique() 

array([0, 1, 2, 3, 4], dtype=uint64)

В столбце 'family_status_id' нет дубликатов

In [183]:
optimized_df['gender'].sort_values().unique() 

array(['F', 'M', 'XNA'], dtype=object)

In [184]:
print(optimized_df['gender'].value_counts()) 

F      14189
M       7281
XNA        1
Name: gender, dtype: int64


В данных есть  1 строка со значением пола - 'XNA', но так как мы не знаем пол человека и не можем сделать предположений из данных, а также в расчетах использовать значение не будем, то оставляем его как есть. Скорее всего человек не захотел оставлять данные о себе и хотел оставить пропуск, но произошла опечатка.

In [185]:
optimized_df['income_type'].sort_values().unique()

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [186]:
optimized_df['debt'].sort_values().unique()

array([0, 1], dtype=uint64)

В столбце 'debt' нет дубликатов

In [187]:
optimized_df['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

В столбце 'purpose'есть дубликаты, но их мы исправим ниже с помощью лемматизации. Данные дубликаты возникли из-за того, что нет фиксиррованных слов для описания цели кредита и каждый человек сам формировал словосочетание.

**Вывод**

- В данном разделе мы нашли и обработали явные и неявные дубликаты. 
- С помощью метода drop_duplicates() удалили все явные дубликаты. Вызывая метод sort_values() в сочетании с методом unique() были обнаружены неявные дубликаты. 
- В столбце 'children' были заменены отрицательные значения и число 20. Предположительно минус поставили случайно, поэтому данные столбца привели  к абсолютным значениям с помощью функции abs(). Число 20 также введено по ошибке, заменили его на медианное значение, так как непоятно хотели внести в таблицу число 2 или 0. 
- В столбце 'days_employed' присутсвовали отрицательные значения. Предположительно при заполнении таблицы '-' поставили случайно. Привели данные столбца к абсолютным значениям с помощью функции abs(). 
- В столбце 'education' привели все значения строк к нижнему регистру с помощью метода str.lower(). 
- В столбце "gender"  есть 1 строка со значением пола - 'XNA', но так как мы не знаем пол человека и не можем сделать предположений из данных, а также в расчетах использовать значение не будем, то оставили строку без изменений. Скорее всего человек не захотел оставлять данные о себе и хотел оставить пропуск, но произошла опечатка.

### Лемматизация

Вызывем библиотеку pymystem3 чтобы привести леммитизацию для значений строк столбца "purpose".
Для этого создадим функцию lemmatize_purpose, аргументом, которой является текст, слово или словосочетание, к которым нужно применить данный метод. Далее создадим пустой список, куда будут сохраняться данные. Запустим цикл перебора строк в столбце "purpose", далее внутри цикла вызовем функцию lemmatize_purpose, которая преобразует каждую строку сьолбца в лемму. После чего преобразованная строка добавляется в созданный заранее список. Вне цикла создаем новый столбец рассматриваемого датафрейма, где будут отражены лемматизированные строки столбца "purpose".

In [188]:
def lemmatize_purpose(text):
    lemmas = m.lemmatize(text)
    return ''.join(lemmas).strip()
lemma_lst = []
for row in optimized_df['purpose']:
    row = lemmatize_purpose(row)
    lemma_lst.append(row)
optimized_df['purpose_lemmas'] = lemma_lst
print(optimized_df.head(10))

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
4         0         340266         53   среднее             1   
5         0            926         27    высшее             0   
6         0           2879         43    высшее             0   
7         0            152         50   среднее             1   
8         2           6929         35    высшее             0   
9         0           2188         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

Посчитаем число упоминаний лематизированных строк списке lemma_lst.

In [189]:
from collections import Counter
print(Counter(lemma_lst))

Counter({'автомобиль': 972, 'свадьба': 793, 'на проведение свадьба': 773, 'сыграть свадьба': 769, 'операция с недвижимость': 675, 'покупка коммерческий недвижимость': 662, 'операция с жилье': 652, 'покупка жилье для сдача': 652, 'операция с коммерческий недвижимость': 650, 'покупка жилье': 646, 'жилье': 646, 'покупка жилье для семья': 638, 'строительство собственный недвижимость': 635, 'недвижимость': 633, 'операция со свой недвижимость': 627, 'строительство жилой недвижимость': 625, 'покупка недвижимость': 621, 'покупка свой жилье': 620, 'строительство недвижимость': 619, 'ремонт жилье': 607, 'покупка жилой недвижимость': 606, 'на покупка свой автомобиль': 505, 'заниматься высокий образование': 496, 'сделка с подержанный автомобиль': 486, 'свой автомобиль': 479, 'на покупка подержать автомобиль': 478, 'на покупка автомобиль': 472, 'приобретение автомобиль': 461, 'дополнительный образование': 460, 'сделка с автомобиль': 455, 'высокий образование': 452, 'образование': 447, 'получение до

Далее в разделе 2.5 с помощью категоризации данных полученные лемы сведем к 4 категориям: автомобиль, образование, недвижимость, свадьба.

**Вывод**

В ходе работы вызвали библиотеку pymystem3 и провели леммитизацию для значений строк столбца "purpose". Полученные лемматизированные значения сохранили в новый столбец 'purpose_lemmas' рассматриваемого датафрейма. С помощью специального контейнера Counter из модуля collections посичтали количество упоминаний лемматизированных строк в датафрейме Далее в разделе 2.5 с помощью категоризации данных полученные лемы сведем к 4 категориям: автомобиль, образование, недвижимость, свадьба.

### Категоризация данных

В пункте 2.5 произведем категоризацию данных из столбцов 'children', 'purpose', 'income_total'. Данные для категоризации были выбраны именно такие, потому что их значения нам будут нужны, чтобы овтетить на главные вопросы нашего исследования. Когда они категоризированы проще выявить зависимость. Данные из столбца 'family_status' оставим такими как есть, по сути они уже разбиты на категории.

#### Категоризация данных 'children'

С помощью функции child_group(child) столбец 'children' был разбит на три категории: если 0 детей - категория "бездетные", если от одного до 1 до 2 - категория "малодетные", в остальных случаях- категория "многодетные".

In [190]:
def child_group(child):
    if child == 0:
        return 'бездетные'
    if 1 <= child <= 2:
        return 'малодетные'
    return 'многодетные'
optimized_df['child_group'] = optimized_df['children'].apply(child_group)

После данной категоризации в рассматриваемом датафрейме был создан столбец 'child_group', где указаны категории в зависимости от данных столбца 'children'.

In [191]:
print(optimized_df.head()) # проверим появился ли новый столбец

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
4         0         340266         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose              purpose_lemmas  child_group  
0               покупка жилья               покупка жил

In [192]:
print(optimized_df['child_group'].value_counts()) # посмотрим статистику по группам

бездетные      14107
малодетные      6908
многодетные      456
Name: child_group, dtype: int64


#### Категоризация данных 'purpose'

С помощью функции purpose_group(purpose) столбец 'purpose_lemmas' был разбит на четыре категории: если в лемматизированной строке есть слово "образование" - категория "образование", если в лемматизированной строке есть слово "автомобиль" - категория "автомобиль", если в лемматизированной строке есть слово свадьба" - категория "свадьба", для остальных случаев - категория "недвижимость"

In [193]:
def purpose_group(purpose):
        if 'образование' in row:
            return 'образование'
        if 'автомобиль' in row:
            return 'автомобиль'
        if 'свадьба' in row:
            return 'свадьба'
        return 'недвижимость'
purpose_gr = []
for row in optimized_df['purpose_lemmas']:
    row = purpose_group(row)
    purpose_gr.append(row)
optimized_df['purpose_group'] = purpose_gr
print(optimized_df.head())

   children  days_employed  dob_years education  education_id  \
0         1           8437         42    высшее             0   
1         1           4024         36   среднее             1   
2         0           5623         33   среднее             1   
3         3           4124         32   среднее             1   
4         0         340266         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose              purpose_lemmas  child_group  \
0               покупка жилья               покупка жи

После данной категоризации в рассматриваемом датафрейме был создан столбец 'purpose_group', где указаны категории в зависимости от данных столбца 'purpose_lemmas'.

In [194]:
print(optimized_df['purpose_group'].value_counts()) # посмотрим статистику по группам

недвижимость    10814
автомобиль       4308
образование      4014
свадьба          2335
Name: purpose_group, dtype: int64


#### Категоризация данных 'total_income'

С помощью функции income_group(income) столбец 'total_income' был разбит на 4 категории: если доход от 20000 до 107655 включая - категория "бедные", если доход от 107656 до 142594 включая - категория "выше бедности", если доход от 142595 до 195768 включая - категория "средний класс", в остальных случаях - категория "богатые". Именно такое разделение на категории было приянто на основе статистическиъ показателей данного столбца, а имено минимальное значение и значений 25,50,75 процентелей.

Чтобы разбить доход на категории вызовем функцтию describe().T, чтобы ознакомиться с минимальным значением и значениями 25, 50, 75 процентелей.

In [195]:
optimized_df['total_income'].describe().T

count    2.147100e+04
mean     1.652954e+05
std      9.815346e+04
min      2.066700e+04
25%      1.076545e+05
50%      1.425940e+05
75%      1.957675e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [196]:
def income_group(income):
    if 20000 <= income <= 107655:
        return 'бедные'
    if 107656 <= income <= 142594:
        return 'выше бедности'
    if 142595 <= income <= 195768:
        return 'средний класс'
    return 'богатые'
optimized_df['income_group'] = optimized_df['total_income'].apply(income_group)
print(df.head())

   children  days_employed  dob_years education  education_id  \
0         1          -8437         42    высшее             0   
1         1          -4024         36   среднее             1   
2         0          -5623         33   Среднее             1   
3         3          -4124         32   среднее             1   
4         0         340266         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жилья  


После данной категоризации в рассматриваемом датафрейме был создан столбец 'income_group', где указаны категории в зависимости от данных столбца 'total_income'.

In [197]:
print(optimized_df['income_group'].value_counts()) # посмотрим статистику по группам

выше бедности    5490
бедные           5368
богатые          5368
средний класс    5245
Name: income_group, dtype: int64


**Вывод**

- Была произведена категоризацию данных из столбцов 'children', 'purpose', 'income_total'. 
- Данные из столбца 'family_status' оставим такими как есть, по сути они уже разбиты на категории. 
- Данные для категоризации были выбраны именно такие, потому что их значения нам будут нужны, чтобы овтетить на главные вопросы нашего исследования, которые озвучены в пункте 3 данного проекта. Произведенная категоризация поможет быстрее и нагляднее выявить зависисимость между различными данными.

## Ответы на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

Чтобы ответить на данный вопрос составим сводную таблицу с помощью метода pivot_table().Таблица будет сформирована по категориям столбца основного датафрейма 'child_group'. В сводной таблице будет 4 столбца.  
Первый столбец "0" - отражает количество заемщиков, вернувших во время кредит в каждой из категорий (данные взяты из столбца "debt"), второй столбец - "1" - отражает количестов заемщиков, не вернувших во время кредит в каждой из категории (данные взяты из столбца "debt"), третий столбец "ratio_0" - показвает долю заемщиков вернувших в срок относительного всего количества заемщиков в определенной категории, четвертый столбец "ratio_1" - показвает долю заемщиков не вернувших в срок относительного всего количества заемщиков в определенной категории.

In [198]:
data_pivot_children = optimized_df.pivot_table(index=['child_group'], columns='debt', values='children', aggfunc='count', margins=False)
data_pivot_children['ratio_0'] = data_pivot_children.loc[:, 0] / (data_pivot_children.loc[:, 0] + data_pivot_children.loc[:, 1])
data_pivot_children['ratio_1'] = data_pivot_children.loc[:, 1] / (data_pivot_children.loc[:, 0] + data_pivot_children.loc[:, 1])
print(data_pivot_children)

debt             0     1   ratio_0   ratio_1
child_group                                 
бездетные    13044  1063  0.924647  0.075353
малодетные    6269   639  0.907499  0.092501
многодетные    417    39  0.914474  0.085526


**Вывод**

Заемщики без детей чаще других возвращают кредит во время. Доля вернувших в срок в категории "бездетные" составила 0,92. 

С увеличением детей увеличивается количество заемщиков, которые не вернули в срок кредит. Доля невозврата в категории "бездетные" - 0,075, а в категории "малодетные" - 0,093. 

В то же время заемщики, у которых более 3-ех детей чаще возвращают кредит вовремя, чем малодетные. Но к результатам категории "многодетные" стоит относиться с осторожностью, так как слишком маленькая выборка.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

Чтобы ответить на данный вопрос составим сводную таблицу с помощью метода pivot_table().Таблица будет сформирована по категориям столбца основного датафрейма 'family_status'. В сводной таблице будет 4 столбца.
Первый столбец "0" - отражает количество заемщиков, вернувших во время кредит в каждой из категорий (данные взяты из столбца "debt"), второй столбец - "1" - отражает количестов заемщиков, не вернувших во время кредит в каждой из категории (данные взяты из столбца "debt"), третий столбец "ratio_0" - показвает долю заемщиков вернувших в срок относительного всего количества заемщиков в определенной категории, четвертый столбец "ratio_1" - показвает долю заемщиков не вернувших в срок относительного всего количества заемщиков в определенной категории.

In [199]:
data_pivot_family = optimized_df.pivot_table(index=['family_status'], columns='debt', values='family_status_id', aggfunc='count')
data_pivot_family['ratio_0'] = data_pivot_family.loc[:, 0] / (data_pivot_family.loc[:, 0] + data_pivot_family.loc[:, 1])
data_pivot_family['ratio_1'] = data_pivot_family.loc[:, 1] / (data_pivot_family.loc[:, 0] + data_pivot_family.loc[:, 1])
print(data_pivot_family)

debt                       0    1   ratio_0   ratio_1
family_status                                        
Не женат / не замужем   2536  274  0.902491  0.097509
в разводе               1110   85  0.928870  0.071130
вдовец / вдова           896   63  0.934307  0.065693
гражданский брак        3775  388  0.906798  0.093202
женат / замужем        11413  931  0.924579  0.075421


**Вывод**

Заемщики, которые имеют мужа / жену, а также вдовцы/вдовы и заемщики в разводе чаще возвращают кредит в срок, чем заемщики, которые не состоят в браке. Доля вернувших в срок заемщиков  в категории "вдовец / вдова" - 0,934; в категории "в разводе" - 0,929, в категории "женат / замужем" составила 0,924;  Заемщики, которые не в браке имеют большую долю невозвратов кредитов, чем остальные.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Чтобы ответить на данный вопрос составим сводную таблицу с помощью метода pivot_table(). Таблица будет сформирована по категориям столбца основного датафрейма 'income_group'. В сводной таблице будет 4 столбца. 
Первый столбец "0" - отражает количество заемщиков, вернувших во время кредит в каждой из категорий (данные взяты из столбца "debt"), второй столбец - "1" - отражает количестов заемщиков, не вернувших во время кредит в каждой из категории (данные взяты из столбца "debt"), третий столбец "ratio_0" - показвает долю заемщиков вернувших в срок относительного всего количества заемщиков в определенной категории, четвертый столбец "ratio_1" - показвает долю заемщиков не вернувших в срок относительного всего количества заемщиков в определенной категории.

In [200]:
data_pivot_income = optimized_df.pivot_table(index=['income_group'], columns='debt', values='income_type', aggfunc='count')
data_pivot_income['ratio_0'] = data_pivot_income.loc[:, 0] / (data_pivot_income.loc[:, 0] + data_pivot_income.loc[:, 1])
data_pivot_income['ratio_1'] = data_pivot_income.loc[:, 1] / (data_pivot_income.loc[:, 0] + data_pivot_income.loc[:, 1])
print(data_pivot_income)

debt              0    1   ratio_0   ratio_1
income_group                                
бедные         4941  427  0.920455  0.079545
богатые        4985  383  0.928651  0.071349
выше бедности  5007  483  0.912022  0.087978
средний класс  4797  448  0.914585  0.085415


**Вывод**

Анализируя сводную таблицу можно утверждать, что практически нет зависимости между уровнем дохода и возвратом кредитом в срок, так как доля возврата кредита в срок в категории "бедные" составила 0,920; в категории "богатые" - 0,929, в категории "выше бедности" - 0,912, в категории "средний класс" - 0,916. Заемщики в категории "выше бедности" и в категории "средний класс" имеют больший процент невозвратов кредита в срок.

 ### Как разные цели кредита влияют на его возврат в срок?

Чтобы ответить на данный вопрос составим сводную таблицу с помощью метода pivot_table(). Таблица будет сформирована по категориям столбца основного датафрейма 'purpose_group'. В сводной таблице будет 4 столбца. 
Первый столбец "0" - отражает количество заемщиков, вернувших во время кредит в каждой из категорий (данные взяты из столбца "debt"), второй столбец - "1" - отражает количестов заемщиков, не вернувших во время кредит в каждой из категории (данные взяты из столбца "debt"), третий столбец "ratio_0" - показвает долю заемщиков вернувших в срок относительного всего количества заемщиков в определенной категории, четвертый столбец "ratio_1" - показвает долю заемщиков не вернувших в срок относительного всего количества заемщиков в определенной категории.

In [201]:
data_pivot_purpose = optimized_df.pivot_table(index=['purpose_group'], columns='debt', values='education_id', aggfunc='count')
data_pivot_purpose['ratio_0'] = data_pivot_purpose.loc[:, 0] / (data_pivot_purpose.loc[:, 0] + data_pivot_purpose.loc[:, 1])
data_pivot_purpose['ratio_1'] = data_pivot_purpose.loc[:, 1] / (data_pivot_purpose.loc[:, 0] + data_pivot_purpose.loc[:, 1])
print(data_pivot_purpose)

debt               0    1   ratio_0   ratio_1
purpose_group                                
автомобиль      3905  403  0.906453  0.093547
недвижимость   10032  782  0.927686  0.072314
образование     3644  370  0.907823  0.092177
свадьба         2149  186  0.920343  0.079657


**Вывод**

- Анализируя сводную таблицу можно утверждать, что заемщики, бравшие кредит на недвижимость и свадьбу чаще других возвращают его вовремя. 
- Доля возврата в срок в категории "недвижимость" - 0,928, в категории "свадьба" - 0,92. 
- Задолженности имеют чаще других заемщики, которые берут кредит на автомобиль и образование.

## Общий вывод

- Чтобы ответить на главные вопросы проекта, на первом этапе мы ознакомились с информацией, которая хранится в исходном датафрейме с помощью методов head(), info(), describe(). В таблице 12 столбцов, 21525 строк, типы данных: float64(2), int64(5), object(5). Далее выполнили предобработку данных. 

- Предобработка включала в себя выявление и замену пропусков с помощью метода isna(). Заменили выявленные пропуски медианными значениями в сочетании с группировкой по одной перемнной.

- Далее произвели замену типов данных с помощью метода astype(). После замены на целочисленный тип данных мы  произвели оптимизацию хранения типов данных в памяти. В итоге мы получили новый оптимизированный датафрейм optimized_df, который в два раза меньше относительно исходного (было 2 МВ, стало 1.0 MB).В датафрейме находятся следующие типы данных: int64, object, category и подтипы данных: uint8, uint32.  

- Произведена обработка явных и неявных дубликатов / совпадений с помощью методов drop_duplicates() и sort_values() в сочетании с методом unique(), лемматизация строк с помощью библиотеки pymystem3. 

- Выполнена категоризация данных из столбцов 'children', 'purpose', 'income_total'. Данные для категоризации были выбраны именно такие, потому что их значения нам будут нужны, чтобы овтетить на главные вопросы нашего исследования. Произведенная категоризация поможет быстрее и нагляднее выявить зависисимость между различными данными.

- Анализируя полученные значения в сводных таблицах было выявлено, что заемщики без детей чаще других возвращают кредит во время. Доля вернувших в срок в категории "бездетные" составила 0,92. С увеличением детей увеличивается количество заемщиков, которые не вернули в срок кредит. 

- Заемщики, которые имеют мужа / жену, а также вдовцы/вдовы и заемщики в разводе чаще возвращают кредит в срок, чем заемщики, которые не состоят в браке. Доля вернувших в срок заемщиков в категории "вдовец / вдова" - 0,934; в категории "в разводе" - 0,929, в категории "женат / замужем" составила 0,924; Заемщики, которые не в браке имеют большую долю невозвратов кредитов, чем остальные.


- Практически нет зависимости между уровнем дохода и возвратом кредитом в срок, так как доля возврата кредита в срок в категории "бедные" составила 0,920; в категории "богатые" - 0,929, в категории "выше бедности" - 0,912, в категории "средний класс" - 0,916. Заемщики в категории "выше бедности" и в категории "средний класс" имеют большую долю невозвратов кредита в срок.


- Заемщики, бравшие кредит на недвижимость и свадьбу чаще других возвращают его вовремя. Доля возврата в срок в категории "недвижимость" - 0,928, в категории "свадьба" - 0,92. Задолженности имеют чаще других заемщики, которые берут кредит на автомобиль и образование.

