<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Первоначальное-ознакомление-с-данными" data-toc-modified-id="Первоначальное-ознакомление-с-данными-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Первоначальное ознакомление с данными</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Обработка пропусков</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Категоризация данных</a></span></li></ul></li><li><span><a href="#Ответы-на-вопросы" data-toc-modified-id="Ответы-на-вопросы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Ответы на вопросы</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Первоначальное ознакомление с данными

Для работы с данными необходимо импортировать библиотеку `pandas`

In [1]:
import pandas as pd 

import warnings
warnings.filterwarnings('ignore')

Далее откроем файл `data.csv`, сохраним его в переменной `df` и выведем на экран первые 15 строк таблицы 

In [2]:
try:
    df = pd.read_csv('/Users/trndn/Desktop/DataScience/projects/data.csv')
    
except:
    df = pd.read_csv('/datasets/data.csv')

df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Также далее получим общую информацию о таблице:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Согласно документации к данным:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

**Вывод**

Просмотрев таблицу и общую информацию о ней, мы получили первое представление о данных, с которыми нам дальше придётся работать. 

Пойдем по порядку.

1. Просомтрев первые 15 строк таблицы, можно заметить, что в столбце `days_employed` имеются отрицательные значения, хотя такого невозможно, т. к. общий трудовой стаж не может принимать отрицательных значений. Причем, по модулю числа в столбце стажа кажутся нормальными. Так что минус мог быть просто тире. А вот огромные вызывают много вопросов. Это могут быть часы, а могут быть и пропуски, которые при выгрузке трансформировались в аномальные для конкретного столбца числа. На практике можно было бы обратиться к людям, кто выгружал данные, для прояснения. Но из-за того, что такой возможности нет, далее попробуем с этим разобраться самостоятельно. 
2. Далее в столбце `education` одинаковые по смыслу значения имеют разный вид записи(регистр). Далее можно поправить это, чтобы облегчить дальнейший анализ данных. 
3. В Столбце `total_income` некорректная запись данных для значения ежемесячный доход. К тому же в перых 15 строчках мы видим пропущенное значение. Далее проработаем этот столбец

Замечания выше касались именно наблюдений после вывода первых 15 строк талицы.

Перейдём к общей информации о таблице. Из неё мы видим:
* таблица состоит из 12 столбцов
* кол-во значений в столбцах различаются. Из этого следует, что в данных есть пропуски 
* тип данных `float` имееют следуюшие столбцы: `days_employed`, `total_income`
* тип данных `int`: `children`, `dob_years`, `education_id`, `int64`, `debt `
* тип данных `object`: `education`, `family_status`, `gender`, `income_type `, `purpose`


## Предобработка данных

### Обработка пропусков

Для начала посчитаем, сколько в каждом столбце таблицы пропущенных значений.

In [4]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В резульате мы видим, что пропущенные значения имеются только в столбцах `days_employed` и `total_income` 

Из датафрейма мы видим, что в столбце `days_employed` значения отрицательны, что невозможно, т. к. дни не могут иметь отрицательное значения. По-хорошему, необходимо бы было обратиться к человеку, который предоставил эти данные. Но из-за невозможности это сделать, преобразуем данные как возможно. Преобразуем значения в абсолютные:

In [5]:
df['days_employed'] = df['days_employed'].abs()

Чтобы заменить пропуски в данных, будем использовать медианное значение по типу занятости. Такой способ даёт возможность заменить пропуски соответсвующими значениями, т. к. тип занятости влияет на количество проработанных дней, а если брать среднее/медианное значение всей выборки данных, то данные могут быть искажены.

Далее сгруппируем значения по столбцу `income_type`, посчитаем медианное значение трудового стажа по каждому типу занятости и выведем получившийся результат на экран. 

In [6]:
data_grouped_days_emloyed = df.groupby('income_type')['days_employed'].median()
data_grouped_days_emloyed

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

Далее с помощью кода ниже заменим пропуски соответствующими значениями:

In [7]:
def func(row):
    if pd.isna(row['days_employed']):
        return data_grouped_days_emloyed.loc[row['income_type']]
    return row['days_employed']
 
df['days_employed'] = df.apply(func, axis=1)

Далее заменим пропуски в столбце `total_income` с помощью метода `transform`. Заменим пропуски медианной, взятой по типу занятости и образованию.

Но сперва приведём все значения столбца `education` к строчному регистру. 

In [8]:
df['education'] = df['education'].str.lower()

In [9]:
df['total_income'] = df['total_income'].fillna(df.groupby(['income_type', 'education'])['total_income'].transform('median'))

После проделанных операций вызовим еще раз функцию, считающую количество пропусков, для того, чтобы удостовериться, что пропущенных значений не осталось. 

In [10]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Отлично! Пропусков не осталось.

Проверим остальные столбцы на аномальные значения.

Проверим для начала столбец `children` на выявление аномальных значений. 

In [11]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Что мы видим? Слева значения, которые встречаются в столбце, а справа количество значений в столбце.

В результате мы видим, что есть аномальные значение такие, как `20` и `-1`. Вряд ли 76 семей имеют 20 дней. Поэтому заменим это значение на значение `2`. Скорее всего, человек, заполнявший данные мог случайно ошибиться. То же самое отноистся и к значению `-1`, ибо невозможно, что количество детей принимало отрицательное значение. Заменим их на значение на `1`, написав следующий код. 

In [12]:
df['children'] = df['children'].replace(20, 2)
df['children'] = df['children'].replace(-1, 1)

Далее проверим значения возраста заёмщкиов в столбце `dob_years`. 

In [13]:
df['dob_years'].value_counts().sort_index()

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

В результате мы видим, что в 101-ом случае встречается значение `0`. Вряд ли 101 младенец решился взять кредит в банке :) Поэтому заменин данное значение медианным значением по типу занятости. Выполним эти манипуляции в следующем коде:

In [14]:
#группировка данных по типу занятости и вычисление медианного значения
data_grouped_age = df.groupby('income_type')['dob_years'].median()

#функция для замены медианным значением
def func(row):
    if row['dob_years'] == 0:
        return data_grouped_age.loc[row['income_type']]
    return row['dob_years']

#применение функции к столбцу dob_years 
df['dob_years'] = df.apply(func, axis=1)

Так как при вычислении медианы значения принимают вещественый тип данных `float`. Изменин тип данных на исходный целочисленный - `int`.

In [15]:
df['dob_years'] = df['dob_years'].astype(int)

Далее проверим на аномальные значения столбец `gender`.

In [16]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В результате мы видим, что имеется одно аномальное значение `XNA`. Поменяем его на женский пол `F`. Код по замене значения ниже:

In [17]:
df['gender'] = df['gender'].replace('XNA', 'F')

Проверим на аномалии столбец `family_status`.

In [18]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Аномалий не обнаружено.

Проверим на аномальные значения столбец `education`.

In [19]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Аномальных значений нет, т. к. до этого мы привели все значения столбца к строчному регистру.

Проверим на аномальные значения столбец `education_id`:

In [20]:
df['education_id'].value_counts().sort_index()

0     5260
1    15233
2      744
3      282
4        6
Name: education_id, dtype: int64

Аномалий не обнаружено.

Проверим на аномальные значения столбец `family_status_id`:

In [21]:
df['family_status_id'].value_counts().sort_index()

0    12380
1     4177
2      960
3     1195
4     2813
Name: family_status_id, dtype: int64

Аномалий не обнаружено.

Проверим на аномальные значения столбец `income_type`:

In [22]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Аномалий не обнаружено. 

Проверим на аномальные значения столбец `debt`.

In [23]:
df['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Аномалий не обнаружено 

Проверим на аномальные значения столбец `total_income`. Так как в этом столбце находятся количественные переменые, использовать метод `value_counts` будет не удобно, т. к. значение может принимать любое положительное число. Поэтому проверим методом минимального значения `min()` нет ли отрицательных значений или ничтожно маленького.

In [24]:
df['total_income'].min()

20667.26379327158

Проверка показала, что полученное минимальное значение имеет место быть. 

Проверим на аномальные значения столбец `purpose`. 

In [25]:
df['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Аномалий не обнаружено. 

**Вывод**

Была проделана работа по обнаружению и заполнеию пропусков, а также проверка столбцов на аномальные значения.

Пропуски были обнаружены только в двух столбцах: `days_employed` и `total_income`. Пропуски были заменены медианным значением, предварительно сгруппированным по типу занятости и образованию (по двум характеристикам только для стобца `total_income`).

Аналогичные манипуляции были проведены и в столбце `dob_years`, т.к. был обнаружен возвраст, несоответсвующий действительности.

Также аномальные значения были выявлены в столбцах `children` и `gender`. Значения заменили на логически подходящие.

Также проверили манипуляции и в столбце `education`. Аномальных значений там не было, но типы образования были записаны разным регистром. В итоге привели всё к строчным буквам.

По остальным столбцам всё в порядке.

Такое поведение возможно из-за человеческого фактора или ошибки при выгрузке данных. 

### Замена типа данных

Взглянем на получившийся после манипуляций в 1 пункте датафрейм

In [26]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Все столбцы имеют корректный тип данных, кроме двух: `days_employed` и `total_income`. 
Вместо вещественного типа данных `float` они должны иметь целочисленный тип данных `int`.
Заменим тип данных в следующем коде. Для замены типа данных будет использовать метод `astype()`, в аргументе которого укажем необходимый тип данных. Метод `to_numeric` нам не подойдет потому, что изменяет только на вещественный тип данных `float`. 

In [28]:
df[['days_employed', 'total_income']] = df[['days_employed', 'total_income']].astype(int)

Проверим результаты:

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int64 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int64 
 11  purpose           21525 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Всё супер! Можем двигаться дальше.

**Вывод**

Были обнаружены некорректные типы данных в столбцах `dob_years` и `total_income`. Мы заменили вещественный тип данных на целочисленный с помощью метода `astype()`.

### Обработка дубликатов

Найдем сумму дубликатов в датафрейме: 

In [30]:
df.duplicated().sum()

71

В результате был выявлен 71 дубликат. 

Удалим выявленные дубликаты:

In [31]:
df = df.drop_duplicates().reset_index(drop=True)

Проверим результат удаления:

In [32]:
df.duplicated().sum()

0

Отлично! Дубликатов не осталось

Стоит отметить, что искать неявные дубликаты, вызванные разным регистром нет смысла, т. к. до этого в пункте 2.1 значения в столбце `education` имели разный регистр записи и были приведены к строчной записи. Больше таких аномалий не обнаружено.

Скорее всего, дубликаты могли появиться из-человеческого фактора. Также не исключена вероятность технической ошибки при выгрузке. 

**Вывод**

Был обнаружен 71 дубликат, которые в последствие был удален. Изначально дубликатов могло было быть меньше, если ранее в пункет 2.1 значения в одном из столбцов не были привдены к строчной записи. 

### Лемматизация

Проведём лемматизацию данных в столбце `purpose` для того, чтобы в дальнейшем мы смогли категоризовать данные по цели займа.

Для начала импортируем одну из библиотек с функцией лемматизации на русском языке — `pymystem3`.

In [33]:
from pymystem3 import Mystem
m = Mystem()

Далее лемматизируем столбец `purpose`. Резульат сохраним в новом столбце `lemma`. 

In [34]:
def lemma_func(purpose):
    goal = m.lemmatize(purpose)
    return goal

df['lemma'] = df['purpose'].apply(lemma_func)

Посмторим, что получилось 

In [35]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,"[покупка, , жилье, \n]"
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,"[операция, , с, , жилье, \n]"
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,"[образование, \n]"
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,"[на, , проведение, , свадьба, \n]"
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,"[покупка, , жилье, , для, , семья, \n]"


Мы видим, что данные в столбце представлены в виде списке лемматизированных слов. 

Далее посчитаем количество упоминаний. Для этого вызывают специальный контейнер `Counter` из модуля `collections`.

In [36]:
# вызов контейнера Counter из модуля collections
import collections
from collections import Counter 

#функция , чтобы вытащить элементы из списка 
def counting_lemmas(lemmas):
    text = []
    for item in lemmas:
        text.extend(item)
    return text 

#применение функции к столбцу lemma
column_words = counting_lemmas(df.loc[:, 'lemma'])

#подсчёт упоминаний 
print(Counter(column_words))

Counter({' ': 33570, '\n': 21454, 'недвижимость': 6351, 'покупка': 5897, 'жилье': 4460, 'автомобиль': 4306, 'образование': 4013, 'с': 2918, 'операция': 2604, 'свадьба': 2324, 'свой': 2230, 'на': 2222, 'строительство': 1878, 'высокий': 1374, 'получение': 1314, 'коммерческий': 1311, 'для': 1289, 'жилой': 1230, 'сделка': 941, 'дополнительный': 906, 'заниматься': 904, 'проведение': 768, 'сыграть': 765, 'сдача': 651, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'подержанный': 486, 'подержать': 478, 'приобретение': 461, 'профильный': 436})


**Вывод**

В этом пункте была произведена лемматизация столбца `purpose`, используя библиотеку `pymystem3`. Затем посчитали количество упоминаний. 

В результате вызова контейнера `Counter` мы видим, что по кличеству упоминаний лидирует цель недвижимость/жильё. За ним в порядке убвания следуют: автомобиль, образование, свадьба

### Категоризация данных

Для упрощения дальнейшего исследования категоризируем данные в столбцах: `children`, `total_income` и `purpose`.

Начнем с `children`. Напишем функцию, которая будет категоризовать значения следующим образом:
* значение `0` - семья без детей
* значение `1` - семья с одним ребёнком
* значение `2` - семья с двумя детьми 
* значение `3` и более - многодетная семья

In [37]:
def child_category(child_num):
    if child_num == 0:
        return 'семья без детей'
    if child_num == 1:
        return 'семья с одним ребёнком'
    if child_num == 2:
        return 'семья с двумя детьми'
    return 'многодетная семья'
        

Применим созданную функцию к столбцу `children`. Результаты запишем в новый столбец, далее добавим его в наш датафрейм после столбца `children`.

In [38]:
cat_children = df['children'].apply(child_category) #применение функции категоризации
idx = 1 #индекс нового столбца 
df.insert(loc=idx, column='children_category', value=cat_children) #вставка нового столбца в дф
df.head()

Unnamed: 0,children,children_category,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemma
0,1,семья с одним ребёнком,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,семья с одним ребёнком,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,семья без детей,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,многодетная семья,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,семья без детей,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"


Проведём аналогичную операцию со столбцом `total_income`. В данном случае данные будет категоризовать следующим образом:
* доход меньше 60 тыс.
* доход от 60 до 100 тыс.
* доход от 100 до 150 тыс.
* доход от 150 до 200 тыс.
* доход от 200 до 250 тыс.
* доход свыше 250 тыс.

In [39]:
def income_cat(income):
    if income < 60000:
        return 'доход меньше 40 тыс.'
    if 60000 <= income < 100000:
        return 'доход от 40 до 100 тыс.'
    if 100000 <= income < 150000:
        return 'доход от 100 до 150 тыс.'
    if 150000 <= income < 200000:
        return 'доход от 150 до 200 тыс.'
    if 200000 <= income < 250000:
        return 'доход от 200 до 250 тыс.'
    if income >= 250000:
        return 'доход свыше 250 тыс.'

Применим созданную функцию к столбцу `total_income`. Результаты запишем в новый столбец, далее добавим его в наш датафрейм после столбца `total_income`.

In [40]:
cat_income = df['total_income'].apply(income_cat)
idx = 12
df.insert(loc=idx, column='income_category', value=cat_income)
df.head()

Unnamed: 0,children,children_category,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,income_category,purpose,lemma
0,1,семья с одним ребёнком,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,доход свыше 250 тыс.,покупка жилья,"[покупка, , жилье, \n]"
1,1,семья с одним ребёнком,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,доход от 100 до 150 тыс.,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,семья без детей,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,доход от 100 до 150 тыс.,покупка жилья,"[покупка, , жилье, \n]"
3,3,многодетная семья,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,доход свыше 250 тыс.,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,семья без детей,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,доход от 150 до 200 тыс.,сыграть свадьбу,"[сыграть, , свадьба, \n]"


Далее категоризируем цели займа. В столбце `lemma` уже содержатся лематизированные значения столбца `purpose`, далее будем рабоать с ними. Создадим функцию, которая вместо списка лематизированных слов будет выдавать одним словом цель займа. Эту функцию применим на столбце `lemma`, чтобы не создавать новыый столбец. 

In [41]:
def lemma_purpose(words):
    if 'недвижимость' in words or 'жилье' in words:
        return 'недвижимость'
    elif 'автомобиль' in words:
        return 'автомобиль'
    elif 'образование' in words:
        return 'образование'
    elif 'свадьба' in words:
        return 'свадьба'
        
df['lemma'] = df['lemma'].apply(lemma_purpose)
df.head()        
        

Unnamed: 0,children,children_category,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,income_category,purpose,lemma
0,1,семья с одним ребёнком,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,доход свыше 250 тыс.,покупка жилья,недвижимость
1,1,семья с одним ребёнком,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,доход от 100 до 150 тыс.,приобретение автомобиля,автомобиль
2,0,семья без детей,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,доход от 100 до 150 тыс.,покупка жилья,недвижимость
3,3,многодетная семья,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,доход свыше 250 тыс.,дополнительное образование,образование
4,0,семья без детей,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,доход от 150 до 200 тыс.,сыграть свадьбу,свадьба


**Вывод**

В данном пункте были категоризированы следующие столбцы: `children`, `total_income` и `purpose`. 
В дальнейшем категоризация упростит нам процесс выявления взаимосвязей. 

## Ответы на вопросы

Искать зависимость будет с помощью относительного значения. Для этого создадим для каждой зависимости сводную таблицу методом `pivot_table`. 

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [42]:
df_pivot_child = df.pivot_table(index=['children_category'], columns = 'debt', values = 'days_employed', aggfunc = 'count')
df_pivot_child.columns = ['нет задолженности', 'есть задолженность']
df_pivot_child['всего']= df_pivot_child['нет задолженности'] + df_pivot_child['есть задолженность']
df_pivot_child['доля вернувших в срок, %'] = (df_pivot_child['нет задолженности'] / df_pivot_child['всего'] * 100).round(1)
df_pivot_child = df_pivot_child.sort_values(by='доля вернувших в срок, %', ascending=False)
df_pivot_child

Unnamed: 0_level_0,нет задолженности,есть задолженность,всего,"доля вернувших в срок, %"
children_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
семья без детей,13028,1063,14091,92.5
многодетная семья,349,31,380,91.8
семья с одним ребёнком,4410,445,4855,90.8
семья с двумя детьми,1926,202,2128,90.5


**Вывод**

В результате мы видим, что кредиты отдавалаи чаще всего семьи без детей, доля многодетных семей, вернувших кредит в срок, чуть меньше

Доля семей с 1-2 детьми меньше, они реже возвращали кредиты в срок.

Можно сказать, что зависимость есть

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [43]:
df_pivot_family = df.pivot_table(index=['family_status'], columns = 'debt', values = 'days_employed', aggfunc = 'count')
df_pivot_family.columns = ['нет задолженности', 'есть задолженность']
df_pivot_family['всего']= df_pivot_family['нет задолженности'] + df_pivot_family['есть задолженность']
df_pivot_family['доля вернувших в срок, %'] = (df_pivot_family['нет задолженности'] / df_pivot_family['всего'] * 100).round(1)
df_pivot_family = df_pivot_family.sort_values(by='доля вернувших в срок, %', ascending=False)
df_pivot_family

Unnamed: 0_level_0,нет задолженности,есть задолженность,всего,"доля вернувших в срок, %"
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
вдовец / вдова,896,63,959,93.4
в разводе,1110,85,1195,92.9
женат / замужем,11408,931,12339,92.5
гражданский брак,3763,388,4151,90.7
Не женат / не замужем,2536,274,2810,90.2


**Вывод**

Чаще всего кредит в срок отдавали люди, которые потеряли свою вторую половинку.
Также достаточно высок процент семей в разводе и семей в браке, которые подошли к возврату займа ответственно.

Реже всего в срок отдавали люди, которые живут в гражданском браке или те, у кого нет второй половинки.

Можно сказать, что зависимость есть

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [44]:
df_pivot_income = df.pivot_table(index=['income_category'], columns = 'debt', values = 'days_employed', aggfunc = 'count')
df_pivot_income.columns = ['нет задолженности', 'есть задолженность']
df_pivot_income['всего']= df_pivot_income['нет задолженности'] + df_pivot_income['есть задолженность']
df_pivot_income['доля вернувших в срок, %'] = (df_pivot_income['нет задолженности'] / df_pivot_income['всего'] * 100).round(1)
df_pivot_income = df_pivot_income.sort_values(by='доля вернувших в срок, %', ascending=False)
df_pivot_income

Unnamed: 0_level_0,нет задолженности,есть задолженность,всего,"доля вернувших в срок, %"
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
доход меньше 40 тыс.,757,49,806,93.9
доход свыше 250 тыс.,2619,194,2813,93.1
доход от 200 до 250 тыс.,2268,172,2440,93.0
доход от 40 до 100 тыс.,3352,305,3657,91.7
доход от 150 до 200 тыс.,4362,405,4767,91.5
доход от 100 до 150 тыс.,6355,616,6971,91.2


**Вывод**

Можно сказать, что люди с доходом меньше 40 тыс. ответственно подошли к возврату долгов, процент вернувших достаточно высок.
Также люди, имеющие доход свыше 200 тыс. также регулряно и вовремя возвращали кредиты.

Наоборот, люди, чей доход находится в диапозоне 40 - 150 тыс. задерживали оплату по кредитам.

Зависимость имеет место быть. 

- Как разные цели кредита влияют на его возврат в срок?

In [45]:
df_pivot_purpose = df.pivot_table(index=['lemma'], columns = 'debt', values = 'days_employed', aggfunc = 'count')
df_pivot_purpose.columns = ['нет задолженности', 'есть задолженность']
df_pivot_purpose['всего']= df_pivot_purpose['нет задолженности'] + df_pivot_purpose['есть задолженность']
df_pivot_purpose['доля вернувших в срок, %'] = (df_pivot_purpose['нет задолженности'] / df_pivot_purpose['всего'] * 100).round(1)
df_pivot_purpose = df_pivot_purpose.sort_values(by='доля вернувших в срок, %', ascending=False)
df_pivot_purpose

Unnamed: 0_level_0,нет задолженности,есть задолженность,всего,"доля вернувших в срок, %"
lemma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
недвижимость,10029,782,10811,92.8
свадьба,2138,186,2324,92.0
образование,3643,370,4013,90.8
автомобиль,3903,403,4306,90.6


**Вывод**

Здесь отметим, что люди, взявшие кредит на приобретение недвижиомсти или для проведения свядьбы, вероятнее всего вернут займ в срок. А вот, если человек взял кредит для оплаты образования или покупки автомобиля, вероятность возврата в срок ниже.

Зависимость есть. 

## Общий вывод

Главной гипотезой данного проекта был вопрос: влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

Отвечаем по порядку

Семейное положение: да, влияет.
Чаще всего кредит в срок отдавали люди, которые, к сожалению, потеряли свою вторую половинку.
Реже всего в срок отдавали люди, проживающие в гражданском браке или те, кто пока что не имеют пару.

Количество детей: да, влияет
В результате мы видим, что кредиты отдавалаи чаще всего семьи без детей.
А вот семьи с 1-2 детьми отдавали свои долги в срок реже.
