## Исследование надёжности заёмщиков

Для кредитный отдел банка нужно понять, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. В качестве исходных данных от банка статистика о платёжеспособности клиентов.

На основании исследования будет построена которая оценивает способность потенциального заёмщика вернуть кредит банку. И приведет к уменщению невозвратов кредитов. 


#### Описание данных

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [4]:
import pandas as pd
from IPython.display import display
from pymystem3 import Mystem
from collections import Counter
import os
#1_р_data.csv
#data = pd.read_csv('/datasets/data.csv')

#print(data.head()) #смотрим голову
#print('_____________________')
#print(data.tail(5)) # смотрим хвостъ
#print(data.info()) # смотрим инфу о элементах
#print(data.columns) # смотрим заголовки столбцов на пробелы
#print(data.isnull().sum()) # смотрим количество пропушенных значений и где они находятся
#print(data.isna().sum()) # тоже смотрим количество пропушенных значений и где они находятся
# посмотреть всю базу целиком

In [5]:
os.getcwd()

'/home/user-0-13339652/work'

In [6]:
data = pd.read_csv('/datasets/data.csv')

### Вывод

Обнаружены пропуски в столбцах days_employed и total_income, их количества равны.  Возможно люди никогда не работали и на получали доход. Но это вывод предварительный далее оценим эту мысль точнее 
В столбцах days_employed и total_income содержаться данные вещественного типа (float), а должны быть целочисленные тк врядли зарплата указывается до ста тысячных долей рубля и отработанные дни тоже

### Шаг 2. Предобработка данных

### Обработка пропусков

#### Отсортируем значения чтобы посмотреть позиции содержащие пропуски сортируем столбец по убыванию

In [7]:
data.sort_values(by = 'days_employed', ascending = False).tail(15) 


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21369,2,,42,среднее,1,в разводе,3,M,компаньон,0,,покупка жилой недвижимости
21390,20,,53,среднее,1,женат / замужем,0,M,компаньон,0,,покупка жилой недвижимости
21391,0,,52,среднее,1,женат / замужем,0,F,компаньон,0,,покупка жилья для семьи
21407,1,,36,среднее,1,женат / замужем,0,F,компаньон,0,,строительство жилой недвижимости
21414,0,,65,среднее,1,женат / замужем,0,F,пенсионер,0,,покупка своего жилья
21415,0,,54,среднее,1,женат / замужем,0,F,пенсионер,0,,операции с жильем
21423,0,,63,среднее,1,женат / замужем,0,M,пенсионер,0,,сделка с автомобилем
21426,0,,49,среднее,1,женат / замужем,0,F,сотрудник,1,,недвижимость
21432,1,,38,неоконченное высшее,2,Не женат / не замужем,4,F,сотрудник,0,,операции с жильем
21463,1,,35,высшее,0,гражданский брак,1,M,сотрудник,0,,на проведение свадьбы


**Обнаружены пропуски в столбцах days_employed и total_income, их количества равны. Возможно люди никогда не работали и на получали доход.Люди имеюшие пропуски в столбцах days_employed- общий трудовой стаж в днях и total_income-ежемесячный доход старше 18 лет,поэтому врядли они нигде не работали и не получали зарплату скорее всего мы имеем дело с ошибкой ввода данных.
Заполним пропуски медианным значением**


#### Также обнаружены отрицательные значения в столбце  days_employed- общий трудовой стаж, скорее всего ошибка внесения , преобразуем их в положительные тк они могут повлиять на медиану.

In [8]:
data['days_employed'] = data['days_employed'].apply(abs) # убираем отрицательные значения
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


**Были обнаружены отрицательные значения в количестве детей и так как я считаю что это ошибка внесения данных оператором так же приводим их к положительному значению**

In [9]:
data['children'] = data['children'].apply(abs)

**Проверяем максимальное количество детей**

In [10]:
print(data['children'].max())

20


**Вычисляем количество значений где количество детей 20**

In [11]:
# count_child = data.pivot_table(index = ['children'], values = 'debt', aggfunc = ['count'])
# print(count_child)
print (len(data[data['children'] == 20]))

76


**Я думаю это ошибка вноса данных вместо 2 внесено 20 , меням 20 на 2**

In [12]:
data.loc[data['children'] == 20, 'children'] = 2

# проверяем

print (len(data[data['children'] == 20]))

0


**Вычисляем медиану столбца days_employed- общий трудовой стаж и total_income**

In [13]:
print(data['days_employed'].median())

2194.220566878695


In [14]:
print(data['total_income'].median())

145017.93753253992


#### Проверим уровень максимального трудового стажа? сортируем столбец по убыванию

In [15]:
data.sort_values(by = 'days_employed', ascending = False).head(15) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба
4697,0,401635.032697,56,среднее,1,женат / замужем,0,F,пенсионер,0,48242.322502,покупка недвижимости
13420,0,401619.633298,63,Среднее,1,гражданский брак,1,F,пенсионер,0,51449.788325,сыграть свадьбу
17823,0,401614.475622,59,среднее,1,женат / замужем,0,F,пенсионер,0,152769.694536,покупка жилья для сдачи
10991,0,401591.828457,56,среднее,1,в разводе,3,F,пенсионер,0,39513.517543,получение дополнительного образования
8369,0,401590.452231,58,среднее,1,женат / замужем,0,F,пенсионер,0,175306.312902,образование


**или просто берем максимальные и минимальные элементы в столбце**

In [16]:
print(data['days_employed'].max())
print(data['days_employed'].min())

401755.40047533
24.14163324048118


**Существование стажа в 1 тысчу лет маловероятно, наличие таких цир связано скорее всего с технической ошибкой , возможно обьеденили 2 базы в одной из которых стаж считался в часах или минутах поэтому всплески на медианные значения
Средняя продолжительность жизни мужчин в 2019 году в России составила 68,5 лет. Для женщин показатель еще выше — 78,5 лет
возьмем максимальное значение для замены на медиану 70 лет стажа это 25550 дней**

In [17]:
data.loc[data['days_employed'] > 25550, 'days_employed'] = data['days_employed'].median()
data.sort_values(by = 'days_employed', ascending = False).head(15)
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,2194.220567,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


#### Также меняем все пропущенные значения в days_employed- общий трудовой стаж в днях и total_income-ежемесячный доход на медианы этих столбцов

In [18]:
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median()) # заменяем пропущенные значения в столбце days_employed(отработанные дни)
# на 0
#data['total_income'] = data['total_income'].fillna(data['total_income'].median()) # заменяем пропущенные значения в столбце total_income — ежемесячный доход
# на 0
print(data.isnull().sum()) # проверяем смотрим количество пропушенных значений и где они находятся
# print(data.info()) # еще раз проверяеv
display('Пустые до', data['total_income'].isnull().sum())

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


'Пустые до'

2174

<div class="alert alert-info">
<strong>Смотрим категории заемщиков и пропуски</strong> </div>

In [19]:
display(data['income_type'].value_counts())
#data_null_income = data.pivot_table(index = ['income_type'], values = 'total_income', aggfunc = [value_counts, isna])
#data_null_income = data.groupby('income_type').agg({'total_income':'isna'})
#print(data_null_income)

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

<div class="alert alert-info">
    <strong>Смотрим пропуски по типу занятости, может быть они одинаковы для всех и это ошибка , но если нет , чтобы не обрабатывать лишние значения
    Выявленная сума пропусков совпадает с data['total_income'].isnull().sum()</strong> </div>


In [20]:
#print(data.info())
#data['total_income'] = data['total_income'].astype(int)
#print(data.info())
print('пенсионер',data.loc[data['income_type'] == 'пенсионер', 'total_income'].isna().value_counts())
print('сотрудник',data.loc[data['income_type'] == 'сотрудник', 'total_income'].isna().value_counts())
print('компаньон',data.loc[data['income_type'] == 'компаньон', 'total_income'].isna().value_counts())
print('госслужащий',data.loc[data['income_type'] == 'госслужащий', 'total_income'].isna().value_counts())
print('предприниматель',data.loc[data['income_type'] == 'предприниматель', 'total_income'].isna().value_counts())
print('безработный',data.loc[data['income_type'] == 'безработный', 'total_income'].isna().value_counts())
print('в декрете',data.loc[data['income_type'] == 'в декрете', 'total_income'].isna().value_counts())
print('студент',data.loc[data['income_type'] == 'студент', 'total_income'].isna().value_counts())

пенсионер False    3443
True      413
Name: total_income, dtype: int64
сотрудник False    10014
True      1105
Name: total_income, dtype: int64
компаньон False    4577
True      508
Name: total_income, dtype: int64
госслужащий False    1312
True      147
Name: total_income, dtype: int64
предприниматель True     1
False    1
Name: total_income, dtype: int64
безработный False    2
Name: total_income, dtype: int64
в декрете False    1
Name: total_income, dtype: int64
студент False    1
Name: total_income, dtype: int64



<div class="alert alert-info">
    <strong>Вычисляем медиану для каждой категории заемщиков. . Меняем пропуски в total_income == ....... на  медиану по категориям</strong> </div>

In [21]:
#display('пенсионер',data.loc[data['income_type'] == 'пенсионер', 'total_income'].median())
#display('сотрудник',data.loc[data['income_type'] == 'сотрудник', 'total_income'].median())
display('Пустые до', data['total_income'].isnull().sum())

for _type in data['income_type'].unique():
    median = data.loc[data['income_type'] == _type, 'total_income'].median()
    print('Медианная зарплата {} {:.2f}'.format(_type, median))
    data.loc[(data['total_income'].isna()) & (data['income_type'] == _type), 'total_income'] = median

display('Пустые после', data['total_income'].isnull().sum())    

'Пустые до'

2174

Медианная зарплата сотрудник 142594.40
Медианная зарплата пенсионер 118514.49
Медианная зарплата компаньон 172357.95
Медианная зарплата госслужащий 150447.94
Медианная зарплата безработный 131339.75
Медианная зарплата предприниматель 499163.14
Медианная зарплата студент 98201.63
Медианная зарплата в декрете 53829.13


'Пустые после'

0

<div class="alert alert-info">
    
# перестают нумероваться ячейки но код дальше исполняется<a id="cell1"></a>     

#### Еще раз проверяем

In [22]:
#data.sort_values(by = 'days_employed', ascending = False).tail(15)
data.sort_values(by = 'total_income', ascending = False).tail(10) 
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,2194.220567,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Вывод

**Заменяем пропущенные данные столбцов days_employed — общий трудовой стаж в днях и total_income — ежемесячный доход  на медиану столбца, так как это возможно реальные клиенты с реальными показателями, Существование стажа в 1 тысчу лет маловероятно, наличие таких цир связано скорее всего с технической ошибкой , возможно обьеденили 2 базы в одной из которых стаж считался в часах или минутах поэтому так же как и пропуски меняем всплески на медианные значения**


### Замена типа данных

#### Меняем тип данных  в столбцах data['days_employed'] и data['total_income'] с float на int

In [23]:
data['days_employed'] = data['days_employed'].astype(int) # меняем в столбце data['days_employed'] 
#вещественый тип float64 на int64
data['total_income'] = data['total_income'].astype(int) # меняем в столбце data['days_employed']
print(data.info())
#data[data.duplicated(keep = False)].sort_values(by = data.columns.values.tolist())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB
None


#### Еще метод Он превращает значения столбца в числовые типы float64 (вещественное число) или int64 (целое число) в зависимости от исходного значения.
У метода to_numeric() есть параметр errors. 
От значений, принимаемых errors, зависят действия to_numeric при встрече с некорректным значением:
`errors=raise' — дефолтное поведение: при встрече с некорректным значением выдаётся ошибка, операция перевода в числа прерывается  
`errors=coerce` — некорректные значения принудительно заменяются на NaN  
`errors=ignore` — некорректные значения игнорируются, но остаются  
https://praktikum.yandex.ru/trainer/data-analyst/lesson/208f2480-b9b2-4da3-bb77-2269882bdda5/task/11d58dfe-e6c3-46a9-929a-bdd252a53420/

In [24]:
#transactions['amount'] = pd.to_numeric(transactions['amount'], errors='coerce')

### Вывод

**В столбцах days_employed и total_income содержаться данные вещественного типа (float), а должны быть целочисленные тк врядли зарплата указывается до ста тысячных долей рубля и отработанные дни тоже
использован метод astype**

### Обработка дубликатов

#### выводим сумму дубликатов

In [25]:
#print(data.duplicated())
# print('________________________________')
print(data.duplicated().sum())
display(data.head())

54


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


#### Чтобы посмотреть все дубли можно сделать вот так. keep = False значит "оставь все дубликаты". 
**По умолчанию duplicated оставляет только первые совпадения.**

In [26]:
#print(data[data.duplicted(keep = False)].sort_values(by = data.columns.values.tolist()))

<div class="alert alert-info" role="alert">
<strong>Ок проверим тип `object`</strong> </div>


In [27]:
display(data['education'].value_counts())
print('__________________________________')
display(data['family_status'].value_counts())
print('__________________________________')
display(data['income_type'].value_counts())
print('__________________________________')
display(data['purpose'].value_counts())


среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

__________________________________


женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

__________________________________


сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

__________________________________


свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

<div class="alert alert-info">
<strong>Да действительно в образовании и семейном положении регистр гуляет, что повлияет на дальнейшую
обработку и анализ данных приводим всё к нижнему регистру </strong> </div>

In [28]:
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()

<div class="alert alert-info">
<strong>проверяем все ли изменилось</strong> </div>

In [29]:
display(data['education'].value_counts())
print('__________________________________')
display(data['family_status'].value_counts())

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

__________________________________


женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

<div class="alert alert-info">
    <strong>да , все в порядке</strong> </div>

#### удаляем дубликаты

In [30]:
data = data.drop_duplicates().reset_index(drop=True)

<div class="alert alert-info">
<strong>Да действительно в образовании и семейном положении регистр гуляет, что повлияет на дальнейшую
обработку и анализ данных приводим всё к нижнему регистру </strong> </div>

#### проверяем удаление

In [31]:
print(data.duplicated().sum()) # проверяем удалились ли дубликаты
#:
print(data[data.duplicated(keep = False)].sort_values(by = data.columns.values.tolist()))
display(data.head())


0
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

**Дубликаты найдены, но вопрос в том стоит ли их удалять мб это совпадения реальных клиентов, а может быть и нет. Но я думаю что при таком количестве различных данных для каждого клиента реальные совпадения врядли возможны, поэтому удалил дубликаты. Причина возникновения , возможно ошибка оператора который их вносил. Либо если обьеденялись несколько баз в одну были внесены одни и теже клиенты. Также обнаружены внесения данных в разных регистрах**

### Лемматизация

#### импортируем библиотеки

In [32]:
m = Mystem()
lemmas = m.lemmatize(data['purpose'][3])
print(lemmas)
print(len(data['purpose']))

['дополнительный', ' ', 'образование', '\n']
21454


#### берем только уникальные значения без дубликатов , уменьшаем размер списка

In [33]:
uniq_purpose = data['purpose'].unique()
print(uniq_purpose)
#print(data['purpose'])


['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']


#### преобразуем массив в питоновский лист

In [34]:
uniq_purpose = uniq_purpose.tolist()
print(uniq_purpose)

['покупка жилья', 'приобретение автомобиля', 'дополнительное образование', 'сыграть свадьбу', 'операции с жильем', 'образование', 'на проведение свадьбы', 'покупка жилья для семьи', 'покупка недвижимости', 'покупка коммерческой недвижимости', 'покупка жилой недвижимости', 'строительство собственной недвижимости', 'недвижимость', 'строительство недвижимости', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'операции с коммерческой недвижимостью', 'строительство жилой недвижимости', 'жилье', 'операции со своей недвижимостью', 'автомобили', 'заняться образованием', 'сделка с подержанным автомобилем', 'получение образования', 'автомобиль', 'свадьба', 'получение дополнительного образования', 'покупка своего жилья', 'операции с недвижимостью', 'получение высшего образования', 'свой автомобиль', 'сделка с автомобилем', 'профильное образование', 'высшее образование', 'покупка жилья для сдачи', 'на покупку автомобиля', 'ремонт жилью', 'заняться высшим образованием']


#### Функция для Лемматизации элементов массива uniq_purpose, используем extend вместо append и формируем переменную а не массив,
еще ---- m.lemmatize(' '.join(data['purpose'])) рекомендован еще такой вариант

In [35]:
uniq_purpose_lemm = []
for i in uniq_purpose:
    uniq_purpose_lemm.extend(m.lemmatize(i))
    print(uniq_purpose_lemm)    

['покупка', ' ', 'жилье', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'дополнительный', ' ', 'образование', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'дополнительный', ' ', 'образование', '\n', 'сыграть', ' ', 'свадьба', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'дополнительный', ' ', 'образование', '\n', 'сыграть', ' ', 'свадьба', '\n', 'операция', ' ', 'с', ' ', 'жилье', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'дополнительный', ' ', 'образование', '\n', 'сыграть', ' ', 'свадьба', '\n', 'операция', ' ', 'с', ' ', 'жилье', '\n', 'образование', '\n']
['покупка', ' ', 'жилье', '\n', 'приобретение', ' ', 'автомобиль', '\n', 'дополнительный', ' ', 'образование', '\n', 'сыграть', ' ', 'свадьба', '\n', 'операция', ' ', 'с', ' ', 'жилье', '\n', 'образование', '\n', 'на', ' ',

#### подсчёт числа их упоминаний в тексте

In [36]:
print(Counter(uniq_purpose_lemm))

Counter({' ': 59, '\n': 38, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'подержать': 1, 'со': 1, 'подержанный': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1})


**наиболее частые слова**
**образование недвижимость автомобиль жилье свадьба**

#### Функция для Лемматизации столбца data['purpose'] и меняем содержимое на леммы

In [37]:
display(data.head()) # проверяем таблицу

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


In [38]:
def lemm_purpose(row):
    if 'недвижимость' in m.lemmatize(row):
        return 'недвижимость'
           
    if 'автомобиль' in m.lemmatize(row):
        return 'автомобиль'
            
    if 'жилье' in m.lemmatize(row):
        return 'жилье'
            
    if 'свадьба' in m.lemmatize(row):
        return 'свадьба'
    
    if 'образование' in m.lemmatize(row):
        return 'образование'
             
    else: return 'другое'         
      


<div class="alert alert-info">
    
# перестаёт исполнятся код<a id="cell2"></a>   

#### применяем к столбцу data['purpose']  и проверяем

In [39]:
data['purpose'] = data['purpose'].apply(lemm_purpose)
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование
4,0,2194,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба


### Вывод

**Данные столбца data['purpose'] лемматизированы, цели для удобства сортировки отражены одним словом**

### Категоризация данных

#### Проводим категоризацию данных согласно заданию
####  Делаем сводную таблицу: влияние  количество детей клиента на факт погашения кредита
**Bстроим строку с процентами кто имел задолжность количество детей клиента  факт погашения кредита**

In [40]:
data_child = data.pivot_table(index = ['children'], values = 'debt', aggfunc = [sum, 'count'])
#data_child = data.groupby(['children',]).agg({'debt':'sum','children':'count'})
data_child['%_total_debt'] = (data_child ['sum','debt']/data_child ['count','debt'])
#data_child.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_child.style.format({'% невозврата':'{:.2%}'})
#print(data_child)

Unnamed: 0_level_0,sum,count,%_total_debt
Unnamed: 0_level_1,debt,debt,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.0754382
1,445,4855,0.0916581
2,202,2128,0.0949248
3,27,330,0.0818182
4,4,41,0.097561
5,0,9,0.0


####  Делаем сводную таблицу *семейное положение * - факт погашения кредита Bстроим строку с процентами кто имел задолжность *семейное положение * - факт погашения кредита 

In [41]:
data_family = data.groupby('family_status').agg({'debt':'sum', 'family_status':'count'})
data_family['%_total_debt'] = (data_family['debt']/data_family['family_status'])
data_family.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_family.style.format({'% невозврата':'{:.2%}'})
#print(data_family)

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,85,1195,7.11%
вдовец / вдова,63,959,6.57%
гражданский брак,388,4151,9.35%
женат / замужем,931,12339,7.55%
не женат / не замужем,274,2810,9.75%


### Сделаем общую сводную таблицу c процентами

In [42]:
data_child_family = data.groupby(['children', 'family_status']).agg({'debt':'sum', 'family_status':'count'})
data_child_family['%_total_debt'] = (data_child_family['debt']/data_child_family['family_status'])*100
data_child_family.columns = ['Кол. невозвр','Кол-во заемщиков','% невозврата']
#data_child_family.format({'Процент невозврата':'{:.2%}'})
display(data_child_family)

Unnamed: 0_level_0,Unnamed: 1_level_0,Кол. невозвр,Кол-во заемщиков,% невозврата
children,family_status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,в разводе,55,784,7.015306
0,вдовец / вдова,53,847,6.257379
0,гражданский брак,229,2730,8.388278
0,женат / замужем,516,7468,6.90948
0,не женат / не замужем,210,2262,9.28382
1,в разводе,21,316,6.64557
1,вдовец / вдова,7,81,8.641975
1,гражданский брак,118,1000,11.8
1,женат / замужем,247,3004,8.22237
1,не женат / не замужем,52,454,11.453744


### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
**установим уровни дохода средний высокий низкий**

In [43]:
print(data['total_income'].max())

2265604


In [44]:
print(data['total_income'].min())

20667


In [45]:
print(data['total_income'].median())

142594.0


#### Пробуем найти кретерии для определения уровня зарплат  
* **от 0 до 33% уровня  низкая зарплата**
* **между 33% и 66% средняя зарплата**
* **66% и выше высокая зарплата**

In [46]:
data_int_profit = data['total_income'].sort_values(ascending = False)
data_int_profit.quantile([0.33, 0.66])

0.33    118514.0
0.66    172357.0
Name: total_income, dtype: float64

**Делаем функцию разграничиваем уровень зарплат**

In [47]:
def level_earn(row):
    if row < 122202:
        return 'Низкий уровень зарплаты'
    if 122202 <= row <= 169221:
        return 'Средний уровень зарплаты'
    if row > 169221:
        return 'Высокий уровень зарплаты'
      

**Меняем цифры в столбце**

In [48]:
data['total_income'] = data['total_income'].apply(level_earn)


#### Сделаем общую сводную таблицу c процентами

In [49]:
data_profit = data.groupby('total_income').agg({'debt':'sum', 'total_income':'count'})
data_profit['%_total_debt'] = (data_profit['debt']/data_profit['total_income'])
data_profit.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_profit.style.format({'% невозврата':'{:.2%}'})
#display(data_profit)

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Высокий уровень зарплаты,586,7802,7.51%
Низкий уровень зарплаты,614,7470,8.22%
Средний уровень зарплаты,541,6182,8.75%


### Как разные цели кредита влияют на его возврат в срок?

In [50]:
data_goal = data.pivot_table(index = ['purpose'], values = 'debt', aggfunc = [sum, 'count'])
#data_child = data.groupby(['children',]).agg({'debt':'sum','children':'count'})
data_goal['%_total_debt'] = (data_goal['sum','debt']/data_goal['count','debt'])
data_goal.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_goal.style.format({'% невозврата':'{:.2%}'})
#print(data_child)

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,403,4306,9.36%
жилье,308,4460,6.91%
недвижимость,474,6351,7.46%
образование,370,4013,9.22%
свадьба,186,2324,8.00%


### Вывод

**Сводные таблицы сделаны данные представлены в удобном для чтения виде**

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [51]:
data_child = data.pivot_table(index = ['children'], values = 'debt', aggfunc = [sum, 'count'])
data_child['%_total_debt'] = (data_child ['sum','debt']/data_child ['count','debt'])
data_child.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_child.style.format({'% невозврата':'{:.2%}'})


Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14091,7.54%
1,445,4855,9.17%
2,202,2128,9.49%
3,27,330,8.18%
4,4,41,9.76%
5,0,9,0.00%


### Вывод

Существует небольшая зависимость между наличием детей и возвратом кредита в срок, люди с детьми допускают просрочки чаще чем люди без детей, но это разница исчезающе мала не исключено что это статистическая погрешность.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [52]:
data_family = data.groupby('family_status').agg({'debt':'sum', 'family_status':'count'})
data_family['%_total_debt'] = (data_family['debt']/data_family['family_status'])
data_family.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_family.style.format({'% невозврата':'{:.2%}'})

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,85,1195,7.11%
вдовец / вдова,63,959,6.57%
гражданский брак,388,4151,9.35%
женат / замужем,931,12339,7.55%
не женат / не замужем,274,2810,9.75%


### Вывод

Семейное положение влияет на наличие задолжности по кредитам, не семейные люди чаще допускают просрочки.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [53]:
data_profit = data.groupby('total_income').agg({'debt':'sum', 'total_income':'count'})
data_profit['%_total_debt'] = (data_profit['debt']/data_profit['total_income'])
data_profit.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_profit.style.format({'% невозврата':'{:.2%}'})

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Высокий уровень зарплаты,586,7802,7.51%
Низкий уровень зарплаты,614,7470,8.22%
Средний уровень зарплаты,541,6182,8.75%


### Вывод

Зависимости между уровнем дохода и возвратом кредита в срок практически нет, но тем не менее возможно что люди с высоким уровнем заработной платы допускаю больше просрочем связанно с тем что их финансовое положение позволяет им меньше беспокоится о штрафах и пенях за просрочку, но вполне возможно разница в цифрах является скорее всего статистической погрешностью

- Как разные цели кредита влияют на его возврат в срок?

In [54]:
data_goal = data.pivot_table(index = ['purpose'], values = 'debt', aggfunc = [sum, 'count'])
#data_child = data.groupby(['children',]).agg({'debt':'sum','children':'count'})
data_goal['%_total_debt'] = (data_goal['sum','debt']/data_goal['count','debt'])
data_goal.columns = ['Кол-во невозвратов','Кол-во заемщиков','% невозврата']
data_goal.style.format({'% невозврата':'{:.2%}'})
#print(data_child)

Unnamed: 0_level_0,Кол-во невозвратов,Кол-во заемщиков,% невозврата
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,403,4306,9.36%
жилье,308,4460,6.91%
недвижимость,474,6351,7.46%
образование,370,4013,9.22%
свадьба,186,2324,8.00%


### Вывод

Цели кредита влияют на его возврат в срок, кредиты на покупку жилья недвижимости а также свадьбы менее рискованные чем кредиты на покупку машины. Потому что решения на получения таких кредитов принимаються наиболее осознано.

### Шаг 4. Общий вывод

1. Обнаружены пропуски в столбцах days_employed и total_income, их количества равны. Возможно люди никогда не работали и на получали доход.Люди имеюшие пропуски в столбцах days_employed- общий трудовой стаж в днях и total_income-ежемесячный доход старше 18 лет,поэтому врядли они нигде не работали и не получали зарплату скорее всего мы имеем дело с ошибкой ввода данных. Поэтому заполним пропуски медианным значением.  Также обнаружены отрицательные значения в столбце  days_employed- общий трудовой стаж и в количестве детей, скорее всего ошибка внесения, были преобразованы в положительные тк они могут повлиять на медиану.  

**Рекомендую: обратить внимание операторов и разработчиков онлайн форм, необходим контроль за внесением данного типа данных.** 

2. Были обнаруженны  существенные всплески в значениях стажа. Существование стажа в 1 тысчу лет маловероятно, наличие таких цифр связано скорее всего с технической ошибкой , возможно обьеденили 2 базы в одной из которых стаж считался в часах или минутах поэтому всплески на заменил на медианные значения Средняя продолжительность жизни мужчин в 2019 году в России составила 68,5 лет. Для женщин показатель еще выше — 78,5 лет. Поэтому возьмем максимальное значение для замены на медиану 70 лет стажа это 25550 дней

**Рекомендую: обратить внимание на формат данных при обьединении баз данных.** 

3. В столбцах days_employed и total_income содержатся десятичные дроби до ста тысячных долей, а должны быть целочисленные тк зарплата в рублях и стаж в днях 

**Рекомендую: Возможно это возникает при преобразовании одного формата в другой. Возможно в каких то базах данных Стаж указывается в часах и зарплата в копейках, при преобразовании хорошо бы их приводить к целочисленному значению** 

4. В базе найдены дбликаты данных, но вопрос в том стоит ли их удалять мб это совпадения реальных клиентов, а может быть и нет. Но я думаю что при таком количестве различных данных для каждого клиента реальные совпадения врядли возможны, поэтому удалил дубликаты. Причина возникновения , возможно ошибка оператора который их вносил. Либо если обьеденялись несколько баз в одну были внесены одни и теже клиенты. Также обнаружены внесения данных в разных регистрах, все приведено к нижнему регистру для удобства сортировки , причина ошибка операторов при внесении.

**Рекомендую: обратить внимание операторов и разработчиков онлайн форм, необходим контроль за внесением данного типа данных.** 

5. Цели кредита лучше упростить до одного слова "свадьба, машина , недвижимость" это упростить и ускорит обработку

**Рекомендую: в анкетах заполняемых вручную и онлайн формах проставить готовые варианты ответов .** 

### При выдаче кредита необходимо:
1. Обращать внимание на семейное положения заемщика люди не побывавшие в браке более склонны допускать просрочки платежей.
2. Обращать внимание на доход заемщика люди с высоким уровнем дохода более склонны допускать просрочки платежей.
3. Обращать внимание на наличие детей у заемщика люди с длетьми более склонны допускать просрочки платежей.
4. Иметь ввиду что кредиты на покупку автомобиля и образование более рискованные чем на покупку недвижимости и свадьбы.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.