# Исследование надёжности заёмщиков

**Цель исследования** 

Проверить:

1. Есть ли зависимость между наличием детей и возвратом кредита в срок?

2. Есть ли зависимость между семейным положением и возвратом кредита в срок?

3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

И ответить на вопрос:

    Как разные цели кредита влияют на его возврат в срок?

**Входные данные** 

Статистика о платёжеспособности клиентов от банка.

**Заказчик исследования**

Кредитный отдел банка. 

**Практическое применение результатов исследования**

Результаты исследования будут учтены при построении модели *кредитного скоринга* — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Обзор данных

In [1]:
"""
ПОМЕНЯТЬ ПУТЬ!
"""
# Чтение данных и сохранение в data:
import pandas as pd
df = pd.read_csv('data.csv') 

In [2]:
# Получение первых 10 строк таблицы data
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [3]:
# Получение общей информации о данных в таблице data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



**Описание данных согласно документации:**

* children — количество детей в семье

* days_employed — общий трудовой стаж в днях

* dob_years — возраст клиента в годах

* education — уровень образования клиента

* education_id — идентификатор уровня образования

* family_status — семейное положение

* family_status_id — идентификатор семейного положения

* gender — пол клиента

* income_type — тип занятости

* debt — имел ли задолженность по возврату кредитов

* total_income — ежемесячный доход

* purpose — цель получения кредита


In [4]:
# Посмотрим, есть ли явные дубликаты:
df.duplicated().sum()

54

 <a id='intro'></a>
Рассмотрим уникальные значения данных для каждого столбца.

In [5]:
for row in df: 
    print(df[row].value_counts())
    print()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

-8437.673028      1
-3507.818775      1
 354500.415854    1
-769.717438       1
-3963.590317      1
                 ..
-1099.957609      1
-209.984794       1
 398099.392433    1
-1271.038880      1
-1984.507589      1
Name: days_employed, Length: 19351, dtype: int64

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years,


**Вывод**

<div style="border:solid green 2px; padding: 20px">
    
В таблице 12 столбцов. Общее количество наблюдений в данных 21525. В двух столбцах значений меньше: общий трудовой стаж в днях и ежемесячный доход.

В датафрейме представлены данные разных типов: строка, дробное число, целое число. 
    
В названиях столбцов нарушений нет. 
  
Предварительно можно утверждать, что данных достаточно для проведения исследования. 

**Однако есть следующие проблемы в данных**:
    
1. В столбце children есть артефакты: -1 (встречается 47 раз) и 20 (встречается 76 раз).

2. В столбце days_employed есть пропуски в данных, а также отрицательные значения и тип данных число с плавающей точкой требует преобразования в integer. 
    
3. В столбце dob_years есть артефакты: возраст со значением 0 (встречается 101 раз). 
    
4. В столбце family_status привести значение "Не женат / не замужем"  к строчному регистру по аналогии с 'женат / замужем'
   
5. В столбце gender есть артефакт: XNA. Всего одна строка, поэтому можно удалить.  
    
6. В столбце total_income есть пропуски в данных, а также тип данных число с плавающей точкой требует преобразования в integer. 
    
7. В столбце education в значениях есть неявные дубликаты. Требуется привести все значения к нижнему регистру. 

8. В данных выявлено 54 явных дубликата. 

Чтобы двигаться дальше, устраним вышеуказанные проблемы.

## Шаг 2. Предобработка данных

### Обработка пропусков

In [6]:
# Подсчёт пропусков
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
# Вычислим, каков процент пропущенных значений:
df_nan = df[df["total_income"].isnull()]
print('Значения отсутствуют в {:.1%}'.format(len(df_nan)/len(df)))

Значения отсутствуют в 10.1%


In [8]:
#Датафрейм со строками с nan
df[df.isnull().any(1)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


#### Обработка пропусков в столбце ежемесячного дохода (total_income) <a class="tocSkip">

In [9]:
#Сначала заполним пропуски нулями, чтобы корректно посчитать медиану ежемесячного дохода.
df['total_income'] = df['total_income'].fillna(0)

In [10]:
#Затем сгруппируем данные по типу занятости и посчитаем медиану ежемесячного дохода для каждого типа. Результаты отсортируем по убыванию. 
total_income_median = df.groupby('income_type')['total_income'].median().sort_values(ascending=False)
total_income_median

income_type
предприниматель    249581.572474
компаньон          162401.351555
госслужащий        139034.452386
сотрудник          133546.457238
безработный        131339.751676
пенсионер          110179.690761
студент             98201.625314
в декрете           53829.130729
Name: total_income, dtype: float64

Напишем функцию, которая будет заполнять пропуски на основе наших сгруппированных данных со значениями медианы.

In [11]:
#Функция для заполнения пропусков значением медианы

"""
Аргументы функции:

- data: датафрейм с данными, в котором заполняем пропущенные значения
- series_with_median: тип данных объект series (сгруппированные данные по столбцу column1 со значениями медианы для каждой группы)
- column1: тип данных строка (столбец, по значениям которого выбираем нужное значение медианы; совпадает с индексом series)
- column_with_nan: тип данных строка (столбец, в котором заполняем пропуски данных; предварительно пропуски заменяем на нули)

Функция возвращает датафрейм с заполненными медианой пропусками

"""

def replace_nan_with_median(data, series_with_median, column1, column_with_nan):
    print('Количество пропущенных значений до запуска функции:', data[data[column_with_nan] == 0][column_with_nan].count())
    
    for index, value in series_with_median.items():
    #print(f"Index : {index}, Value : {value}")
        data.loc[(data[column1] == index) & (data[column_with_nan] == 0), column_with_nan] = value
    print('Количество пропущенных значений после отработки функции:', data[data[column_with_nan] == 0][column_with_nan].count())
    

In [12]:
replace_nan_with_median(df, total_income_median, 'income_type', 'total_income')

Количество пропущенных значений до запуска функции: 2174
Количество пропущенных значений после отработки функции: 0



**Промежуточный итог**: 

Пропуски в столбце с ежемесячным доходом успешно заполнены значенияем медианы в зависимости от типа занятости. 

#### Обработка пропусков в столбце трудового стажа (days_employed) <a class="tocSkip">


Теперь приступим к подготовке данных для обработки пропущенных значений в столбце с трудовым стажем (days_employed).

Алгоритм действий таков:

1. Заменим возраст клиента 0 на среднее арифметическое. 
2. Категоризуем данные - распределим клиентов по возрастным группам и создадим соответствующий столбец (age_group) с данными в нашем датафрейме.
3. Более внимательно изучим значения в столбце days_employed, избавимся от отрицательных значений и исключим аномалии (выбросы в данных), чтобы более точно определить медиану трудового стажа.
3. Cоздадим series со значениями медианы для каждой возрастной группы и без аномалий.
4. Запустим функцию replace_nan_with_median для заполнения пропусков в столбце days_employed значениями медианы в зависимости от возрастой группы.  

In [13]:
# Возраст - количественная переменная, мы можем нулевой возраст заменить на значение среднего арифметического.
df = df.replace({'dob_years': 0}, df['dob_years'].mean())

In [14]:
# Проверяем, успешна ли замена 0-значений средним арифметическим
df[df['dob_years'] == 0]['dob_years'].count()

0

In [15]:
# Создадим функцию для категоризации данных о возрасте клиентов (распределим клиентов по возрастным группам)

'''
Функция берет на вход возраст клиента, а возвращает возрастную группу по значению возраста age, используя правила:
    - ранний возраст (19 - 30)
    - средний возраст (30 - 40)
    - поздний возраст (40 - 59)
    - пенсионный возраст (60 и старше)

'''

def get_age_group(age):
    if 30 > age >= 19:
        return 'ранний возраст'
    elif 40 > age >=30:
        return 'средний возраст' 
    elif 59 >= age >=40:
        return 'поздний возраст'
    else:
        return 'пенсионный возраст'
        

In [16]:
#Протестируем нашу функцию client_age_group на отдельном значении:
get_age_group(60)

'пенсионный возраст'

In [17]:
# Создадим отдельный столбец age_group в нашем датафрейме и запишем в его ячейках значения, возращаемые функцией
df['age_group'] = df['dob_years'].apply(get_age_group)

In [18]:
# Посмотрим на результаты - функция отработала корректно
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,-8437.673028,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,поздний возраст
1,1,-4024.803754,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,средний возраст
2,0,-5623.42261,33.0,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,средний возраст
3,3,-4124.747207,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,средний возраст
4,0,340266.072047,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,поздний возраст


In [19]:
# Теперь заполним пропуски нулями, чтобы корректно посчитать медиану трудового стажа.
df['days_employed'] = df['days_employed'].fillna(0)

In [20]:
#Для начала более внимательно изучим данные о трудовом стаже:
print('Распределение значений в столбце days_employed в порядке убывания:\n', df['days_employed'].sort_values(ascending=False).unique())

Распределение значений в столбце days_employed в порядке убывания:
 [401755.40047533 401715.81174889 401675.09343386 ... -16593.47281726
 -17615.56326563 -18388.94990057]


In [21]:
#Посмотрим отдельно на положительные значения: 
df_with_positive_days_employed = df[df['days_employed'] > 0]
print('Диапазон положительных значений в days_employed:\n', df_with_positive_days_employed['days_employed'].sort_values().unique())
print('\nКоличество клиентов с положительным трудовым стажем и тип их занятости:\n',df_with_positive_days_employed.groupby('income_type')['days_employed'].count())

Диапазон положительных значений в days_employed:
 [328728.72060452 328734.92399633 328771.3413868  ... 401675.09343386
 401715.81174889 401755.40047533]

Количество клиентов с положительным трудовым стажем и тип их занятости:
 income_type
безработный       2
пенсионер      3443
Name: days_employed, dtype: int64


В диапазоне положительных значений выявлены аномалии. 3443 пенсионера и два безработных имеют стаж более 900 лет.
Чтобы такие выбросы не исказили нам медиану, исключим их из вычисления медианы. Для этого создадим отдельный фрейм, в котором останутся только отрицательные значения и на основе его будет считать медиану для каждой возрастной группы. Удалять выбросы из исходного датафрейма не будем: этот столбец нам не важен для данного исследования, а другие данные из строк терять не хочется. 

In [22]:
#Создаем отдельный датафрейм только с отрицательными значениями в days_employed. 
df_without_outliners_in_days_employed = df[df['days_employed'] <= 0]

In [23]:
#Проверим результат - положительных значений нет. 
df_without_outliners_in_days_employed[df_without_outliners_in_days_employed['days_employed'] > 0]['days_employed'].count()

0

В столбце о трудовом стаже больше половины отрицательных значений. Возможно, при подготовке и вычислении данных разработчики перепутали местами даты начала трудовой деятельности и текущий (или последний) день работы. 
Устраним эту проблему.

In [24]:
#Чтобы избавиться от отрицательных значений в столбце о трудовом стаже (days_employed) в исходном датафрейме, вычислим модуль числа с помощью встроенной функции abs

print('Количество отрицательных значений до обработки:', df[df['days_employed'] < 0]['days_employed'].count())
df['days_employed'] = abs(df['days_employed'])
print('Количество отрицательных значений после обработки:', df[df['days_employed'] < 0]['days_employed'].count())

Количество отрицательных значений до обработки: 15906
Количество отрицательных значений после обработки: 0


In [25]:
#Избавимся от отрицательных значений в датафрейме, в котором нет выбросов, и который мы будем использовать для группировки данных и расчета медианы: 

print('Количество отрицательных значений до обработки:', df_without_outliners_in_days_employed[df_without_outliners_in_days_employed['days_employed'] < 0]['days_employed'].count())
df_without_outliners_in_days_employed['days_employed'] = abs(df_without_outliners_in_days_employed['days_employed'])
print('Количество отрицательных значений после обработки:', df_without_outliners_in_days_employed[df_without_outliners_in_days_employed['days_employed'] < 0]['days_employed'].count())

Количество отрицательных значений до обработки: 15906
Количество отрицательных значений после обработки: 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_without_outliners_in_days_employed['days_employed'] = abs(df_without_outliners_in_days_employed['days_employed'])


In [26]:
df_without_outliners_in_days_employed.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18080 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          18080 non-null  int64  
 1   days_employed     18080 non-null  float64
 2   dob_years         18080 non-null  float64
 3   education         18080 non-null  object 
 4   education_id      18080 non-null  int64  
 5   family_status     18080 non-null  object 
 6   family_status_id  18080 non-null  int64  
 7   gender            18080 non-null  object 
 8   income_type       18080 non-null  object 
 9   debt              18080 non-null  int64  
 10  total_income      18080 non-null  float64
 11  purpose           18080 non-null  object 
 12  age_group         18080 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 1.9+ MB


In [27]:
# Сгруппируем данные по столбцу с возрастными группами и подсчитаем медиану в days_employed для каждой такой группы:
days_employed_median = df_without_outliners_in_days_employed.groupby('age_group')['days_employed'].median().sort_values(ascending=False)

In [28]:
#Посмотрим на результаты: 
days_employed_median

age_group
поздний возраст       1711.443516
средний возраст       1375.613868
пенсионный возраст    1102.385647
ранний возраст         903.355043
Name: days_employed, dtype: float64

In [29]:
replace_nan_with_median(df, days_employed_median, 'age_group', 'days_employed')

Количество пропущенных значений до запуска функции: 2174
Количество пропущенных значений после отработки функции: 0


In [30]:
# Подсчитаем пропуски в нашем датафрейме - проверим результаты
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

**Вывод**

<div style="border:solid green 2px; padding: 20px">
 
ДОПИСАТЬ ПРО ПРИЧИНЫ!    
В столбцах с ежемесячным доходом (total_income) и с трудовым стажем (days_employed) были обнаружены пропущенные значения (NaN). Пропуски в данных составляли 10%. Причиной пропусков в total_income может быть ... 
    
Ежемесячный доход и трудовой стаж, измеряемый в днях  — это количественные переменные. 
Пропуски в таких переменных, как правило, заполняют характерными значениями в выборке. Для типичных значений мы взяли **медиану**. 

Мы успешно заполнили пропуски в столбце total_income значением медианы в зависимости от типа занятости (столбец income_type). 
А в столбце трудового стажа - медианой в зависимости от возрастной группы (столбец age_group, который был создан в процессе заполнения пропусков).
    
Стоит отметить, что пропущенные значения в трудовом стаже не влияют на результаты данного исследования, однако пропуски мы обработали и в этом столбце, чтобы была возможность использовать данные для возможных дальнейших исследований. 
    
Возможно, стоит обратить внимание разработчиков на проблему отрицательных значений в days_employed (предположительно, при подготовке и вычислении данных разработчики перепутали местами даты начала трудовой деятельности и текущий (или последний) день работы), а также стоит понять причину попадания аномалий в этом столбце.

### Замена типа данных

In [31]:
#Посмотрим на типы данных в нашем датафрейме
df.dtypes

children              int64
days_employed       float64
dob_years           float64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
age_group            object
dtype: object

In [32]:
# Заменим числа с плавающей точкой на целые для столбцов days_employed, dob_years, total_income:
df['days_employed'] = df['days_employed'].astype('int')
df['dob_years'] = df['dob_years'].astype('int')
df['total_income'] = df['total_income'].astype('int')
print('Типы данных в датафрейме после замены:\n', df.dtypes)

Типы данных в датафрейме после замены:
 children             int64
days_employed        int64
dob_years            int64
education           object
education_id         int64
family_status       object
family_status_id     int64
gender              object
income_type         object
debt                 int64
total_income         int64
purpose             object
age_group           object
dtype: object


**Вывод**

<div style="border:solid green 2px; padding: 20px">
В столбцах c трудовым стажем (days_employed), возрастом клиентов (dob_years) и с ежемесячным доходом (total_income) в качестве значений выступали дробные числа (вещественный тип данных float64). Такой тип данных можно изменить на целочисленный (int64) с помощью метода astype, что мы успешно и сделали.

### Обработка артефактов


In [33]:
#В столбце gender есть значение XNA. Всего лишь одно - тут можно просто удалить строку из данных.
print('Количество значений XNA в столбце с полом: ', df[df['gender'] == 'XNA']['gender'].count())
#df.loc[df['']=='Сергей','Март']
df = df.loc[df['gender'] != 'XNA']
print('Количество значений XNA в столбце с полом после удаления строки: ', df[df['gender'] == 'XNA']['gender'].count())

Количество значений XNA в столбце с полом:  1
Количество значений XNA в столбце с полом после удаления строки:  0


In [34]:
#В столбце с количеством детей 76 раз встречается значение 20 и 47 раз - значение -1. Заменим эти значения на 2 и 1 соответсвенно.
print(df['children'].value_counts())
df['children'].replace(20, 2, inplace=True)
df['children'].replace(-1, 1, inplace=True)
print('Распределение значений после замены -1 и 20: \n', df['children'].value_counts())

 0     14148
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
Распределение значений после замены -1 и 20: 
 0    14148
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


In [35]:
#В столбце family_status значения записаны в разном регистре - унифицируем. 
df['family_status'].value_counts()


женат / замужем          12380
гражданский брак          4176
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [36]:
#Удалим эту проблему с помощью метода str.lower() и проверим результат
df['family_status'] = df['family_status'].str.lower()
df['family_status'].value_counts()


женат / замужем          12380
гражданский брак          4176
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

### Обработка дубликатов

In [37]:
# Посмотрим на количество явных дубликатов с помощью цепочки методов duplicated().sum():
print('Количество явных дубликатов в таблице:', df.duplicated().sum())

Количество явных дубликатов в таблице: 54


In [38]:
#Удаляем явные дубликаты вместе с их индексами: 
df = df.drop_duplicates().reset_index(drop=True)
print('Количество явных дубликатов после применения метода drop_duplicates:\n', df.duplicated().sum())

Количество явных дубликатов после применения метода drop_duplicates:
 0


В [начале исследования](#intro) мы смотрели на уникальные значения данных для каждого столбца в датафрейме и обнаружили неявные дубликаты в значениях столбца 'education'.

In [39]:
# Еще раз посмотрим на значения в столбце education: применим метод value_counts.(): 
df['education'].value_counts()

среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      667
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [40]:
# Приведем к нижнему регистру значения в столбце education и тут же проверим результат выполнения метода str.lower():
df['education'] = df['education'].str.lower()
print('Значения в education после применения str.lower:\n', df['education'].value_counts())

Значения в education после применения str.lower:
 среднее                15188
высшее                  5251
неоконченное высшее      743
начальное                282
ученая степень             6
Name: education, dtype: int64


In [41]:
# После того, как мы унифицировали значения в 'education', проверим, не возникли ли явные дубликаты в данных:
print('Количество явных дубликатов в таблице:', df.duplicated().sum())

Количество явных дубликатов в таблице: 17


In [42]:
# Удалим новые дубликаты из нашего фрейма, выведем на экране количество наблюдений в данных по итогам удаления дупликатов:
df = df.drop_duplicates().reset_index(drop=True)
print('Количество наблюдений в данных после удаления всех дубликатов: ', df.shape[0])
print('Количество дубликатов после применения метода drop_duplicates: ', df.duplicated().sum())

Количество наблюдений в данных после удаления всех дубликатов:  21453
Количество дубликатов после применения метода drop_duplicates:  0


**Вывод**

<div style="border:solid green 2px; padding: 20px">

В нашем датасете были обнаружены явные и неявные дубликаты. Явные дубликаты (54 строк) успешно удалены с помощью цепочки методов drop_duplicates().reset_index(drop=True). Неявные дубликаты - строковые значения в разных регистрах - устранены с помощью метода str.lower(), которые приводит все строки к нижнему регистру. 
ОПИСАТЬ ПРИЧИНЫ ПОЯВЛЕНИЯ ДУБЛИКАТОВ

### Лемматизация

In [43]:
#Посмотрим на значения в столбце с целью, чтобы понимать, что будет лемматизировать: 
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      620
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Получим леммы в значениях столбца с целями получения кредита

In [44]:
#Импортируем pymystem3 и создадим объект класса mystem:
from pymystem3 import Mystem
mystem = Mystem()

In [45]:
#Создадим функцию, которая лемматизирует (=приводит слова к начальной форме слова) текст, удаляет пробелы и стоп-слова и возращает только полнозначные слова в начальной форме.

"""
Аргумент функции text - тип данных строка.
Функция возращает строку из ключевых лемм - тип данных строка.

"""

#Импортируем список стоп-слов для русского языка
from nltk.corpus import stopwords
russian_stopwords = stopwords.words('russian')

def lemmatize_text(text):
    lemmas = mystem.lemmatize(text) #лемматизируем текст
    lemmas_only_key_words = [] #создаем пустой список для лемм полнозначных слов
    for lemma in lemmas:
#если лемма не является пробелом и не принадлежит к числу стоп-слов, то добавляем ее в наш список
        if lemma != ' ' and lemma not in russian_stopwords: 
            lemmas_only_key_words.append(lemma)
            
#склеиваем список в строку, разделяя леммы пробелом
    key_lemmas = ' '.join(lemmas_only_key_words).strip()
    return key_lemmas

In [46]:
#Протестируем функцию на отдельном значении: 
print('Функция работает корректно:\n', lemmatize_text('операции с коммерческой недвижимостью'))

Функция работает корректно:
 операция коммерческий недвижимость


In [47]:
#Применим нашу функцию к столбцу с целями получения кредита (purpose) и запишем значения в новый столбец purpose_words:
df['purpose_words'] = df['purpose'].apply(lemmatize_text)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_words
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,поздний возраст,покупка жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,средний возраст,приобретение автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,средний возраст,покупка жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,средний возраст,дополнительный образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,поздний возраст,сыграть свадьба


In [48]:
df['purpose_words'].value_counts()

автомобиль                                972
свадьба                                   791
проведение свадьба                        768
сыграть свадьба                           765
операция недвижимость                     675
покупка коммерческий недвижимость         661
операция жилье                            652
покупка жилье сдача                       651
операция коммерческий недвижимость        650
покупка жилье                             646
жилье                                     646
покупка жилье семья                       638
строительство собственный недвижимость    635
недвижимость                              633
операция свой недвижимость                627
строительство жилой недвижимость          624
покупка недвижимость                      620
покупка свой жилье                        620
строительство недвижимость                619
ремонт жилье                              607
покупка жилой недвижимость                606
покупка свой автомобиль           

**Вывод**

<div style="border:solid green 2px; padding: 20px"> 
Мы лемматизировали значения в столбце с целями получения кредита с помощью библиотеку pymystem3 и создали новый столбец purpose_words. На основе этого столбца мы сможем категоризировать данные о цели.  

### Категоризация данных

In [49]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_words
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,поздний возраст,покупка жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,средний возраст,приобретение автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,средний возраст,покупка жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,средний возраст,дополнительный образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,поздний возраст,сыграть свадьба


In [50]:
#Создадим функцию, которая возвращает нам категорию цели получения кредита: 

'''
Функция берет на вход строковое значение, а возвращает целевую категорию в зависимости от ключевого существительного.
Там, где возможно классифицировать вид недвижимости (по наличию слов "жилой" и "коммерческий"), мы классифицируем. Там где это невозможно - оставляем общий термин "недвижимость".

Аргументы функции: string (тип данных строка)
Функция возвращает строку.

'''

def get_purpose_category (string):
    
    if 'автомобиль' in string:
        return 'автомобиль'
    
    elif 'свадьба' in string:
        return 'свадьба'
    
    elif 'недвижимость' in string and 'коммерческий' in string:
        return 'коммерческая недвижимость'
    
    elif 'жилой' in string and 'недвижимость' in string:
        return 'жилая недвижимость'
    
    elif 'жилье' in string:
        return 'жилая недвижимость'
    
    elif 'образование' in string:
        return 'образование'
    
    else:
        return 'недвижимость'
        

In [51]:
#Протестируем функцию на отдельных значениях:
print(get_purpose_category('покупка свой автомобиль'))
print(get_purpose_category('операция коммерческий недвижимость'))
print(get_purpose_category('покупка жилье сдача'))
print(get_purpose_category('покупка жилой недвижимость'))   
print(get_purpose_category('операция свой недвижимость'))
print(get_purpose_category('сыграть свадьба'))
print(get_purpose_category('получение дополнительный образование'))      

автомобиль
коммерческая недвижимость
жилая недвижимость
жилая недвижимость
недвижимость
свадьба
образование


In [52]:
# Все готово для категоризации данных о целях получения кредита: вычислим целевые категории по ключевым словам из столбца 'purpose' с помощью нашей функции get_purpose_category внутри apply() и запишем новые значения в столбец purpose_category:
df['purpose_category'] = df['purpose_words'].apply(get_purpose_category)

In [53]:
# Проверим, сколько каких значений у нас получилось в новом столбце purpose_category:
df['purpose_category'].value_counts()

жилая недвижимость           5690
автомобиль                   4306
образование                  4013
недвижимость                 3809
свадьба                      2324
коммерческая недвижимость    1311
Name: purpose_category, dtype: int64

In [54]:
#Столбец c ключевыми словами для цели нам более не нужен - удалим его с помощью drop() и сохраним изменения в исходном датафрейме с помощью параметра inplace=True:
df.drop('purpose_words', axis=1, inplace=True)

In [55]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,поздний возраст,жилая недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,средний возраст,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,средний возраст,жилая недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,средний возраст,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,поздний возраст,свадьба


**Вывод**

Данные о целях получения кредита успешно категоризированы. Мы разделили все цели на 6 категорий: жилая недвижимость, коммерческая недвижимость, недвижимость (общая категория для тех случаев, когда не было конкретизации), автомобиль, образование и свадьба. 

Можно утверждать, что чаще всего люди берут кредиты для вложения в жилую недвижимость, далее вкладывают в автомобиль и образование.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [56]:
#Для начала посмотрим, какой процент клиентов не выплачивает кредит в срок в наших данных
debt_ratio = df[(df['debt'] == 1)].count() / df['debt'].count()
print("Процент просроченных платежей: {:.1%}".format(debt_ratio['debt']))

Процент просроченных платежей: 8.1%


In [57]:
# Построим сводную таблицу методом pivot_table, сгруппировав данные по количеству детей и факту задолжности, посчитаем количество клиентов с долгами и без в зависимости от количества детей.
# Среди должников нет клиентов с 5 детьми, поэтому заполним значение 0 с помощью параметра fill_value=0.
# C помощью параметра margins выведем обобщенные значения по каждой группе.
pivot_table1 = df.pivot_table(index=['children'], columns='debt', values='income_type', aggfunc='count',fill_value=0, margins=True)
pivot_table1 

debt,0,1,All
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13027,1063,14090
1,4410,445,4855
2,1926,202,2128
3,303,27,330
4,37,4,41
5,9,0,9
All,19712,1741,21453


In [58]:
#Для лучшего прочтения таблицы изменим названия столбцов 0, 1 на 'no_debts','with_debts':
pivot_table1.set_axis(['no_debts','with_debts', 'All'],axis = 'columns',inplace = True)
pivot_table1 

Unnamed: 0_level_0,no_debts,with_debts,All
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13027,1063,14090
1,4410,445,4855
2,1926,202,2128
3,303,27,330
4,37,4,41
5,9,0,9
All,19712,1741,21453


In [61]:
#Добавим столбец с процентом клиентов, не имеющих задолжность, от общего числа клиентов по каждой группе в зависимости от количества детей.
pivot_table1 ['percent_no_debts'] = pivot_table1['no_debts'] / pivot_table1 ['All'] * 100
pivot_table1 ['percent_no_debts'] = pivot_table1['percent_no_debts'].astype('int')

In [62]:
pivot_table1 

Unnamed: 0_level_0,no_debts,with_debts,All,percent_no_debt,percent_no_debts
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,13027,1063,14090,92.455642,92
1,4410,445,4855,90.834192,90
2,1926,202,2128,90.507519,90
3,303,27,330,91.818182,91
4,37,4,41,90.243902,90
5,9,0,9,100.0,100
All,19712,1741,21453,91.884585,91


**Вывод**

Анализ данных показал, что наличие ребенка влияет негативным образом на факт погашения кредита в срок. Чаще всего кредит возращают в срок люди, у которых нет детей. (Процент клиентов, не имеющих задолжность, падает при наличии одного, двух, трех, четырех детей.)  

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [63]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,поздний возраст,жилая недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,средний возраст,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,средний возраст,жилая недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,средний возраст,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,поздний возраст,свадьба


In [67]:
pivot_table2 = df.pivot_table(index='family_status', columns='debt', values='family_status_id', aggfunc='count', margins=True)
pivot_table2.set_axis(['no_debts','with_debts', 'All'],axis = 'columns',inplace = True)
pivot_table2

Unnamed: 0_level_0,no_debts,with_debts,All
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1110,85,1195
вдовец / вдова,896,63,959
гражданский брак,3762,388,4150
женат / замужем,11408,931,12339
не женат / не замужем,2536,274,2810
All,19712,1741,21453


In [70]:
#Добавим столбец с процентом клиентов, не имеющих задолжность, от общего числа клиентов по каждой группе в зависимости от семейного положения.
pivot_table2['percent_no_debts'] = pivot_table2['no_debts'] / pivot_table2['All'] * 100
pivot_table2['percent_no_debts'] = pivot_table2['percent_no_debts'].astype('int')
pivot_table2

Unnamed: 0_level_0,no_debts,with_debts,All,percent_no_debts
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
в разводе,1110,85,1195,92
вдовец / вдова,896,63,959,93
гражданский брак,3762,388,4150,90
женат / замужем,11408,931,12339,92
не женат / не замужем,2536,274,2810,90
All,19712,1741,21453,91


**Вывод**

Анализ сводной таблицы показывает, что чаще всего кредит возращают в срок вдовцы, женатые и замужние и люди в разводе, а не замужние и не женатые и люди в гражданском браке чаще всего имеют задолжность. 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [88]:
#Разобьем на равные группы значения ежемесячного дохода:
pd.qcut(df['total_income'], q=4).value_counts()

(20666.999, 107620.0]    5364
(107620.0, 140212.0]     5363
(140212.0, 195818.0]     5363
(195818.0, 2265604.0]    5363
Name: total_income, dtype: int64

In [89]:
df['income_group'] = pd.qcut(df['total_income'], q=4)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_category,income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,поздний возраст,жилая недвижимость,"(195818.0, 2265604.0]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,средний возраст,автомобиль,"(107620.0, 140212.0]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,средний возраст,жилая недвижимость,"(140212.0, 195818.0]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,средний возраст,образование,"(195818.0, 2265604.0]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,поздний возраст,свадьба,"(140212.0, 195818.0]"


In [91]:
pivot_table3 = df.pivot_table(index='income_group', columns='debt', values='family_status_id', aggfunc='count', margins=True)
pivot_table3.set_axis(['no_debts','with_debts', 'All'],axis = 'columns',inplace = True)
pivot_table3

Unnamed: 0_level_0,no_debts,with_debts,All
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(20666.999, 107620.0]",4937,427,5364
"(107620.0, 140212.0]",4902,461,5363
"(140212.0, 195818.0]",4893,470,5363
"(195818.0, 2265604.0]",4980,383,5363
All,19712,1741,21453


**Вывод**

Анализ данных в сводной таблице показал неожиданный результат: больше всего должников среди клиентов, которые зарабатывают в месяц не меньше 140 тысяч в месяц. 
А самые прилежные плательщики - в группе с самыми высокими доходами.

- Как разные цели кредита влияют на его возврат в срок?

In [None]:
df.groupby('purpose_category')['children'].count()

**Вывод**

## Шаг 4. Общий вывод

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [ ]  файл изучен;
- [ ]  определены пропущенные значения;
- [ ]  заполнены пропущенные значения;
- [ ]  есть пояснение, какие пропущенные значения обнаружены;
- [ ]  описаны возможные причины появления пропусков в данных;
- [ ]  объяснено, по какому принципу заполнены пропуски;
- [ ]  заменен вещественный тип данных на целочисленный;
- [ ]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [ ]  удалены дубликаты;
- [ ]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [ ]  описаны возможные причины появления дубликатов в данных;
- [ ]  выделены леммы в значениях столбца с целями получения кредита;
- [ ]  описан процесс лемматизации;
- [ ]  данные категоризированы;
- [ ]  есть объяснение принципа категоризации данных;
- [ ]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [ ]  в каждом этапе есть выводы;
- [ ]  есть общий вывод.