### Исследование надёжности заёмщиков

#### Описание проекта

Заказчик проекта — кредитный отдел Х банка.
Необходимо ответить на вопросы о зависимости между определенных факторов на погашение кредита в срок.
Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

##### Шаг 1. Предобработка данных
    - определить и заполнить пропущенные значения:
    - описать, какие пропущенные значения обнаружены;
    - привести возможные причины появления пропусков в данных;
    - объяснить, по какому принципу заполнены пропуски;
    - заменить вещественный тип данных на целочисленный:
    - пояснить, как выбран метод для изменения типа данных;
    - удалить дубликаты:
    - пояснить, как выбирался метод для поиска и удаления дубликатов в данных;
    - привести возможные причины появления дубликатов;
    - выделить леммы в значениях столбца с целями получения кредита:
    - описать, как проводилась лемматизация целей кредита;
    - категоризировать данные:
    - перечислить, какие «словари» были выделены для этого набора данных, и объяснить, почему.
В данных могут встречаться артефакты — значения, которые не отражают действительность. Например, отрицательное количество дней трудового стажа. Для реальных данных — это нормально. Нужно описать возможные причины появления таких данных и обработать их.

##### Шаг 2. Ответы на вопросы
    * Есть ли зависимость между наличием детей и возвратом кредита в срок?
    * Есть ли зависимость между семейным положением и возвратом кредита в срок?
    * Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
    * Как разные цели кредита влияют на его возврат в срок?
Ответы сопроводить интерпретацией — пояснить, о чём именно говорит полученный  результат.

##### Шаг 3. Общий вывод

##### Описание данных
    children — количество детей в семье
    days_employed — общий трудовой стаж в днях
    dob_years — возраст клиента в годах
    education — уровень образования клиента
    education_id — идентификатор уровня образования
    family_status — семейное положение
    family_status_id — идентификатор семейного положения
    gender — пол клиента
    income_type — тип занятости
    debt — имел ли задолженность по возврату кредитов
    total_income — ежемесячный доход
    purpose — цель получения кредита

#### Открыть файл с данными и изучить общую информацию. 

In [1]:
import pandas as pd
df = pd.read_csv('/datasets/data.csv')
print(df.head())
print(df.info())

   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

### Вывод

Информация о таблице получена методом df.info(). Данные представлены в таблице с 12 столбцами. В таблице 21525 строк. Типы данных в болишинстве случаев применены верно. Изменить тип данных необходимо будет точно в столбце 'days_employed', так как считать количество дней стажа (или отсутствия работы) будет правильно с целочисленными значениями. В столбце total_income можно будет сократить количество знаков после запятой до 2-х, т.к. это денежное выражение. Судя по выводу первых 5 строк (метод df.head()), в таблице присутствуют пробелы - появились при заполнении информации, буквы разного регистра в одинаковых, при этом значения информации, также - пропуски: это заметно по выданной информации о количестве заполненных строк в каждом из столбцов, и проч.

### Шаг 1. Предобработка данных

### Обработка пропусков

Подсчитаю сумму строк с пропущенными значениями с помощью метода isna().sum():

In [2]:
print(df.isna().sum())

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


Пропущенные значения присутствуют только в столбцах days_employed и total_income. Количество строк с пропущенными значения как в первом, так и во втором столбце, совпадает. Попробую проверить, одинаковые ли это столбцы. Проверю первые 10 записей.

In [3]:
print(df[df['days_employed'].isnull()].head(10))

    children  days_employed  dob_years education  education_id  \
12         0            NaN         65   среднее             1   
26         0            NaN         41   среднее             1   
29         0            NaN         63   среднее             1   
41         0            NaN         50   среднее             1   
55         0            NaN         54   среднее             1   
65         0            NaN         21   среднее             1   
67         0            NaN         52    высшее             0   
72         1            NaN         32    высшее             0   
82         2            NaN         50    высшее             0   
83         0            NaN         52   среднее             1   

            family_status  family_status_id gender  income_type  debt  \
12       гражданский брак                 1      M    пенсионер     0   
26        женат / замужем                 0      M  госслужащий     0   
29  Не женат / не замужем                 4      F    

Как видно из выборки, пропущенные значения в столбце days_employed совпадают с также пропущенными значениями в столбце total_income. Ввиду того, что столбец days_employed вообще не соответствуют хоть сколько-нибудь реалистичным данным (очень много отрицательных значений, а также часто количество дней не сопоставимо никак с реалистичным количеством лет трудового стажа - т.е. есть значения, при делении на 365 которых получается больше 100 лет стажа, и даже более), то предполагается, что данные в этом столбце заполнялись при вводе неверно. Эти данные использовать в анализе невозможно, в том виде, в котором они сейчас есть. Поэтому решено было NaN-значения в days_employed пустыми значениями. А вот обработку пропусков провести в столбце total_income. И для этого проверю, у каких групп (по типу занятости) потенциальных заёмщиков и в каком количестве строк есть пропущенные значения.

In [4]:
print(df[df['total_income'].isna()].groupby('income_type').count())

                 children  days_employed  dob_years  education  education_id  \
income_type                                                                    
госслужащий           147              0        147        147           147   
компаньон             508              0        508        508           508   
пенсионер             413              0        413        413           413   
предприниматель         1              0          1          1             1   
сотрудник            1105              0       1105       1105          1105   

                 family_status  family_status_id  gender  debt  total_income  \
income_type                                                                    
госслужащий                147               147     147   147             0   
компаньон                  508               508     508   508             0   
пенсионер                  413               413     413   413             0   
предприниматель              1         

Пропущенные значения есть у: госслужащих (147), компаньонов (508), пенсионеров (413), предпринимателя (1) и сотрудников (1105). Считаю, что будет правильным посчитать для каждой из категорий, за вычетом строк с NaN-значениями, среднее значение total_income и медиану. На основе полученных результатов принять решение об использовании либо среднего значения, либо медианы в качестве значения для замены пропусков.

По идее, можно просто добавить еще одну переменную - новый датафрейм, которые получается, если применить метод dropna() к рабочему датафрейму - удалятся как раз все строки со значениями NaN.

In [5]:
df_without_na = df.dropna().reset_index(drop=True)
print(df_without_na.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19351 entries, 0 to 19350
Data columns (total 12 columns):
children            19351 non-null int64
days_employed       19351 non-null float64
dob_years           19351 non-null int64
education           19351 non-null object
education_id        19351 non-null int64
family_status       19351 non-null object
family_status_id    19351 non-null int64
gender              19351 non-null object
income_type         19351 non-null object
debt                19351 non-null int64
total_income        19351 non-null float64
purpose             19351 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 1.8+ MB
None


При удалении всех строк индексацию решил сбить. Это необязательно в данном случае, т.к. датафрейм df_without_na будет использован только для подсчета средних значений и медиан для перечисленных выше 5-ти категорий заёмщиков, в зависимости от их типа трудовой деятельности.

Подсчитаю эти значения, применив группировку столбца total_income по типам занятости и методы mean(), и median().

In [6]:
print(df_without_na.groupby('income_type')['total_income'].mean())

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        170898.309923
компаньон          202417.461462
пенсионер          137127.465690
предприниматель    499163.144947
сотрудник          161380.260488
студент             98201.625314
Name: total_income, dtype: float64


In [7]:
print(df_without_na.groupby('income_type')['total_income'].median())

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64


Воспользуюсь методом аггрегации столбцов сразу по 2-м операциям, чтобы было легче сравнить полученные значения и принять решение, какими именно значениями заполнить пропуски в датафрейме.

In [8]:
print(df_without_na.groupby('income_type').agg({'total_income': ['mean', 'median']}))

                  total_income               
                          mean         median
income_type                                  
безработный      131339.751676  131339.751676
в декрете         53829.130729   53829.130729
госслужащий      170898.309923  150447.935283
компаньон        202417.461462  172357.950966
пенсионер        137127.465690  118514.486412
предприниматель  499163.144947  499163.144947
сотрудник        161380.260488  142594.396847
студент           98201.625314   98201.625314


Чтобы вопрос с заменой пропущенных значений в столбце "доход" не носил характер как в анекдоте "средняя температура по больнице", то и было проведено сравнение медианных и средних значений, чтобы выбрать более релеватное из них по каждом из типу занятости, для которых необходимо заполнить пропуски. Из 8-ми типов занятости у 4-х значения медианы и среднего дохода совпадают, у остальных 4-х значение медианы ниже среднего показателя. Для более достоверной картины решил использовать значения медианы для заполнения пропусков в изучаемом датафрейме.

Сохраню каждое из необходимых значений медианы в переменные:

In [9]:
grouped_df = df_without_na.groupby('income_type').agg({'total_income': ['mean', 'median']})
civil_servant = grouped_df['total_income'].loc[:, 'median'][2]
associate = grouped_df['total_income'].loc[:, 'median'][3]
pensioner = grouped_df['total_income'].loc[:, 'median'][4]
entrepreneur = grouped_df['total_income'].loc[:, 'median'][5]
employee = grouped_df['total_income'].loc[:, 'median'][6]
print(civil_servant)
print(associate)
print(pensioner)
print(entrepreneur)
print(employee)

150447.9352830068
172357.95096577113
118514.48641164352
499163.1449470857
142594.39684740017


Вернусь к рабочему датафрейму и сначала применю метод fillna для замены отсутствующих значений в days_employed - так как значения этого столбца на данном этапе оценить невозможно, а на результат предобработки данных он не повлияет, то подставлю вместо NaN значений - 0.

In [10]:
df['days_employed'] = df['days_employed'].fillna(0)

In [11]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


И теперь самое важное: так как я посчитал значения не в цикле, то и заменить их в исходной таблице решил уже вручную, подставив в каждый из столбцов с условием конкретной группы (по типу занятости) переменную, равную рассчитанному медианному значению дохода по каждой из групп.

In [12]:
df.loc[(df['total_income'].isna()) & (df['income_type'] == 'госслужащий'), 'total_income'] = civil_servant
df.loc[(df['total_income'].isna()) & (df['income_type'] == 'компаньон'), 'total_income'] = associate
df.loc[(df['total_income'].isna()) & (df['income_type'] == 'пенсионер'), 'total_income'] = pensioner
df.loc[(df['total_income'].isna()) & (df['income_type'] == 'предприниматель'), 'total_income'] = entrepreneur
df.loc[(df['total_income'].isna()) & (df['income_type'] == 'сотрудник'), 'total_income'] = employee

Проверка - информация о таблице, согласно которой пропущенные значения должны отсутствовать:

In [13]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
None


### Вывод

Пропуски в таблице с данными присутствовали в 2-х столбцах: days_employed и total_income. Так как данные в столбце days_employed представлены в нерелевантном виде - отрицательные значения, а также значения, которые гораздо выше продолжительности любого реалистичного трудового стажа человека - и так как данные из этого столбца не будут использоваться на данном этапе анализа, то было решено в столбце заменить пропуски на 0. В столбце total_income выявленные пропуски (совпадающие полностью с пропусками в days_employed) было решено обработать и заполнить медианными значениями, полученными при расчете табличных данных без пропущенных значений, в зависимости от категории трудового типа потенциального заёмщика (т.е. сгруппировано по income_type).

### Замена типа данных

В целом, типы значений в столбцах исходной таблицы соответствуют своим значениям. Однако в целях сокращения длины строк приведём столбцы с вещественными числами в более ёмкий вид: 1) days_employed приведём к целочисленному виду, т.к. количество дней измеримо кратно 1 дню, вещественное число - слишком непрактичный вид информации. Данные значения необходимо сделать целыми числами. В идеале необходимо применить метод math.ceil, чтобы округление прошло до верхнего целого значения (раз день начался - об этом свидетельствует наличие дробной части - то его необходимо засчитывать), но так как данные конкретно этого стобца, в целом, нерелевантны и в данном анализе не будут учитываться, то воспользуемся более простым методом - int() - округление до целого числа, которое "отбрасывает" значения после запятой.

In [14]:
df['days_employed'] = df['days_employed'].astype('int')

print(df.head())

   children  days_employed  dob_years education  education_id  \
0         1          -8437         42    высшее             0   
1         1          -4024         36   среднее             1   
2         0          -5623         33   Среднее             1   
3         3          -4124         32   среднее             1   
4         0         340266         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

2) столбец total_income также, на самом деле, можно округлить до целого, т.к., как правило погрешность в интервале сотых частей рубля вряд ли как-то существенно повлияет на кредитный скоринг заёмщика. Применю тот же метод - int().

In [15]:
df['total_income'] = df['total_income'].astype('int')

print(df.head())

   children  days_employed  dob_years education  education_id  \
0         1          -8437         42    высшее             0   
1         1          -4024         36   среднее             1   
2         0          -5623         33   Среднее             1   
3         3          -4124         32   среднее             1   
4         0         340266         53   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M   сотрудник     0        145885   
3   женат / замужем                 0      M   сотрудник     0        267628   
4  гражданский брак                 1      F   пенсионер     0        158616   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жилья  


In [16]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB
None


### Вывод

Тип данных (float64) обоих столбцов с вещественными числами был заменен на тип данных int64 - целочисленные значения.

### Обработка дубликатов

Для начала проверю количество дубликатов без зменений регистра строковых значений и приведения его к единому виду.

In [17]:
print(df.duplicated().sum())

54


Теперь приведу регистр записей строковых значений к единому виду - нижнему регистру, воспользовавшись методом str.lower. На всякий случай, к нижнему регистру приведу 4 основных строковых столбца. И еще раз проверю информацию о количество записей-дубликатов.

In [18]:
df['education'] = df['education'].str.lower()
df['family_status'] = df['family_status'].str.lower()
df['income_type'] = df['income_type'].str.lower()
df['purpose'] = df['purpose'].str.lower()
print(df.duplicated().sum())

71


Количество полностью идентичных записей оказалось 71. Эти строки лучше сразу удалить из исходной таблицы и сбросить индексацию строк

In [19]:
df = df.drop_duplicates().reset_index(drop=True)
print(df.duplicated().sum())

0


### Вывод

Дубликаты были удалены, индексация строк сброшена. При проверке количества дубликатов после применения метода результат выдал 0 - означает, что примененный метод сработал.

In [20]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB
None


### Лемматизация

Воспользовавшись библиотекой pymystem3, можно выполнить лемматизацию столбца purpose - чтобы определить, какие слова использованы в описании целей получения кредита. Значения столбца перевёл сначала в список - с помощью метода tolist(), а затем из списка в текст (строковую запись), с помощью функции listToString. Сделано это по двум причинам: для применения метода lemmatize() необходим текст (тип данных string), а для подсчета встречаемости значений в столбце "цели приобретения кредита" - при использовании специального контейнера Counter из модуля collections - необходим список (list).

In [21]:
from pymystem3 import Mystem
m = Mystem()
list_for_lemmas = df['purpose'].tolist()


def listToString(l):  
    str1 = " "   
    return (str1.join(l)) 


text = listToString(list_for_lemmas)
lemmas = m.lemmatize(text)

In [22]:
from collections import Counter
print(Counter(list_for_lemmas))

Counter({'свадьба': 791, 'на проведение свадьбы': 768, 'сыграть свадьбу': 765, 'операции с недвижимостью': 675, 'покупка коммерческой недвижимости': 661, 'операции с жильем': 652, 'покупка жилья для сдачи': 651, 'операции с коммерческой недвижимостью': 650, 'покупка жилья': 646, 'жилье': 646, 'покупка жилья для семьи': 638, 'строительство собственной недвижимости': 635, 'недвижимость': 633, 'операции со своей недвижимостью': 627, 'строительство жилой недвижимости': 624, 'покупка недвижимости': 621, 'покупка своего жилья': 620, 'строительство недвижимости': 619, 'ремонт жилью': 607, 'покупка жилой недвижимости': 606, 'на покупку своего автомобиля': 505, 'заняться высшим образованием': 496, 'автомобиль': 494, 'сделка с подержанным автомобилем': 486, 'на покупку подержанного автомобиля': 478, 'автомобили': 478, 'свой автомобиль': 478, 'на покупку автомобиля': 471, 'приобретение автомобиля': 461, 'дополнительное образование': 460, 'сделка с автомобилем': 455, 'высшее образование': 452, 'об

### Вывод

Лемматизация проведена. Также проведен подсчет встречаемости значений в списке. По результатам видно, что достаточно часто одна и та же цель кредита записана в различных вариациях: например, цель кредита для свадьбы записана в трех различных вариациях, а цель кредита для покупки недвижимости встречается в паре десятков различных вариациях заполнения. Полученные данные можно будет использовать для категоризации данных таблицы по целям выдачи кредита - например, объединив все вариации заполнения цели "покупка недвижимости" в одну категорию и присвоения этой категории уникального id - т.е. необходимо будет создать новый столбец. Но для выполнения текущих заданий проекта данная категоризация пока не нужна, поэтому категоризацию буду проводить по другим ключевым факторам.

### Категоризация данных

Попробую применить только что полученные леммы с целью категоризации данных по целям приобретения кредита. Полученные леммы добавлю в список целей с помощь цикла - таким образом, чтобы каждая встречаемая лемма "свадьба" добавляла значение "свадьба" в мой список purpose_list, далее - каждая лемма "жилье" или "недвижимость" (категорию "ремонт" пока опущу, т.к. в этой лемме присутствует также слово "жилье", а это усложнит вопрос) добавляла в список значение "недвижимость", далее - "автомобиль" и "образование". То есть, изучив с помощью метода Counter (см. выше) все вариации указанных целей кредита я пришёл к выводу, что всего их можно выделить в 4 описанные категории и включить в список purpose_list.

In [23]:
purpose_list = []
number_of_rows = 0

for purpose in lemmas:
    if purpose == 'свадьба':
        purpose_list.append('свадьба')
        number_of_rows += 1
    elif purpose == 'недвижимость' or purpose == 'жилье':
        purpose_list.append('недвижимость')
        number_of_rows += 1
    elif purpose == 'автомобиль':
        purpose_list.append('автомобиль')
        number_of_rows += 1
    elif purpose == 'образование':
        purpose_list.append('образование')
        number_of_rows += 1

print(number_of_rows)

21454


Выведенное количество значений в списке, которое я также посчитал с помощью цикла - 21454 - полно совпало с количеством строк в исходной таблице, а это означает, что данный список можно преобразовать в отдельный новый столбец с названием purpose_category и добавить в исходную таблицу. (так как в каждой указанной цели кредита присутствует то или иное слово, которое можно отнести к 4-м выделенным мной категориям целей, то значения в новом столбце будут совпадать со смыслом указанных целей кредита purpose)

In [24]:
df['purpose_category'] = pd.Series(purpose_list)
print(df.head(10))

   children  days_employed  dob_years education  education_id  \
0         1          -8437         42    высшее             0   
1         1          -4024         36   среднее             1   
2         0          -5623         33   среднее             1   
3         3          -4124         32   среднее             1   
4         0         340266         53   среднее             1   
5         0           -926         27    высшее             0   
6         0          -2879         43    высшее             0   
7         0           -152         50   среднее             1   
8         2          -6929         35    высшее             0   
9         0          -2188         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

Позднее данная категоризация поможет ответить на вопрос о зависимости цели кредита и его возвратом в срок

Следующий вид категоризации - разделение всех заёмщиков на 2 категории: группа заёмщиков, у которых есть дети, и группа заёмщиков, у которых детей нет. Создам функцию children_group для разделения на "есть дети" и "нет детей" всех заёмщиков по данным столбца children изучаемой таблицы

In [25]:
def children_group(children):
        if children == 0:
            try:
                return 'нет детей'
            except:
                return 'неверно заполненные данные о детях'
        if children >= 1:
            try:
                return 'есть дети'
            except:
                return 'неверно заполненные данные о детях'


df['children_group'] = df['children'].apply(children_group)
print(df.head(10))

   children  days_employed  dob_years education  education_id  \
0         1          -8437         42    высшее             0   
1         1          -4024         36   среднее             1   
2         0          -5623         33   среднее             1   
3         3          -4124         32   среднее             1   
4         0         340266         53   среднее             1   
5         0           -926         27    высшее             0   
6         0          -2879         43    высшее             0   
7         0           -152         50   среднее             1   
8         2          -6929         35    высшее             0   
9         0          -2188         41   среднее             1   

      family_status  family_status_id gender income_type  debt  total_income  \
0   женат / замужем                 0      F   сотрудник     0        253875   
1   женат / замужем                 0      F   сотрудник     0        112080   
2   женат / замужем                 0      M

Теперь проверю необходимость категоризации данных по семейному положению заёмщиков.

In [26]:
print(df['family_status'].value_counts())

женат / замужем          12339
гражданский брак          4151
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64


Полагаю, что все заёмщики уже распределены на 5 различных смысловых категорий, в зависимости от их семейного положения. Выделять какие-то иные категории в данном ключе считаю нецелесообразным.

И последняя категория: по уровню дохода. Предлагаю разделить данные столбца total_income на 5 различных категорий, в зависимости от уровня: очень низкий (до 30 000 включительно), низкий (от 30001 до 50000 включительно), средний (от 50001 до 100000 включительно), высокий (от 100001 до 250000 включительно) и очень высокий (от 250001 и выше). Сделать это с помощью создания функции income_level и потом добавить эти данные в новый одноименный столбец.

In [27]:
def income_level(income):
        if 0 < income <= 30000:
            return 'очень низкий'
        if 30000 < income <= 50000:
            return 'низкий'
        if 50000 < income <= 100000:
            return 'средний'
        if 100000 < income <= 250000:
            return 'высокий'
        if income > 250000:
            return 'очень высокий'


df['income_level'] = df['total_income'].apply(income_level)

In [28]:
print(df['income_level'].value_counts())

высокий          14178
средний           4091
очень высокий     2813
низкий             350
очень низкий        22
Name: income_level, dtype: int64


С учётом полученных значений выяснилось, что выбранный способ разделения уровня дохода на группы - не лучший, т.к. большинство заёмщиков оказалось на уровне "высого" дохода. Чтобы перераспределить группы, попробую посчитать среднее значение по столбцу total_income.

In [29]:
print(df['total_income'].mean())

165319.57229421087


Далее - рассчитаю средние значения в интервалах до и после рассчитанного среднего значения.

In [30]:
print(df[df['total_income'] < 165000]['total_income'].mean())
print(df[df['total_income'] > 165000]['total_income'].mean())
print(df[df['total_income'] < 113000]['total_income'].mean())
print(df[df['total_income'] > 248000]['total_income'].mean())

113505.94986787467
248919.4540138872
84331.78122422042
345272.43363446835


Получились "пороги", которые можно принять за рубежи между уровнями, на которые можно перераспределить уровни дохода: низкий, ниже среднего, средний, выше среднего, высокий - также 5 уровней.

In [31]:
def income_level(income):
        if 0 < income <= 84000:
            return 'низкий'
        if 84000 < income <= 113000:
            return 'ниже среднего'
        if 113000 < income <= 248000:
            return 'средний'
        if 248000 < income <= 345000:
            return 'выше среднего'
        if income > 345000:
            return 'высокий'


df['income_level'] = df['total_income'].apply(income_level)

In [32]:
print(df['income_level'].value_counts())

средний          12515
ниже среднего     3365
низкий            2696
выше среднего     1955
высокий            923
Name: income_level, dtype: int64


Теперь распределение по группам, в зависимости от уровня дохода, выглядит чуть лучше: основное количество заёмщиков попадает в группу со средним уровнем дохода, что вполне закономерно.

### Вывод

Для подготовки к ответам на поставленные далее (в Шаге 3) вопросы данные изучаемой таблицы прошли категоризацию по нескольким признакам: наличие или отсутствие детей / семейное положение / уровень дохода / цели получения кредита.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Посчитаю количество неоплаченных в срок кредитов, сгруппировав всех заёмщиков по наличию или отсутствию детей. Отсортирую данные по убыванию.

In [33]:
print(df.groupby('children_group')['debt'].sum().sort_values(ascending=False))

children_group
нет детей    1063
есть дети     677
Name: debt, dtype: int64


Посчитаю общее количество заёмщиков, у которых нет детей, и общее количество тех заёмщиков, у которых дети есть.

In [34]:
df['children_group'].value_counts()

нет детей    14091
есть дети     7316
Name: children_group, dtype: int64

Теперь проведу несколько операций для подготовки списков, которые можно будет включить в новый датафрейм, в котором будет рассчитан % неоплаченных в срок кредитов у двух выделенных групп заёмщиков. Операции - по переводу полученных значений в списки, затем создание одного списка final_list, который будет использован в формировании нового датафрейма.

In [35]:
children_group_list = df['children_group'].value_counts().tolist()
children_debt_list = df.groupby('children_group')['debt'].sum().sort_values(ascending=False).tolist()

In [36]:
print(children_group_list)
print(children_debt_list)

[14091, 7316]
[1063, 677]


In [37]:
final_list = [[children_group_list[0], children_debt_list[0]], [children_group_list[1], children_debt_list[1]]]
print(final_list)
columns_children = ['group', 'debt']

[[14091, 1063], [7316, 677]]


Создам этот датафрейм

In [38]:
children_debt = pd.DataFrame(data = final_list, columns = columns_children)
print(children_debt)

   group  debt
0  14091  1063
1   7316   677


И добавлю в него новый столбец - который позволяет рассчитать % неоплаченных в срок кредитов в каждой из выделенных групп заёмщиков.

In [39]:
children_debt['percentage_of_debt'] = children_debt['debt'] / children_debt['group'] * 100
print(children_debt)

   group  debt  percentage_of_debt
0  14091  1063            7.543822
1   7316   677            9.253691


### Вывод

Если просто сгруппировать заёмщиков по признаку "есть дети" или "нет детей" и посчитать количество неоплаченных в срок кредитов, то покажется, что у группы тех заёмщиков, у кого нет детей, количество таких кредитов выше. Однако если рассмотреть относительные показатели и вывести % неоплаченных в срок кредитов по каждой из групп, то выяснилось, что у группы тех заёмщиков, у которых дети есть, результат хуже - 9,25% неоплаченных в срок кредитов (против 7,54% у тех, у кого детей нет).
Зависимость есть, притом, обратная.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Сгруппирую данные по количество невозвращенных / непогашенных в срок кредитов, в зависимости от семейного статуса заёмщиков. Сразу отсортирую данные по убыванию.

In [40]:
print(df.groupby('family_status')['debt'].sum().sort_values(ascending=False))

family_status
женат / замужем          931
гражданский брак         388
не женат / не замужем    274
в разводе                 85
вдовец / вдова            63
Name: debt, dtype: int64


Посчитаю количество заёмщиков в каждой из обозначенных категорий, в зависимости от семейного статуса.

In [41]:
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

Переведу эти значения в списки.

In [42]:
family_status_list = df['family_status'].value_counts().tolist()
family_debt_list = df.groupby('family_status')['debt'].sum().sort_values(ascending=False).tolist()

С помощью цикла создам список списков - для последующего преобразования в таблицу с данными (датафрейм), и тут же, в цикле добавлю значения для третьего столбца будущей таблицы - % невозвращенных / неоплаченных в срок кредитов

In [43]:
second_final_list = []
for x in range(len(family_status_list)):
    second_final_list.append([family_status_list[x], family_debt_list[x], family_debt_list[x] / family_status_list[x] *100])

print(second_final_list)

[[12339, 931, 7.5451819434313965], [4151, 388, 9.347145266200915], [2810, 274, 9.750889679715302], [1195, 85, 7.112970711297072], [959, 63, 6.569343065693431]]


Создам новый датафрейм family_debt на основе полученного списка списков, с тремя столбцами.

In [44]:
columns_family = ['status_count', 'status_debt', 'rate']
family_debt = pd.DataFrame(data = second_final_list, columns = columns_family)
print(family_debt)

   status_count  status_debt      rate
0         12339          931  7.545182
1          4151          388  9.347145
2          2810          274  9.750890
3          1195           85  7.112971
4           959           63  6.569343


### Вывод

Зависимость есть. Наибольший процент невозвращенных / непогашенных в срок кредитов отмечается у двух групп заёмщиков - у тех, кто не женат / не замужем (9,75%), и у тех, кто состоит в гражданском браке (9,35%). Наименьший - у тех, кто в разводе (7,11%), но и примерно на таком же уровне и основная группа заёмщиков - те, кто женат / замужем (7,55%).

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [45]:
print(df.groupby('income_level')['debt'].sum().sort_values(ascending=False))

income_level
средний          1059
ниже среднего     278
низкий            206
выше среднего     136
высокий            62
Name: debt, dtype: int64


In [46]:
df['income_level'].value_counts()

средний          12515
ниже среднего     3365
низкий            2696
выше среднего     1955
высокий            923
Name: income_level, dtype: int64

In [47]:
income_level_list = df['income_level'].value_counts().tolist()
income_debt_list = df.groupby('income_level')['debt'].sum().sort_values(ascending=False).tolist()

In [48]:
third_final_list = []
for x in range(len(income_level_list)):
    third_final_list.append([income_level_list[x], income_debt_list[x], income_debt_list[x] / income_level_list[x] *100])


In [49]:
columns_income = ['income_level_count', 'debt_count', 'rate']
income_debt = pd.DataFrame(data = third_final_list, columns = columns_income)
print(income_debt)

   income_level_count  debt_count      rate
0               12515        1059  8.461846
1                3365         278  8.261516
2                2696         206  7.640950
3                1955         136  6.956522
4                 923          62  6.717226


### Вывод

Зависимость имеется: наибольшая доля непогашенных / невозвращенных в срок кредитов (8,46%) наблюдается у заёмщиков со средним уровнем дохода, а также у заёмщиков с уровнем дохода ниже среднего. Наименьшая - у заёмщиков с высоким уровнем дохода (6,72%).

- Как разные цели кредита влияют на его возврат в срок?

In [50]:
print(df.groupby('purpose_category')['debt'].sum().sort_values(ascending=False))

purpose_category
недвижимость    782
автомобиль      403
образование     370
свадьба         186
Name: debt, dtype: int64


In [51]:
df['purpose_category'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_category, dtype: int64

In [52]:
purpose_list = df['purpose_category'].value_counts().tolist()
purpose_debt_list = df.groupby('purpose_category')['debt'].sum().sort_values(ascending=False).tolist()

In [53]:
fourth_final_list = []
for x in range(len(purpose_list)):
    fourth_final_list.append([purpose_list[x], purpose_debt_list[x], purpose_debt_list[x] / purpose_list[x] *100])


In [54]:
columns_purpose = ['purpose_cat_count', 'debt_count', 'rate']
purpose_debt = pd.DataFrame(data = fourth_final_list, columns = columns_purpose)
print(purpose_debt)

   purpose_cat_count  debt_count      rate
0              10811         782  7.233373
1               4306         403  9.359034
2               4013         370  9.220035
3               2324         186  8.003442


### Вывод

Наибольшая доля невозвращенных / непогашенных в срок кредитов наблюдается у кредитов, взятых на приобретение автомобиля (9,36%) и на образование (9,22%), а, как раз, наименший (наилучший) показатель - у кредитов, связанных с приобретением или ремонтом жилья (7,23%).

### Шаг 4. Общий вывод

Данные приведены в более адекватный вид для их дальнейшего анализа; пропуски убраны и заменены; дубликаты удалены; тип данных изменен с вещественного на целочисленный (в 2-х необходимых столбцах); лемматизация и категоризация данных проведена.

Из изначальных 21525 строк в исходной таблице с данными благодаря операциям по заполнению пропусков и удалению дубликатов осталось 21454 строки (был удален 71 дубликат). Пропуски в общем количестве 2174 строки встречались только в 2-х столбцах исходной таблицы: days_employed и total_income. Так как данные в первом столбце (days_employed) в большинстве случаев были внесены некорректно и являются нерелевантными для данного анализа, то пропущенные значения было решено заменить на 0, а данные в столбце total_income - на медианные значения дохода по каждой из категорий/групп заёмщиков, в соответствии со столбцом income_type.

Благодаря данному анализу информация о кредитах и заёмщиках структурирована и категоризирована. Определены группы заёмщиков, в зависимости от их семейного положения, от наличия или отсутствия детей, от уровня дохода, а также от целей оформления кредита.
Благодаря полученным результатам, включая как абсолютные количественные показатели (количества взятых кредитов по каждой из групп), так и относительных показатей (доля неоплаченных / не погашенных в срок кредитов по каждой из групп) можно применять данный анализ для дальнейшей работы по кредитному скорингу / оценки кредитоспособности заёмщиков.

Из интересных наблюдений: цель оформления кредита - недвижимость - самая распространенная (10811 кредитов из 21454 всех анализируемых кредитов) и, при этом, наименее "рискованная", согласно показателю доли не оплаченных в срок кредитов - 7,23% кредита не было оплачено или погашено в срок, а наиболее рискованная категория целей - приобретение автомобиля (9,36% не оплаченных в срок кредитов).
Также было установлено, что отсутствие детей - это, скореее, положительный фактор, влияющий на возврат / погашение кредита в срок, нежели наличие детей.

Наименее привлекательной группой заёмщиков по, опять же, доле возврата кредитов в срок, оказались заёмщики со средним уровнем дохода. Но это вполне закономерно, учитывая тот факт, что и общее количество заёмщиков из этой категории дохода наибольшее. И, скорее всего, заёмщики со средним уровнем дохода чаще не могут адекватно и рационально оценить свои возможности по взятию кредита, на ту или иную сумму, и оплатам по кредиту в срок.