## Название проекта - Исследование надежности заемщиков

В рамках этого проекта мы должны проанализировать данные, предоставленные кредитным отделом банка. Наша задача — выяснить, влияют ли такие факторы, как количество детей у клиента и его семейное положение, на своевременность погашения кредита.  
  
**Цель проекта** — определить связь количества детей и семейное положение клиента со своевременностью возврата кредита.  
 
**Задачи:**  
1. Провести предварительную обработку данных.  
	а) Удаление пропусков.  
	б) Поиск и устранение аномальных значений.  
	в) Изменение при необходимости типов данных.  
	г) Дополнение данных.
2. Провести исследовательский анализ данных и выяснить взаимосвязь возрата кредита в срок со следующими признаками:  
	а) с количеством детей;  
	б) с семейным положением;  
	в) с уровнем дохода;  
	г) с целью кредита.  
3. Сформулировать общий итог на основании выявленных закономерностей.  
 
**Описание данных.**  
Исходные данные находятся в датасете 'data.csv'.
* children — количество детей в семье;  
* days_employed — общий трудовой стаж в днях;  
* dob_years — возраст клиента в годах;  
* education — уровень образования клиента;  
* education_id — идентификатор уровня образования;  
* family_status — семейное положение;  
* family_status_id — идентификатор семейного положения;  
* gender — пол клиента;  
* income_type — тип занятости;  
* debt — имел ли задолженность по возврату кредитов;  
* total_income — ежемесячный доход;  
* purpose — цель получения кредита.

## Загрузка данных

Для начала работы с данными загрузим необходимые для этого библиотеки.

In [2]:
import pandas as pd

Считаем данные из csv-файла в датафрейм и сохраним в переменную data. Путь к файлу: "/datasets/data.csv".

In [3]:
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

Чтобы убедиться в корректности сохранения данных, выведем первые 20 строчек датасета.

In [4]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


А также выведем основную информацию о датафрейме с помощью метода info().

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Подведем предварительный итог по первому этапу работы. Все произведённые манипуляции были произведены верно, данные отображаются корректно.  
Перейдём к предварительной обработке данных.

## Предобработка данных

Выведем количество пропущенных значений для каждого столбца. Лучше для этого использовать комбинацию двух методов.

In [6]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце мы обработаем на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.

In [7]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

Повторно проверим пропуски в данных для проверки успешности изменений.

In [8]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

Теперь перейдём к поиску аномальных значений в данных. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработанем значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.

In [9]:
data['days_employed'] = data['days_employed'].abs()

Для каждого типа занятости выведем медианное значение трудового стажа `days_employed` в днях.

In [10]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть.  
Выведите перечень уникальных значений столбца `children`.

In [11]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [12]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.

In [13]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Продолжим работу с пропусками и заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.

In [14]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

Убедитмся, что все пропуски заполнены. Проверм себя и ещё раз выведите количество пропущенных значений для каждого столбца.

In [15]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Теперь заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.

In [16]:
data['total_income'] = data['total_income'].astype(int)

Сейчас оработаем неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём их к нижнему регистру.

In [17]:
data['education'] = data['education'].str.lower()

Выведем на экран количество строк-дубликатов в данных. И если такие строки присутствуют, удалим их.

In [18]:
data.duplicated().sum()

71

In [19]:
data = data.drop_duplicates()

Дополним данные категориальными значниями. На основании диапазонов, указанных ниже, создадим в датафрейме `data` столбец `total_income_category` с категориями:  

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.  


Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Будем использовать собственную функцию с именем `categorize_income()` и метод `apply()`.

In [20]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [21]:
# Теперь применим полученную функцию для создания нового столбца с категориями доходов клиентов.
data['total_income_category'] = data['total_income'].apply(categorize_income)

Выведем на экран перечень уникальных целей взятия кредита из столбца `purpose`.

In [22]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.

In [23]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [24]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

Подведём предварительный итог по произведёнными действиям на этапе предобработки данных. На втором этапе мы постарались подготовить данные для последующего анализа. Для этого были предприняты следующие действия:  
* Обнаружены и устранены пропуски в двух столбцах наиболее подходящими для этого данными;
* Обнаружены аномальные значения, влияние которых на данные были учтены и при необходимости удалены из датасета;
* Добававлены два столбца с категориальными значениями.  

Теперь перейдём к исследовательскому анализу данных.

## Исследовательский анализ данных

Теперь рассмотрим данные более подробно для ответа на центральыне вопросы, первый из которых:  
Есть ли зависимость между количеством детей и возвратом кредита в срок?  
Для ответа на вопрос нам нужно сгруппировать данные по клиентам, имеющих детей, и сопоставить их с наличии у них задолженностей по кредиту. При этом выведем дополнительно численность клиентов в каждой категории, сколько из них имеют задолженность, а также показатель среднего значения.

In [25]:
debts_with_children = data.groupby('children').agg({'debt':['count', 'sum', 'mean']})
debts_with_children

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14091,1063,0.075438
1,4808,444,0.092346
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


**Вывод:** 
По полученным данным можно сделать вывод, что практически не имеет значение сколько у клиента детей - случаи задержки платежей одинаково вероятны. Если же у клиента вовсе нет детей, то более вероятно, что он будет производить выплаты согласно установленному сроку. Начиная с клиентов, имеющих трёх и детей и больше, сложно делать уверенные выводы по причине малой выборки обсуждаемых групп, требуются дополнительные исследования с расширением выборки.  

Второй вопрос: Есть ли зависимость между семейным положением и возвратом кредита в срок?  
Для выяснения зависимости между семейным положение и возвратом кредита в срок повторим грипировку, на этот раз 
по столбцу семейного статуса и сравним его с наличием задолженности по кредиту.

In [26]:
debts_with_family = data.groupby('family_status').agg({'debt':['count', 'sum', 'mean']})
debts_with_family

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


**Вывод:** наличие семейного статуса клиента, пусть даже и бывшего, повышает его надежность погашения выплат без задолженностей. Клиенты же, никогда не бывшие в браке или состоящие в неофициальных отношениях, вероятнее будут допускать задолженности в выплатах по сравнению с прочими категориями клиентов.  
*Комментарии:*
Можно предположить, что семейный статус косвенно влияет на увеличение числа задолженностей. Однако более значимую роль, вероятно, играет другой фактор, который не был учтён в данном исследовании, а именно возраст клиентов.
Большинство людей вступают в брак в период от 20 до 30 лет. Для того чтобы получить высокооплачиваемую работу, обычно требуется опыт (включая полезные знакомства) и соответствующее образование. Это достигается, как правило, со временем.  
Следующий этап в отношениях, к которому приходят молодые люди, — это гражданский брак. Фактически, это те же неженатые/незамужние люди, но теперь они пробуют себя в новой роли — ответственных не только за себя. Это может указывать на некоторое снижение вероятности того, что такие клиенты допустят задолженность.
Аналогичная тенденция увеличения надёжности клиентов прослеживается и в последующие периоды взросления людей (юность — отношения — брак — развод — вдовство).  

Третий вопрос: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?  
Сгруппируем данные по категориям общего дохода к показателю наличия задолженности.

In [27]:
debts_with_income = data.groupby('total_income_category').agg({'debt':['count', 'sum', 'mean']})
debts_with_income

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,25,2,0.08
B,5014,354,0.070602
C,15921,1353,0.084982
D,349,21,0.060172
E,22,2,0.090909


**Вывод:** исходя из выявленных закономерностей по полученным данным можно утверждать, что уровень дохода оказывает некоторое влияние на наличие долгов у клиентов банка. Наиболее часто можно столкнуться с просроченными платежами, работая с клиентами с низким уровнем дохода. Однако данная категория является также и менее представленной в этом исследовании. Примерно тот же недостаток можно наблюдать в отношении клиентов, имеющих наиболее высокий уровень дохода. Клиенты, имеющие средний показатель доходов, чаще  допускают задолженности, чем имеющие умеренно-высокий доход. Вместе с тем, клиенты со средним уровнем доходов составляют собой абсолютное большинство из представленных здесь.  
*Комментарии:* Клиенты со средним уровнем дохода представлены в исследовании наиболее полно. Можно выделить два основных момента, связанных с этой группой:  
1. Люди со средним уровнем дохода чаще берут кредиты.  
2. Однако они также чаще имеют задолженности по кредитам.  

Из-за малого числа малообеспеченных клиентов в исследовании следует воздержаться от окончательных выводов.  
Кажется, клиенты со средним уровнем дохода чаще обращаются к кредитам, потому что не могут позволить себе единовременные крупные покупки. Однако из-за непредсказуемых осложнений или трудностей в управлении личными финансами они могут пропустить условленный срок по выплатам. Клиенты с умеренно-высокими доходами обращаются к кредитам реже. Вероятно, они делают это только в случае планирования особо крупных покупок с планом досрочного более выгодного погашения. Таким образом, мы видим, что большинство клиентов банков, оформляющих кредиты, относятся к средней категории уровня доходов. Однако именно они чаще всего имеют долги по кредитам.  
Решение, принимаемое в отношении этой категории клиентов, должно полностью учитывать соотношение пользы и вреда для бизнеса.  

Четвёртый вопрос:  Как разные цели кредита влияют на его возврат в срок?  
Для ответа на данный вопрос мы вновь сгруппируем данные, теперь уже по столбцу категорий целей и рассмотрим их данные по задолженностям.

In [28]:
debts_with_purpose = data.groupby('purpose_category').agg({'debt':['count', 'sum', 'mean']})
debts_with_purpose

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,sum,mean
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4279,400,0.09348
операции с недвижимостью,10751,780,0.072551
получение образования,3988,369,0.092528
проведение свадьбы,2313,183,0.079118


**Вывод:** цели, на которые клиенты берут кредит и при этом реже других допускают нарушение сроков оплаты, являются операции с недвижимостью и проведение свадьбы. В противоположность, наиболее часто клиенты имеют задолженности по платежам за кредит на операции с автомобилем и получение образования.  
*Комментарии:* Наиболее рискованными с точки зрения возникновения задолженности являются цели, связанные с покупкой автомобиля и получением образования. Это объясняется динамикой и изменчивостью этих рынков. При покупке автомобиля и оплате обучения существует риск столкнуться с мошенниками, что может серьёзно повлиять на финансовое благополучие клиента.  
Отличительной особенностью рынка недвижимости является возможность получения прибыли или снижения расходов при использовании объекта покупки. Прибыль от приобретения недвижимости можно получать, сдавая её в аренду, перепродавая после ремонта или другими менее очевидными способами. К покупке недвижимости обычно готовятся заранее, накапливая финансовые резервы и распределяя обязанности, что повышает ответственность в отношении условленных выплат. Свадьба также может окупиться в ближайшее время.  
Для предотвращения возникновения проблем можно привлекать клиентов, которым требуются кредитные услуги для покупки недвижимости и организации свадеб. Этого можно достичь с помощью рекламы и разработки более выгодных условий для соответствующих категорий расходов. Также можно работать с категориями клиентов, которые чаще других допускают задолженности, внедряя дополнительные условия для заключения договоров, например, покупку автомобиля только у официальных дилеров или с составлением заключения о состоянии транспортного средства, проверку лицензии организации, предоставляющей услуги обучения, или составление перечня профессий, которые имеют наибольший шанс остаться востребованными, для которых предоставляются более лояльные условия.  

Вопрос пятый: Приведите возможные причины появления пропусков в исходных данных.  
*Ответ:* 
1. Ошибки при копировании или переносе данных могут быть связаны с человеческим фактором или техническими неполадками.  

2. Ошибки могут возникать при переносе данных из одного формата в другой.  

3. Ошибки в отчётах могут быть следствием небрежности или частой смены ответственных сотрудников.  

Вопрос шестой: Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.  
*Ответ:* Среднее значение не будет способствовать точности исследования, так как будет больше отклнонять показатели в сторону наиболее больших или наиболее малых значений. Медиана не отклоняет общую направленность данных, позволяя работать с ними, исключая возможные искажения.  

Подведём предварительный вывод на этапе исследователького анализа данных. Нами были изучены данные и получены ответа на интересующие заказчика вопросы. При этом были даны соответствующие пояснения и умозаключения.  
Теперь составим общий вывод по проведённому исследованию.

## Общий вывод

В ходе исследования мы выявили некоторые аспекты формирования задолженностей. Мы проанализировали различные группы клиентов и искали закономерности изменения средних значений наличия задолженностей.  
1) Сначала мы попытались понять, влияет ли наличие детей на увеличение числа задолженностей.  
* Полученные данные подтверждают, что клиенты с детьми реже возвращают кредиты в срок. При этом не так важно, сколько у клиента детей — их показатели варьируются в пределах схожих значений. Среднее значение задолженности для клиентов с двумя детьми находится в диапазоне **0,092** и достигает максимального значения в **0,097** для клиентов с четырьмя детьми.  
* Клиенты без детей показывают значительно меньшее значение — **0,075**. Поэтому они кажутся более надёжными в плане возврата долгов в установленный срок.  
* Небольшая аномалия, которая наблюдается в расчётах по клиентам с пятью детьми, объясняется малой выборкой в этой категории клиентов.  


2) На следующем этапе мы хотели выяснить, влияет ли семейный статус на риск возникновения долга у клиента.  
* Исследование показало, что наиболее рискованными категориями клиентов, чаще других допускающими возникновение задолженностей, являются неженатые/незамужние клиенты **(0,097)** и те, кто состоит в гражданском браке **(0,093)**.  
* С другой стороны, наиболее надёжными клиентами **(0,075)** являются женатые/замужние клиенты, которые также являются самыми многочисленными по общему числу **(12 261)**.  

3) Далее было выяснено являются ли клиенты определённого уровня дохода более склонными к долгам, чем другие. 
* Наименьшую надежность показывают клиенты среднего уровня доходов **(0,084)**. Но, вместе с тем, данная категория имеет и наибольшее количество кредитов **(15 921)**, что почти в три раза превышает число кредитов даже более обеспеченных клиентов. 
* Наиболее надежными категориями клиентов можно считать имеющих умеренно-высокий **(0,07)** и умеренно-низкий доход **(0,06)**. * В виду малой выборки крайние категории малообеспеченных и высокообеспеченных учитывать нецелесообразно, требуются дополнительные исследования. 

4) Также было исследовано влияет ли определённая цель, на которую клиенты берут кредиты, на увеличение вероятности последующих долгов по выплатам. 
* Чаще задолженности возникают у клиентов, взявшие кредит на операции с автомобилем, показывающие максимальные **0,093** среднего показателя задолженности; а также получение образования с тем же показателем в **0,092**. При этом данные категории имеют схожее число оформленных кредитов **(4 279 и 3 988)** и являются средними значениями в данной выборке. 
* Наиболее популярной целью на оформление кредита являются операции с недвижимостью, также являясь и наиболее надежной в точки зрения возникновения задолженностей **(0,072)**. Проведение свадеб также весьма положительно влияет на снижение количества долгов **(0,079)**, но при этом является наименее популярной целью для оформления кредита **(2 313)**.