<h2>Описание проекта <a class="tocSkip"> </h2>

**Заказчик** — кредитный отдел банка.
    
**Цель проекта** - выявить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 

**Задачи проекта** - обработать и исследовать полученные данные.

**Входные данные от банка** — статистика о платёжеспособности клиентов. Ниже описаны значения столбцов:
- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

<a id="introduction"></a>

**План работ:**

- [Изучение общей информации о данных](#start)
- [Предобработка данных](#preprocessing)
- [Ответы на поставленные вопросы](#analyzing)
- [Вывод](#end)


## Изучение общей информации о данных

<a id="start"></a>

In [126]:
#Импортируем библиотеку pandas
import pandas as pd

In [127]:
data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [128]:
#Изучим первые 20 строк датафрейма
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [129]:
#Выведем общую информацию о данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В данных присутствуют пропуски в столбцах:
- `days_employed`
- `total_income`

## Предобработка данных
[Описание проекта](#introduction)

<a id="preprocessing"></a>

### Удаление пропусков

In [130]:
#Посмотрим на количество пропущенных значений для каждого столбца
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Заполним пропуски в столбце `total_income` медианными значениями по каждому типу занятости из столбца `income_type`, потому что он хранит данные о доходах, а на сумму дохода сильнее всего влияет тип занятости.

In [131]:
#Напишем цикл, который заполнит пропуски в total_income' по типу занятости из 'income_type'
for _ in data['income_type'].unique():
    data.loc[(data['income_type'] == _) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == _), 'total_income'].median()

### Обработка аномальных значений

In [132]:
#В столбце days_employed присутсвуют отрицательные значения - ошибка выгрузки
#Обработаем значения и заменим все отрицательные значения положительными методом abs()
data['days_employed'] = data['days_employed'].abs()

In [133]:
#Выведем для каждого типа занятости медианное значение трудового стажа
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставим как есть. Также этот столбец не понадобится нам в дальнейшем.

In [134]:
#Выведем перечень уникальных значений столбца `children`
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

В столбце `children` есть два аномальных значения. Удалим строки, в которых встречаются такие аномальные значения из датафрейма `data`.

In [135]:
#Удаляем строки с аномальными значениями
data = data[(data['children'] != -1) & (data['children'] != 20)]

In [136]:
#Заполним пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

In [137]:
#Убедимся, что все пропуски заполнены
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

In [138]:
#Заменим вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

In [139]:
#Обработаем неявные дубликаты в столбце `education`
data['education'] = data['education'].str.lower()

In [140]:
#Выведем на экран количество строк-дубликатов в данных
data.duplicated().sum()

71

In [141]:
#Удалим 71 дубликат
data = data.drop_duplicates()

### Категоризация данных

Создадим в датафрейме `data` столбец `total_income_category` с категориями:
- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [142]:
#Напишем функцию на вход которой будет подаваться значением из столбца 'total_income',
#а на выходе будем получать категорию
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [143]:
#Применим нашу функцию
data['total_income_category'] = data['total_income'].apply(categorize_income)

In [144]:
#Выведем на экран перечень уникальных целей взятия кредита
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [145]:
#Напишем функцию, которая будет проверять наличие ключевой части слова в строке 
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [146]:
#Применим функцию
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

## Ответы на поставленные вопросы
[Описание проекта](#introduction)

<a id="analyzing"></a>

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [147]:
#Создадим сводную таблицу
data_pivot_children = data.pivot_table(index = 'children', values = 'debt', aggfunc = 'count')
#Добавим столбец с количеством должников
data_pivot_children['number_of_debtors'] = data.groupby('children')['debt'].sum()
#Добавим столбец с долей должников от общей массы
data_pivot_children['percentage_of_debtors'] = round(data_pivot_children['number_of_debtors'] / data_pivot_children['debt'] * 100, 2)
#Переименуем первый столбец с количеством заемщиков
data_pivot_children = data_pivot_children.rename(columns={'debt':'number_of_borrower'})
data_pivot_children


Unnamed: 0_level_0,number_of_borrower,number_of_debtors,percentage_of_debtors
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54
1,4808,444,9.23
2,2052,194,9.45
3,330,27,8.18
4,41,4,9.76
5,9,0,0.0


In [148]:
# Посчитаем медианный процент невозврата кредита среди тех, у кого есть дети.
# Считаем медианой, потому что в данных мало данных по людям, у которых 5 детей - 
# это может сильно исказить значение средней.
avg_child = round(data_pivot_children.loc[1:]['percentage_of_debtors'].median(), 2)
avg_child

9.23

In [149]:
#Посчитаем разницу между процентами
round(avg_child - data_pivot_children.loc[0, 'percentage_of_debtors'], 2)

1.69

**Вывод: было выявленно то, что есть прямая зависимость между наличием детей и возвратом кредита в срок. Шанс того, что человек , у которого нету детей, вернет кредит в срок больше чем у того, у кого ребенок есть. В среднем человек, у которого есть дети задолжает по кредиту с вероятностью на `1.69%` больше.**

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [150]:
#Создадим сводную таблицу
data_pivot_status = data.pivot_table(index ='family_status', values = 'debt', aggfunc = 'count').sort_values('debt', ascending = False)
#Добавим столбец с количеством должников в каждой категории
data_pivot_status['number_of_debtors'] = data.groupby('family_status')['debt'].sum()
#Добавим столбец с долей должников от общей массы
data_pivot_status['percentage_of_debtors'] = round(data_pivot_status['number_of_debtors'] / data_pivot_status['debt'] * 100, 2)
#Переименуем столбец с заемщиками
data_pivot_status = data_pivot_status.rename(columns={'debt':'number_of_borrower'})
#Отсортируем значения по убыванию доли должников
data_pivot_status = data_pivot_status.sort_values('percentage_of_debtors', ascending = False)
data_pivot_status

Unnamed: 0_level_0,number_of_borrower,number_of_debtors,percentage_of_debtors
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.76
гражданский брак,4134,385,9.31
женат / замужем,12261,927,7.56
в разводе,1189,84,7.06
вдовец / вдова,951,63,6.62


**Вывод: было выявленно, что люди, состоящие/состоявшие в официальном браке имеют больший шанс погасить задолженность по кредиту в срок - это следующие категории граждан (в порядке убывания шанса непогашения кредита в срок):**
 - женат / замужем - `7.56%`
 - в разводе - `7.06%`
 - вдовец / вдова - `6.62%`

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


In [151]:
#Создадим сводную таблицу
data_pivot_salary = data.pivot_table(index ='total_income_category', values = 'debt', aggfunc = 'count')
#Добавим столбец с количеством должников в каждой категории
data_pivot_salary['number_of_debtors'] = data.groupby('total_income_category')['debt'].sum()
#Добавим столбец с долей должников от общей массы
data_pivot_salary['percentage_of_debtors'] = round(data_pivot_salary['number_of_debtors'] / data_pivot_salary['debt'] * 100, 2)
#Переименуем столбец с заемщиками
data_pivot_salary = data_pivot_salary.rename(columns={'debt':'number_of_borrower'})
data_pivot_salary

Unnamed: 0_level_0,number_of_borrower,number_of_debtors,percentage_of_debtors
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,8.0
B,5014,354,7.06
C,15921,1353,8.5
D,349,21,6.02
E,22,2,9.09


**Вывод: больше всего кредитов берут люди, которых можно отнести к группе со средним достатком - категория `"С"`. Для точной оценки не хватает данных по остальным категориям, по получившимся результатам из таблицы можно лишь предположить, что чем выше зарплатная категория, тем чаще кредит возвращается в срок.** 

#### Как разные цели кредита влияют на его возврат в срок?

In [152]:
#Создадим сводную таблицу
data_pivot_purpose = data.pivot_table(index ='purpose_category', values = 'debt', aggfunc = 'count')
#Добавим столбец с количеством должников в каждой категории
data_pivot_purpose['number_of_debtors'] = data.groupby('purpose_category')['debt'].sum()
#Добавим столбец с долей должников от общей массы
data_pivot_purpose['percentage_of_debtors'] = round(data_pivot_purpose['number_of_debtors'] / data_pivot_purpose['debt'] * 100, 2)
data_pivot_purpose = data_pivot_purpose.sort_values('percentage_of_debtors', ascending = False)
#Переименуем столбец с заемщиками
data_pivot_purpose = data_pivot_purpose.rename(columns={'debt':'number_of_borrower'})
data_pivot_purpose

Unnamed: 0_level_0,number_of_borrower,number_of_debtors,percentage_of_debtors
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4279,400,9.35
получение образования,3988,369,9.25
проведение свадьбы,2313,183,7.91
операции с недвижимостью,10751,780,7.26


**Вывод**

 Данные в таблице были отсортированы по убыванию доли должников в категории, исходя из полученных данных следует:
 - больше всего не возвращаются в срок кредиты, связанные с автомобилями, доля составляет `9.35%` от всего количества в категории `операции с автомобилем`
 - после следует категория `получение образования`, доля составляет `9.25%` от всего количества.
 - доля составляет `7.91%` от всего количества кредитов, взятых на проведение свадьбы.
 - больше всего в срок возвращаются кредиты, связанные с покупкой недвижимости `7.26%`



#### Возможные причины появления пропусков в исходных данных

- `Технологическая ошибка выгрузки данных, потому что в пропусках нет хаотичности, пропуски имели четкий алгоритм - если в столбце "days_employed" есть пропуск, то и в "total_income" есть пропуск`,
- `Наличие какого - то заполнения алгоритма в заполнении данных у кредитного отдел банка. Например, сотрудники банка ставят пропуски по причине того, что клиент является безработным, эту гипотезу необходимо уточнять.`

## Вывод
[Описание проекта](#introduction)

<a id="end"></a>

В ходе исследования было выявленно то, что:
- есть прямая зависимость между наличием детей и возвратом кредита в срок. Шанс того, что человек , у которого нету детей, вернет кредит в срок больше чем у того, у кого ребенок есть. В среднем человек, у которого есть дети задолжает по кредиту с вероятностью на `1.69%` больше.**
- люди, состоящие/состоявшие в официальном браке имеют больший шанс погасить задолженность по кредиту в срок - это следующие категории граждан (в порядке убывания шанса непогашения кредита в срок):
    - женат / замужем - `7.56%`
    - в разводе - `7.06%`
    - вдовец / вдова - `6.62%`
- больше всего кредитов берут люди, которых можно отнести к группе со средним достатком - категория `"С"`. Для точной оценки не хватает данных по остальным категориям, по получившимся результатам из таблицы можно лишь предположить, что чем выше зарплатная категория, тем чаще кредит возвращается в срок.
- больше всего не возвращаются в срок кредиты, связанные с автомобилями, доля составляет `9.35%` от всего количества в категории `операции с автомобилем`
- больше всего в срок возвращаются кредиты, связанные с покупкой недвижимости `7.26%`

<h2>Рекомендации заказчику <a class="tocSkip"> </h2>
    
 - `Проверить систему выгрузки данных, в полученном датасете есть пропуски, но они систематезированные, имеют четкий алгоритм - если в столбце "days_employed" есть пропуск, то и в "total_income" есть пропуск`.
    
 - `Если пропуски не связанны с технической частью, и они были оставлены или не заполнены умышленно сотрудниками банка, то вместо пропусков было бы удобно ставить значение/слово "заглушку".`