# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [None]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [None]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [None]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [None]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [None]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [None]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [None]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [None]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [None]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [None]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [None]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [None]:
data.duplicated().sum()

71

In [None]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [None]:
data.head(5)#вызов таблицы для поиска нужных данных

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Создание функции для поиска зависимостей в данных:

In [None]:
def calculate_debt_percent(data, column_x, column_y):
    total = data.groupby(column_y).size().reset_index(name='total')
    group_debt = data[data[column_x] == 1]
    debt_count = group_debt.groupby(column_y).size().reset_index(name='debt_count')
    result_data = debt_count.merge(total, on=column_y, how='left')
    result_data['debt_percent'] = (result_data['debt_count'] / result_data['total']) * 100
    result_data['debt_percent'] = (result_data['debt_percent']).round(2)
    return result_data

Использование функции, вывод результатов

In [None]:
result_df = calculate_debt_percent(data, column_x='debt', column_y='children')
result_df = result_df.sort_values(by='debt_percent',ascending=False)
result_df

Unnamed: 0,children,debt_count,total,debt_percent
4,4,4,41,9.76
2,2,194,2052,9.45
1,1,444,4808,9.23
3,3,27,330,8.18
0,0,1063,14091,7.54


Поскольку в представленных данных таблицы 'result_df' выборка несбалансированная, будем проводить оценку результатов только для групп с 0, 1 и 2 детьми. Следовательно, можно сделать вывод, что самая надежная группа - это те, у кого нет детей (процент возврата кредита с задержкой = 7.54 %), а самая ненадежная группа - это те, у кого двое детей (9.45 %). Проведем дополнительный анализ для 2х категорий "с детьми" и "без детей".

Создадим новый столбец 'group' и разделим заемщиков на 2 группы с детьми и без детей, что бы оценить влияние наличие детей на надежность заемщиков, поскольку данных по группам 2,3,4 не достаточно что бы выявить надежность корректно

In [None]:
group_values = []
for children in result_df['children']:
    if children > 0:
        group_values.append('с детьми')
    else:
        group_values.append('без детей')
result_df['group'] = group_values

grouped_data = result_df.groupby('group').agg({
    'debt_count': 'sum',
    'total': 'sum'
}).reset_index()

grouped_data['debt_percent'] = (grouped_data['debt_count'] / grouped_data['total']) * 100
grouped_data['debt_percent'] = (grouped_data['debt_percent']).round(2)

grouped_data

Unnamed: 0,group,debt_count,total,debt_percent
0,без детей,1063,14091,7.54
1,с детьми,669,7231,9.25


**Вывод:**
На основе представленных данных в таблице 'result_df' и 'grouped_data', можно сделать вывод, что зависимость количества детей у заемщиков с выплатой по кредиту вовремя существанна для категории c 0,1 и 2 зависимость равна соотвественно 7.54%, 9.23%, 9.45 %. Следовательно есть значимое влияние наличие детей на вероятность задолжности, так в группе "без детей" процент задолжности по кредиту = 7.54%, что показывает надежность заемщиков без детей в отличии от группы "с детьми" = 9.25%. Чем больше у заемщика детей, тем выше риск допустить просрочку.</div>

#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
result_df_2 = calculate_debt_percent(data, column_x='debt', column_y='family_status')
# Отсортируем таблицу по убыванию процента задолжности
result_df_2 = result_df_2.sort_values(by='debt_percent',ascending=False)
result_df_2

Unnamed: 0,family_status,debt_count,total,debt_percent
0,Не женат / не замужем,273,2796,9.76
3,гражданский брак,385,4134,9.31
4,женат / замужем,927,12261,7.56
1,в разводе,84,1189,7.06
2,вдовец / вдова,63,951,6.62


**Вывод:**
Показатель задолженности среди заемщиков с разными семейными статусами, особенно высокий у тех, кто не женат или не замужем. Также схожий уровень задолженности наблюдается у людей в гражданском браке. Можно предположить, что заемщики с семейным статусом 'Не женат / не замужем' и в 'гражданском браке' имеют более высокую вероятность задержки выплаты.

#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
result_df_3 = calculate_debt_percent(data, column_x='debt', column_y='total_income_category')
result_df_3 = result_df_3.sort_values(by='debt_percent',ascending=False)
result_df_3

Unnamed: 0,total_income_category,debt_count,total,debt_percent
4,E,2,22,9.09
2,C,1353,15921,8.5
0,A,2,25,8.0
1,B,354,5014,7.06
3,D,21,349,6.02


1. 0–30000 — 'E';
2. 30001–50000 — 'D';
3. 50001–200000 — 'C';
4. 200001–1000000 — 'B';
5. 1000001 и выше — 'A'.

In [None]:
result_df_3 = calculate_debt_percent(data, column_x='debt', column_y='total_income_category')
result_df_3 = result_df_3.sort_values(by='total',ascending=False)
result_df_3

Unnamed: 0,total_income_category,debt_count,total,debt_percent
2,C,1353,15921,8.5
1,B,354,5014,7.06
3,D,21,349,6.02
0,A,2,25,8.0
4,E,2,22,9.09


**Вывод:**
На основе данных таблицы result_df_3, можно сказать, что категории 'D' и 'B' имеют наименьший процент задолженности, следовательно более надежны. Но обращая внимание на то, что выборки несбалансированы, проанализируем самые многочисленные B и C. Заемщики с заработком от 50001 до 200000 (категория С) менее надежны чем заемщики с большем заработком от 200001 до 1000000 (категория В)

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [None]:
result_df_4 = calculate_debt_percent(data, column_x='debt', column_y='purpose_category')
result_df_4 = result_df_4.sort_values(by='total',ascending=False)
result_df_4

Unnamed: 0,purpose_category,debt_count,total,debt_percent
1,операции с недвижимостью,780,10751,7.26
0,операции с автомобилем,400,4279,9.35
2,получение образования,369,3988,9.25
3,проведение свадьбы,183,2313,7.91


**Вывод:**
На основе данных таблицы result_df_4, можно сказать, что категории "операции с автомобилем"	и 'получение образования' имеют наибольший процент задолженности по кредиту.Если брать во внимание что количество людей в каждой категории не отличаются на порядок, в отличии от других таблиц(result_df),можно предположить что данная зависимость наиболее вероятная.

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*
1. Появление пропусков вследствие человеческого фактора.
2. Ошибки при конвертировании
3. Ошибки при записи данных программой

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:*
При расчете медианного значения используется значение из середины сгруппированного списка. Такие значения лучше передают общую картину, так как среднее арифметическое будет искаженным при аномальных выбросах данных или слишком сильном разбросе. Таким образом медиана предоставляет более типичное значение в наборе данных. Пример: (1+2+3+4+100)/5 = 22, при этом медиана = 3

### Шаг 4: общий вывод.

Для проведение анализа были получены исходные данные о статистике о платёжеспособности клиентов от кредитного отдела банка заказчика. Нужно было разобраться влияет ли семейное положение, цель кредита, уровень дохода и количество детей клиента на факт погашения кредита в срок.
На стадии предобработки были сделаны следующие пункты:
1. Удаление пропусков
2. Обработка аномальных значений
3. Изменение типов данных
4. Обработка дубликатов
5. Категоризация данных

В Проектной работе "Предобработка данных" были получены следующие результаты:

1. 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?
Зависимость присутствует. Поскольку в представленных данных таблицы 'result_df' выборка несбалансирована, я провела оценку результатов только для групп с 0, 1 и 2 детьми. Следовательно, можно сделать вывод, что самая надежная группа - это те, у кого нет детей (процент возврата кредита с задержкой = 7.54 %), а самая ненадежная группа - это те, у кого двое детей (9.45 %).

2. 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?
Зависимость присутствует. Можно предположить, что заемщики с семейным статусом 'Не женат / не замужем' или "в гражданском браке" имеют более высокую вероятность задержки выплаты. Так же, можно сказать, что состоящие или состоявшие в браке заемщики реже допускают просрочки.

3. 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Зависимость присутствует, категории 'D' и 'B' имеют наименьший процент задолженности, следовательно более надежны. Но обращая внимание на то, что выборки несбалансированы, проанализировала самые многочисленные B и C. Заемщики с заработком от 50001 до 200000 (категория С) менее надежны чем заемщики с большем заработком от 200001 до 1000000 (категория В)

4. 3.4 Как разные цели кредита влияют на его возврат в срок?
Зависимость присутствует. Можно отметить, что категории "операции с автомобилем" и 'получение образования' имеют наибольший процент задолженности по кредиту. Эти две группы являются наименее "надежными".

Проведенный анализ зависимостей различных показателей с возвратом кредита в срок, позволяет сделать предварительные выводы. Для более подробного исследования в будущем следует расщирить выборку и минимизировать возможные пропуски, например можно на первых этапах сбора данных обратиться к источнику данных и заполнить пропуски вручную, если это не возможно, как вариант, можно разделить на 2 выборки.

<div style="border:solid steelblue 3px; padding: 20px; border-radius: 10px">

<h5><b>🏁 Общий комментарий ревьюера:</b></h5>

Ты хорошо поработала над проектом.

Критических замечаний нет, постарайся только отработать желтые комментарии.

Что можно улучшить дополнительно:

- отформатировать столбец с просрочкой в процентный формат
- отсортировать в таблице категории по проценту просрочки (например, по убыванию)

Буду ждать окончательную версию твоего проекта для принятия. ⌛️</div>

<div style="border:solid steelblue 3px; padding: 20px; border-radius: 10px">

<h5><b>🏁 Общий комментарий ревьюера V2</b></h5>

Спасибо, что учла мои замечания и доработала проект, получилась очень хорошая работа!

Успехов в дальнейшем обучении! 🏆

</div>