# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:** `/datasets/data.csv`

In [None]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [None]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [None]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [None]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [None]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [None]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [None]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [None]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [None]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [None]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [None]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [None]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [None]:
data.duplicated().sum()

71

In [None]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [None]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E (до 30 000)'
        elif 30001 <= income <= 50000:
            return 'D (от 30 001 до 50 000)'
        elif 50001 <= income <= 200000:
            return 'C (от 50 001 до 200 000)'
        elif 200001 <= income <= 1000000:
            return 'B (от 200 001 до 1 000 000)'
        elif income >= 1000001:
            return 'A (свыше 1 000 000)'
    except:
        pass

In [None]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [None]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [None]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [None]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [None]:
# Сгруппируем данные методом сводных таблиц по количеству детей, в столбцах рассчитаем количество выданных кредитов заемщикам,
# с соответствующим количеством детей и, сразу, долю кредиов с просрочкой.
# Вывод доли кредитов с просрочкой отформатируем: округлим до 4 знаков после запятой и умножим на 100.

result_3_1 = pd.pivot_table(data,index=['children'],values =['debt'], aggfunc=['count','mean'])
result_3_1[( 'mean', 'debt')]=result_3_1[( 'mean', 'debt')].round(4)*100

display(result_3_1)

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14091,7.54
1,4808,9.23
2,2052,9.45
3,330,8.18
4,41,9.76
5,9,0.0


**Вывод:**

Из предоставленных данных видно, что при наличии 5 детей просроченные платежи по кредиту отсутствуют, вместе с этим, таких кредитов всего 9, а значит, их влиянием на общий вывод можно пренебречь.
Доля кредитов с просрочками от общего количества кредитов у заемщиков, имющих 1,2,4 ребенка, примерно равна и составляет от 9,2% до 9,7%.
Доля кредитов с просрочками от общего количества кредитов у заемщиков, имеющих 3 детей, сравнительно ниже и составляет 8,1%.
Доля кредитов с просрочками от общего количества кредитов у заемщиков, не имеющим детей наиболее низкая из всех категорий заемщиков и составляет 7,5%.

**Общий вывод**: сам факт наличия детей у заемщиков повышает вероятность просрочек по кредиту, при этом количество детей оказывает меньшее влияние на изменение данной вероятности.

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
# Сгруппируем данные методом сводных таблиц по семейному положению,в столбцах рассчитаем количество выданных кредитов заемщикам,
# по соответствующему семейному положению и, сразу, долю кредиов с просрочкой.
# Вывод доли кредитов с просрочкой отформатируем: округлим до 4 знаков после запятой и умножим на 100.

result_3_2 = pd.pivot_table(data,index=['family_status'],values =['debt'], aggfunc=['count','mean'])
result_3_2[( 'mean', 'debt')]=result_3_2[( 'mean', 'debt')].round(4)*100

display(result_3_2)

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,2796,9.76
в разводе,1189,7.06
вдовец / вдова,951,6.62
гражданский брак,4134,9.31
женат / замужем,12261,7.56


**Вывод:**

Из представленных данных видно, что меньший процент кредитов с просрочкой имеют заемщики с оформленными семейными отношениями (женат/замужем. в разводе, вдовец/вдова) этот процент находится в диапазоне 6.6% - 7.5%. При этом, отмечется тенденция к снижению такого процента для заемщиков с завершившимися семейными отношениями 7.0% для разведенных, против 7,5% для находящихся в браке.
Для заемщиков, не состоящих в оформленных отношениях (гражданский брак, не женат/ не замужем) доля кредитов с просрочкой существенно выше - 9.3% - 9,7% в сравнении с заемщиками с оформленными семейным положением.

**Общий вывод**: наличие у заемщика оформленных семейных отношений повышет вероятность своевременного возврата кредита. При этом, наибольшая дисциплинированность по возвратам в срок наблюдается в категории "вдовец/вдова". А для заемщиков с неоформленными семейными отношениями (гражданский брак) верятность просрочки сопаоставима с не женатыми (не замужними) заемщиками.

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [None]:
# Сгруппируем данные методом сводных таблиц по категории уровня дохода, в столбцах рассчитаем количество выданных кредитов
# заемщикам, по соответствующему семейному положению и, сразу, долю кредиов с просрочкой.
# Вывод доли кредитов с просрочкой отформатируем: округлим до 4 знаков после запятой и умножим на 100.

result_3_3 = pd.pivot_table(data,index=['total_income_category'],values =['debt'], aggfunc=['count','mean'])
result_3_3[( 'mean', 'debt')]=result_3_3[( 'mean', 'debt')].round(4)*100

print(result_3_3)

**Вывод:**

Из представленных данных видно, что наиболее дисциплинированными являются заемщики с категорией дохода "D" - от 30 001 до 50 000. Для них доля просроченных кредитов составляет миинимальные 6.0%. Наименее дисциплинированными являются заемщики с категорией дохода "Е" - до 30 000. Для них доля просроченных кредитов составляет 9.0%. В остальных категориях доля просроченных кредитов состоавляет 7.0 - 8.4%  

**Общий вывод**: Вероятность просрочки по кредиту минимальная для заемщиколв с уровнем дохода от 30 001 до 50 000 и максимальная для заемщиков с уровнем дохода до 30 000. Для остальных групп заемщиков наблюдается слабая зависимость вероятности просрочки по кредиту от уровня дохода.

#### Как разные цели кредита влияют на его возврат в срок?

In [None]:
# Сгруппируем данные методом сводных таблиц по категории цели кредита, в столбцах рассчитаем количество выданных кредитов
# заемщикам, по соответствующей категории цели кредита и, сразу, долю кредиов с просрочкой.
# Вывод доли кредитов с просрочкой отформатируем: округлим до 4 знаков после запятой и умножим на 100.

result_3_4 = pd.pivot_table(data,index=['purpose_category'],values =['debt'], aggfunc=['count','mean'])
result_3_4[( 'mean', 'debt')]=result_3_4[( 'mean', 'debt')].round(4)*100

display(result_3_4)

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4279,9.35
операции с недвижимостью,10751,7.26
получение образования,3988,9.25
проведение свадьбы,2313,7.91


**Вывод:**

Из представленных данных видно, что наименее рискованными являются кредиты, связанные с приобретением недвижимости. В данной категории, в среднем, доля кредитов с просрочкой составляет 7.2%. Наиболее рискованными являются кредиты на покупку автомобиля. Здесь доля просроченных кредитов больше 9.3%. Кредиты на получение образования лишь немонгим уступают по уровню риска автокредитам. Доля просрочки для них составляет 9.2%

**Общий вывод**: кредиты на покупку недвижимости, в среднем, являются наиболее надежными, а для автокредитов и кредитов на образование, в сравнении с ними, риск просрочек увеличивается примерно в 1,3 раза.

#### Приведите возможные причины появления пропусков в исходных данных.

*Ответ:*

Как видно из п.3. пропуски данных имели место только в столбцах "Трудовой стаж" и "Сумма дохода".
При дальнейшем рассмотрении данных (п.1.) можно обратить внимание, что пропуски характерны для "Типа дохода" = "пенсионер", т.о., можно предположить, что  наличие пропусков данных связано с неточностью формы заявления на предоставление кредита, допускающую, при заполнении, не вносить данные в указанные графы, при выборе типа дохода = "пенсионер".

**В общем случае**, пропуски в данных могут быть следствием ошибок в работе регистрирующих данные приборов, ошибках при передаче данных, экспорте / импорте, ошибок алгоритмов формирования выгрузок данных, ошибок при вводе данных или намеренное незаполнение тех или иных данных при вводе.
    
    
Дополнительно, пропуски **в исследуемом датасете** могут быть следствием как ошибочного незаполнения этих данных (пропустили, не заметили), так и намеренного их игнорирования, как вследствии того, что потенциальный замщик на момент обращения за кредитом не имел работы и, следовательно, не имел дохода т.е. или был временно безработным или, в принципе, еще никогда не работал, в этом случае отсутствие данных о трудовом стаже и заработке полностью соответсвует реальному положению дел.

#### Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:*

Заполнять пропуски в количественных переменных медианными значениями лучше всего, т.к. такое заполнение пропусков, во-первых позволяет сохранить строку датафрейма для дальнейшего анализа по другим столбцам и во-вторых, оказывает наименьшее влияние (вносит наименьшую ошибку) в статистические характеристики исследуемого столбца, в т.ч. и потому, что для данных имеющих нормальное распределение (или близкое к нормальному), при сравнительно большом количестве данных, медиана будет равняться среднему значению.

Медиана — значение, которое разбивает данные, **отсортированные по порядку** увеличения значений, на две равные части. Т.е., медиана показывает центральное значение в выборке, если наблюдений нечетное количество и среднее арифметическое двух значений, если количество наблюдений в выборке четно. Т.о. для определения медианы необходимо сначала отсортировать список данных, а потом взять средний (находящийся по середине списка) элемент данных. В то время как среднее, есть результат деления суммы всех данных на их количество.
    
**Основное отличие** медианы от среднего - устойчивость к "выбросам" - нехарактерным для изучаемой выборки,слишком большим или слишком малым значениям. Такие "выбросы" могут оказать существенное влияние на среднее значение даже при незначительном количестве самих "выбросов". И, напротив, не оказывают влияние на медиану.

### Общий вывод.

Целью данного проекта являлось исследование надежности заемщиков, в зависимости от различных факторов, в т.ч. семейного положения, количества детей, уровня дохода. Объем данных составлял 21 525 строк. После предобработки и исключения строк с аномальными значениями объем данных итогово составил 21 331 строку.

По результатам исследования сделаны выводы о зависимости вероятности просрочек по кредиту от различных характеристик заемщика.

На основании данных выводов возможно составить "портрет **идеального** заещика", в отношении которого можно ожидать наименьшей вероятности просрочки. Это заемщик, состоящий / состоявший в зарегистрированном браке, не имеющий детей с уровнем дохода от 30 001 до 50 000, имеющий желание получить кредит на покупку недвижимости.

И, наоборот, **наименее надежным** заемщиком будет заемщик не состоящий в браке, в т.ч. гражданском, имеющий 4 детей, с доходом до 30 000, желающий получить автокредит.