# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv('/datasets/data.csv')


data.info() #общая информация о таблице

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/data.csv'

In [None]:
data.head(10)

In [None]:
data['family_status'].value_counts()

In [None]:
data['family_status_id'].value_counts()

Все виды семейного статуса соответствуют своему type_id

In [None]:
data.sort_values(by='days_employed', ascending=True) #визуально оцениваем данные о количестве отработанных дней

**Вывод**

Заметки:
1) В столбец days_employed очень проблемный выгружены данные с отрицательным значениям в днях, природа ошибки не понятна, так как имеются значения  со знаками плюс и минус. Так же в столбце имеются имеются нереалистичные 6-ти значные. Имеются прпущенные значения обозначающие что человек является безработным

2) Значения в сталбцах family_status и family_status_id соответствуют друг другу.
3) Столбец education необходимо привести к общему виду (low case)
4) Стобец dob_years (возраст клиента) имеет нулевые значения что так же не является отражением реальности

## Шаг 2. Предобработка данных

### Обработка пропусков

С помощью применения связки методов isnull().any(axis=1) можем получить уникальную таблицу со всеми строками содержащими пропуски.

Логика работы следующая: создаём логическую серию и использовать ее для индексации нашего датафрейма:

In [None]:
data[data.isnull().any(axis=1)] # отображение всех строчек содержащих NaN

### 2.1 Работа с NaN

Заменим значения NaN в колонках days_employed и total_income на 0, т.к. отсутствие значений говорит нам о нулевом рабочем стаже заёмщика, а соответственно и о нулевом доходе. Количество отсутствующих записей совпадают

В дальнейшем значения нулевые значения в total_income будут заменены на медиану для каждой категории граждан, которые будут выделены позже

In [None]:
data['days_employed'].isnull().sum() # проверяем соответствие количество 
                                     # данных в обеих колонках, чтобы убедиться во взаимосвязи

In [None]:
data['total_income'].isnull().sum()

In [None]:
data['days_employed'] = data['days_employed'].fillna(0) # заменяем NaN на 0

In [None]:
data[data.isnull().any(axis=1)].sort_values('dob_years', ascending=True) #проверяем -> ждём пустую таюлицу

Для большей правдивости данных заполним пустые значения в колонке total_income медианой для каждой из возрастных групп граждан

In [None]:
# Замена пропусков в 'total_income'

print(data['total_income'].isnull().sum()) # количество пропусков до цикла
 
age_groups = [[0, 20], [21, 25] ,[26, 30], [31, 35], [36, 40], [41, 45], 
              [46, 50], [51, 55], [56, 60], [61, 65], [66, 70], [71, 74]]

for group in age_groups:
    
    data.loc[(data['dob_years'] >= group[0]) & (data['dob_years'] <= group[1]) \
                    & (data['total_income'].isna() == True),'total_income'] \
    = data[(data['dob_years'] >= group[0]) \
                  & (data['dob_years'] <= group[1])]['total_income'].median()

 
print(data['total_income'].isnull().sum()) # количество пропусков после цикла


In [None]:
data.sort_values(by='total_income') # визуальная оценка только что заполненных данных

**Вывод**

В данных отсутствовали 2174 значения о стаже работы и месячном доходе. Природа их появления слнедующая:  
1) Клиенты действительно не работают и система автоматически пропускает значения total_income(месчного дохода) у безработных клиентов, т.к. кореляция между этими значениями 100%

2) Клиенты не указывают место работы исходя из личных сообржений

Данные ошибки в данных появились, вероятно, из-за смены формата записи их в базу данных

Более связей по двум столбцам не найдено

3) Имеется значение 0 в колонке dob_years(возраста клиентов), но т.к. это не имеет значение к поставленной задаче и принято решение оставить его нетронутым. Причина появляения - не указан возраст при подаче заявки

Данная ошибка могла появиться из-за человеческого фактора, у клиентов была возможность не указывать свой возраст или же форма заполнения можно было перепутать с графой "дата подачи заявки". Нужно оповестить разработчиков что вероятнее всего или UX дизайнеров



### Замена типа данных

План:

1) Испрвить значения стажа на абсолютные значения

2) Привести столбец education к общему виду

3) Перевести вещественные знаения в целочисленные

4) Привести огромные значения в колонке days_employed к соответствующему виду, т.е. стаж в количество рабочих дней. Основная гипотеза - ошибка возникает потому что время приведено в часах, а не сутках.



In [None]:
# замена на абсолютные числа

data['days_employed'] = abs(data['days_employed']) 

In [None]:
# перевод столбца education к общему виду

data['education'] = data['education'].str.lower() 

In [None]:
data.head(10) # контроль

Приводим данные по колонки days_employed к коректным значениям, для этого я определил методом pd.df.describe() что огромный скачёк в значениях происходит в 4-м квантиле отсортированных по возрастанию значений колонки days_employed. это дало мне основание для того, чтобы выбрать значение 20000 как то, которое гарантированно будет отсукать корректные данные от некоректных.
Далее, исходя из гипотезы что некоректные данные это часы, а не сутки я разделил значения на 24, чтобы часы соответствовали дням.

In [None]:
# Перевод некоректных значений рабочего стажа из часов в дни
data.loc[data['days_employed'] > 20000, 'days_employed'] = data.loc[data['days_employed'] > 20000, 'days_employed'] / 24

Приводим вещественные колонки к целочисленному виду. Для изменения типа данных был выбран стандартный метод astype() т.к. метод to_numeric() приводит данные к типу floan64

In [None]:
# смена типа данных

data[['days_employed', 'total_income']] = data[['days_employed', 'total_income']].astype('int')

In [None]:
data.head(10) # визуальная проверка данных

**Вывод**

В данных был ряд проблем: некоректные и отрицательные значения, разный формат заполнения строк в ячейках. Все проблемы были устранены и приведены в удобный для обработки вид

### Обработка дубликатов

In [None]:
data.duplicated().sum() # Определяем количество явных дупликатов

In [None]:
data = data.drop_duplicates().reset_index(drop=True) # убираем все явные дупликаты

In [None]:
data.duplicated().sum() # проверяем количество дубликатов после чистки

**Вывод**

Дупликаты в данных могли появится по причинам: случайного совпадения, технической ошибки или рукописного ввода во время принятии заявки(человеческого фактора).

Наша задача определить как один набор уникальных значений X влияет на конечный результат Y, это говорит нам о том, что дублирования одних и тех же наборов данных нам не интересно, так как результат этих данных уже будет известен. Поэтому мы можем свободно избавиться от дупликатов в данных. Метод сработал удачно и можем приступать к следующему этапу

### Лемматизация

In [None]:
import sys # импортируем библиотеку sys для возможности установки сторонних библиотек
!{sys.executable} -m pip install pymystem3

In [None]:
from pymystem3 import Mystem # импортируем pymystem3
from collections import Counter # импортируем Counter для работы с лемматизацией
m = Mystem() #назначаем переменную для комфортного взаимодействия с функцей


In [None]:
list_to_text = ' '.join(map(str, data['purpose'])) # с помощью функции map применяем метод str к пандасовской серии, 
                                                         # перевод каждого элемента в строку
                                                         # join к каждому элементу в списке

lemmas = m.lemmatize(list_to_text) #применяем лемматизацию

print(Counter(lemmas)) # видим результат используя метод Counter для наглядности

**Вывод**

Для работы в локальной версии нужно было импортировать стандартную библиотеку пайтона для возможности загружать нестандартные библиотеки, какой и является pymystem3.

После импорта всех необходимых библиотек и назначения технической переменной 'm' пришло время обрабатывать данные.
Для начала нужно было перевести пандасовскую Серию в единую строку для последующей лемматизации.

Применив к полученным данным метод Counter мы видим количества каждого применимого слова, это делает данные гораздо более однозначными. 

Людей больше всего интересует покупка недвижимости, второе место заняло кредитования для покупки автомобиля и на третьем месте получение образования, на четвёртом проведение свадьбы

### Категоризация данных

Для категоризации данных по цели покупки нам необходимо будет применить стемминг используя библиотеку nltk

In [None]:
from nltk.stem import SnowballStemmer # импортируем из библиотеки nltk.stem нужный нам модуль
nl = SnowballStemmer('russian') # назначаем тихническую переменную для работы с русским текстом

In [None]:
list_of_purpose = list(data['purpose'].unique()) #Выделим все уникальные значения целей покупки

Теперь нам необходимо вычленить все категории. На первый взгляд их будет несколько: недвижимость, автомобиль, образование, здоровье, свадьба. Сейчас проверим это с помощью стемминга.

In [None]:
stemmer_list = [] #пустой список для значений стемминга

for item in list_of_purpose: # профодим стемминг по списку целей покупки
        
    for word in item.split(" "):
        stemmer_list.append(nl.stem(word))
        
        
sorted_stemmer_list = sorted(set(stemmer_list))
print(sorted_stemmer_list)

In [None]:
data['purpose_category'] = np.nan # создаём пустую колонку для дальнейшего заполнения.

Был выбрат способ np.nan, который заполняет весь столбец отсутствующими значениями. Был выбран этот метод по причине того, что на данном этапе у нас нет данных которыми мы готовы заполнить столбец


Так как при лемминге гипотеза подтвердилась у нас имеются 4 освновных категории, вычленим уникальные значения из колонки data['purpose'] из категорий

In [None]:
# Выделяем списки для 4-х основных клиентских целей. 
# Для последующей категоризации

estate_list = []
car_list = []
education_list = []
wedding_list = []
data['purpose_category'] = np.nan # создаём пустой столбец для дальнейшего заполнения

for item in list_of_purpose: # разбиваем список всех возможных клиентских запросов на отдельные списки путём стемминга
        
    for word in item.split(" "):
        
        if nl.stem(word) == 'жил' or nl.stem(word) == 'недвижим':
            estate_list.append(item) # заполняем список estate_list
            
        elif nl.stem(word) == 'автомобил' or nl.stem(word) == 'автомоб':
            car_list.append(item) # заполняем список car_list
            
        elif nl.stem(word) == 'образован':
            education_list.append(item) # заполняем список education_list
            
        elif nl.stem(word) == 'свадьб':
            wedding_list.append(item) # заполняем список wedding_list

for item in range(0, 21454): # присваиваем каждому значению в столбце purpose соответствующую ему категорию
    
    if data['purpose'][item] in estate_list:
        data['purpose_category'][item] = 'недвижимость'
                  
    elif data['purpose'][item] in car_list:
        data['purpose_category'][item] = 'автомобиль'
                  
    elif data['purpose'][item] in education_list:
        data['purpose_category'][item] = 'образование'
                  
    elif data['purpose'][item] in wedding_list:
        data['purpose_category'][item] = 'свадьба'

In [None]:
data

Далее нужно будет нарисовать таблицу в которой бы столбцы с целью были заменены на 4 категории

In [None]:
data.drop(labels='purpose', axis=1) # убираем лишний столбец, т.к. на его основе уже проведена категоризация

In [None]:
data['purpose_category'].unique() # проверяем коректно ли сработал код для присвоения категорий и нет ли там лишних значений

**Вывод**

Стемминговое исследование выделило 4 основных категории: недвижимость, автомобиль, образование, свадьба. Для выделения категории была составлена отдельная колонка data['purpose_category'] и заполнена в соответствии с клиентским запросом

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [None]:
children_debt_dict=data[['children','debt']] # выделим необходимые столбцы для анализа

В колонке ['children'] имеются отрицательные значения

Т.к. в столбце children есть отрицательные значения нужно использовать метод abs(). Этот метод вернёт абсолютное заначения каждого компонента столбца

In [None]:
children_debt_dict['children'] = children_debt_dict['children'].abs() # избавляемся от отрицательных значений

In [None]:
children_debt_dict.groupby('children').agg({'debt': 'value_counts'}) # группируем любое количество детей

In [None]:
print('процент клиентов без детей имеющих задолженость: {0:.0%}'.format((1063 / 13028)))
print('процент клиентов с 1 ребёнком имеющих задолженость: {0:.0%}'.format((445 / 4410)))
print('процент клиентов с 2 детьми имеющих задолженость: {0:.0%}'.format((194 / 1858)))
print('процент клиентов с 3 детьми имеющих задолженость: {0:.0%}'.format((27 / 303)))
print('процент клиентов с 4 детьми имеющих задолженость: {0:.0%}'.format((4 / 37)))
print('процент клиентов с 5 детьми имеющих задолженость: {0:.0%}'.format((0 / 9)))
print('процент клиентов с 20 детьми имеющих задолженость: {0:.0%}'.format((8 / 68)))

**Вывод**

Я привёл данные тремя разными способами: сортировка датафрейма, группировка и сводная таблица. В данном случае самым удобным считаю метод groupby() за счёт длины кода и информативности.

Полученные результаты говорят что самый высокий процент заделженности среди клиентов у тех, кто имеет по 20 детей, хотя скорее всего это ошибка в данных, но оставим как есть, следуя условиям задания, а самый низкий процент у клиентов имеющих 5 детей в семье.

В среднем процент задолженности среди всех клиентов составляет 10% и не корелируется с количеством детей в семье

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [None]:
family_status_debt_dict=data[['family_status','debt']] # выделим необходимые столбцы для анализа

In [None]:
family_status_debt_dict.sort_values(by='debt', ascending=False).value_counts()

In [None]:
family_status_debt_dict.groupby('family_status').agg({'debt': 'value_counts'})

In [None]:
pd.pivot_table(family_status_debt_dict, values='debt', index='family_status', aggfunc=({'debt': ['value_counts']}))

In [None]:
print('процент клиентов в статусе "Не женат / не замужем" имеющих задолженость: {0:.0%}'.format((274 / 2536)))
print('процент клиентов в статусе "в разводе" имеющих задолженость: {0:.0%}'.format((85 / 1110)))
print('процент клиентов в статусе "вдовец / вдова" имеющих задолженость: {0:.0%}'.format((63 / 896)))
print('процент клиентов в статусе "гражданский брак" имеющих задолженость: {0:.0%}'.format((388 / 3763)))
print('процент клиентов в статусе "женат / замужем" имеющих задолженость: {0:.0%}'.format((931 / 11408)))

**Вывод**

Привёл данные тремя разными способами: сортировка датафрейма, группировка и сводная таблица. В данном случае самым удобным считаю метод groupby() за счёт длины кода и информативности.

По данным можно сделать интересные выводы о том, не женатые/не замужные и состоящие в гражданском браке клиенты имеют больший процент задолженности чем остальные социальные группы

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Чтобы коректно определить уровни дохода предлогаю использовать разделение на 3 класса, низший от 0 до 12792 (МРОТ), средний от 12792 до 120000 и высший от 120000 рублей

In [None]:
total_income_debt_dict=data[['total_income','debt']] # выделим необходимые столбцы для анализа
total_income_debt_dict['total_income_category'] = np.nan # создаём пустой столбец для дальнейшего присвоения категории

In [None]:
for item in range(0, 21454): # цикл заполняющий столбец total_income_category относительно предложенных критериев
    
    if total_income_debt_dict['total_income'][item] <= 12792:
        total_income_debt_dict['total_income_category'][item] = 'низший'
                  
    elif total_income_debt_dict['total_income'][item] > 12792 and total_income_debt_dict['total_income'][item] <= 120000:
        total_income_debt_dict['total_income_category'][item] = 'средний'
                  
    elif total_income_debt_dict['total_income'][item] > 120000:
        total_income_debt_dict['total_income_category'][item] = 'высший'

In [None]:
total_income_debt_dict # проверяем коректность заполнения

In [None]:
total_income_debt_dict.groupby('total_income_category').agg({'debt': 'value_counts'}) # группируем данные для анализа

In [None]:
print('процент клиентов среднего класса имеющих задолженость: {0:.0%}'.format((556 / 6347)))
print('процент клиентов высшего класса имеющих задолженость: {0:.0%}'.format((1185 / 13366)))

**Вывод**

Во время предобработки я заместил все отсутствующие значения в графе total_income на медианы для каждой возрастной группы, от этого в нашей таблице отсутствует низший класс, что в целом походит на реальность, т.к. клиенты с теми запросами, которые мы вывели при категоризации и с низким доходом не обращались бы в банк для заёма.

На приведённой таблице мы видим что уровень дохода напрямую не влияет на результат и значения остаются в пределах 10% в любом варианте

- Как разные цели кредита влияют на его возврат в срок?

In [None]:
purpose_category_debt_dict=data[['purpose_category','debt']] # выделим необходимые столбцы для анализа

In [None]:
purpose_category_debt_dict.groupby('purpose_category').agg({'debt': 'value_counts'}) # группируем данные для анализа

In [None]:
print('процент клиентов чья цель покупки автомобиль имели задолженость: {0:.0%}'.format((403 / 3903)))
print('процент клиентов чья цель покупки недвижимость имели задолженость: {0:.0%}'.format((782 / 10029)))
print('процент клиентов чья цель покупки образование имели задолженость: {0:.0%}'.format((370 / 3643)))
print('процент клиентов чья цель покупки свадьба имели задолженость: {0:.0%}'.format((186 / 2138)))

**Вывод**

Данные показывают что самыми платежеспособными в данной метрике были клиенты обращающиеся в банк для покупки недвижимости и проведения свадьбы

## Шаг 4. Общий вывод

В данных было достаточно много грубых технических ошибок нуждающихся в предобработке. Данные ошибки влияли на результаты исследования и для точных расчётов нужно передать информацию специалисту по базе данных для устранения проблем.

Иследуя данные по различным метрикам было выяснено что в среднем задолженость имеют 10% клиентов от общего числа обращений, а их показатели не корелируются с наличием задолжености.

P.S. в ходе работ были использованы все полученные в спринте знания и ряд новых, до этого не представленных.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [X]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.

# Благодарю за ревью. Хорошего вам дня:3