## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Привет! Поздравляю тебя с первым твоим проектом и спасибо, что вовремя сдал задание:) Ты проделал большую работу. Далее в файле мои коммефнтарии ты сможешь найти в ячейках, аналогичных данной ( если рамки комментария зелёные - всё сделано правильно; жёлтые - есть замечания, но не критично; красные - нужно переделать). Не удаляй эти комментарии и постарайся учесть их в ходе выполнения проекта. 

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
df=pd.read_csv('/datasets/data.csv')
df.info()
df['days_employed'].isnull().sum()
df['total_income'].isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


2174

### Вывод

Файл с данными открыт, при помощи метода Info() получили сведения о таблице, пропуски имсеются в столбцах days_employed и total_income, тк в этих столбцах есть отличие по общему количеству строк. 

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Хорошее начало, так же, для большего понимания данных можно было бы использовать метод `describe`


### Шаг 2. Предобработка данных

### Обработка пропусков

In [2]:
employed=df['days_employed'].mean()
tot_income=df['total_income'].mean()
df['days_employed']=df['days_employed'].fillna(value=employed)
df['total_income']=df['total_income'].fillna(value=tot_income)
df['days_employed'].isnull().sum()
df['total_income'].isnull().sum()



0

### Вывод

В столбцах где были обнаружены пропуски значения были заменены на средние. Для начал при помоще метода mean() вывели среднее значенее для каждого из столбцов и сохранили их в отдельной переменной. Далее при помоще метода fillna() в проблемных столбцах все пропуски заменяются на средние значения, которые были посчитаны ранее. Снова вызываем метод Info()  и видим,что пропусков более не обнаружено.

<div style="border:solid orange 2px; padding: 20px"> <h1 style="color:orange; margin-bottom:20px">Комментарий наставника</h1>

Тут лучше не заполнять пропуски просто медианой, средним или нулём, требуется более обоснованное заполнение пропусков исходя из имеющихся данных



### Замена типа данных

In [3]:
df['total_income']=df['total_income'].astype('int')
df['days_employed']=df['days_employed'].astype('int')
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,-2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,-3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


### Вывод

Для столбцов days_employed и total_income были изменены типы данных с float na int,при помощи метода astype, тк этот метод позволяет заменять вещественный тип данных на целочисленный.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Замена типа данных выполнена верно

### Обработка дубликатов

In [4]:
df['education'].value_counts()
df['education']=df['education'].str.lower()
print(df.duplicated().sum())
df=df.drop_duplicates()
print(df.duplicated().sum())

71
0


### Вывод

Для столбца education все значение были приведены к нижнему регистру при помощи метода str.lower(). Далее для всей таблицы при помощи метода duplicated() нашли сумму дубликатов и потом все дубликаты были удалены.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Дубликаты найдены и обработаны верно,отлично


### Лемматизация

In [5]:
from pymystem3 import Mystem
m=Mystem()

def lemmatizze(row):
    lemmas=m.lemmatize(row)
    return lemmas
df['purpose_lemma']=df['purpose'].apply(lemmatizze)
purpose_group=df['purpose_lemma'].values
purpose_list=[]
for sublist in purpose_group:
    for item in sublist:
        purpose_list.append(item)
print(purpose_group) 
from collections import Counter
print(Counter(purpose_list))
def dictionary(world, data):
    for row in data:
        if world == row:
            return row
dict = []
dict.append(dictionary('жилье', purpose_list))
dict.append(dictionary('недвижимость', purpose_list))
dict.append(dictionary('автомобиль', purpose_list))
dict.append(dictionary('свадьба', purpose_list))
dict.append(dictionary('образование', purpose_list))

print(dict)

[list(['покупка', ' ', 'жилье', '\n'])
 list(['приобретение', ' ', 'автомобиль', '\n'])
 list(['покупка', ' ', 'жилье', '\n']) ... list(['недвижимость', '\n'])
 list(['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n'])
 list(['на', ' ', 'покупка', ' ', 'автомобиль', '\n'])]
Counter({' ': 33570, '\n': 21454, 'недвижимость': 6351, 'покупка': 5897, 'жилье': 4460, 'автомобиль': 4306, 'образование': 4013, 'с': 2918, 'операция': 2604, 'свадьба': 2324, 'свой': 2230, 'на': 2222, 'строительство': 1878, 'высокий': 1374, 'получение': 1314, 'коммерческий': 1311, 'для': 1289, 'жилой': 1230, 'сделка': 941, 'дополнительный': 906, 'заниматься': 904, 'проведение': 768, 'сыграть': 765, 'сдача': 651, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'подержанный': 486, 'подержать': 478, 'приобретение': 461, 'профильный': 436})
['жилье', 'недвижимость', 'автомобиль', 'свадьба', 'образование']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  import sys


### Вывод

Произведена лемматизация для столбца с целями кредита purpose и создан словарь с категориями для дальнейшего использования.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>


Лемматизация проведена верно

### Категоризация данных

In [6]:
def category(data):
    if dict[0] in data:
        return dict[0]
    elif dict[1] in data[1]:
        return dict[1]
    elif dict[2] in data:
        return dict[2]
    elif dict[3] in data:
        return dict[3]
    elif dict[4] in data:
        return dict[4]
df['category_purpose']=df['purpose_lemma'].apply(category)
print(df.loc[:, ['purpose','category_purpose']].head(15))

                              purpose category_purpose
0                       покупка жилья            жилье
1             приобретение автомобиля       автомобиль
2                       покупка жилья            жилье
3          дополнительное образование      образование
4                     сыграть свадьбу          свадьба
5                       покупка жилья            жилье
6                   операции с жильем            жилье
7                         образование      образование
8               на проведение свадьбы          свадьба
9             покупка жилья для семьи            жилье
10               покупка недвижимости             None
11  покупка коммерческой недвижимости             None
12                    сыграть свадьбу          свадьба
13            приобретение автомобиля       автомобиль
14         покупка жилой недвижимости             None


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':


### Вывод

Создан и добавлен столбец с категориями целей получения кредита

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Категоризация проведена верно

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [10]:
df_child=df[df['children'] !=0]
df_childfree=df[df['children']==0]
#print(df_child.info())
child_debt=df_child['debt'].sum()/len(df_child)
childfree_debt=df_childfree['debt'].sum()/len(df_childfree)
print('Процент людей с детьми, имеющие задолжность: {:.1%}'.format(child_debt))
print('Процент людей без детей, имеющие задолжность: {:.1%}'.format(childfree_debt))

Процент людей с детьми, имеющие задолжность: 9.2%
Процент людей без детей, имеющие задолжность: 7.5%


### Вывод

Люди имеющие детей более склонны к задолжностям.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [14]:
family_status_pivot=df.pivot_table(index='family_status',columns='debt',values='family_status_id',aggfunc='count')
family_status_pivot['percent']=(family_status_pivot[1]/family_status_pivot[0])*100
family_status_pivot['percent']=family_status_pivot['percent'].astype('int')
print(family_status_pivot.loc[:,['percent']])

debt                   percent
family_status                 
Не женат / не замужем       10
в разводе                    7
вдовец / вдова               7
гражданский брак            10
женат / замужем              8


На основе вывода таблицы можно увидеть,что люди не состоящие в браке более склонны задержке по платежам и имеют задолжности.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [18]:
def income(data):
    if data==0:
        return '0'
    elif data <=20000:
        return '0-20'
    elif data <=50000:
        return '20-50'
    elif data <=100000:
        return '50-100'
    elif data <=250000:
        return '100-250'
    elif data <=500000:
        return '250-500'
    else:
        return '500+'
df['income_group']=df['total_income'].apply(income) 
income_group_pivot=df.pivot_table(index='income_group',columns='debt',values='total_income',aggfunc='count')
income_group_pivot['percent']=(income_group_pivot[1]/income_group_pivot[0])*100
income_group_pivot['percent']=income_group_pivot['percent'].astype('int')
print(income_group_pivot.loc[:,['percent']])

debt          percent
income_group         
100-250             9
20-50               6
250-500             7
50-100              8
500+                6


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  app.launch_new_instance()


### Вывод

На основе выведенной таблицы можно сделать вывод, что люди имеющие доход выше среднего более склонны к задолжностям, их в таблице 8-9%. А люди с высокими и невысокими заолжностями менее склонны к задолжностям, их в таблице по 6%.  

- Как разные цели кредита влияют на его возврат в срок?

In [20]:
purpose_pivot=df.pivot_table(index='category_purpose', columns='debt', values='purpose', aggfunc='count')
purpose_pivot['percent']=(purpose_pivot[1]/purpose_pivot[0])*100
purpose_pivot['percent']=purpose_pivot['percent'].astype('int')
print(purpose_pivot.loc[:,['percent']])

debt              percent
category_purpose         
автомобиль             10
жилье                   7
образование            10
свадьба                 8


### Вывод

По результат данной таблицы можно увидеть, что люди, берущие кредит на более мелкие цели и потребности более склонны к задолжностям, их 8-10%.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Все выводы верны, код написан правильно, радует, что используешь сводные таблицы)


### Шаг 4. Общий вывод

На основе проделанной работы можно сделать вывод, что люди живущие в браке или состояли в нем с небольшим(до 50к) или же высоким доходом(свыше 250к) и не имеющие детей,которые берут кредит для серьезных покупок как жилье являются более надежными клинтами и более платежеспособны.

<div style="border:solid  orange  2px; padding: 20px"> <h1 style="color: orange ; margin-bottom:20px">Комментарий наставника</h1>

Обязательно надо писать подробный вывод из проведённого анализа, в котором отразить все полученные результаты + дать советы по использованию данного анализа


### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.

<div style="border:solid  green  2px; padding: 20px"> <h1 style="color: green ; margin-bottom:20px">Комментарий наставника</h1>

#### Код

Всё отлично. Из того, что очень порадовало - соблюдена структура проекта, шаги из задания обозначены и выполнены последовательно, код написан аккуратно, используются комментарии к коду, быстро можно понять, какие операции выполняют сложные конструкции. В качестве совета предлагаю глубже изучить и начать чаще применять конструкцию try-except в решении задачи — это улучшит отказоустойчивость кода и обезопасит код от поломок в будущем, а так же изучить средства для построения изображений в Python для более глубокого понимания данных.
#### Выводы

У тебя отлично получается анализировать сложные данные, выдвигать корректные гипотезы и проверять свои выводы на возможность соответствия реальности. Видно глубокое понимание сути проведённого анализа. Было очень интересно проверять твой проект и следить за твоей мыслью, так держать!)


<div style="border:solid  green  2px; padding: 20px"> <h1 style="color: green ; margin-bottom:20px">Комментарий наставника</h1>
Работа принята!) Очень рад, что у тебя всё получилось и надеюсь тебе понравится весь курс, будь усерден и у тебя всё получится! Буду благодарен, если оставишь отзыв о проверке) Удачи в будущих проектах)

In [1]:
#Спасибо большое за отзыв и поддержку, подмеченные ошибки и рекомендации по глубокому изучению try-except,буду исправляться))
#Постараюсь быть более усердным и трудолюбивым)