# Импорт данных и библиотек 

In [None]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()
data.head()

### Вывод

На обработку дали статистику банка по платежеспособности клиентов. Данные находятся в плачевном состоянии: 

- Поля стажа и возраста в разных единицах измерения
- Поля стажа с отрицательными значениями, скорее всего вбивали с одной даты, до другой и перепутали местами. Возможно, что ставили "-" перед цифрой. 
- Есть выбросы в столбце с детьми
- Есть дубликаты в образовании
- В доходе зачем-то 4 знака после запятой
- Многие поля стажа не совпадают с действительностью, возможно даны в днях
- 10% от данных - пропущенные значения, значимая часть выборки для простого удаления
- Данные никак не сгруппированы 

# Предобработка данных

### Обработка пропусков

In [2]:
print(data.isnull().sum())# почти 10% от всех данных неучтены - выбрасывать нельзя, поэтому заменим на медиану 
data[['days_employed','children']]=data[['days_employed','children']].abs()#приводим
data = data.loc[data['children'] < 6] #уберем незначительное количество выбросов с детьми.

def median_for_all (dataframe, column, inc_type): #функция рассчитывает медиану для разных типов данных 
    dataframe[dataframe[column]==inc_type] = dataframe[dataframe[column]==inc_type].fillna(dataframe.median())
    return dataframe
 
for type in list(data['income_type'].unique()): #для всех типов дохода цикл ставит индивидуальную медиану 
    median_for_all(data,'income_type', type)
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

#### Вывод

Пропуски могли быть связаны с неофициальным трудоустройством граждан, т.к. они были в столбцах со стажем и доходом. Их заменил на медианные значения по типу дохода, так как доход пенсионеров, бизнесменов и прочих значительно разнится. 

### Замена типа данных

In [3]:
data['days_employed'] = data['days_employed']/365 # данные со стажем в годах
data[['days_employed','total_income','children']]=data[['days_employed','total_income','children']].astype('int64')  
data = data.rename(columns ={'days_employed':'years_employed'})
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21449 entries, 0 to 21524
Data columns (total 12 columns):
children            21449 non-null int64
years_employed      21449 non-null int64
dob_years           21449 non-null int64
education           21449 non-null object
education_id        21449 non-null int64
family_status       21449 non-null object
family_status_id    21449 non-null int64
gender              21449 non-null object
income_type         21449 non-null object
debt                21449 non-null int64
total_income        21449 non-null int64
purpose             21449 non-null object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


In [4]:
data['years_employed'].loc[data['years_employed'] > data['dob_years']] = data['years_employed'].loc[data['years_employed'] > data['dob_years']]//24 # переводит стаж, который указали в часах в дни
data.loc[data['years_employed'] == 0, 'years_employed'] = data['years_employed'].median() #заменяет нули на медиану
data['years_employed']=data['years_employed'].astype('int64') 
data[['years_employed', 'dob_years']].sort_values(by = 'years_employed', ascending = False)
data.loc[data['dob_years']== 0]
data = data.loc[data['dob_years'] > 0] 
data.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21349 entries, 0 to 21524
Data columns (total 12 columns):
children            21349 non-null int64
years_employed      21349 non-null int64
dob_years           21349 non-null int64
education           21349 non-null object
education_id        21349 non-null int64
family_status       21349 non-null object
family_status_id    21349 non-null int64
gender              21349 non-null object
income_type         21349 non-null object
debt                21349 non-null int64
total_income        21349 non-null int64
purpose             21349 non-null object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


### Вывод

Когда таблица заполнена меня сильно смущает, что все данные  в разных величинах, приведем все к единому формату - год, int64. 

Что заменили:
- days_employed на int64 и перевели в год
- total_income на int64

Сначала преобразуем данные со стажем, таблица все еще существует с ужасными данными, которые надо полировать, но уже выглядит читаемо и понятно. 
 
В таблице в некоторых местах стаж сильно превышает возраст  заемщиков, скорее всего при внесении информации о стаже в днях была внесена информация о стаже в часах. Делением на 24 привел данные в порядок. При этом все равно остается 155 строк, где стаж больше возраста - где-то забыли указать возраст, где-то он почему-то просто меньше стажа, этих данных совсем немного, но лучше просто их удалить для верности. Также обнаружились нулевые значения в столбце со стажем, хотя в этих строках присутствует профессия, следственно пропустили по ошибке, сотня значений никак не повлияет на такую выборку, поэтому просто их отбросим 

### Обработка дубликатов

In [5]:
data['education'].unique()
data['education'] = data['education'].str.lower()#приводит все записи к нижнему регистру
data['education'].unique()
data.duplicated().sum()#посмотрим на количество дубликатов
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()#проверка

0

In [6]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].value_counts()
data['gender'].value_counts() #проверка уникальных значений пола 
data.loc[data['gender']=='XNA'] #индекс непонятного значения 
data = data.drop(index= 10604).reset_index(drop=True) #удаляет строку с индексом
data['gender'].value_counts()#проверка

F    14056
M     7221
Name: gender, dtype: int64

### Вывод

Теперь, когда численные данные более или менее в адеквате, можно приниматься за категории. Разобрались с блоком образование - часто при вводе данных зажимали shift, отчего появились ненужные новые категории, все записи привели к единому образцу. 
Те же операции проделали с блоком family status и gender, при этом выяснилось, что в gender есть неопознанный пол XNA - явно ошибочно ввели. Эту строку лучше удалить.

### Лемматизация

In [7]:
from pymystem3 import Mystem #импорт библиотек для лемматизации
m = Mystem()
data['purpose'].value_counts() #можно визуально оценить частоту основных запросов на кредит

свадьба                                   785
на проведение свадьбы                     760
сыграть свадьбу                           756
операции с недвижимостью                  671
покупка коммерческой недвижимости         655
покупка жилья для сдачи                   648
операции с коммерческой недвижимостью     644
операции с жильем                         642
покупка жилья                             637
покупка жилья для семьи                   636
жилье                                     636
недвижимость                              628
строительство собственной недвижимости    627
операции со своей недвижимостью           626
строительство жилой недвижимости          620
покупка своего жилья                      619
строительство недвижимости                619
покупка недвижимости                      615
ремонт жилью                              603
покупка жилой недвижимости                601
на покупку своего автомобиля              502
заняться высшим образованием      

### Вывод

Понятно, что основные группы будут связаны со свадьбой, недвижимостью, покупкой автомобиля, чтобы понять правильное распределение и соотношение надо лемматиризировать и сразу разбить по категориям. 

### Категоризация данных

In [8]:
def purpose_group(row): #функция лемматизирует столбец и разбивает его на категории в зависимости от леммы
    row_str = str(row)
    lemmas = m.lemmatize(row_str)
    if 'недвижимость' in lemmas:
        return 'операции с недвижимостью'
    if 'жилье' in lemmas:
        return 'операции с недвижимостью'
    if 'автомобиль' in lemmas:
        return 'авто'
    if 'образование' in lemmas:
        return 'образование'
    if 'свадьба' in lemmas:
        return 'свадьба'
    
    return 'другое'

data['purpose_group']=data['purpose'].apply(purpose_group)

def dob_years_group(row): #функция разбивает всех на три большие возрастные группы 
    if row < 30:
        return 'до 30-ти'
    if row < 60:
        return 'до 60-ти'
    if row > 60:
        return 'пожилые'
data['dob_years_group']=data['dob_years'].apply(dob_years_group)



def income_group(row): #функция разбивает всех на три большие  группы по уровню дохода
    if row <= 50000:
        return 'низкий доход'
    if 50000 < row <= 150000:
        return 'средний'
    if 150000 < row <= 300000:
        return 'высокий'
    if row > 300000:
        return 'очень высокий'
    
data['total_income_group']=data['total_income'].apply(income_group)



data = data[['children', #перестановка столбцов датафрейма в более удобном порядке 
 'years_employed',
 'dob_years',
 'dob_years_group',
 'education',
 'education_id',
 'family_status',
 'family_status_id',
 'gender',
 'income_type',
 'debt',
 'total_income',
 'total_income_group',
 'purpose',
 'purpose_group']]

data


Unnamed: 0,children,years_employed,dob_years,dob_years_group,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,total_income_group,purpose,purpose_group
0,1,23,42,до 60-ти,высшее,0,женат / замужем,0,F,сотрудник,0,253875,высокий,покупка жилья,операции с недвижимостью
1,1,11,36,до 60-ти,среднее,1,женат / замужем,0,F,сотрудник,0,112080,средний,приобретение автомобиля,авто
2,0,15,33,до 60-ти,среднее,1,женат / замужем,0,M,сотрудник,0,145885,средний,покупка жилья,операции с недвижимостью
3,3,11,32,до 60-ти,среднее,1,женат / замужем,0,M,сотрудник,0,267628,высокий,дополнительное образование,образование
4,0,38,53,до 60-ти,среднее,1,гражданский брак,1,F,пенсионер,0,158616,высокий,сыграть свадьбу,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21272,1,12,43,до 60-ти,среднее,1,гражданский брак,1,F,компаньон,0,224791,высокий,операции с жильем,операции с недвижимостью
21273,0,39,67,пожилые,среднее,1,женат / замужем,0,F,пенсионер,0,155999,высокий,сделка с автомобилем,авто
21274,1,5,38,до 60-ти,среднее,1,гражданский брак,1,M,сотрудник,1,89672,средний,недвижимость,операции с недвижимостью
21275,3,8,38,до 60-ти,среднее,1,женат / замужем,0,M,сотрудник,1,244093,высокий,на покупку своего автомобиля,авто


In [9]:
#Словари - образование, семейное положение, покупки, доход, возраст
final_data = data[['children',
 'years_employed',
 'dob_years_group',
 'education_id',
 'family_status_id',
 'gender',
 'income_type',
 'debt',
 'total_income_group',
 'purpose_group']]
#семейный статус
family_status_dict = data[['family_status','family_status_id']]
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
# образование
education_dict = data[['education','education_id']]
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
#покупки
purpose_dict = data[['purpose','purpose_group']]
#возраст
dob_years_dict = data[['dob_years','dob_years_group']]
#доход
total_income_dict = data[['total_income','total_income_group']]

final_data

Unnamed: 0,children,years_employed,dob_years_group,education_id,family_status_id,gender,income_type,debt,total_income_group,purpose_group
0,1,23,до 60-ти,0,0,F,сотрудник,0,высокий,операции с недвижимостью
1,1,11,до 60-ти,1,0,F,сотрудник,0,средний,авто
2,0,15,до 60-ти,1,0,M,сотрудник,0,средний,операции с недвижимостью
3,3,11,до 60-ти,1,0,M,сотрудник,0,высокий,образование
4,0,38,до 60-ти,1,1,F,пенсионер,0,высокий,свадьба
...,...,...,...,...,...,...,...,...,...,...
21272,1,12,до 60-ти,1,1,F,компаньон,0,высокий,операции с недвижимостью
21273,0,39,пожилые,1,0,F,пенсионер,0,высокий,авто
21274,1,5,до 60-ти,1,1,M,сотрудник,1,средний,операции с недвижимостью
21275,3,8,до 60-ти,1,0,M,сотрудник,1,высокий,авто


### Вывод

Данные были слишком громоздкими и тяжелыми для визуального восприятия, так же сложно было их и группировать. 
Чтобы это исправить разбил данные на удобные группы: по возрасту, уровню дохода, целям кредита. 
Часть данных сохранил в словари: образование, семейный статус, цель покупки, доход. Новые данные легче для восприятия и при конечном анализе будут гораздо проще для обработки. 

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [10]:
print(final_data.pivot_table(index='children', columns='debt', values='gender', aggfunc='count', margins=True))#сводная таблица между количеством детей и хорошими/плохими заемщиками
def dolg(n): #функция для подсчета метрики 
    return n.sum()/n.count()
final_data.groupby('children')['debt'].apply(dolg)

debt            0       1    All
children                        
0         12963.0  1058.0  14021
1          4397.0   442.0   4839
2          1845.0   194.0   2039
3           301.0    27.0    328
4            37.0     4.0     41
5             9.0     NaN      9
All       19552.0  1725.0  21277


children
0    0.075458
1    0.091341
2    0.095145
3    0.082317
4    0.097561
5    0.000000
Name: debt, dtype: float64

### Вывод

Ввели специальную метрику dolg - соотношение должников с просрочкой к общему числу заемщиков. Чем ниже этот показатель, тем лучше. Здесь видно, что самый лучший показатель - у людей без детей, скорее всего это связано с тем, что у этих люедй меньше трат в целом и меньше непредвиденных расходов, поэтому кредит они чаще платят вовремя, чем люди с детьми. 

---
## Комментарий от наставника

Выводы не противоречат полученным результатам. Столбец с долями лучше прикрепить к сводной таблице. 

---

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [11]:
final_data.pivot_table(index='family_status_id', columns='debt', values='gender', aggfunc='count', margins=True)

print(family_status_dict)
final_data.groupby('family_status_id')['debt'].apply(dolg)


           family_status  family_status_id
0        женат / замужем                 0
1       гражданский брак                 1
2         вдовец / вдова                 2
3              в разводе                 3
4  не женат / не замужем                 4


family_status_id
0    0.075478
1    0.093029
2    0.065263
3    0.071006
4    0.097666
Name: debt, dtype: float64

### Вывод

По метрике dolg видно, что люди женатые реже просрачивают кредиты, а самые высокие метрики в основном у холостых и людей в гражданском браке. Думаю, это из-за двух факторов :
1) возраст, люди становятся старше, женятся или выходят замуж, обретают какую-то финансовую стабильность
2) поддержка внутри семьи, так как часто у супругов - долги обшие


In [12]:
final_data.groupby('total_income_group')['debt'].apply(dolg)

total_income_group
высокий          0.080157
низкий доход     0.062162
очень высокий    0.071962
средний          0.083397
Name: debt, dtype: float64

### Вывод

Прямой взаимосвязи в этих группах не наблюдается, но видно, что выделяются группы с очень низким и очень высоким доходом. Скорее всего это объясняется тем, что лбди с низким доходом очень серьезно относятся ко всем тратам и внимательны к своему финансовому здоровью, а люди с очень высоким уровнем дохода меньше просрачивают в силу своей финансовой грамотности и большего количества активов. 

---
## Комментарий от наставника

Для количества детей сделано лучше: приведено общее число людей в группе, а также число должников в них. Из этих данных подсчитан процент. Лучше все таблицы оформить в таком стиле.

---

- Как разные цели кредита влияют на его возврат в срок?

In [13]:
final_data.groupby('purpose_group')['debt'].apply(dolg)

purpose_group
авто                        0.093230
образование                 0.092714
операции с недвижимостью    0.072434
свадьба                     0.078661
Name: debt, dtype: float64

### Вывод

Лучше всего показывают себя группы с долгосрочными и "семейными" покупками - кнедвижимость и свадьбу. Часто долги на свадьбу закрывают сразу после мероприятия с подарков, поэтому у нее довольно низкий уровень просрочки. 

---
## Комментарий от наставника

Здорово, что использован метод сводных таблиц при получении результатов. 

Выводы верные по всем пунктам.

---

### Шаг 4. Общий вывод

В целом видно, что лучше всего давать в долг людям семейным с высоким доходам, так как они с большей вероятностью отдадут все в срок. 
Если выдавать только займы на автомобили молодым сорвиголовам - явно нужно будет активно работать с кредитным портфелем, в нем будет много просрочки. 

---
## Комментарий от наставника

Выводы описаны грамотно. В выводах можно приводить полученные ранее значения. Стоит также больше уделить внимания получаемым результатам. Именно для этого вывод и нужен. Также можно расписать все, что было сделано и какими методами. 

---

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.