### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [2]:
from pymystem3 import Mystem

In [3]:
import pandas as pd
credit_score = pd.read_csv('credit_score.csv')

In [4]:
credit_score.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
(credit_score.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Вывод

Исходя из представленных данных наблюдаются проблемы следующего харктера:

**Столбец days_employed**:
    1. Есть пропуски в данных
    2. Значения представленны не в том формате (float вместо int)
    3. сами значения представленны некорректно. Возможно это связанно с проблемами во время передачи данных.
**Столбец dob_years**:
    1. Присутствуют строки, содержащие значение '0'
**Столбец Education**:
    1. Регистр записей в данном столбце разный. Это помешает группировке.
**Столбец Gender**:
    1. Присутствует значение 'XNA'
**Столбец total_income**:
    1. Пристуствуют пропущенные значения
    2. Возможно стоит преобразовать столбец из float в int с целью оптимизации памяти
**Столбец Purpose**:
    1. Одна и та же цель можт быть представлена по разному. необходима лемматизация

### Шаг 2. Предобработка данных

### Обработка пропусков

In [6]:
credit_score['days_employed'] = credit_score['days_employed'].fillna(0)

In [7]:
credit_score['total_income'] = credit_score['total_income'].fillna(0)

### Вывод

Всего пропущено 10% данных. Пропуски были заполнены нулевыми значениями во избежание потери данных по остальным столбцам этой записи. В связи с отсутсвием дополнительных нулевых значений по этим столбцам я буду знать, в каких строчках отсуствовали значения. Для заполнения пропусков в данных использовался метод fillna(), так как он для этого и предназначен)

### Замена типа данных

In [8]:
credit_score['days_employed'] = credit_score['days_employed'].astype('int')

In [9]:
credit_score['total_income'] = credit_score['total_income'].astype('int')

In [10]:
credit_score.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [11]:
credit_score.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,-152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,-6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Вывод

После данного этапа к int были приведены два столбца: **days_employed** и **total_income**. В случае со столбцом **days_employed** это было необходимо в связи с тем, что дробного значения дня не бывает в данном контексте. В случае с **total_income** это было сделано с целью откинуть ненужную часть данных и попытаться выйграть немного памяти. Ну и к тому же в данных в столь точном значении дохода нет необходимости. Использовался метод astype()  

### Обработка дубликатов

In [12]:
credit_score['education'] = credit_score['education'].str.lower()

In [13]:
credit_score.duplicated().sum()

71

In [14]:
credit_score = credit_score.drop_duplicates().reset_index(drop=True)

In [15]:
credit_score.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Предварительно столбец **education** был приведен к нижнему регистру методом str.lower() для избежания дублирования данных в зависимости от регистра. В связи с заполнением пропусков одинаковыми значениями появились дубликаты в данных. Пожертвовать объемом данных **менее 1%** допустимо. использовался метод drop_duplicates().reset_index(drop=True) для удаления дубликатов и восстановления индексации.

### Лемматизация

In [16]:
m = Mystem()

In [17]:
purposes = credit_score['purpose'].unique().tolist()

In [18]:
purposes

['покупка жилья',
 'приобретение автомобиля',
 'дополнительное образование',
 'сыграть свадьбу',
 'операции с жильем',
 'образование',
 'на проведение свадьбы',
 'покупка жилья для семьи',
 'покупка недвижимости',
 'покупка коммерческой недвижимости',
 'покупка жилой недвижимости',
 'строительство собственной недвижимости',
 'недвижимость',
 'строительство недвижимости',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'операции с коммерческой недвижимостью',
 'строительство жилой недвижимости',
 'жилье',
 'операции со своей недвижимостью',
 'автомобили',
 'заняться образованием',
 'сделка с подержанным автомобилем',
 'получение образования',
 'автомобиль',
 'свадьба',
 'получение дополнительного образования',
 'покупка своего жилья',
 'операции с недвижимостью',
 'получение высшего образования',
 'свой автомобиль',
 'сделка с автомобилем',
 'профильное образование',
 'высшее образование',
 'покупка жилья для сдачи',
 'на покупку автомобиля',
 'ремонт жилью',
 '

In [19]:
def lemmatize_purpose(row):
    lemmas = m.lemmatize(row)
    if 'автомобиль' in lemmas:
        return 'автомобильный кредит'
    if 'свадьба' in lemmas:
        return 'потребительский кредит'
    if ('жилье'in lemmas) or ('недвижимость' in lemmas) :
        return 'ипотечный кредит'
    if 'образование' in lemmas:
        return 'кредит на образование'

In [20]:
credit_score['purpose_type'] = credit_score['purpose'].apply(lemmatize_purpose)

In [21]:
credit_score.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_type
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,ипотечный кредит
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобильный кредит
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,ипотечный кредит
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,кредит на образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,потребительский кредит
5,0,-926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,ипотечный кредит
6,0,-2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,ипотечный кредит
7,0,-152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,кредит на образование
8,2,-6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,потребительский кредит
9,0,-2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,ипотечный кредит


### Вывод

Были выделены все уникальные цели получения кредита. После чего вручную было выделено 4 цели, а именно:
    1. Ипотечный кредит
    2. Автомобильный кредит
    3. Потребительский кредит
    4. Кредит на образование
После чего была написана функция **lemmatize_purpose(row)**, которая добавляет столбец с типом кредита для каждой цели.     

### Категоризация данных

In [22]:
education_dict = []

In [23]:
education_dict = credit_score[['education', 'education_id']]

In [25]:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)

In [26]:
education_dict

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [27]:
family_status_dict = []

In [28]:
family_status_dict = credit_score[['family_status', 'family_status_id']]

In [29]:
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)

In [30]:
family_status_dict

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


### Вывод

Для категоризации рассматривались два типа столбцов:
    1. Уровень образования
    2. Семейное положение
В дальнейшем основываясь на этих данных будет проще дать отвеы на поставленные вопросы

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [33]:
children_debt = []

In [34]:
children_debt = credit_score[['children', 'debt']]

In [35]:
children_debt

Unnamed: 0,children,debt
0,1,0
1,1,0
2,0,0
3,3,0
4,0,0
...,...,...
21449,1,0
21450,0,0
21451,1,1
21452,3,1


In [37]:
def child_debt(row):
    if row['children'] == 0:
        if row['debt'] == 0:
            return 'без детей, без долга'
    if row['children'] > 0:
        if row['debt'] == 0:
            return 'дети, без долга'
    if row['children'] > 0:
        if row['debt'] > 0:
            return 'дети, c долгом'
    if row['children'] == 0:
        if row['debt'] > 0:
            return 'без детей, с долгом'    

In [None]:
children_debt = children_debt.apply(child_debt, axis=1)

In [42]:
children_debt

0             дети, без долга
1             дети, без долга
2        без детей, без долга
3             дети, без долга
4        без детей, без долга
                 ...         
21449         дети, без долга
21450    без детей, без долга
21451          дети, c долгом
21452          дети, c долгом
21453         дети, без долга
Length: 21454, dtype: object

In [44]:
result = children_debt.value_counts()

In [46]:
result

без детей, без долга    13028
дети, без долга          6639
без детей, с долгом      1063
дети, c долгом            677
dtype: int64

In [49]:
result[0]+result[2]

14091

In [50]:
13028*100/14091

92.45617770207934

In [51]:
result[1]+result[3]

7316

In [52]:
6639*100/7316

90.74630945872062

### Вывод

    1. Люди без детей берут кредит почти в два раза чаще, чем с детьми
    2. Люди без детей возращают кредит без просрочек в 92% случаев
    3. Люди с детьми возвращают кредит без просрочек в 90% случаев
Исходя из этого можно сделать вывод что наличие детей не влияет на возвратность кредита в срок.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [73]:
family_debt = []

In [85]:
family_debt = credit_score[['family_status_id', 'debt']]

In [80]:
family_debt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 2 columns):
family_status_id    21454 non-null int64
debt                21454 non-null int64
dtypes: int64(2)
memory usage: 335.3 KB


In [81]:
def family_debt_res(row):
    if (row['family_status_id'] == 0 or row['family_status_id'] == 1):
        if row['debt'] == 0:
            return 'пара, без долга'
    if (row['family_status_id'] == 0 or row['family_status_id'] == 1):
        if row['debt'] == 1:
            return 'пара, с долгом'
    if (row['family_status_id'] == 2 or row['family_status_id'] == 3 or row['family_status_id'] == 4):
        if row['debt'] == 0:
            return 'одиночка, без долга'
    if (row['family_status_id'] == 2 or row['family_status_id'] == 3 or row['family_status_id'] == 4):
        if row['debt'] == 1:
            return 'одиночка, с долгом'     

In [86]:
family_debt

Unnamed: 0,family_status_id,debt
0,0,0
1,0,0
2,0,0
3,0,0
4,1,0
...,...,...
21449,1,0
21450,0,0
21451,1,1
21452,0,1


In [88]:
family_debt['status'] = family_debt.apply(family_debt_res, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [89]:
family_debt

Unnamed: 0,family_status_id,debt,status
0,0,0,"пара, без долга"
1,0,0,"пара, без долга"
2,0,0,"пара, без долга"
3,0,0,"пара, без долга"
4,1,0,"пара, без долга"
...,...,...,...
21449,1,0,"пара, без долга"
21450,0,0,"пара, без долга"
21451,1,1,"пара, с долгом"
21452,0,1,"пара, с долгом"


In [92]:
result = family_debt['status'].value_counts()

In [93]:
result

пара, без долга        15171
одиночка, без долга     4542
пара, с долгом          1319
одиночка, с долгом       422
Name: status, dtype: int64

In [94]:
result[0] + result[2]

16490

In [95]:
15171 * 100 / 16490

92.00121285627654

In [96]:
result[1] + result[3]

4964

In [97]:
4542 * 100 / 4964

91.49879129734086

### Вывод

    1. Люди, состоящие в отношениях в 4 раза чаще беру кредит чем одинокие люди 
    2. Люди, состоящие в отношениях возращают кредит без просрочек в 92% случаев
    3. Люди, не состоящие в отношениях возращают кредит без просрочек в 91% случаев
Исходя из этого можно сделать вывод что наличие отношений не влияет на возвратность кредита в срок.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [113]:
income_debt = credit_score[['total_income', 'debt']]

In [101]:
income_debt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 2 columns):
total_income    21454 non-null int64
debt            21454 non-null int64
dtypes: int64(2)
memory usage: 335.3 KB


In [114]:
def income_debt_res(row):
    if row['total_income'] < 32635 and row['debt'] == 0:
        return 'ниже среднего, без задолженностей'
    if row['total_income'] < 32635 and row['debt'] == 1:
        return 'ниже среднего, c задолженностью'
    if row['total_income'] >= 32635 and row['debt'] == 0:
        return 'выше среднего, без задолженностей'
    if row['total_income'] >= 32635 and row['debt'] == 1:
        return 'выше среднего, c задолженностью'

In [115]:
income_debt['income_level'] = income_debt.apply(income_debt_res, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [116]:
income_debt['income_level'].unique()

array(['выше среднего, без задолженностей',
       'ниже среднего, без задолженностей',
       'выше среднего, c задолженностью',
       'ниже среднего, c задолженностью'], dtype=object)

In [117]:
result = income_debt['income_level'].value_counts()

In [118]:
result

выше среднего, без задолженностей    17739
ниже среднего, без задолженностей     1974
выше среднего, c задолженностью       1569
ниже среднего, c задолженностью        172
Name: income_level, dtype: int64

In [120]:
result[0] + result[2]

19308

In [121]:
17739 * 100 / 19308

91.87383467992542

In [122]:
result[1] + result[3]

2146

In [123]:
1974 * 100 / 2146

91.98508853681267

### Вывод

    1. Люди, с доходом выше среднего в 9 раз чаще беру кредит чем люди с доходом ниже среднего
    2. Люди, с доходом выше среднего возращают кредит без просрочек в 92% случаев
    3. Люди, с доходом ниже среднего возращают кредит без просрочек в 91% случаев
Исходя из этого можно сделать вывод что уровень дохода не влияет на возвратность кредита в срок.

- Как разные цели кредита влияют на его возврат в срок?

In [125]:
purpose_debt = []

In [126]:
purpose_debt = credit_score[['purpose_type', 'debt']]

In [129]:
credit_score['purpose_type'].unique()

array(['ипотечный кредит', 'автомобильный кредит',
       'кредит на образование', 'потребительский кредит'], dtype=object)

In [131]:
def purpose_debt_res(row):
    if row['purpose_type'] == 'ипотечный кредит' and row['debt'] == 0:
        return 'ипотека, без задолженности'
    if row['purpose_type'] == 'ипотечный кредит' and row['debt'] == 1:
        return 'ипотека, с задолженностью'
    if row['purpose_type'] == 'автомобильный кредит' and row['debt'] == 0:
        return 'автокредит, без задолженности'
    if row['purpose_type'] == 'автомобильный кредит' and row['debt'] == 1:
        return 'автокредит, с задолженностью'
    if row['purpose_type'] == 'кредит на образование' and row['debt'] == 0:
        return 'кредит на образование, без задолженности'
    if row['purpose_type'] == 'кредит на образование' and row['debt'] == 1:
        return 'кредит на образование, с задолженностью'
    if row['purpose_type'] == 'потребительский кредит' and row['debt'] == 0:
        return 'потребительский кредит, без задолженности'
    if row['purpose_type'] == 'потребительский кредит' and row['debt'] == 1:
        return 'потребительский кредит, с задолженностью'

In [132]:
purpose_debt['purpose_debt'] = purpose_debt.apply(purpose_debt_res, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [133]:
result = purpose_debt['purpose_debt'].value_counts()

In [134]:
result

ипотека, без задолженности                   10029
автокредит, без задолженности                 3903
кредит на образование, без задолженности      3643
потребительский кредит, без задолженности     2138
ипотека, с задолженностью                      782
автокредит, с задолженностью                   403
кредит на образование, с задолженностью        370
потребительский кредит, с задолженностью       186
Name: purpose_debt, dtype: int64

In [136]:
result[0] + result[4] #всего по ипотеке

10811

In [137]:
10029 * 100 / 10811 #процент возврата без просрочек по ипотеке 

92.76662658403478

In [138]:
result[1] + result[5] #всего по автокредитам

4306

In [139]:
3903 * 100 / 4306 #процент возврата по автокредитам

90.64096609382257

In [140]:
result[2] + result[6] #всего по образовательным кредитам

4013

In [142]:
3643 * 100 / 4013 #процент возврата по образовательным кредитам

90.77996511338151

In [143]:
result[3] + result[7] #всего по потребительским кредитам

2324

In [144]:
2138 * 100 / 2324 #процент возврата по потребительским кредитам

91.99655765920826

### Вывод

    1. Чаще всего люди берут ипотечный кредит, реже всего - потребительский
    2. Чаще всего люди имеют просрочку по платежам в автокредитах, реже всего - в ипотеке
    3. В целом достаточно низкий уровень просрочек

### Шаг 4. Общий вывод

В ходе данной работы был изучен набор данных по кредитованию населения. Данные имели проблемы, а именно:
    1. Столбец с опытом работы 'days_employed' имел пропущенные значения
    2. Столбец с возрастом заемщика 'dob_years' имел нулевое значение в некоторых строках
    3. Столбец с уровнем образования 'education' имел значения, написанные в разных регистрах
    4. Столбец с полом заемщика 'gender' имел одно неопределенное значение
    5. Столбец с уровнем дохода заемщика 'total_income' имел пропущенные значения
    6. Столбец с целью кредита 'purpose' требовал лематтизации в связи с разными формулировками одной и той же цели
Значения в столбцах, которые были указаны в задании, были исправлены разными методами (см. вывод по каждому разделу)
После лематизации было выявлено **4 основных типа кредита**, а именно:
    1. Ипотечный кредит
    2. Автомобильный кредит
    3. Потребительский кредит
    4. Кредит на образование
После чего был проведен анализ для ответа на 4 вопроса: 
    1. Есть ли зависимость между наличием детей и возвратом кредита в срок?
    2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
    3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
    4. Как разные цели кредита влияют на его возврат в срок?
После проведения анализа явных зависимостей выявленно не было.