### Шаг 1. Обзор данных

In [1]:
# импорт библиотеки pandas
import pandas as pd
# чтение файла с данными и сохранение в data
data = pd.read_csv('data.csv')

In [2]:
# получение общей информации о данных в таблице data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов. Тип данных в столбцах — `object`, `int64` и `float64`

В названиях колонок нарушения стиля не выявлены.

В столбцах 2 и 10 количество елементов отличается от остальных столбцов. Значит, в данных есть пропущенные значения.

In [3]:
# получение первых 10 строк таблицы data
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


В столбцах 2 и 10 есть пропущенные значения, но в первых 10 строках не выявлены, однако из общих данных видно что один из них — 

`days_employed`, второй - `total_income` 

### Шаг 2.1 Заполнение пропусков

In [4]:
# вывод первых пяти пропусков в столбце `total_income`
data[data['total_income'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [5]:
# подсчёт доли пропусков в столбцах `total_income` и `days_employed`
display(data['total_income'].isna().sum() / data['total_income'].count())
display(data['days_employed'].isna().sum() / data['days_employed'].count())

0.11234561521368405

0.11234561521368405

Строки с пропущенными данными в столбцах 2 и 10 совпадают, 
а также количество пропущенных данных в столбцах совпадает по количеству.

Пропущено более 10% от данных.

Заполним пропущенные значения в столбце `total_income` медианным значением.

In [6]:
# расчет медианного значения для столбца `total_income`
total_income_median = data['total_income'].median()
total_income_median

145017.93753253992

In [7]:
# замена пропусков на медианное значение
data['total_income'] = data['total_income'].fillna(total_income_median)
# проверка замены пропуска на медианное значение
data.loc[12]

children                           0
days_employed                    NaN
dob_years                         65
education                    среднее
education_id                       1
family_status       гражданский брак
family_status_id                   1
gender                             M
income_type                пенсионер
debt                               0
total_income           145017.937533
purpose              сыграть свадьбу
Name: 12, dtype: object

**Выводы**

Пропуски в данных носят одинаковый характер, так как совпадают строки и количество пропусков.

Данные могли быть пропущены в связи с технической ошибкой или связаны с человеческим фактором.

Поскольку доля пропусков более 1% и составляет 11% требуется заполнить их характерными хначениям для получения более достоверных выводов.

Заполнить пропуски медианным значением — лучшее решение для количественных переменных, так как данные в столбце `total_income` отображают суммарный доход и при заполнении пропусков средним значением, можем увеличить долю ошибки.

### Шаг 2.2 Проверка данных на аномалии и исправления.

В столбце `days_employed` встречаются отрицательные значения. Заменим отрицательные значения на абсолютные.
Проверим также столбец `children` и при наличии отрицательных, значений вернем абсолютные.

In [8]:
# замена отрицательных значений на абсолютные для столбца `days_employed`
data['days_employed'] = data['days_employed'].abs()

In [9]:
# запрос уникальных значений столбца `children` для проверки гипотезы с отрицательными значениями
display(data['children'].unique())
# замена отрицательных значений на абсолютные для столбца `days_employed`
data['children'] = data['children'].abs()
# проверим стобец `children` после замены на абсолютные значения
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

array([ 1,  0,  3,  2,  4, 20,  5], dtype=int64)

Так как в уникальных значения встречается число 20, при отсутсвии 6-19, это также является аномалией. Поэтому заменим на более подходящее по смыслу значение 2, так как вероятнее всего к числу добавился ноль в результате технического сбоя или ошибки.

In [10]:
# замена аномальных значений '20' на более подходящее '2' для столбца `children`
data['children'] = data['children'].replace(20, 2)
# проверим стобец `children` после замены аномального значения 20 на 2
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Причины появления таких данных возможны изза сбоя обработки данных или технической ошибки, поскольку также встречаются и пропуски в данных.

Так как это количественные значения, правильным будем заменить недостающие значения на медианные.

In [11]:
# расчет медианного значения для столбца `days_employed`
days_employed_median = data['days_employed'].median()

# замена пропусков на медианное значение
data['days_employed'] = data['days_employed'].fillna(days_employed_median)

# проверка замены пропуска на медианное значение (в сооответствии с пунктом 2.1 возьмем строку № 12)
data.loc[12]

children                           0
days_employed            2194.220567
dob_years                         65
education                    среднее
education_id                       1
family_status       гражданский брак
family_status_id                   1
gender                             M
income_type                пенсионер
debt                               0
total_income           145017.937533
purpose              сыграть свадьбу
Name: 12, dtype: object

### Шаг 2.3. Изменение типов данных.

Заменим вещественный тип данных в столбце `total_income` на целочисленный, с помощью метода astype().

In [12]:
# Замена типа данных в столбце `total_income` на целочисленный, с помощью метода astype().
data['total_income'] = data['total_income'].astype('int')

# получение первых 10 строк таблицы data для проверки применения метода astype()
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Шаг 2.4. Удаление дубликатов.

В данных замечены значения записанные в разном регистре в столбцах `education` и `family_status`
Следует привести их к одному регистру.

In [13]:
# корректировка значений в стобце `education` с помощью метода str.lower() 
data['education'] = data['education'].str.lower()

# запрос уникальных значений столбца `family_status` для проверки гипотезы, что данные записанн в разном регистре
display(data['family_status'].unique())

# корректировка значений в стобце `family_status` с помощью метода str.lower() 
data['family_status'] = data['family_status'].str.lower()

# проверка примененного метода для значений ранее записанных в разном регистре
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

Проверим данные на наличие строк-дубликатов, и при наличии - удалим их из таблицы data.  

In [14]:
# расчет количества явных строк-дубликатов
display(data.duplicated().sum())

# удаление строк-дубликатов во всей таблице data
data = data.drop_duplicates()

# получение общей информации о данных в таблице data, для проверки отсутсвия пропусков и дубликатов
data.info()

71

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  int32  
 11  purpose           21454 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 2.0+ MB


Для поиска и расчета количества дубликатов был выбран метод `duplicated()` совместно с методом `sum()`

Для удаления дубликатов в данных применен метод `drop_duplicates()`

Дубликаты в данных могли появится в связи с технической ошибкой, или с человеческим фактором при внесении данных в общую базу.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим новые датафреймы — это «словари», к которым сможем обращаться по идентификатору.

In [15]:
# разделим таблицу data, первая состоит из уникальных значений `education` и соответствующих значений `education_id`
data_education = data[['education','education_id']]

# удаление дубликатов из датафрейма `data_education`
data_education = data_education.drop_duplicates().reset_index(drop=True)

# вывод на экран для получения визуального представления о новой таблице №1
display(data_education.head())

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [16]:
# вторая состоит из уникальных значений `family_status` и соответствующих значений `family_status_id`
data_family_status = data[['family_status','family_status_id']]

# удаление дубликатов из датафрейма `data_family_status`
data_family_status = data_family_status.drop_duplicates().reset_index(drop=True)

# вывод на экран для получения визуального представления о новой таблице №2
display(data_family_status.head())

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


Удалим из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: education_id и family_status_id. 

In [17]:
# удаление столбцов из исходного датафрейма, без удаления идентификаторов
data = data[['children', 'days_employed', 'dob_years', 'education_id', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose']]
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

Cоздадим столбец `total_income_category` со следующими категориями:

0–30000 — 'E';

30001–50000 — 'D';

50001–200000 — 'C';

200001–1000000 — 'B';

1000001 и выше — 'A'.

и заполним его, применив функцию `total_income_category(total_income)`

In [18]:
# создание функции `total_income_category` для описания значений категорий в зависимости от дохода
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if 30001 <= total_income <= 50000:
        return 'D'
    if 50001 <= total_income <= 200000:
        return 'C'
    if 200001 <= total_income <= 1000000:
        return 'B'
    return 'A'
# заполнения столбца `total_income_category` применив к значениям из столбца 'total_income' функцию выше
data['total_income_category'] = data['total_income'].apply(total_income_category)
# проверка работы функции и заполнения нового столбца
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


### Шаг 2.7. Категоризация целей кредита.

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец `purpose_category`, 
в который войдут следующие категории:

`операции с автомобилем`,

`операции с недвижимостью`,

`проведение свадьбы`,

`получение образования`.

Используем эту функцию и метод apply() для заполнения значений в столбце `purpose_category`.

In [19]:
# получение уникальных значений стобца `purpose` 
data['purpose'].unique()
# создание списков для функции на основании уникальных значений 
auto = [
    'приобретение автомобиля', 'на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'автомобили', 
    'сделка с подержанным автомобилем', 'автомобиль', 'свой автомобиль', 'сделка с автомобилем', 'на покупку автомобиля'
]
# (не потребовался список) edu = ['дополнительное образование', 'образование', 'заняться образованием', 'получение образования', 'получение дополнительного образования', 'получение высшего образования', 'профильное образование', 'высшее образование', 'заняться высшим образованием']
wedding = ['сыграть свадьбу', 'на проведение свадьбы', 'свадьба']
real_property = [
    'покупка жилья', 'операции с жильем', 'покупка жилья для семьи', 'покупка недвижимости', 
    'покупка коммерческой недвижимости', 'покупка жилой недвижимости', 'строительство собственной недвижимости', 
    'недвижимость', 'строительство недвижимости', 'жилье', 'операции с коммерческой недвижимостью', 
    'строительство жилой недвижимости', 'операции со своей недвижимостью', 'покупка своего жилья',
    'операции с недвижимостью', 'покупка жилья для сдачи', 'ремонт жилью'
]
# создание функции `purpose_category` для описания значений категорий в зависимости от указанной цели
def purpose_category(purpose):
    for i in range(len(auto)):
        if purpose == auto[i]:
            return 'операции с автомобилем'
    for i in range(len(real_property)):
        if purpose == real_property[i]:
            return 'операции с недвижимостью'
    for i in range(len(wedding)):
        if purpose == wedding[i]:
            return 'проведение свадьбы'
    return 'получение образования'
# заполнения столбца `purpose_category` применив к значениям из столбца 'purpose' функцию выше
data['purpose_category'] = data['purpose'].apply(purpose_category)
# проверка работы функции и заполнения нового столбца
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


### Ответы на вопросы.

##### Вопрос 1:

Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [20]:
# создание сводной таблицы учитывая всех детей совместно со столбцом о наличии задолженности 
pivot_one = data.pivot_table(index='children', columns='debt', values='total_income', aggfunc='count')
# получение столбца `ratio` показывающий отношение отсутсвия и наличия задолженности
pivot_one['ratio'] = pivot_one[1] / pivot_one[0]
# вывод на экран таблицы совместно со столбцом `ratio`
pivot_one

debt,0,1,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,0.081593
1,4410.0,445.0,0.100907
2,1926.0,202.0,0.104881
3,303.0,27.0,0.089109
4,37.0,4.0,0.108108
5,9.0,,


**Ответ**:

Зависимость между количеством детей и возвратом кредита не существенная, так как по столбцу ratio можно заметить, что процент задолженностей относительно количества детей не сильно изменяется, в диапазоне 8-11% от строки к строке.

Так же можно заметить, что в данной выборке среди людей, у которых имеется 5 детей - нет людей с задолженностью, скорее всего это случайное исключение не влияющее на общую картину так как есть значения `ratio` выше данной строки.

##### Вопрос 2:

Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [21]:
# создание сводной таблицы учитывая количество значений в каждой группе (количество посчитано по столбцу `children`) 
# совместно с идентификатором семейного статуса и наличию задолженности 
pivot_two = data.pivot_table(index='family_status_id', columns='debt', values='children', aggfunc='count')
# объединение сводной таблицы с таблицей-словарем для понимания семейного положения, дополнительно отсортируем по убыванию
merged_pivot_two = data_family_status.merge(pivot_two, on='family_status_id', how='left').sort_values(by=0, ascending=False)
# получение столбца `ratio` показывающий отношение отсутсвия и наличия задолженности
merged_pivot_two['ratio'] = merged_pivot_two[1] / merged_pivot_two[0]
# вывод на экран таблицы совместно со столбцом `ratio`
merged_pivot_two

Unnamed: 0,family_status,family_status_id,0,1,ratio
0,женат / замужем,0,11408,931,0.081609
1,гражданский брак,1,3763,388,0.103109
4,не женат / не замужем,4,2536,274,0.108044
3,в разводе,3,1110,85,0.076577
2,вдовец / вдова,2,896,63,0.070312


**Ответ**:

Зависимость между семейным положением и возвратом кредита не существенная, так как по столбцу `ratio` можно заметить, что процент задолженностей относительно семейного статуса не сильно изменяется, в диапазоне 7-10% от строки к строке.

##### Вопрос 3:

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [22]:
# создание сводной таблицы учитывая категорию дохода и наличие / отсутствие задолженности по возврату 
pivot_three = data.pivot_table(index='total_income_category', columns='debt', values='total_income', aggfunc='count')
# получение столбца `ratio` показывающий соотношение отсутсвия и наличия задолженности
pivot_three['ratio'] = pivot_three[1] / pivot_three[0]
# вывод на экран таблицы совместно со столбцом `ratio`
pivot_three

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,0.086957
B,4685,356,0.075987
C,14656,1360,0.092795
D,329,21,0.06383
E,20,2,0.1


**Ответ**:

Зависимость между уровнем дохода и возвратом кредита не существенная, так как по столбцу `ratio` можно заметить, что процент задолженностей относительно категории дохода не сильно изменяется, в диапазоне 6-10% от строки к строке.

##### Вопрос 4:

Как разные цели кредита влияют на его возврат в срок?

In [23]:
# создание сводной таблицы учитывая цель кредитта и наличие / отсутствие задолженности по возврату 
pivot_four = data.pivot_table(index='purpose_category', columns='debt', values='total_income', aggfunc='count')
# получение столбца `ratio` показывающий соотношение отсутсвия и наличия задолженности
pivot_four['ratio'] = pivot_four[1] / pivot_four[0]
# вывод на экран таблицы совместно со столбцом `ratio`
pivot_four

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,0.103254
операции с недвижимостью,10029,782,0.077974
получение образования,3643,370,0.101565
проведение свадьбы,2138,186,0.086997


**Ответ**:

Зависимость между целью кредита и возвратом кредита не существенная, так как по столбцу `ratio` можно заметить, что процент задолженностей относительно цели кредита не сильно изменяется, в диапазоне 7-10% от строки к строке.