# Инструкция по выполнению
## Шаг 1. Откройте таблицу и изучите общую информацию о данных
Путь к файлу: /datasets/data.csv. Скачать датасет
## Шаг 2. Предобработка данных
1. В двух столбцах есть пропущенные значения. Один из них — `days_employed`.
Пропуски в этом столбце вы обработаете на следующем этапе. Найдите другой столбец и заполните пропущенные значения в нём медианным значением:
- опишите, какие пропущенные значения вы обнаружили;
- проверьте, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;
- приведите возможные причины появления пропусков в данных;
- объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.
2. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в столбцах с аномалиями и опишите возможные причины появления таких данных. После обработки аномалий заполните пропуски в `days_employed` медианными значениями по этому столбцу.
3. Замените вещественный тип данных в столбце `total_income` на целочисленный, например, с помощью метода `astype()`.
4. Если в данных присутствуют строки-дубликаты, удалите их. Также обработайте неявные дубликаты. Например, в столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите такие значения к одному регистру.После удаления дубликатов сделайте следующее:

- поясните, как выбирали метод для поиска и удаления дубликатов в данных;
- приведите возможные причины появления дубликатов.
5. Создайте два новых датафрейма, в которых:
- каждому уникальному значению из education соответствует уникальное значение `education_id` — в первом;
- каждому уникальному значению из `family_status` соответствует уникальное значение `family_status_id` — во втором.
- Удалите из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: `education_id` и `family_status_id`. Новые датафреймы — это те самые «словари» (не путайте с одноимённой структурой данных в Python), к которым вы сможете обращаться по идентификатору.
6. На основании диапазонов, указанных ниже, создайте столбец `total_income_category` с категориями:
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.
Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.
7. Создайте функцию, которая на основании данных из столбца purpose сформирует новый столбец `purpose_category`, в который войдут следующие категории:
- 'операции с автомобилем',
- 'операции с недвижимостью',
- 'проведение свадьбы',
- 'получение образования'.
Например, если в столбце purpose находится подстрока 'на покупку автомобиля', то в столбце `purpose_category` должна появиться строка 'операции с автомобилем'.
Вы можете использовать собственную функцию и метод `apply()`. Изучите данные в столбце purpose и определите, какие подстроки помогут вам правильно определить категорию.
## Шаг 3. Ответьте на вопросы
Ответы на вопросы можно разместить в ячейках тетрадок `Jupyter Notebook` с типом `markdown`.
- Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?
Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.
## Шаг 4. Напишите общий вывод
  **Оформление:**  Задание выполните в `Jupyter Notebook`. Программный код заполните в ячейках типа `code`, текстовые пояснения — в ячейках типа `markdown`. Примените форматирование и заголовки.
##Описание данных
-`children` — количество детей в семье
-`days_employed` — общий трудовой стаж в днях
-`dob_years` — возраст клиента в годах
-`education` — уровень образования клиента
-`education_id` — идентификатор уровня образования
-`family_status` — семейное положение
-`family_status_id` — идентификатор семейного положения
-`gender` — пол клиента
-`income_type` — тип занятости
-`debt` — имел ли задолженность по возврату кредитов
-`total_income` — ежемесячный доход
-`purpose` — цель получения кредита

In [1]:
import pandas as pd

**ШАГ 1.**

In [2]:
url = 'https://drive.google.com/file/d/1on2-5xT5rA4GJ1scY-o--gBuzNJhJ6hN/view?usp=sharing'
path = 'https://drive.google.com/uc?export=download&id='+url.split('/')[-2]
df = pd.read_csv(path)

In [3]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


- В столбцах `days_employed(общий трудовой стаж в днях)` и `total_income(ежемесячный доход)` есть одинаковое количество пропущенных значений - 2174 шт при общем количестве объектов в датасете - 21525.
- В столбце `children`(количество детей в семье) есть отрицательное значение -1, а также аномально большое значение 20.
- Столбец `days_employed`(общий трудовой стаж в днях) содержит отрицательные значения.

Решением данных проблем займемся на следующем шаге.

**ШАГ 2.**

**2.1 В двух столбцах есть пропущенные значения. Один из них — days_employed. Пропуски в этом столбце вы обработаете на следующем этапе. Найдите другой столбец и заполните пропущенные значения в нём медианным значением:
опишите, какие пропущенные значения вы обнаружили;**

Второй столбец с пропущенными значениями это `total_income(ежемесячный доход). Выведем строки `df`, где значения в `total_income` пропущены.

In [6]:
df.loc[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Пропущенных значений в `total_income` и `days_employed` одинаковое количество 2174 шт. Проверим в тех же самых строках отсутсуют оба значения или нет. Для сравними индексы строк в которых отсутсвуют и `total_income` и `days_employed`.

In [7]:
df.loc[df['total_income'].isna()].index

Index([   12,    26,    29,    41,    55,    65,    67,    72,    82,    83,
       ...
       21415, 21423, 21426, 21432, 21463, 21489, 21495, 21497, 21502, 21510],
      dtype='int64', length=2174)

In [8]:
df.loc[df['days_employed'].isna()].index

Index([   12,    26,    29,    41,    55,    65,    67,    72,    82,    83,
       ...
       21415, 21423, 21426, 21432, 21463, 21489, 21495, 21497, 21502, 21510],
      dtype='int64', length=2174)

In [9]:
list(df.loc[df['total_income'].isna()].index) == list(df.loc[df['days_employed'].isna()].index)

True

Пропущенные значения одновременно появляются сразу в двух столбцах `total_income(ежемесячный доход)` и `days_employed(общий трудовой стаж в днях)`. Заменим пропущенные значения для столбца `total_income` его медианным значением.


In [10]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median())
df['total_income'].isna().sum()  # проверка замены

0

**2.2 проверьте, какую долю составляют пропущенные значения в каждом из столбцов с пропусками;**

Поскольку мы уже выполнили замену пропущенных значений  `total_income` в предыдущем шаге долю пропущенных значений будем вычислять по столбцу `days_employed`, т.к. до заполнения их было одинаковое количество.

In [11]:
share_missed = len(df.loc[df['days_employed'].isna()])/len(df)
print(f'Доля пропущенных значений в столбцах days_employed и total_income составляет: {share_missed:.1%}')

Доля пропущенных значений в столбцах days_employed и total_income составляет: 10.1%


10.1% это довольно большая доля и при удалении этих строк мы много потеряем, поэтому будем в дальнейшем заменять пропущенные значения в `days_employed` медианным значением.

**2.3 приведите возможные причины появления пропусков в данных;**

Пропуски значений появились одновременно в двух столбцах `total_income(ежемесячный доход)` и `days_employed(общий трудовой стаж в днях)`. Можно предположить, что эти значения просто не были заполнены изначально, т.к. эти люди скорее всего не были трудоустроены официально и соответвенно не имеют трудового стажа и подтвержденного официального дохода.

**2.4 объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.**

Пропуски лучше заполнить медианным значением, потому что медиана менее подверженна влиянию выбросов. Если в данных будут встречаться выбросы, которые очень сильно удалены от среднего значения, то эти выбросы существенно могут сдвинуть средее значение.

**2.5 В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце days_employed. Для реальных данных это нормально. Обработайте значения в столбцах с аномалиями и опишите возможные причины появления таких данных.**

In [12]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165159.5
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,97866.07
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195543.6
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


 - Аномальные значение можно наблюдать в столбце `days_employed(общий трудовой стаж в днях)` - здесь имеются отрицаетельные значения. Оценим долю таких значений, если она не велика, до данные строки можно удалить. Также здесь есть аномально высокое значение 401755, что при среднем количестве рабочих дней в году около 250 составляет более 1607 лет стажа, чего быть не может.
 - Так же в столбце `children(количество детей в семье)` имеются отрицательные значения и аномально большое количество - детей 20. Также оценим долю таких аномалий и, если она небольшая, то удалим такие строки.
 - `dob_years(возраст клиента в годах)` имеет минимальное значение 0.

In [13]:
print(f'Доля отрицательных значений в столбце days_employed:{len(df.loc[df["days_employed"]<0])/len(df):.1%}')


Доля отрицательных значений в столбце days_employed:73.9%


Почти все значения, а это  73.9% в `days_emloyed(общий трудовой стаж в днях)` отрицательные. Видимо имел место человеческий фактор и при заполнении анкет допускалась неточность(минус то указывался, то нет).
Обработаем данный столбец и уберем минусы, т.е. возьмем все значения по модулю.

In [14]:
df['days_employed'] = abs(df['days_employed'])

Так же в столбце присутсвуют аномально высокие значения. Расчитаем максимальное количество трудовых дней при условии, что человек начал работать в 18 лет и вышел на пенсию в 65 при среднем количество рабочих дней в году около 250 получим (65-18)*250 = 11750 дней. Т.е. значения больше 12000 явно являются аномальными и от них надо избавляться.

In [15]:
print(f'Доля аномально высоких значений days_employed: {len(df.loc[df["days_employed"]>12000])/len(df):.1%}')

Доля аномально высоких значений days_employed: 16.4%


In [16]:
print(f'Доля пропущенных значений в  days_employed: {len(df.loc[df["days_employed"].isna()])/len(df):.1%}')

Доля пропущенных значений в  days_employed: 10.1%


Суммарная доля аномально высоких и пропущенных значений в `days_employed`более 26%. Это довольно много для удаления таких строк, поэтому в дальнейшем заменим такие значения на медианное.

В `children` присутсвуют отрицательные значения, а также аномально высокие более 15 детей. Доля таких строк невысокая всего 0.5%, поэтому просто удалим данные аномальные строки.

In [17]:
print(f'Доля отрицаетльных значений и более 15 в children :{(len(df.loc[df["children"]<0]) + len(df.loc[df["children"]>15]))/len(df):.1%}')

Доля отрицаетльных значений и более 15 в children :0.6%


In [18]:
df = df.loc[df['children']>=0]
df = df.loc[df['children']<=15]

В столбце `dob_years` есть значения равные нулю. Значения в данном столбце должны быть меньше или равны 18. Доля таких значений меньше 0.5%, поэтому удалим все строки из датасета не удовлетворящие данному условию.


In [19]:
print(f'Доля значения, которых меньше 18 в столбце dob_years: {len(df.loc[df["dob_years"]<18])/len(df):.1%}')

Доля значения, которых меньше 18 в столбце dob_years: 0.5%


In [20]:
df = df.loc[df['dob_years']>=18]
len(df)

21302

**2.6 После обработки аномалий заполните пропуски в days_employed медианными значениями по этому столбцу.**

Как уже указывалось выше значения в `days_employed` не могут превышать 12000 дней - это около 48 лет непрерыного стажа. Поэтому заменим все значения более 12000 и пропущенные значения на медианное значение по столбцу при условии, что этот показатель менее или равен 12000.

In [21]:
media_less_12000 = df.loc[df['days_employed']<12000]['days_employed'].median()

In [22]:
df.loc[(df['days_employed'].isna()) | (df['days_employed']>12000), 'days_employed'] = media_less_12000
df.isna().sum().sum()

0

**2.7 Замените вещественный тип данных в столбце total_income на целочисленный, например, с помощью метода astype()**

In [23]:
df['total_income'] = df['total_income'].astype('int')
df = df.reset_index(drop=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21302 entries, 0 to 21301
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21302 non-null  int64  
 1   days_employed     21302 non-null  float64
 2   dob_years         21302 non-null  int64  
 3   education         21302 non-null  object 
 4   education_id      21302 non-null  int64  
 5   family_status     21302 non-null  object 
 6   family_status_id  21302 non-null  int64  
 7   gender            21302 non-null  object 
 8   income_type       21302 non-null  object 
 9   debt              21302 non-null  int64  
 10  total_income      21302 non-null  int64  
 11  purpose           21302 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


In [24]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,1619.833858,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


**2.8 Если в данных присутствуют строки-дубликаты, удалите их. Также обработайте неявные дубликаты. Например, в столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите такие значения к одному регистру**

Удалим явные строки-дубликаты из датасета.

In [25]:
df = df.drop_duplicates().reset_index(drop=True)

В столбце `education` присутствуют неявные дубликаты, так как значения записаны в разных регистрах. Переведем все значения в нижний регистр и таким образом избавимся от дубликатов.

In [26]:
sorted(df['education'].unique())

['ВЫСШЕЕ',
 'Высшее',
 'НАЧАЛЬНОЕ',
 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
 'Начальное',
 'Неоконченное высшее',
 'СРЕДНЕЕ',
 'Среднее',
 'УЧЕНАЯ СТЕПЕНЬ',
 'Ученая степень',
 'высшее',
 'начальное',
 'неоконченное высшее',
 'среднее',
 'ученая степень']

In [27]:
df['education'] = df['education'].str.lower()
sorted(df['education'].unique()) # проверка

['высшее', 'начальное', 'неоконченное высшее', 'среднее', 'ученая степень']

**2.9 Создайте два новых датафрейма, в которых: каждому уникальному значению из `education` соответствует уникальное значение `education_id` — в первом; каждому уникальному значению из `family_status` соответствует уникальное значение `family_status_id` — во втором. Удалите из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: `education_id` и `family_status_id`. Новые датафреймы — это те самые «словари» (не путайте с одноимённой структурой данных в Python), к которым вы сможете обращаться по идентификатору.**

In [28]:
def create_dict(column1, column2): #функция для создания датафреймов-словарей
  return df[[column1, column2]].drop_duplicates().reset_index(drop=True)

education = create_dict('education', 'education_id')
education

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [29]:
family = create_dict('family_status', 'family_status_id')
family

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [30]:
df = df.drop(['family_status', 'education'], axis=1) #удаляем из датафрейма family_status и education
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,1619.833858,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


**2.10 На основании диапазонов, указанных ниже, создайте столбец `total_income_category` с категориями:**

 - 0–30000 — 'E';

 - 30001–50000 — 'D';

 - 50001–200000 — 'C';

 - 200001–1000000 — 'B';

 - 1000001 и выше — 'A'.

**Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'.**

In [31]:
#Напишем функцию для категоризации
def create_category(income):
  if 0 <= income <= 30000:
    return 'E'
  if 30001 <= income <=50000:
    return 'D'
  if 50001 <= income <=200000:
    return 'C'
  if 200001<= income <= 1000000:
    return 'B'
  else:
    return 'A'

check_list = [1000001, 200001,50001,30001,30000]   # проверка работы функции
for num in check_list:
  print(*create_category(num), end=' ')

A B C D E 

In [32]:
df['total_income_category'] = df['total_income'].apply(create_category) # создаем столбец total_income_category
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,1619.833858,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


**2.11 Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**
 - 'операции с автомобилем',
 - 'операции с недвижимостью',
 - 'проведение свадьбы',
 - 'получение образования'.

**Например, если в столбце purpose находится подстрока 'на покупку автомобиля', то в столбце purpose_category должна появиться строка 'операции с автомобилем'. Вы можете использовать собственную функцию и метод apply(). Изучите данные в столбце purpose и определите, какие подстроки помогут вам правильно определить категорию.**

Проанализируем значения в `purpose` отсортировав по алфавиту уникальные значения.

In [33]:
sorted(df['purpose'].unique())

['автомобили',
 'автомобиль',
 'высшее образование',
 'дополнительное образование',
 'жилье',
 'заняться высшим образованием',
 'заняться образованием',
 'на покупку автомобиля',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'на проведение свадьбы',
 'недвижимость',
 'образование',
 'операции с жильем',
 'операции с коммерческой недвижимостью',
 'операции с недвижимостью',
 'операции со своей недвижимостью',
 'покупка жилой недвижимости',
 'покупка жилья',
 'покупка жилья для сдачи',
 'покупка жилья для семьи',
 'покупка коммерческой недвижимости',
 'покупка недвижимости',
 'покупка своего жилья',
 'получение высшего образования',
 'получение дополнительного образования',
 'получение образования',
 'приобретение автомобиля',
 'профильное образование',
 'ремонт жилью',
 'свадьба',
 'свой автомобиль',
 'сделка с автомобилем',
 'сделка с подержанным автомобилем',
 'строительство жилой недвижимости',
 'строительство недвижимости',
 'строительство собственной недв

Можно сделать вывод,что для категоризации данного столбца на категории:

  - операции с автомобилем - требует наличия подстроки 'авто';
  - операции с недвижимостью - требует наличия подстроки 'жил' или 'недвиж';
  - проведение свадьбы - требует наличия подстроки 'свадьб';
  - получение образования - требует наличия подстроки 'образ'.

  Напишем функцию для категоризации используя вышеуказанные выводы.


In [34]:
def create_purpose(purpose):
  if 'авто' in purpose:
    return 'операции с автомобилем'
  elif 'жил' in purpose or 'недвиж' in purpose:
    return 'операции с недвижимостью'
  elif 'свадьб' in purpose:
    return 'проведение свадьбы'
  elif 'образ' in purpose:
    return 'получение образования'


In [35]:
df['purpose_category'] = df['purpose'].apply(create_purpose) # создадим столбец
df['purpose_category'].unique()

array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

In [36]:
df[['purpose', 'purpose_category']].sample(10, random_state=45) # проверка работы функции

Unnamed: 0,purpose,purpose_category
19279,сделка с автомобилем,операции с автомобилем
8753,строительство недвижимости,операции с недвижимостью
222,покупка своего жилья,операции с недвижимостью
20753,покупка жилья для семьи,операции с недвижимостью
8813,покупка жилой недвижимости,операции с недвижимостью
16250,профильное образование,получение образования
2655,покупка жилья,операции с недвижимостью
13973,на проведение свадьбы,проведение свадьбы
14482,получение высшего образования,получение образования
548,на покупку своего автомобиля,операции с автомобилем


**ШАГ 3. Ответить на вопросы**

**3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?**

In [37]:
d1 = df.groupby('children')['debt'].mean()
df1 = pd.DataFrame(data=d1)
df1['debt'] = round(df1['debt']*100,1)
df1['Кол-во детей в семье'] = df1.index

df1 = df1.rename(columns={'debt':'Доля просрочек по кредиту, %'})
df1 = df1[['Кол-во детей в семье', 'Доля просрочек по кредиту, %']]
df1.reset_index(drop=True)

Unnamed: 0,Кол-во детей в семье,"Доля просрочек по кредиту, %"
0,0,7.5
1,1,9.2
2,2,9.5
3,3,8.2
4,4,9.8
5,5,0.0


In [38]:
df['children'].value_counts()

Unnamed: 0_level_0,count
children,Unnamed: 1_level_1
0,14038
1,4793
2,2039
3,328
4,41
5,9


Объединим семьи у которых 3,4,5 детей в одну группу(3 ребенка и более), так как количество таких семей невелико и это может сильно исказить расчеты. Для этого напишем функцию с сделаем категоризацию.

In [39]:
def children_cat(n):
  if n in [0,1,2]:
    return n
  if n>=3:
    return 3

In [40]:
df['children_cat'] =df['children'].apply(children_cat)
df['children_cat'].unique()

array([1, 0, 3, 2])

In [41]:
d11 = df.groupby('children_cat')['debt'].mean()
df11 = pd.DataFrame(data=d11)
df11['debt'] = round(df11['debt']*100,1)
df11['Кол-во детей в семье (3 означает три и более)'] = df11.index

df11 = df11.rename(columns={'debt':'Доля просрочек по кредиту, %'})
df11 = df11[['Кол-во детей в семье (3 означает три и более)', 'Доля просрочек по кредиту, %']]
df11 = df11.reset_index(drop=True)
d1 = df11
d1

Unnamed: 0,Кол-во детей в семье (3 означает три и более),"Доля просрочек по кредиту, %"
0,0,7.5
1,1,9.2
2,2,9.5
3,3,8.2


В среднем семьи у которых нет детей, совершают меньше просрочек по кредитам. Семьи у которых 3 и более ребенка чуть более дисциплинированы по сравнению с семьями, у которых 1-2 ребенка.

**3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [42]:
d2 = df.groupby('family_status_id')['debt'].mean()
d2

Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,0.075544
1,0.092848
2,0.065539
3,0.071247
4,0.097842


In [43]:
family

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [44]:
d2 = family.join(d2) # объединим датафреймы family и d2 для того, чтобы можно было узнать статус


In [45]:
d2 = d2[['family_status','debt']]
d2['debt'] = round(d2['debt']*100,1)
d2 = d2.rename(columns={'debt':'Доля просрочек по кредиту, %', 'family_status':'Семейное положение'})
d2 = d2.sort_values(by='Доля просрочек по кредиту, %', ascending=False).reset_index(drop=True)
d2

Unnamed: 0,Семейное положение,"Доля просрочек по кредиту, %"
0,Не женат / не замужем,9.8
1,гражданский брак,9.3
2,женат / замужем,7.6
3,в разводе,7.1
4,вдовец / вдова,6.6


Самыми дисциплинированными заемщиками являются вдовцы или вдовы, далее идут те кто состоят в браке или в разводе, и чаще всех просрочки допускают те кто в браке не состоит.

**3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [46]:
d3 = df.groupby('total_income_category')['debt'].mean()
d3 = pd.DataFrame(data=d3)
d3['Уровень ежемесячного дохода'] = d3.index
d3['debt'] = round(d3['debt']*100,1)

d3

Unnamed: 0_level_0,debt,Уровень ежемесячного дохода
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8.0,A
B,7.1,B
C,8.5,C
D,6.1,D
E,9.1,E


In [47]:
def income(n):
  d = {'A': '1000001 и более',
       'B': '200001 - 1000000',
       'C': '50001 - 200000',
       'D': '30001 - 50000',
       'E': '0 - 30000'}
  return d[n]
d3['Уровень ежемесячного дохода'] = d3['Уровень ежемесячного дохода'].apply(income)
d3 = d3.rename(columns={'debt':'Доля просрочек по кредиту, %'})
d3 = d3.sort_values(by='Доля просрочек по кредиту, %', ascending = False).reset_index(drop=True)
d3 = d3[['Уровень ежемесячного дохода', 'Доля просрочек по кредиту, %']]

In [48]:
d3

Unnamed: 0,Уровень ежемесячного дохода,"Доля просрочек по кредиту, %"
0,0 - 30000,9.1
1,50001 - 200000,8.5
2,1000001 и более,8.0
3,200001 - 1000000,7.1
4,30001 - 50000,6.1


Видим, что люди с низкими доходами чаще других допускают просрочки по кредитам, далее идут как не странно люди с очень высокими доходами(более 1000001 в месяц). Самыми дисциплинированными заемщики являются люди со средним достатком.

**3.4 Как разные цели кредита влияют на его возврат в срок?**

In [49]:
d4 = df.groupby('purpose_category')['debt'].mean().sort_values(ascending=False)
d4 = pd.DataFrame(data=d4)
d4['Цель кредита'] = d4.index
d4['debt'] = round(d4['debt']*100,1)
d4 = d4.rename(columns={'debt':'Доля просрочек по кредиту, %'})
d4 = d4[['Цель кредита', 'Доля просрочек по кредиту, %']].reset_index(drop=True)
d4

Unnamed: 0,Цель кредита,"Доля просрочек по кредиту, %"
0,операции с автомобилем,9.3
1,получение образования,9.3
2,проведение свадьбы,7.8
3,операции с недвижимостью,7.3


Чаще других просрочки совершают те, кто берет кредит для операций с автомобилем и получения образования. Более дисциплинированы в этом плане являются клиенты, чья цель кредита - проведение свадьбы либо операции с недвижимостью

**ШАГ 4. Напишите общий вывод**

In [50]:
d1

Unnamed: 0,Кол-во детей в семье (3 означает три и более),"Доля просрочек по кредиту, %"
0,0,7.5
1,1,9.2
2,2,9.5
3,3,8.2


В среднем семьи у которых нет детей, совершают меньше просрочек по кредитам. Семьи у которых 3 и более ребенка чуть более дисциплинированы по сравнению с семьями, у которых 1-2 ребенка.

In [51]:
d2

Unnamed: 0,Семейное положение,"Доля просрочек по кредиту, %"
0,Не женат / не замужем,9.8
1,гражданский брак,9.3
2,женат / замужем,7.6
3,в разводе,7.1
4,вдовец / вдова,6.6


Самыми дисциплинированными заемщиками являются вдовцы или вдовы, далее идут те кто состоят в браке или в разводе, и чаще всех просрочки допускают те кто в браке не состоит.

In [52]:
d3

Unnamed: 0,Уровень ежемесячного дохода,"Доля просрочек по кредиту, %"
0,0 - 30000,9.1
1,50001 - 200000,8.5
2,1000001 и более,8.0
3,200001 - 1000000,7.1
4,30001 - 50000,6.1


Видим, что люди с низкими доходами чаще других допускают просрочки по кредитам, далее идут как не странно люди с очень высокими доходами(более 1000001 в месяц). Самыми дисциплинированными заемщики являются люди со средним достатком.

In [53]:
d4

Unnamed: 0,Цель кредита,"Доля просрочек по кредиту, %"
0,операции с автомобилем,9.3
1,получение образования,9.3
2,проведение свадьбы,7.8
3,операции с недвижимостью,7.3


Чаще других просрочки совершают те, кто берет кредит для операций с автомобилем и получения образования. Более дисциплинированы в этом плане являются клиенты, чья цель кредита - проведение свадьбы либо операции с недвижимостью