## Загрузка файла и просмотр данных

In [1]:
import pandas as pd

data = pd.read_csv('./data.csv')

#вывели 5 первых строк
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [2]:
#информация о таблицы
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


У нас в датасет 12 столбцов:

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита


Вывод: 

Таблица содержит клиентов, которые подают заявки на получения кредита. У нас есть пропуски в стобцах days_employed и total_income. Нужно поменять тип данных 'dob_years' на целое число.

 ## Шаг 2. Предобработка данных

### Обработка пропусков

In [3]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [4]:
data.fillna({
    "days_employed": data['days_employed'].median(),
    "total_income": data['total_income'].median()
})

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


Обнаружили пропуски в столбцах 'days_employed' и 'total_income' - их одинаковое количество, возможно клиенты не знают какой у них трудовой стаж и доход, либо просто скрывают, поэтому заменим на среднее значени каждого столбца.

In [5]:
#посмотрим уникальные значени столбца пол
data['gender'].unique()
#просмотр XNA значения
data[data['gender'] == 'XNA'] 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,-2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


In [6]:
#заменим XNA на F (заменили на F, так как его больше всего)
data.loc[data['gender'] == 'XNA', 'gender'] = 'F'
data['gender'].value_counts() 

F    14237
M     7288
Name: gender, dtype: int64

In [7]:
#посмотрим возраст(есть 0)
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [8]:
mean_years = data.loc[data['dob_years'] != 0, 'dob_years'].mean() #посчитать среднее значение, кроме нуля, с помощтю mean()
data.loc[data['dob_years'] == 0, 'dob_years'] = mean_years #замена 0 на среднее
data.loc[data['dob_years'] == 0, 'dob_years'] #проверка

Series([], Name: dob_years, dtype: float64)

Заменили XNA на F в таблице 'gender' и в таблице dob_years вместо 0 указали средний возраст.

### Замена типа данных

In [9]:
#просмотр типа данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


In [10]:
data['dob_years'] = data['dob_years'].astype(int)
data['dob_years'].dtypes

dtype('int64')

Исправили тип данных в таблице dob_years

### Обработка дубликатов

In [11]:
data['education'].unique()
#измененили на нижний регистр
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [12]:
data['family_status'].unique()
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [13]:
data.duplicated().sum()
#удалили дубликаты и предыдущие индексы
data = data.drop_duplicates().reset_index(drop = True)
data.duplicated().sum()

0

В таблице были заглывные буквы, привели к общему регистру. Выявили 71 дубликат, возможно клиенты повторно подавали заявки на кредит или ошибки в данных. Удалили дубликаты для достоверного анализа.

### Лемматизация

In [14]:
#просмотр данных
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [15]:
from pymystem3 import Mystem
m = Mystem() 

#напишем функцию, которая будет находить ключевые слова из столбца 'purpose'
def lemma_row(data): 
            row = m.lemmatize(data)
            if 'образование' in row:
                return 'образование'
            elif 'свадьба' in row:
                return'свадьба'
            elif 'автомобиль' in row:
                return'автомобиль'
            elif 'недвижимость' or 'жилье' in row:
                return'недвижимость' 
            
data['purpose_lemma'] = data['purpose'].apply(lemma_row)
data['purpose_lemma'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_lemma, dtype: int64

**Вывод**

Применили лемматизацию в функции и с помощью метода apply применили к столбцу 'purpose'

### Категоризация данных

In [16]:
#применили функцию для определения типа семьи
def child_family(child):
            if child == 0:
                return 'бездетные'
            if child > 2:
                return 'многодетная'
            return '1-2 ребёнка'
data['type_family'] = data['children'].apply(child_family)
data['type_family'].value_counts()

бездетные      14091
1-2 ребёнка     6907
многодетная      456
Name: type_family, dtype: int64

In [17]:
#в функции посчитали средний доход
def dohod(i):
    sred = data['total_income'].mean() #средний доход
    if i < sred:
        return 'малый доход'
    if i > sred:
        return 'высокий доход'
    return 'средний доход'

data['type_dohod'] = data['total_income'].apply(dohod)
data['type_dohod'].value_counts()

малый доход      11892
высокий доход     7459
средний доход     2103
Name: type_dohod, dtype: int64

**Вывод**

Разделили клиентов по типу семьи и по доходу.

## Ответим на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

С помощью сводных таблиц сделаем групировку по типу семьи, покажем общее количество клиентов, кол–во клиентов не вернувших долг и вероятность клиента стать должником:

In [18]:
data_child_debt = data.pivot_table(index = ['type_family'], 
                         values = ['debt'],
                         aggfunc = {'debt':['count','sum', 'mean']})
data_child_debt

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,mean,sum
type_family,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1-2 ребёнка,6907.0,0.092515,639.0
бездетные,14091.0,0.075438,1063.0
многодетная,456.0,0.085526,39.0


**Вывод**

Семьи без детей имеют самую низкую вероятность стать должниками, зависимость есть.

 ### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [19]:
data_family_debt = data.pivot_table(index = ['family_status'], 
                         values = ['debt'],
                         aggfunc = {'debt':['count','sum', 'mean']})
data_family_debt

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,mean,sum
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,1195.0,0.07113,85.0
вдовец / вдова,959.0,0.065693,63.0
гражданский брак,4151.0,0.093471,388.0
женат / замужем,12339.0,0.075452,931.0
не женат / не замужем,2810.0,0.097509,274.0


**Вывод**

Клиенты, которые вдовец/вдова имеют самую низкую вероятность стать должниками, зависимость есть.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [20]:
data_dohod_debt = data.pivot_table(index = ['type_dohod'], 
                         values = ['debt'],
                         aggfunc = {'debt':['count','sum', 'mean']})
data_dohod_debt

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,mean,sum
type_dohod,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
высокий доход,7459.0,0.07615,568.0
малый доход,11892.0,0.084342,1003.0
средний доход,2103.0,0.080837,170.0


**Вывод**

Клиенты с высоким уровнем дохода имеют самую низкую вероятность стать должниками, зависимость есть.

### Как разные цели кредита влияют на его возврат в срок?

In [21]:
data_purpose_debt = data.pivot_table(index = ['purpose_lemma'], 
                         values = ['debt'],
                         aggfunc = {'debt':['count','sum', 'mean']})
data_purpose_debt

Unnamed: 0_level_0,debt,debt,debt
Unnamed: 0_level_1,count,mean,sum
purpose_lemma,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4306.0,0.09359,403.0
недвижимость,10811.0,0.072334,782.0
образование,4013.0,0.0922,370.0
свадьба,2324.0,0.080034,186.0


**Вывод**

Клиенты, у которых цель приобрести недвижимость иимеют самую низкую вероятность стать должниками.

## Общий вывод

Таким образом, для проведения правильного анализа потребовалось скорректировать таблицу: 
- заменить все пустые значения
- удалить дубликаты
- привести к общему регистру
- изменить тип значения
- провести лемматизацию и категоризацию данных

После чего, мы узнали, что на возврат кредита в срок влияет множество факторов такие, как наличие детей, семейное положение, уровень дохода и цель кредита. 

Самые платежеспособные клиенты - это бездетные, в разводе или женат/замужем, высокий уровень дохода и цель кредита приобрести недвижимость.