In [1]:
import pandas as pd 

# Тема: Исследование надежности заемщиков банка

## Изучим общую информацию файла

Прочитаем файл data и выведем первые 20 строк файла. 

In [2]:
data = pd.read_csv('/datasets/data.csv')
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выведем общую информацию о таблице.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**
 
 В таблице 12 столбцов. Согласно описательной документации:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

В таблице видны следущие нарушения(ошибки):

* В столбце `days_employed` и  `total_income` есть пропущенные значения. 


* В столбце `days_employed` встречается отрицательное значение трудового стажа в днях, что является неккоректным значением.


* В столбце `days_employed` количество дней записано не целыми числами (тип данных float64) , что является не корректно. Нужно произвести замену на (тип данных int64)


* В столбце `education` встречаются нарушения стиля. Статус образования написан в трех стилистиках: 
1. Все слово написано строчными буквами 
2. Все слово написано с прописной буквы
3. Слово начинается с прописной буквы и далее продолжается строчными.

В связи с этим, статус образования будет приведен к единому стилю: все слово будет написано строчными буквами.




## Предобработка данных

### Обработка пропусков

Для начала приведем отрицательные значения в столбце `days_employed` к положительному значению:

In [4]:
data['days_employed'] = abs(data['days_employed'])

Сделаем проверку. Действительно, отрицательные значения привились к положительому числу.

In [5]:
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Посмотрим в каких столбцах есть пропуски и посчитаем их количесвто:

In [6]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

И так, у нас имеются пропуски в столбцах `days_employed` и  `total_income` в количестве 2174 штуки.
Посчитаем сколько процентов от общего количества составляют пропущенные строки. Если процент пропущенный строк будет меньше 1%, то удаление таких строк не принисет значительных изменений на результаты исследования.

In [7]:
omission = data['days_employed'].isna().sum()/data.shape[0]
display(f'Процент пропущенных строк от общего количества сотавляет:{omission:.2%}')

'Процент пропущенных строк от общего количества сотавляет:10.10%'

Процент строк с пропущенными значениями составляет 10.1%, что давольного много. В связи с этим, принято решение заполнять пропуски.

Начнем с заполнения пропусков в столбце  `total_income`. Для этого сдлеем группировку по столбцам `income_type` и `total_income` и выведем минимальные, максимальные, средние и медианные заработные платы для наглядности.

In [8]:
profession_min = data.groupby('income_type')['total_income'].min()
profession_max = data.groupby('income_type')['total_income'].max()
profession_mean = data.groupby('income_type')['total_income'].mean()
profession_median = data.groupby('income_type')['total_income'].median()

Сделаем таблицу с полученным результатом и выведем ее на экран.

In [9]:
profession_income =  pd.DataFrame({'profession_min_income': profession_min,
                                   'profession_max_income': profession_max,
                                   'profession_mean_income': profession_mean,
                                   'profession_median_income': profession_median
                                   }).reset_index()
display(profession_income)

Unnamed: 0,income_type,profession_min_income,profession_max_income,profession_mean_income,profession_median_income
0,безработный,59956.991984,202722.5,131339.751676,131339.751676
1,в декрете,53829.130729,53829.13,53829.130729,53829.130729
2,госслужащий,29200.077193,910451.5,170898.309923,150447.935283
3,компаньон,28702.812889,2265604.0,202417.461462,172357.950966
4,пенсионер,20667.263793,735103.3,137127.46569,118514.486412
5,предприниматель,499163.144947,499163.1,499163.144947,499163.144947
6,сотрудник,21367.648356,1726276.0,161380.260488,142594.396847
7,студент,98201.625314,98201.63,98201.625314,98201.625314


Совместим полученную таблицу с нашей исходной таблицой `data`. Заполнять пропущенные значения решено медианными значениями заработной платы из столбца `profession_median_income`. 

In [10]:
data = data.merge(profession_income[['income_type', 'profession_median_income']], on = 'income_type', how = 'left')

Проверим, удачно ли прошло присоединение.

In [11]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,142594.396847
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,142594.396847
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,142594.396847
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,142594.396847
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,118514.486412


Заполним пропуски в столбце `total_income` значениями из столбца `profession_median_income`

In [12]:
data['total_income'] = data['total_income'].fillna(data['profession_median_income'])

Проверим на примере строки  12 заполнение столбца `total_income`. Замена прошла успешно.

In [13]:
display(data[12:13])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,118514.486412,сыграть свадьбу,118514.486412


Теперь перейдем к обработке пропущенных значений в столбце `days_employed`. Заполнение пропущенных значений в данном столбце было принято выполнять средними значениями. Для этого сгруппируем столбцы `days_employed` и `income_type` и выведем минимальные, максимальные, средние и медианные значения для анализа и сведем это все в таблицу.

In [14]:
days_employed_min = data.groupby('income_type')['days_employed'].min()
days_employed_max = data.groupby('income_type')['days_employed'].max()
days_employed_mean = data.groupby('income_type')['days_employed'].mean()
days_employed_median = data.groupby('income_type')['days_employed'].median()

In [15]:
days_employed_total =  pd.DataFrame({'days_employed_min': days_employed_min,
                                   'days_employed_max': days_employed_max,
                                   'days_employed_mean': days_employed_mean,
                                   'days_employed_median': days_employed_median
                                   }).reset_index()
display(days_employed_total)

Unnamed: 0,income_type,days_employed_min,days_employed_max,days_employed_mean,days_employed_median
0,безработный,337524.466835,395302.838654,366413.652744,366413.652744
1,в декрете,3296.759962,3296.759962,3296.759962,3296.759962
2,госслужащий,39.95417,15193.032201,3399.896902,2689.368353
3,компаньон,30.195337,17615.563266,2111.524398,1547.382223
4,пенсионер,328728.720605,401755.400475,365003.491245,365213.306266
5,предприниматель,520.848083,520.848083,520.848083,520.848083
6,сотрудник,24.141633,18388.949901,2326.499216,1574.202821
7,студент,578.751554,578.751554,578.751554,578.751554


Невооруженным взглядом видно, что количество рабочих дней у безработных и пенсионеров максимально нереалистичное.

In [16]:
jobless = (data['days_employed'].loc[(data['income_type']=='безработный')].min()) / 365
display(f'Минимальный трудовой стаж в годах в группе безработный сотавляет: {jobless} года')

'Минимальный трудовой стаж в годах в группе безработный сотавляет: 924.724566670814 года'

Перед тем, как заполнять пропуски, было принято решение подвести нериалистичные значения под значения приближенные к реальности. Для этого, создадим дата фрейм, который не содержит группы "пенсионер" и "безработный", которые портят статистику своими большими числами. Затем, вычислим среднее и максимальное значение, которыми будем заполнять "сломанные" значения. 

In [17]:
error_days = data[['income_type', 'days_employed']]
error_days = error_days.loc[error_days['income_type'] != 'пенсионер']
error_days = error_days.loc[error_days['income_type'] != 'безработный']
error_days_max = error_days['days_employed'].max() #для пенсионеров возьмем максимальное значение трудового стажа в днях, так как логично, что люди выходящие напенсию имеют большой трудовой стаж
error_days_mean = error_days['days_employed'].mean() #для безработных возьмем среднее значение трудового стажа

Затем заполним "сломанные значения получеными числами. Группу "пенсинер" заполняем максимальным трудовым стажем, а группу "безработный" заполняем стредними значениями ирз новой таблицы.

In [18]:
data['days_employed'].loc[(data['income_type']=='пенсионер')] = error_days_max
data['days_employed'].loc[(data['income_type']=='безработный')] = error_days_mean

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


Теперь, обладая приемлемыми значениями трудового стажа выведем среднее значение трудвого стажа, которым будем заполнять пропущенные значения. Для этого снова сгруппируем столбцы `income_type` и `dob_years`. И выведем таблицу.

In [19]:
days_employed_mean_new = data.groupby('income_type')['days_employed'].mean()

In [20]:
days_employed_total_new =  pd.DataFrame({'days_employed_mean_new': days_employed_mean_new}).reset_index()
display(days_employed_total_new)

Unnamed: 0,income_type,days_employed_mean_new
0,безработный,2353.015932
1,в декрете,3296.759962
2,госслужащий,3399.896902
3,компаньон,2111.524398
4,пенсионер,18388.949901
5,предприниматель,520.848083
6,сотрудник,2326.499216
7,студент,578.751554


Ну вот, тепрь  знаяения выглядят приемлемыми. Теперь заполним пропуски. ДЛя этого присоединим новую таблицу к существующей и перенесем значения. 

In [21]:
data = data.merge(days_employed_total_new[['income_type', 'days_employed_mean_new']], on = 'income_type', how = 'left')

In [22]:
data['days_employed'] = data['days_employed'].fillna(data['days_employed_mean_new'])

Проверим, отсались ли пропуски. Отлично, пропуски канули в небытие.

In [23]:
data.isna().sum()

children                    0
days_employed               0
dob_years                   0
education                   0
education_id                0
family_status               0
family_status_id            0
gender                      0
income_type                 0
debt                        0
total_income                0
purpose                     0
profession_median_income    0
days_employed_mean_new      0
dtype: int64

Изучим столбец с возрастом клиентов. 

In [24]:
dob_years_min = data.groupby('income_type')['dob_years'].min()
dob_years_max = data.groupby('income_type')['dob_years'].max()
dob_years_mean = data.groupby('income_type')['dob_years'].mean()
dob_years_median = data.groupby('income_type')['dob_years'].median()

In [25]:
dob_years_total =  pd.DataFrame({'dob_years_min': dob_years_min,
                                   'dob_years_max': dob_years_max,
                                   'dob_years_mean': dob_years_mean,
                                   'dob_years_median': dob_years_median
                                   }).reset_index()
display(dob_years_total)

Unnamed: 0,income_type,dob_years_min,dob_years_max,dob_years_mean,dob_years_median
0,безработный,31,45,38.0,38.0
1,в декрете,39,39,39.0,39.0
2,госслужащий,0,75,40.636737,40.0
3,компаньон,0,74,39.697542,39.0
4,пенсионер,0,74,59.063019,60.0
5,предприниматель,27,58,42.5,42.5
6,сотрудник,0,74,39.821027,39.0
7,студент,22,22,22.0,22.0


Вывидим на экран столбцы с возрастом 0, чтобы посмотреть возможную зависимость.

In [26]:
data[data['dob_years'] == 0].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income,days_employed_mean_new
99,0,18388.949901,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль,118514.486412,18388.949901
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем,142594.396847,2326.499216
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью,142594.396847,2326.499216
578,0,18388.949901,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости,118514.486412,18388.949901
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль,172357.950966,2111.524398


Изучив таблицу, можно сказать, что какой-то зависимости по которой могло появится значение 0 - не найдено. Поэтому, для того чтобы не вводить в заблуждение людей, которые будут изучать таблицу, принято решение заменить значение 0 на unknown. Изменнение значения не приведет к ошибке в результатах анализа данных. 

In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   children                  21525 non-null  int64  
 1   days_employed             21525 non-null  float64
 2   dob_years                 21525 non-null  int64  
 3   education                 21525 non-null  object 
 4   education_id              21525 non-null  int64  
 5   family_status             21525 non-null  object 
 6   family_status_id          21525 non-null  int64  
 7   gender                    21525 non-null  object 
 8   income_type               21525 non-null  object 
 9   debt                      21525 non-null  int64  
 10  total_income              21525 non-null  float64
 11  purpose                   21525 non-null  object 
 12  profession_median_income  21525 non-null  float64
 13  days_employed_mean_new    21525 non-null  float64
dtypes: flo

**Вывод**  

В данном разделе исправлению подверглись следующие моменты:
1) В столбце `days_employed` присутствовали отрицательные значение, которые бли исправлены. Возможно, отрицательные значения появилсь в связи с тем, что оператор при заполнение ставил тире.

2) Так же, в столбце `days_employed` присутствовали нереиалестичные значеня опыта в днях (порядка 900 лет). По этой причине произвели замену, что приблизило их к реальности. Была теория, что это всего лишь ошибка в запятой, однако, перенос запятой все равно не приближал значения к реальности. 

3) Так же в столбце `days_employed` и `total_income` произвели заполнение пропущенных значений. Какой-то зависимости в пропуске значений незамечано. В столбце `days_employed` замена пропусков была средними значениями, а пропуски в столбце `total_income` - медианными.

4) В столбце `dob_years` присутствовал возраст равный 0. Заменили на unknown, чтобы не вводить в заблуждение людей, которые будут анализировать таблицу.
Так как, столбец `days_employed` не используется для решения задачи, то его можно было вовсе удалить, но было принято решение произвести с ним предобработку. 

### Замена типа данных

Изменим тип данных в столбце `days_employed` с float64 на int64. По причине того, что количесвто отработаных дней не может быть дробным числом. Для этого применим .astype('int')

In [28]:
data['days_employed'] = data['days_employed'].astype('int')

Произвведем проверку замены  типа данных.

In [29]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21525 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   children                  21525 non-null  int64  
 1   days_employed             21525 non-null  int64  
 2   dob_years                 21525 non-null  int64  
 3   education                 21525 non-null  object 
 4   education_id              21525 non-null  int64  
 5   family_status             21525 non-null  object 
 6   family_status_id          21525 non-null  int64  
 7   gender                    21525 non-null  object 
 8   income_type               21525 non-null  object 
 9   debt                      21525 non-null  int64  
 10  total_income              21525 non-null  float64
 11  purpose                   21525 non-null  object 
 12  profession_median_income  21525 non-null  float64
 13  days_employed_mean_new    21525 non-null  float64
dtypes: flo

Отлично! Замена типа данных прошла успешно!

**Вывод**

Все прошло успешно. Так как число отработанных дней не может быть дробным числом, то заменили тип данных с float на int. 

### Обработка дубликатов

Найдем дубликаты. В нашем случае, дубликаты встречаются в столбце с образованием `education`. Слова написаны то строчными, то прописными буквами. Исправим это безобразие! Для начала выведем все уникальные значения на экран.

In [30]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Привидем все название к единому стилю.

In [31]:
data['education'] = data['education'].str.lower()

Посмотрим на результат:

In [32]:
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Посмотрим, какие уникальные значения есть в столбце family_status:

In [33]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

Так же привидем все к единому стилю.

In [34]:
data['family_status'] = data['family_status'].str.lower()

In [35]:
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Проверим столбец с наименованием пола gender:

In [36]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В столбце gender присутсвтует строка с неизвестным гендером XNA. Так как, данное значение не влияет на решение задачи, то строку с неизвесным полом можно удалить. Однако, принято решение оставить.

Проверим столбец children:

In [37]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Уберем отрицательное значение детей. скорее всего это ошибка при вводе данных.

In [38]:
data['children'] = data['children'].abs()

Видим, что в количесвте детей присутсвует явная ошибка.Двадцать детей у 76 человек. Безумие какое! Можем предположить, что скорее всего, это ошибка при заполнении данных. И на самом деле, это не 20 детей, а всего лишь 2. Поэтому, заменим чило 20 на 2.

In [39]:
data['children'] = data['children'].replace(20,2)

Проверим, все ли прошло успешно. 

In [40]:
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Отлично, все поправлено!

Для начала посчитаем количество явных дубликатов и выведем их на экран первые 5 штук.

In [41]:
data.duplicated().sum()

71

In [42]:
data[data.duplicated()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income,days_employed_mean_new
2849,0,2326,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594.396847,покупка жилья для семьи,142594.396847,2326.499216
3290,0,18388,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514.486412,сыграть свадьбу,118514.486412,18388.949901
4182,1,2326,34,высшее,0,гражданский брак,1,F,сотрудник,0,142594.396847,свадьба,142594.396847,2326.499216
4851,0,18388,60,среднее,1,гражданский брак,1,F,пенсионер,0,118514.486412,свадьба,118514.486412,18388.949901
5557,0,18388,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514.486412,сыграть свадьбу,118514.486412,18388.949901


Удалим дубликаты из нашей таблицы

In [43]:
data = data.drop_duplicates() 

Проверим результат удаления.

In [44]:
data.duplicated().sum()

0

Все дубликаты удалены!

Проверим солбец с целью получения кредита `purpose`:

In [45]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
жилье                                     646
покупка жилья                             646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Объединим наименования похожие по смыслу. Для этого напишем функцию:

In [46]:
data['purpose_category'] = data['purpose'] #создадтим новый столбец
def replace_wrong_purpose(wrong_purpose, new_purpose):
    for wrong in wrong_purpose:
        data['purpose_category'] = data['purpose_category'].replace(wrong_purpose, new_purpose)
        
wrong_purpose = ['свадьба', 'на проведение свадьбы', 'сыграть свадьбу']
new_purpose = 'кредит на свадьбу'
replace_wrong_purpose(wrong_purpose, new_purpose)

        
wrong_purpose = ['покупка коммерческой недвижимости', 'операции с жильем', 'покупка жилья для сдачи', 
                 'операции с коммерческой недвижимостью', 'покупка жилья', 'жилье', 'покупка жилья для семьи', 
                 'строительство собственной недвижимости', 'недвижимость', 'операции со своей недвижимостью', 
                 'строительство жилой недвижимости', 'покупка недвижимости', 'строительство недвижимости', 
                 'покупка своего жилья', 'ремонт жилью', 'покупка жилой недвижимости']
new_purpose = 'операции с недвижимостью'
replace_wrong_purpose(wrong_purpose, new_purpose)

wrong_purpose = ['на покупку своего автомобиля', 'автомобиль', 'сделка с подержанным автомобилем', 'свой автомобиль',
                'на покупку подержанного автомобиля', 'автомобили', 'на покупку автомобиля', 'приобретение автомобиля', 
                'сделка с автомобилем']
new_purpose = 'авто кредит'
replace_wrong_purpose(wrong_purpose, new_purpose)

wrong_purpose = ['заняться высшим образованием', 'дополнительное образование', 'высшее образование',
                'образование', 'получение дополнительного образования', 'получение образования', 'профильное образование',
                'профильное образование', 'получение высшего образования', 'заняться образованием']
new_purpose = 'кредит  на образование'
replace_wrong_purpose(wrong_purpose, new_purpose)

Проверим работу функции:

In [47]:
data['purpose_category'].unique()

array(['операции с недвижимостью', 'авто кредит',
       'кредит  на образование', 'кредит на свадьбу'], dtype=object)

Отлично, произвели объединение целей похожих по смыслу.

**Вывод**

В данном разделе успешно произвели змену дубликатов:

1) Привели все к единому стилю в столбце `education`

2) Обработали столбец `children`, убрали явные ошибки.

3) Цели получения кредита привели к единым категориям.

### Категоризация данных

Произведем категоризацию данных по размеру заработной платы и разделим ее на категории:

1) 0–30000 — 'E';

2) 30001–50000 — 'D';

3) 50001–200000 — 'C';

4) 200001–1000000 — 'B';

5) 1000001 и выше — 'A'.

Для этого напишем функцию:

In [48]:
def total_income_category(income):
    if income <=30000:
        return 'E'
    if income <=50000:
        return 'D'
    if income <=200000 :
        return 'C'
    if income <=1000000  :
        return 'B'
    return "A"

data['income_category'] = data['total_income'].apply(total_income_category)

In [49]:
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income,days_employed_mean_new,purpose_category,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,142594.396847,2326.499216,операции с недвижимостью,B
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,142594.396847,2326.499216,авто кредит,C
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,142594.396847,2326.499216,операции с недвижимостью,C
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,142594.396847,2326.499216,кредит на образование,B
4,0,18388,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,118514.486412,18388.949901,кредит на свадьбу,C


In [50]:
def children_count(children):
    if children == 0:
        return 'бездетные'
    if children <=2:
        return 'средняя семья'
    return 'многодетная семья'
    

data['children_category'] = data['children'].apply(children_count)

In [51]:
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,profession_median_income,days_employed_mean_new,purpose_category,income_category,children_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,142594.396847,2326.499216,операции с недвижимостью,B,средняя семья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,142594.396847,2326.499216,авто кредит,C,средняя семья
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,142594.396847,2326.499216,операции с недвижимостью,C,бездетные
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,142594.396847,2326.499216,кредит на образование,B,многодетная семья
4,0,18388,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,118514.486412,18388.949901,кредит на свадьбу,C,бездетные


In [52]:
def debt_value(debt):
    if debt == 0:
        return 'не имел задолжности'
    return 'имел задолжности'
    

data['debt_mean'] = data['debt'].apply(debt_value)

**Вывод**

Произвели категоризацию данных по уровню заработной платы, а также по количеству детей в семье.

## Ответим на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [53]:
dependence_children = data.groupby('children')['debt'].count() #посчитаем количесвто детей у клиента
dependence_children_sum = data.groupby('children')['debt'].sum() #посчитаем имеются ли задолжности у людей в завимости от количества детей
dependence_children_dep = dependence_children_sum/dependence_children # найдем отношение 

In [54]:
dep_children =  pd.DataFrame({'Количество клиентов с детьми': dependence_children ,
                                   'Задолжность': dependence_children_sum,
                                   'Коэффициент задолжности': dependence_children_dep
                             })
display(dep_children.sort_values('Коэффициент задолжности',  ascending = False).reset_index())

Unnamed: 0,children,Количество клиентов с детьми,Задолжность,Коэффициент задолжности
0,4,41,4,0.097561
1,2,2128,202,0.094925
2,1,4855,445,0.091658
3,3,330,27,0.081818
4,0,14091,1063,0.075438
5,5,9,0,0.0


**Вывод** Из вышеполученной таблицы видно, что самые заядлые должники это люди, которые имеют 4 детей. И если смотреть только на первую строчку таблицы, можно сделать вывод, что чем больше люди имеют детей, тем риск задолжности выше. Однако, если псмотреть на последнюю строчку, то мы видим, что люди обладающие семьей из пяти детей не просрочили ни одного кредита. Данная несостыкаовка, может  получаться из-за того, что мы не обладаем достаточным количесвтом данных по семьям с большим количеством детей. В наших данных всего 9 семей с пятью детьми и 41 семья с четырьмя детьми. 
    
Однако, можно точно сказать, что люди не обладающие детьми  возвращают кредит без просрочек чаще всего, если не учитывать семьи с пятью детьми. Тройку лидеров по просроченным кредитам в порядке убывания составляют семьи с четырьми, двумя и одним ребенком соответвенно.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [55]:
data['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [56]:
dependence_family = data.groupby('family_status')['debt'].count()
dependence_family_sum = data.groupby('family_status')['debt'].sum()
dependence_family_dep = dependence_family_sum/dependence_family
display(dependence_family)

family_status
в разводе                 1195
вдовец / вдова             959
гражданский брак          4151
женат / замужем          12339
не женат / не замужем     2810
Name: debt, dtype: int64

In [57]:
dep_family =  pd.DataFrame({'Количество клиентов различного семейного статуса': dependence_family ,
                                   'Задолжность': dependence_family_sum,
                                   'Коэффициент задолжности': dependence_family_dep
                             })
display(dep_family.sort_values('Коэффициент задолжности',  ascending = False).reset_index())

Unnamed: 0,family_status,Количество клиентов различного семейного статуса,Задолжность,Коэффициент задолжности
0,не женат / не замужем,2810,274,0.097509
1,гражданский брак,4151,388,0.093471
2,женат / замужем,12339,931,0.075452
3,в разводе,1195,85,0.07113
4,вдовец / вдова,959,63,0.065693


Ранее, я не обрабатывал семейный статус и оставил его неизменным, так как разный семейный статус(женат, вдовец, в разводе, гражданский брак) может по разному влиять на уровень ответственности клиента. 

Однако, почему бы  не выделить только два семейных статуса и не посмотреть зависимость более узко. Выделим только (женат/замужем и не женат/не замужем). Для проверки данной теории, людей, живущих гражданаским браком, отправим в категорию женат/замужем, так как люди живущие гражданским браком по уровню ответсвенности должны соответствовать женатым людям. А категории 'вдовец / вдова', 'в разводе' отправим в категорию 'не женат / не замужем'.

In [58]:
family_status_data = data[['family_status', 'debt']] #для вышенаписаной цели, выделим отдельную таблицу,которую будем изменять.
display(family_status_data)

Unnamed: 0,family_status,debt
0,женат / замужем,0
1,женат / замужем,0
2,женат / замужем,0
3,женат / замужем,0
4,гражданский брак,0
...,...,...
21520,гражданский брак,0
21521,женат / замужем,0
21522,гражданский брак,1
21523,женат / замужем,1


In [59]:
def family_change(family_old, family_new):
    for family in family_old:
        family_status_data['family_status'] = family_status_data['family_status'].replace(family_old, family_new)
        
family_old = ['вдовец / вдова', 'в разводе'] #категорию 'вдовец / вдова', 'в разводе' отнесем к категории 'не женат / не замужем'
family_new = 'не женат / не замужем'
family_change(family_old, family_new)

family_old = ['гражданский брак'] #людей, живущих граждсанским браком отнесем к категории 'женат / замужем'
family_new = 'женат / замужем'
family_change(family_old, family_new)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  family_status_data['family_status'] = family_status_data['family_status'].replace(family_old, family_new)


Проверим результат объединения

In [60]:
display(family_status_data['family_status'].value_counts())

женат / замужем          16490
не женат / не замужем     4964
Name: family_status, dtype: int64

ВСе отлично, наши данные прекрасно объединились. Теперь посчитаем зависимость задолжности от семейного статуса.

In [61]:
dependence_family_new = family_status_data.groupby('family_status')['debt'].count()
dependence_family_new_sum = family_status_data.groupby('family_status')['debt'].sum()
dependence_family_new_dep = dependence_family_new_sum/dependence_family_new

In [62]:
dep_family_new =  pd.DataFrame({'Количество клиентов различного семейного статуса': dependence_family_new ,
                                   'Задолжность': dependence_family_new_sum,
                                   'Коэффициент задолжности': dependence_family_new_dep
                             })
display(dep_family_new.sort_values('Коэффициент задолжности',  ascending = False).reset_index())

Unnamed: 0,family_status,Количество клиентов различного семейного статуса,Задолжность,Коэффициент задолжности
0,не женат / не замужем,4964,422,0.085012
1,женат / замужем,16490,1319,0.079988


**Вывод**   При изуении зависимости семейного статуса и возврата кредита клиентом в срок по первому варианту, 
когда у нас имются 5 категорий семеного статуса, видно, что самые злостные неплательщики это люди, котрые не обременены семейными узами. Это, с большей вероятностью связано, с болеее низким уровнем отвествености по отношению к другим группам. В то время, самыми ответсвенными людьми по возврату кредита в срок являются вдовцы.

При объединении всех 5 групп в 2 основных группы, результат не сильно изменился. Самыми злостными неплательщиками кредита
в срок оказались люди не семейные. В то время, люди обладающиее семьей, улачивают кредит в срок.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Посчитаем зависимость между уровнем дохода и возвратом кредита в срок:

In [63]:
income_level = data.groupby('income_category')['debt'].count()
income_level_sum = data.groupby('income_category')['debt'].sum()
income_level_dep = income_level_sum/income_level

Объединим полученные данные в таблицу:

In [64]:
income_level_dat =  pd.DataFrame({'Количество клиентов по уровню дохода': income_level,
                                   'Задолжность': income_level_sum,
                                   'Коэффициент задолжности': income_level_dep
                             })
display(income_level_dat.sort_values('Коэффициент задолжности',  ascending = False).reset_index())

Unnamed: 0,income_category,Количество клиентов по уровню дохода,Задолжность,Коэффициент задолжности
0,E,22,2,0.090909
1,C,16015,1360,0.08492
2,A,25,2,0.08
3,B,5042,356,0.070607
4,D,350,21,0.06


Как видно из полученной таблицы, чаще  всего задерживают выплаты по кредиту клиенты с наименьшим уровнем дохода (категория E). Самыми ответсвтенными клиентами являются клиенты категории D и B.

Категорий по уровню заработной платы (для напоминания):

1) 0–30000 — 'E';

2) 30001–50000 — 'D';

3) 50001–200000 — 'C';

4) 200001–1000000 — 'B';

5) 1000001 и выше — 'A'.

**Вывод**

- Как разные цели кредита влияют на его возврат в срок?

In [65]:
target_debt = data.groupby('purpose_category')['debt'].count()
target_debt_sum = data.groupby('purpose_category')['debt'].sum()
target_debt_dep = target_debt_sum/target_debt

In [66]:
target_debt_dat =  pd.DataFrame({'Количество клиентов по целям  кредита': target_debt,
                                   'Задолжность': target_debt_sum,
                                   'Коэффициент задолжности': target_debt_dep
                             })
display(target_debt_dat.sort_values('Коэффициент задолжности',  ascending = False).reset_index())

Unnamed: 0,purpose_category,Количество клиентов по целям кредита,Задолжность,Коэффициент задолжности
0,авто кредит,4306,403,0.09359
1,кредит на образование,4013,370,0.0922
2,кредит на свадьбу,2324,186,0.080034
3,операции с недвижимостью,10811,782,0.072334


Сделаем похожу таблицу через pivot_table

In [67]:
tdd = data.pivot_table(index = 'purpose_category', columns = 'debt_mean', values = 'debt', aggfunc='count')
tdd['purpose_count_%'] = (tdd['имел задолжности']/(tdd['имел задолжности']+tdd['не имел задолжности'])*100) # процент просроченных кредитов по целям
display(tdd)

debt_mean,имел задолжности,не имел задолжности,purpose_count_%
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
авто кредит,403,3903,9.359034
кредит на образование,370,3643,9.220035
кредит на свадьбу,186,2138,8.003442
операции с недвижимостью,782,10029,7.233373


In [68]:
data = data.drop(['profession_median_income', 'days_employed_mean_new'], axis=1)

**Вывод** Анализируя полученную таблицу, можно сказать, что самыми злостными  неплательщиками кредита, являются люди взявшие деньги на автомобиль. В то время, люди проводящие операции с недвижимостью более ответсвенно оносятся к выплатам.

## Общий вывод

Очистим изначальную таблицу от вспомогательных столбцов:

Поставленные задачи выполнены. На первом этапе провели предобработку данных. Произвели заполнение пропусков, обработку дубликатов и произвели категориизацию данных. Ответили на вопросы о зависимости выплат кредитов в срок в зависимости от наличия детей, семейного положения, уровня дохода и цели получения кредита.  

По результатам проведнного анализа можно сказать:
1) Самые злостные неплательщики это семьи с 4-мя детьми, однако прямой зависимочти, которая нам может сказать, что с увеличением количествва детей вероятность задолжности увеличивается - нет.

2) Самые злостные неплательщики это люди, которые не находятся в официальном браке, процент задолжности у таких клиентов составляет почти 10%.

3) Больше свего задолжности у людей с минимальным доходом (9% задолжностей), однако в тройку лидеров по задолжностям, так же входят клиенты с максимальным доходом с процентом задолжности 8%. Прямой зависимости задолжности от уровня дохода не найдено.

4) Втокредиты являются самыми рисковаными с точки зрения задолжности, процент задолжности по таким кредитам составляет 9%. Менее опасные кредиты - ипотечные с процентом задолжности 7%.