# Исследование надежности заемщиков.

**Описание проекта**  
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — проверить  гипотезу, что семейное положение и количество детей клиента влияет на факт погашения кредита в срок.

Предварительно необходимо ответить на вопросы:
1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

**Ход исследования**

Данные о  платёжеспособности клиентов мы  получим из файла `data.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Мы проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки мы поищем возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотезы.


##  Обзор данных  

Составим первое представление о данных банка.


Основной инструмент аналитика — `pandas`. Импортируем эту библиотеку.

In [1]:
# импорт библиотеки pandas
import pandas as pd


Прочитаем файл `data.csv` из папки `/datasets` и сохраним его в переменной `df`:

In [2]:
# чтение файла с данными и сохранение в df
# 'D:\Аналитик данных\Яндекс-практикум\Sprint2\data.csv' 
df = pd.read_csv('/datasets/data.csv')

Выведим на экран первые десять строк таблицы:

In [3]:
df.head(10)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получим общую информацию о таблице:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице двенадцать столбцов. Тип данных: `int, float, object`.   

Согласно документации к данным:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита  




В названиях колонок не видно нарушения стиля.  

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения. 


В данных встречаются артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Например, отрицательное количество дней трудового стажа в столбце `days_employed`.

Вещественный тип данных в столбце `total_income` заменим на целочисленный, чтобы избавиться от копеек.

Проверим данные на строки-дубликаты и удалим их. 
Также обработаем  неявные дубликаты. Например, в столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведём  их к одному регистру. 

Данные в столбцах `total_income` и `purpose` трудно оценить, поэтому осуществим их категоризацию.



**Выводы**


В каждой строке таблицы — данные о клиенте. Большинство колонок описывает самого человека:  количество детей в семье, возраст, имел ли задолженность по возврату кредитов и т.д., в то время как последняя колонка отражает цель получения кредита.

Предварительно можно утверждать, что, данных достаточно для проверки гипотезы. Но встречаются пропуски в данных, артефакты (аномалии) — значения, которые не отражают действительность, одни и те же значения записанны в различных регистрах.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных


  В двух столбцах есть пропущенные значения, найдём их и заполним медианным значением.  
 
 Проверим данных на аномалии и исправления.
 
 Заменим вещественный тип данных в столбце `total_income` на целочисленный.
 
 Если в данных присутствуют строки-дубликаты, удалим их. 
 
 Осуществим категоризацию данных в стобцах `total_income` и `purpose`.
 

###  Заполнение пропусков

Сначала посчитаем, сколько в таблице пропущенных значений. Для этого достаточно двух методов `pandas`:

In [5]:
# подсчёт пропусков
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Таким образом мы обнаружили пропущенные значения в столбцах: `days_employed ` и `total_income` в количестве 2174 шт. 



Проверим, какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

In [6]:
# доля для столбца days_employed 
df['days_employed'].isna().sum() / (df['days_employed'].isna().sum() + df['days_employed'].count())

0.10099883855981417

In [7]:
# доля для столбца total_income 
df['total_income'].isna().sum() / (df['total_income'].isna().sum() + df['total_income'].count())

0.10099883855981417

Таким образом порядка 10 % процентов было пропущено.

Выведем первые 15 строк на экран, чтобы проанализировать пустые значения.

In [8]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Обратим внимание на строку под индексом 12 и столбцы `days_employed` и `total_income`. Здесь встречаются значения NaN вместо стажа и заработной платы.
Такие значения указывают, что данных нет. NaN замещает отсутствующее в ячейке число и принадлежит к типу float, поэтому с ним можно проводить математические операции. 
Ввиду того, что процентов пропусков порядка 10 %, мы не можем избавиться от этих значений, просто их удалив. 
 Нам предстоит работать с пропусками  в количественных переменных. Пропуски в таких переменных заполняют характерными значениями. Это значения, характеризующие состояние выборки, — набора данных, выбранных для проведения исследования. Чтобы примерно оценить типичные значения выборки, годятся среднее арифметическое или медиана.Среднее значение некорректно характеризует данные, когда некоторые значения сильно выделяются среди большинства. Поэтому для нашего случая лучше использовать медианное значение. 
 
 Посмотрим на стобец `days_employed`. Скорее всего, в данных встречается информация из двух систем. Одна из них считает стаж в часах - другая в днях, причем с минусом. При слиянии двух баз данные могли быть утеряны.

Перед заполнением столбцов медианными значениями устраним аномалии.

###  Проверка данных на аномалии и исправления.

Заменим отрицательные значения в столбце `days_employed`, используя метод apply совместно с функцией abs:

In [9]:
df['days_employed'] = df['days_employed'].apply(abs)

Осуществим проверку: распечатаем первые 10 значений.

In [10]:
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Выявим какие данные данны в часах, а какие - в днях. Для этого предположим, что максимальный стаж составляет 45-65 лет. Переведем года в дни, и посмотрим значения в строках.


In [11]:
df[(df['days_employed'] > 45 * 365) & (df['days_employed'] < 65 * 365) ]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4299,0,17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
7329,0,16593.472817,60,высшее,0,женат / замужем,0,F,сотрудник,0,124697.846781,заняться высшим образованием
16335,1,18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью


Итак, максимальный стаж, обнаруженный нами  и округленный в большую сторону, 18 389 дней. Предположим, что существует человек со стажем 80 лет и проверим значения.

In [12]:
df[(df['days_employed'] > 45 * 365)&(df['days_employed'] < 80 * 365) ]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4299,0,17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
7329,0,16593.472817,60,высшее,0,женат / замужем,0,F,сотрудник,0,124697.846781,заняться высшим образованием
16335,1,18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью


В результа обнаружим, что максимальное кол-во дней трудового стажа  не превышает 18 389 дней .

Т.о. критерий отбора аномально больших значений, выраженных в часах, найден.

Применим сортировку и разделим часы на 24, чтобы получить данные столбца `days_employed` в днях.

In [13]:
df.loc[df['days_employed'] > 18389, 'days_employed'] = (df.loc[df['days_employed'] > 18389, 'days_employed']) / 24

Проверим десять максимальных значений стажа в днях.

In [14]:
df['days_employed'].nlargest(10)

16335    18388.949901
4299     17615.563266
6954     16739.808353
10006    16738.158823
7664     16736.462226
2156     16736.436110
7794     16735.993752
4697     16734.793029
13420    16734.151387
17823    16733.936484
Name: days_employed, dtype: float64

Дабы удостоверится в правдивости информации по зарплатам, посмотрим медиану и среднее значение для каждого типа в колонке `total_income`:

In [15]:
df.groupby('income_type')['total_income'].agg(['mean', 'median'])

Unnamed: 0_level_0,mean,median
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
безработный,131339.751676,131339.751676
в декрете,53829.130729,53829.130729
госслужащий,170898.309923,150447.935283
компаньон,202417.461462,172357.950966
пенсионер,137127.46569,118514.486412
предприниматель,499163.144947,499163.144947
сотрудник,161380.260488,142594.396847
студент,98201.625314,98201.625314


Отличные пенсионеры с медианной зарплатой в 118 000 в месяц, но и студенты недалеко отстали! Идем дальше.

Посчитаем медиану по столбцу `total_income`:

In [16]:
df['total_income'].median()

145017.93753253992

Мы наблюдаем значительные отклонения от медианы `предпринимателя и девушки в декрете`, поэтому осуществим заполнение пустых значений, опираясь на тип в столбце `income_type`:

In [17]:
for people in df['income_type'].unique():
    median = df.loc[df['income_type'] == people,'total_income'].median()
    df.loc[(df['total_income'].isna()) & (df['income_type'] == people),'total_income'] = median
    


Осуществим проверку.

In [18]:
df['total_income'].isna().sum()

0

In [19]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Пенсионер в 13 строке получил свою медианную зарплату, чтобы сыграть свадьбу.

Выполним идентичные действия для столбца `days_employed`. Осуществим заполнение медианными значениями трудового стажа для каждой категории.

In [20]:
df.groupby('income_type')['days_employed'].agg(['mean', 'median'])

Unnamed: 0_level_0,mean,median
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
безработный,15267.235531,15267.235531
в декрете,3296.759962,3296.759962
госслужащий,3399.896902,2689.368353
компаньон,2111.524398,1547.382223
пенсионер,15208.478802,15217.221094
предприниматель,520.848083,520.848083
сотрудник,2326.499216,1574.202821
студент,578.751554,578.751554


Отличные значения для безработных.

In [21]:
for people in df['income_type'].unique():
    median = df.loc[df['income_type'] == people,'days_employed'].median()
    df.loc[(df['days_employed'].isna()) & (df['income_type'] == people),'days_employed'] = median

Осуществим проверку.

In [22]:
df['days_employed'].isna().sum()

0

In [23]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Мы присвоили пенсионеру в 13 строке медианный стаж 15217 дней. 

In [24]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Таким образом мы осуществили замену пропущенных значений медианными, опираясь на принадлежность клиента к определенной категории в столбце `income_type`.

Проверим другие столбцы на аномальные значения.

Рассмотрим столбец `children`, применив к нему метод value_counts().

In [25]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Заметим, что в данных появилось отрицательное количество детей. Исправим этот момент, используя метод apply совместно с функцией abs.  

Также видно, что присутсвуют клиенты с кол-вом детей равном 20. Скорее всего, была допущена ошибка, т.к. цифры 2 и 0 располагаются рядом на клавиатуре.  Заменим клиентов с двацатью детьми на людей с двумя.  И осуществим проверку.

In [26]:
df['children'] = df['children'].apply(abs)

In [27]:
df.loc[df['children'] ==  20, 'children'] = 2

In [28]:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Теперь данные выглядят более здраво.

Рассмотрим столбец `dob_years`, применив к нему метод value_counts()

In [29]:
df['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Заметим, что среди возраста клиентов присутствуют нулевые значения, что достаточно абсурдно. Заменим их медианным значением и осуществим проверку.

In [30]:
median = int(df['dob_years'].median())

df.loc[df['dob_years'] == 0,'dob_years'] = median


In [31]:
df['dob_years'].value_counts()

42    698
35    617
40    609
41    607
34    603
38    598
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Теперь нулевые значения отсутствуют.

Проверим столбец `gender`.

In [32]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Обнаружим, что появилось неизвестно значение "XNA". Удалим его и осуществим проверку.

In [33]:
df = df.loc[df['gender'] !=  "XNA"]

In [34]:
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

Теперь в таблице остались только мужчины и женщины.

###  Изменение типов данных.

Заменим вещественный тип данных в столбце `total_income` на целочисленный,  с помощью метода astype():

In [35]:

df['total_income'] = df['total_income'].astype('int')

Повторим данную процедуру для стобца со стажем.

In [36]:
df['days_employed'] = df['days_employed'].astype('int')

Осуществим проверку.

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21524 non-null  int64 
 1   days_employed     21524 non-null  int32 
 2   dob_years         21524 non-null  int64 
 3   education         21524 non-null  object
 4   education_id      21524 non-null  int64 
 5   family_status     21524 non-null  object
 6   family_status_id  21524 non-null  int64 
 7   gender            21524 non-null  object
 8   income_type       21524 non-null  object
 9   debt              21524 non-null  int64 
 10  total_income      21524 non-null  int32 
 11  purpose           21524 non-null  object
dtypes: int32(2), int64(5), object(5)
memory usage: 2.0+ MB


In [38]:
df.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Используя метод astype() мы избавились от копеек в ежемесячной зарплате и оставили только дни трудового стажа.

###  Удаление дубликатов.

Посчитаем явные дубликаты в таблице одной командой:

In [39]:
# подсчёт явных дубликатов
df.duplicated().sum()


55

Вызовем специальный метод pandas, чтобы удалить явные дубликаты:

In [40]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

Ещё раз посчитаем явные дубликаты в таблице — убедимся, что полностью от них избавились:

In [41]:
 #проверка на отсутствие дубликатов

df.duplicated().sum()

0

Теперь осуществим ручной поиск дубликатов, для этого воспользуемся методом value_counts().

Применим метод value_counts() к стобцу `education`: 

In [42]:
df['education'].value_counts()

среднее                13704
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      667
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

В столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к одному регистру, используя  метод  str.lower()

In [43]:
df['education'] = df['education'].str.lower()

Осуществим проверку.

In [44]:
df['education'].value_counts()

среднее                15187
высшее                  5251
неоконченное высшее      743
начальное                282
ученая степень             6
Name: education, dtype: int64

In [45]:
df.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Посчитаем явные дубликаты в таблице после преобразования:

In [46]:
df.duplicated().sum()

17

Вызовем специальный метод pandas, чтобы удалить явные дубликаты:

In [47]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
df = df.drop_duplicates().reset_index(drop=True)

Ещё раз посчитаем явные дубликаты в таблице — убедимся, что полностью от них избавились:

In [48]:
df.duplicated().sum()

0

Продолжим ручной поиск по другим колонкам.

Рассмотрим колонку `family_status`:

In [49]:
df['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4149
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

Дубликаты отсутствуют.
Продолжим и применим метод value_counts() к столбцу `purpose`:

In [50]:
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     767
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      620
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Нетрудно заметить, что в столбце `purpose` большая часть значений содержит повторяющиеся запросы, но дубликаты отсутствуют. Немного позже произведем их категоризацию.

Итак, для поиска и удаления явных дубликатов мы использовали методы duplicated() и drop_duplicates(), но они избавляют лишь от полных дубликатов.
В то время как для неявных дубликатов мы вызывали метод value_counts(), который анализирует столбец, выбирает каждое уникальное значение и подсчитывает частоту его встречаемости в списке. 


Наиболее вероятной причиной появления неявных дубликатов является человеческий фактор.


Появление явных дубликатов, возможно, связано с объединением двух датафреймов.


###  Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Рассмотрим исходный датафрейм df.

In [51]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу




Нетрудно заметить, что столбцы `education` и `family_status` можно удалить, оставив только соответствующие идентификаторы-стобцы: `education_id` и `family_status_id `. Тем самым:
- упростится визуальная работа с таблицей.
- уменьшится размер файла и время обработки данных.


Чтобы отфильтровать данные по family_status, приходится набирать его полное название. А в нём можно ошибиться.
Создание новых категорий и изменение старых отнимает много времени.
Создадим отдельные «словари», где названию категории будет соответствовать номер. И в будущих таблицах будем обращаться уже не к длинной строке, а к её числовому обозначению.

Создим  два новых датафрейма со столбцами:
- education_id и education — в первом;
- family_status_id и family_status — во втором.

In [52]:
education_dict = df[['education_id','education']]


In [53]:
education_dict.head()


Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


В «словаре» мы заметили большое количество дубликатов. Их нужно удалить. Применим знакомую цепочку методов: drop_duplicates() и reset_index().

In [54]:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)


In [55]:
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Проведем идентичную процедуру для столбцов `family_status_id` и `family_status`:

In [56]:
family_status_dict = df[['family_status_id','family_status']]
family_status_dict.duplicated().sum()

21447

In [57]:
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)

In [58]:
family_status_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


После создания дополнительных словарей можем удалить колонки `education` и `family_status` из исходного датафрейма.

In [59]:
df.drop(columns=['education','family_status'], inplace=True)


In [60]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


Теперь наша таблица выглядит гораздо лучше.

###  Категоризация дохода.

Работать с единичными отрывками и делать из них статистические выводы нельзя. Значит, нужно сгруппировать данные, чтобы численности каждой группы хватало для формулировки выводов.
Нужна категоризация — объединение данных в категории. 

Например, кредитополучателю с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'



Запишем правила классификации клиентов как функцию. В отличие от стандартных методов Pandas функции гибки: в них можно закладывать более сложную логику и добавлять новые требования. Тестировать функции подстановкой разных значений удобнее, чем применять методы Pandas ко всему датафрейму.

На вход функции попадает заработная плата, а возвращает она категорию клиента. 

Опишем функцию:

In [61]:
def total_income_group(salary):
    """
   Возвращает категория по значению заработной платы, используя правила:
   0–30000 — 'E';
   30001–50000 — 'D';
   50001–200000 — 'C';
   200001–1000000 — 'B';
   1000001 и выше — 'A'.
   """


    if salary < 30001:
        return 'E'
    elif salary < 50001:
        return 'D'
    elif salary < 200001:
        return 'C'
    elif salary < 1000001:
        return 'B'
    else:
        return 'A'
    

Проверим:

In [62]:
total_income_group(30000)

'E'

Написанная функция работает корректно.

На основании диапазонов, указанных ниже, создадим столбец `total_income_category` с категориями:
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.


Для этого нужен метод apply(): он берёт значения столбца датафрейма и применяет к ним функцию из своего аргумента.

In [63]:
df['total_income_category'] = df['total_income'].apply(total_income_group)

Проверим полученный результат.

In [64]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


Выведем статистику по зарплатным группам методом value_counts():

In [65]:
df['total_income_category'].value_counts()

C    16014
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

Больше всего клиентов зарабатывают от 50001 до 200000.

###  Категоризация целей кредита.

Создадим  функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:
'операции с автомобилем',
'операции с недвижимостью',
'проведение свадьбы',
'получение образования'.



На вход функции попадает цель получения кредита, а возвращает она одну из категорий:'операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования'.

Опишем функцию:

In [66]:
def purpose_group(aim):
    """
  Возвращает категорию по значению цели получения кредита, используя правило:
  - если "автомоб" in значение - 'операции с автомобилем' верни 'операции с автомобилем'
  
  - и т.д

    """


    if 'жиль' in aim or 'недвиж' in aim:
        return 'операции с недвижимостью'
    elif 'автомоб' in aim:
        return 'операции с автомобилем'
    elif 'свадьб' in aim:
        return 'проведение свадьбы'
    elif 'образов' in aim:
        return 'получение образования'
        

Протестируем функцию.

In [67]:
purpose_group('свадьба')

'проведение свадьбы'

Сформирует новый столбец purpose_category, используя созданную функцию и метод apply():

In [68]:
df['purpose_category'] = df['purpose'].apply(purpose_group)

In [69]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Выведем статистику по группам методом value_counts():

In [70]:
df['purpose_category'].value_counts()

операции с недвижимостью    10810
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2323
Name: purpose_category, dtype: int64

Больше всего заявок на проведение операций с недвижимостью.

**Выводы**

Предобработка обнаружила три проблемы в данных:


- пропущенные значения,
- аномалии(артефакты),
- дубликаты — явные и неявные.


Пропущенные значения мы заменили медианными, перевели аномальные значения стажа в дни, часть из них - удалили. Без дубликатов исследование станет более точным, а категоризация данных поможет ответить на вопросы.



Теперь можно перейти к проверке гипотезы. 

## Проверка гипотезы

Ответим на вопросы, сформулированные в начале исследования.

### Ответы на вопросы 3.1.

#### Вопрос 1:

Есть ли зависимость между количеством детей и возвратом кредита в срок?

Посмотрим на нашу таблицу.

In [71]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Чтобы ответить на вопрос, сформируем сводную таблицу.

В качестве столбца, по которому группируют данные возьмём `children`, в качестве значений, по которым мы хотим увидеть сводную таблицу, возьмем столбец `debt`. Применим функции sum(), count(), mean().

In [72]:
report = df.pivot_table(index=['children'], values = 'debt', aggfunc = ['sum', 'count','mean']) 
report.columns = ['debt','total', '%']
report = report.sort_values(by = ['total'], ascending= False)
report

Unnamed: 0_level_0,debt,total,%
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1063,14089,0.075449
1,445,4855,0.091658
2,202,2128,0.094925
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


#### Вывод 1:

Рассмотрим последнюю колонку. Меньше всего должников с пятью детьми, а максимальное количество с четыремя . Клиенты без детей чаше погашали кредиты, чем те, у которых их от 1 до 4. Т.о. можно сделать вывод, что клиентам без детей можно выдавать кредиты с меньшей опаской, в то время как вероятность задолжности у клиентов с детьми выше.

Значит, данные говорят в пользу адекватности(правильности) гипотезы.

#### Вопрос 2:

Есть ли зависимость между семейным положением и возвратом кредита в срок?

Посмотрим на нашу таблицу.

In [73]:
df.head()


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Чтобы ответить на вопрос, сформируем сводную таблицу.

В качестве столбца, по которому группируют данные возьмём `family_status_id`, в качестве значений, по которым мы хотим увидеть сводную таблицу, возьмем столбец `debt`. Применим функции sum(), count(), mean().

In [74]:
report = df.pivot_table(index=['family_status_id'], values = 'debt', aggfunc = ['sum', 'count','mean']) 
report.columns = ['debt','total', '%']
report = report.sort_values(by = ['family_status_id'])
report

Unnamed: 0_level_0,debt,total,%
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,931,12339,0.075452
1,388,4149,0.093517
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


Чтобы отследить статус клиента осуществим объединение с таблицей `family_status_dict`.

In [75]:
report = report.merge(family_status_dict, on='family_status_id', how='left')
report.sort_values(by = ['total'], ascending= False)

Unnamed: 0,family_status_id,debt,total,%,family_status
0,0,931,12339,0.075452,женат / замужем
1,1,388,4149,0.093517,гражданский брак
4,4,274,2810,0.097509,Не женат / не замужем
3,3,85,1195,0.07113,в разводе
2,2,63,959,0.065693,вдовец / вдова


#### Вывод 2:

Рассмотрим два последних стобца. Опираясь на данные, мы можем сделать вывод, что не женатые/ не замужние  клиенты наиболее часто становятся должниками, в то время как вдовцы/вдовы наоборот. Т.о. клиенты, которые не были связаны узами официального брака в большинстве случаев далеки от мысли вернуть кредит в срок.

Значит, данные говорят в пользу адекватности(правильности) гипотезы.

#### Вопрос 3:

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Посмотрим на нашу таблицу.

In [76]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Чтобы ответить на вопрос, сформируем сводную таблицу.

В качестве столбца, по которому группируют данные возьмём `total_income_category`, в качестве значений, по которым мы хотим увидеть сводную таблицу, возьмем столбец `debt`. Применим функции sum(), count(), mean().

In [77]:
report = df.pivot_table(index=['total_income_category'], values = 'debt', aggfunc = ['sum', 'count','mean']) 
report.columns = ['debt','total', '%']
report = report.sort_values(by = ['total'], ascending= False)
report

Unnamed: 0_level_0,debt,total,%
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,1360,16014,0.084926
B,356,5041,0.070621
D,21,350,0.06
A,2,25,0.08
E,2,22,0.090909


#### Вывод 3:

Заметим, что клиенты категории 'E' наиболее часто являются должниками, в то время как категории "D" с доходами от 30 001 до 50 000  и "B" с доходами от 200 001 до 1 000 000 являются наиболее отвественными плательщиками.

#### Вопрос 4:

Как разные цели кредита влияют на его возврат в срок?

Посмотрим на нашу таблицу.

In [78]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


Чтобы ответить на вопрос, сформируем сводную таблицу.

В качестве столбца, по которому группируют данные возьмём `purpose_category`, в качестве значений, по которым мы хотим увидеть сводную таблицу, возьмем столбец `debt`. Применим функции sum(), count(), mean().

In [79]:
report = df.pivot_table(index=['purpose_category'], values = 'debt', aggfunc = ['sum', 'count','mean']) 
report.columns = ['debt','total', '%']
report = report.sort_values(by = ['total'], ascending= False)
report

Unnamed: 0_level_0,debt,total,%
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,782,10810,0.07234
операции с автомобилем,403,4306,0.09359
получение образования,370,4013,0.0922
проведение свадьбы,186,2323,0.080069


#### Вывод 4:

Подметим, что клиенты, которые берут кредит на недвижимость или свадьбу более ответственные в плане погащения в сравнении с теми, кто берет займ на образование и на операции с автомобилем.

### Общий вывод:

Еще раз рассмотрим Таблицу 1 зависимости количества детей и возврата кредита в срок, а также Таблицу 2 семейного положения  и погашения в срок.


<center> <b> Таблица 1. <b>    </center>  
    
    
    
    
    

| **children** 	| **debt** 	| **total** 	|    **%** 	|
|-------------:	|---------:	|----------:	|---------:	|
|            0 	|     1063 	|     14089 	| 0.075449 	|
|            1 	|      445 	|      4855 	| 0.091658 	|
|            2 	|      194 	|      2052 	| 0.094542 	|
|            3 	|       27 	|       330 	| 0.081818 	|
|            4 	|        4 	|        41 	| 0.097561 	|
|            5 	|        0 	|         9 	|   0.0000 	|  

<center> <b> Таблица 2. <b>    </center>      
    
    

|     **family_status** 	| **debt** 	| **total** 	|    **%** 	|
|----------------------:	|---------:	|----------:	|---------:	|
|       женат / замужем 	|      928 	|     12290 	| 0.075509 	|
|      гражданский брак 	|      385 	|      4137 	| 0.093063 	|
| Не женат / не замужем 	|      273 	|      2801 	| 0.097465 	|
|             в разводе 	|       84 	|      1193 	| 0.070411 	|
|        вдовец / вдова 	|       63 	|       955 	| 0.065969 	|
|                       	|          	|           	|          	|




Опираясь на данные из таблиц видно, что предпочтительнее всего выдавать кредиты клиентам, которые были / остаются связаны узами брака без детей. В то время как для не замужних/не женатых или связанных гражданским браком клиентов с детьми необходимо проверить(запросить) дополнительную информацию для формирования финального решения.

Таким образом,  гипотеза, что семейное положение и количество детей клиента влияет на факт погашения кредита в срок полностью подтвердилась.