# Исследование надежности заемщиков.

## Обзор данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и
количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
<p>Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** — проверить гипотезы:

1. Возврат кредита в срок зависит от количества детей заемщика.
2. Возврат кредита в срок зависит от семейного положения заемщика.
3. Возврат кредита в срок зависит от уровня дохода заемщика.
4. Возврат кредита в срок зависит от цели кредита заемщика.

**Ход исследования**

Данные о платёжеспособности клиентов представлены в файле data.csv. О качестве данных ничего не известно. Поэтому перед проверкой гипотез необходим обзор данных.
Данные необходимо проверить на ошибки, оценить их влияние на исследование и, при необходимости, исправить критичные ошибки данных.

Исследование пройдёт в три этапа:

1. Обзор данных.
2. Предобработка данных.
3. Проверка гипотез.

In [1]:
import pandas as pd 

In [2]:
data = pd.read_csv ('/datasets/data.csv') 

In [3]:
data.head(20) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В таблице 12 столбцов. Встречающиеся типы данных: 'float64', 'int64', 'object'.

Согласно документации к данным:
* `children` — число имеющихся детей у заемщика. Тип данных - `'int64'`, соотвествует содержанию.

* `days_employed` — общий трудовой стаж в днях. Тип данных - `'float64'`, более корректно будет измерять дни в целых значениях.

* `dob_years` — число полных лет заемщика. Тип данных - `'int64'`, соотвествует содержанию.

* `education` — уровень профессионального образования заемщика. Тип данных - `'object'`, соотвествует содержанию.

* `education_id` — идентификатор уровня образования заемщика. Тип данных - `'int64'`, соотвествует содержанию.

* `family_status` — семейное положение заемщика. Тип данных - `'object'`, соотвествует содержанию.

* `family_status_id` — идентификатор семейного положения заемщика. Тип данных - `'int64'`, соотвествует содержанию.

* `gender` — пол заемщика. Тип данных - `'object'`, соотвествует содержанию.

* `income_type` — тип дохода заемщика. Тип данных - `'object'`, соотвествует содержанию.

* `debt` — имел ли заемщик задолженность по возврату кредитов. Тип данных - `'int64'`, соотвествует содержанию.

* `total_income` — общий доход заемщика. Тип данных - `'float64'`, более корректно будет измерять доход в рублях в целых значениях. 

* `purpose` — цель кредитования. Тип данных - `'object'`, соотвествует содержанию.

В названиях колонок отсутствуют нарушения правил хорошего стиля.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

В данных есть аномалия - отрицательное количество дней трудового стажа в столбце `'days_employed'`.

Видно наличие неявных дубликатов в данных - в столбце 'education' есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв.

## Предобработка данных

### Заполнение пропусков

In [5]:
data.isna().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски обнаружены в столбцах 'days_employed' и 'total_income'. Значения в столбце 'days_employed' не учавствуют в исследовании, поэтому пропуски в этих столбцах не повлияют на результаты исследования.

Столбец 'total_income' учавствует в исследовании, поэтому его значения важны. Было бы правильно установить причину пропусков и восстановить данные. 

Примечательно то, что количество пропущенных значений одинаково для обоих столбцов с пропусками.

Возможные причины:

1. Если заполнение информации о работе не является обязательным, люди могут предпочесть не указывать информацию о доходе и трудовом стаже.
2. Если заполнение информации о работе является обязательным, пропуски могут возникнуть по вине оператора (в случае заполнения данных человеком), или программно-аппаратных средств (из-за сбоев или неккоректной работы).
3. Также возможен вариант, что банк выдает кредиты безработным лицам (отсюда отсутствие значения доходов), и лицам, не имеющим опыта работы (отсутствие значения трудового стажа).
4. Возможно клиенты с пропущенными значениями работают неофициально.

Проверить варианты 1, 2 и 4 не представляется возможным, зато третий вариант проверить можно. Основная часть людей, не имеющих опыта работы, является выпускниками учебным заведений, следовательно, с невысоким значением числа полных лет (в районе 18-24). Проверим, так ли это, отфильтровав таблицу. 

Восстановить данные возможности нет. Придётся:

* заполнить эти пропуски,
* оценить, насколько они повредят расчётам.

Уровень дохода — количественная переменная. Пропуски в таких переменных заполняют характерными значениями. Это значения, характеризующие состояние выборки, — набора данных, выбранных для проведения исследования. Чтобы примерно оценить типичные значения выборки, подходят среднее арифметическое или медиана. Делаем выбор в пользу медианы, т.к. медиана лучше подходит для наборов данных, в которых есть сильно отличающиеся (выбивающиеся) значения, или для очень широких диапазонов данных.

In [6]:
pass_data = data[data['days_employed'].isna() == True] 
pass_data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [7]:
print (data['income_type'].unique())
print (pass_data ['income_type'].unique())
print (data['dob_years'].sort_values().unique())
pass_data ['dob_years'].sort_values().unique()

['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
['пенсионер' 'госслужащий' 'компаньон' 'сотрудник' 'предприниматель']
[ 0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
 66 67 68 69 70 71 72 73 74 75]


array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73])

Среди клиентов, в данных которых есть пропуски, нет безработных, а диапазон значений числа полных лет очень большой, что позволяет полностью опровергнуть третий вариант возможных причин пропусков.

In [8]:
(data['days_employed'].isna().sum()) / data.shape[0] * 100 

10.099883855981417

Доля пропущенных значений составляет приблизительно 10,1%, это достаточно высокое значение. Пропущенные данные могут оказать влияние на качество результатов исследования. 

In [9]:
days_median = data['days_employed'].sort_values().median() 
income_median = data['total_income'].sort_values().median() 
print (days_median)
print (income_median)

-1203.369528770489
145017.93753253992


In [10]:
data['days_employed'] = data['days_employed'].fillna(days_median) 
data['total_income'] = data['total_income'].fillna(income_median) 

Проверим результат:

In [11]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Проверка данных на аномалии и исправления.

#### Аномалия 1
Можно заменить, что значения столбца 'days_employed' при типе занятости "пенсионер" аномально большие (60лет * 365дней = 21900): 

In [12]:
data[data['days_employed'] > 21900] 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


Видно, что некоторые значения достигают отметок в 400000 - что абсолютно невозможно. Причины необходимо уточнить у оператора данных (не является возможным), возможно это какой-то сбой в программно-аппаратном обеспечении, или в работе оператора данных. Возможно, данные указываются не в днях, а в часах, это бы объяснило данную аномалию.



In [13]:
day = []
hour = []
for value in data['days_employed']: # в цикле я делю значения на те, что предположительно измеряются в днях, и те, что в часах
    if (0 < value < 21900) or (-21900 < value < 0):
        day.append (value)
    else:
        hour.append (value)
        
print (sorted(day))
sorted(hour)

[-18388.949900568383, -17615.563265627912, -16593.472817263817, -16264.699500887124, -16119.68773669392, -15835.725774811905, -15785.678893355003, -15773.0613349239, -15618.063786344595, -15410.040779095478, -15267.541182734109, -15193.032201443106, -15079.216068566157, -14920.049805042863, -14747.887934053397, -14677.9022934147, -14652.093785926449, -14583.15250401094, -14492.543986842333, -14447.661078047651, -14420.005180584703, -14381.545843648422, -14240.932399924128, -14103.863413698578, -14051.20262056069, -13976.806877265004, -13967.98538897768, -13923.375086079388, -13913.41587629005, -13894.357289777596, -13840.953867998049, -13809.045625637127, -13724.223883918732, -13710.428182355554, -13702.636708175783, -13664.197881775632, -13623.026318165186, -13563.100420050008, -13489.372942477548, -13468.882696747742, -13459.725039589568, -13424.333742690078, -13372.43469299878, -13359.000636018189, -13343.010652531377, -13264.142142731776, -13210.485011656738, -13151.226127616395, -

[328728.72060451825,
 328734.9239963268,
 328771.3413867971,
 328795.72672824026,
 328827.3456668878,
 328834.27445465827,
 328842.36491639924,
 328862.57141197263,
 328874.27066812554,
 328895.8627520332,
 328909.02061756444,
 328911.59570801497,
 328923.4482215042,
 328928.26266421424,
 328959.6269649916,
 328994.063851685,
 329001.9461073586,
 329045.9733351913,
 329050.42424026853,
 329139.6083946272,
 329164.5980910513,
 329182.8451571358,
 329210.1087962281,
 329213.3169602077,
 329219.6768818127,
 329226.7331157804,
 329246.20486831234,
 329349.6944446525,
 329365.7727303433,
 329375.6267289287,
 329379.8606211972,
 329387.37159240147,
 329410.24852330645,
 329412.250959156,
 329416.87424530287,
 329460.9419365898,
 329519.27978525753,
 329531.9291403406,
 329555.51345908485,
 329569.29868782405,
 329605.6094338079,
 329638.4270596182,
 329663.9303420009,
 329684.7563426098,
 329698.8266915705,
 329699.3485617898,
 329717.6911715757,
 329720.6542349246,
 329722.2451570229,
 3297

Мы получили два списка. В списке 'day' предположительно те значения, которые указаны в днях, в 'hour' соотвественно в часах. Видим, что между списками очень резкая граница: первый список заканчивается на значении -24, второй начинается со значения 328728 (что примерно в днях 13697). Это позволяет провести четкую границу между значениями в днях и в часах, значит, данные можно исправить.

In [14]:
for value in range(len(data)):
    if (data.loc[value,'days_employed'] > 300000) or (data.loc[value,'days_employed'] < -300000):
        data.loc[value,'days_employed'] /= 24 
data.head(15) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


#### Аномалия 2
Аномалия в столбце 'days_employed' - встречаются отрицательные значения. Возможная причина этому - ошибки в работе программно-апаратного обеспечение (к примеру вместо вычитания из большего числа меньшего, вычитается большее из меньшего).

In [36]:
data['days_employed'] = abs(data['days_employed']) 
data.head(10) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1.0,8437.673028,42.0,высшее,0.0,женат / замужем,0.0,F,сотрудник,0.0,253875.639453,покупка жилья
1,1.0,4024.803754,36.0,среднее,1.0,женат / замужем,0.0,F,сотрудник,0.0,112080.014102,приобретение автомобиля
2,0.0,5623.42261,33.0,Среднее,1.0,женат / замужем,0.0,M,сотрудник,0.0,145885.952297,покупка жилья
3,3.0,4124.747207,32.0,среднее,1.0,женат / замужем,0.0,M,сотрудник,0.0,267628.550329,дополнительное образование
4,0.0,14177.753002,53.0,среднее,1.0,гражданский брак,1.0,F,пенсионер,0.0,158616.07787,сыграть свадьбу
5,0.0,926.185831,27.0,высшее,0.0,гражданский брак,1.0,M,компаньон,0.0,255763.565419,покупка жилья
6,0.0,2879.202052,43.0,высшее,0.0,женат / замужем,0.0,F,компаньон,0.0,240525.97192,операции с жильем
7,0.0,152.779569,50.0,СРЕДНЕЕ,1.0,женат / замужем,0.0,M,сотрудник,0.0,135823.934197,образование
8,2.0,6929.865299,35.0,ВЫСШЕЕ,0.0,гражданский брак,1.0,F,сотрудник,0.0,95856.832424,на проведение свадьбы
9,0.0,2188.756445,41.0,среднее,1.0,женат / замужем,0.0,M,сотрудник,0.0,144425.938277,покупка жилья для семьи


#### Аномалия 3
Также ранее при вызове метода unique() к столбцу 'dob_years', было выявлено значение 0 у этого параметра - возможные причины этого аналогичны с аномалией значений стобца 'days_employed'.

In [16]:
data['dob_years'].sort_values().unique() 

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [17]:
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,14439.234121,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,2664.273168,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,1872.663186,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
578,0,16577.356876,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1040,0,1158.029561,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,1203.369529,0,среднее,1,женат / замужем,0,F,сотрудник,0,145017.937533,жилье
20462,0,14113.952856,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья
20577,0,13822.552977,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость
21179,2,108.967042,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости


Какой-либо зависимости значения 0 в столбце dob_years от других столбцов не выявлено. 
Применим к столбцу метод median() по причинам, описанным ранее.

In [35]:
dob_median = data['dob_years'].sort_values().median() 


data.loc[data['dob_years'] == 0] = dob_median 
        
0 in data['dob_years'].unique() 

False

#### Аномалия 4

В столбце 'children' встречаются отрицательные значения - возможные причины аналогичны отрицательным значениям столбца 'days_employed'.

In [19]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Также видим аномально большое значение количества детей - 20. Чисто теоретически, такое возможно, но как единичный случай. Но более вероятно, что это ошибка оператора - приписан лишний ноль. Посмотрим количество уникальных значений столбца. 

In [20]:
data['children'].value_counts() 

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [37]:
data['children'].value_counts().sum() 

21525

In [39]:
76/21525*100 

0.3530778164924506

Вероятность того, что у 76 человек по 20 детей - крайне низкая. Исправим эти значения.

In [34]:
data.loc[data['children'] == 20] = 2
        
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [None]:
data['children'] = data['children'].abs() 

### Изменение типов данных.

In [None]:
data['days_employed'] = data['days_employed'].astype ('int') 
data['total_income'] = data['total_income'].astype ('int')

In [None]:
data.info() 

### Удаление дубликатов.

Вначале найдем явные дубликаты.

In [None]:
data.duplicated().sum()  

In [None]:
data = data.drop_duplicates().reset_index(drop=True)

In [None]:
data.duplicated().sum() 

Перейдем к ручному поиску дубликатов.

In [None]:
print (data['education'].value_counts())
print('--------------------')
print (data['family_status'].value_counts())
print('--------------------')
print (data['gender'].value_counts())
print('--------------------')
print (data['income_type'].value_counts())
print('--------------------')
print (data['purpose'].value_counts())

Со столбцами 'family_status', 'gender','income_type' все хорошо, дубликатов нет. В столбце 'education' дубликатов много. Проблема решится приведением всех названий к нижнему регистру, больше значения ничем не отличаются. В значениях столбца 'family_status' значения тоже в разном регистре, приведем к одинаковому.


In [None]:
data['education'] = data['education'].str.lower() # привожу названия к одному регистру методом str.lower()
data['family_status'] = data['family_status'].str.lower()

print (data['education'].value_counts()) # проверка
print ('-----------------------')
print (data['family_status'].value_counts())

In [40]:
data = data.drop_duplicates().reset_index(drop=True) 

In [41]:
data.duplicated().sum() 

0

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим допольнительные датафреймы для стобцов 'education', 'family_status'. 

In [None]:
education = (data[['education', 'education_id']]) 
education = education.drop_duplicates().reset_index(drop=True) 
education 

In [None]:
family_status = data[['family_status', 'family_status_id']]
family_status = family_status.drop_duplicates().reset_index(drop=True) 
family_status 

Теперь удалим столбцы 'education', 'family_status' из исходной таблицы.

In [None]:
data = data.drop ('education', axis=1)
data = data.drop ('family_status', axis=1)
data.head() 

### Категоризация дохода.

In [None]:
def total_income_category(total_income): 
    if 0 <= total_income <= 30000:
        return 'E'
    elif 30001 <= total_income <= 50000:
        return 'D'
    elif 50001 <= total_income <= 200000:
        return 'C'
    elif 200001 <= total_income <= 1000000:
        return 'B'
    else:
        return 'A'

In [None]:
data['total_income_category'] = data['total_income'].apply(total_income_category) 
data.head(10) 

### Категоризация целей кредита.

In [None]:

def purpose_category(purpose): # создаю фукнкцию, в которой с помощью условных конструкций делю значения столбца 'purpose' на категории
    if ('свад' or 'проведен' or'сыгр') in purpose:
        return 'проведение свадьбы'
    elif ('жил' or 'недвижим') in purpose:
        return 'операции с недвижимостью'
    elif 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'образ' in purpose:
        return 'получение образования'

In [None]:
data['purpose_category'] = data['purpose'].apply(purpose_category) 

## Ответы на вопросы.

За возврат кредита в срок в предоставленных данных отвечает столбец 'debt' - имелась ли у заемщика задолженность по возврату кредитов, поэтому в дальнейшем мы будем искать его зависимости от других величин.

### Гипотеза 1: Возврат кредита в срок зависит от количества детей заемщика.

За количество детей у заемщика отвечает столбец 'children' - поэтому мы будем искать зависимость между ним и упомянутым ранее столбцом 'debt'.

In [None]:
print (data.loc[data['children'] != 0]['children'].count()) # число клиентов с детьми
print (data.loc[data['children'] == 0]['children'].count()) # число клиентов без детей

In [None]:
data.loc[data['debt'] == 1].groupby('children')['debt'].count() # число клиентов с задолжностями

In [None]:
data.loc[data['debt'] == 0].groupby('children')['debt'].count() # число клиентов без задолжностей

In [None]:
data.loc[data['debt'] == 1].groupby('children')['debt'].count() / data.groupby('children')['debt'].count()  * 100 # доля имеющих задолжности от всех клиентов по категориям в процентах

In [None]:
data.loc[data['debt'] == 1].groupby('children')['debt'].count().sum() / len(data) * 100 # доля задолжностей среди всех кредитов

In [None]:
data.loc[(data['children'] != 0) & (data['debt'] == 1)].groupby('children')['debt'].count().sum()  /  data.loc[data['debt'] == 1].groupby('children')['debt'].count().sum()  * 100 # процентное отношение клиентов с детьми, имеющих задолжности, ко всем клиентам, имеющим задолжности

In [None]:
data.loc[data['debt'] == 1].groupby('children')['debt'].count().sum() 

In [None]:
data.loc[(data['children'] != 0) & (data['debt'] == 1)].groupby('children')['debt'].count().sum()  /  data.loc[data['children'] != 0].groupby('children')['debt'].count().sum()  * 100 # отношение клиентов с детьми, имеющих задолжности, ко всем клиентам с детьми

#### Вывод:

Число клиентов без детей практически в два раза больше числа клиентов с детьми.
Мы видим, что доля имеющих задолжность клиентов без детей от всех имеющих задолжность клиентов - 38,9%, следовательно значение у клиентов без детей - 61.1%. 
Доля имеющих задолжность клиентов с детьми от всех кредитов клиентов с детьми - 9,2%. 
Доля имеющих задолжности клиентов без детей от всех клиентов без детей - 7,5%. Это на 18,5 процентов меньше, чем у клиентов с детьми. (100 - 7,5/9,2 х 100)
Это значение немного меньше, чем у клиентов с детьми.

Результаты:
* 2/3 клиентов банка - клиенты без детей.
* Задолжности есть у 8% клиентов.
* Среди имеющих задолжности, 60 % - клиенты без детей.
* Доля имеющих задолжности клиентов без детей от всех клиентов без детей немного меньше, чем доля у клиентов с детьми.
* Конкретно по каждой категории (разному количеству детей) доля имеющих задолжность тоже практически не отличается и находится в диапазоне 8-9%.

Итог:

Зависимость возврата кредита в срок от количества детей заемщика слабо выражена. Большая вероятность возврата кредита в срок у клиентов без детей. 

Предположительно это связано с тем, что ввиду отсутствия расходов на содержание детей, у клиентов без детей остается больше средств и проще избежать задолжностей

### Гипотеза 2: Возврат кредита в срок зависит от семейного положения заемщика.

За статус семейного положения у заемщика отвечает столбец 'family_status_id' - поэтому мы будем искать зависимость между ним и упомянутым ранее столбцом 'debt'.

In [None]:
data.groupby('family_status_id')['debt'].count() # общее количество значений в каждой из категорий

In [None]:
data.loc[data['debt'] == 1].groupby('family_status_id')['debt'].count() # количество имеющих задолжности по категориям

In [None]:
data.loc[data['debt'] == 1].groupby('family_status_id')['debt'].count()  /  data.groupby('family_status_id')['debt'].count()  * 100 # доля имеющих задолжности от всех клиентов по категориям в процентах

In [None]:
def part_of_category_among_all (name_column, name_category): # доля категории среди всех задолжностей
    part = data.loc[(data[name_column] == name_category) & (data['debt'] == 1)][name_column].count()  /  data.loc[data['debt'] == 1][name_column].count() * 100
    return part

print (part_of_category_among_all('family_status_id', 0)) # доля категории среди всех задолжностей
print (part_of_category_among_all('family_status_id', 1))
print (part_of_category_among_all('family_status_id', 2))
print (part_of_category_among_all('family_status_id', 3))
print (part_of_category_among_all('family_status_id', 4))

#### Вывод:

Доли имеющих задолжности от всех клиентов по категориям в процентах равны:

0. женат / замужем - 7,5%
1. гражданский брак - 9,3%
2. вдовец / вдова - 6,6%
3. в разводе - 7,1%
4. не женат / не замужем - 9,7%

Однако значительную долю задолжностей от всех задолжностей составляют категории 0 и 1 - это вызвано преобладанием клиентов с таким статусом.

Результаты:
* Самый высокий процент доли задолжностей у категорий 1 и 4.
* Средний результат у категорий 0 и 3.
* Самый низкий процент доли задолжностей у категории 2.
* Разница в процентах между самым низким и самым высоким значением составляет 31,9% (100 - 6,6/9,7 х 100).

Итог:

Зависимость возврата кредита в срок от семейного положения заемщика средне выражена. Наибольшая вероятность возврата кредита в срок у клиентов с категорией семейного положения "вдовец / вдова", наименьшая вероятность - у категорий  "гражданский брак", "не женат / не замужем". 

Предположительно это связано с тем, что клиентам с семьями оказывается финансовая поддержка со стороны супруга, а клиенты с категорией "вдовец / вдова" берут кредиты более осознанно.

### Гипотеза 3: Возврат кредита в срок зависит от уровня дохода заемщика.

За уровень дохода у заемщика отвечает столбец 'total_income_category' - поэтому мы будем искать зависимость между ним и упомянутым ранее столбцом 'debt'.

In [None]:
data.groupby('total_income_category')['debt'].count() # общее количество значений в каждой из категорий

In [None]:
data.loc[data['debt'] == 1].groupby('total_income_category')['debt'].count()  /  data.groupby('total_income_category')['debt'].count()  * 100 # доля имеющих задолжности от всех клиентов по категориям в процентах

In [None]:
print (part_of_category_among_all('total_income_category', 'A')) # доля категории среди всех задолжностей
print (part_of_category_among_all('total_income_category', 'B'))
print (part_of_category_among_all('total_income_category', 'C'))
print (part_of_category_among_all('total_income_category', 'D'))
print (part_of_category_among_all('total_income_category', 'E'))

#### Вывод:

Доли имеющих задолжности от всех клиентов по категориям в процентах равны:

* от 0 до 30000 (E) - 9,1%
* от 30001 до 50000 (D) - 6%
* от 50001 до 200000 (C) - 8,5%
* от 200001 до 1000000 (B) - 7,1%
* более 1000000 (A) - 8%

Однако значительную долю задолжностей от всех задолжностей составляют категории В и С - это вызвано преобладанием клиентов с таким статусом.

Результаты:

* Самый высокий процент доли задолжностей у категории E и C.
* Средний результат у категорий A, и B.
* Самый низкий процент доли задолжностей у категории D.
* Разница в процентах между самым низким и самым высоким значением составляет 34,1% (100 - 6/9,1 х 100).

Итог:

Зависимость возврата кредита в срок от уровня дохода заемщика средне выражена. Наибольшая вероятность возврата кредита в срок у клиентов с категориями уровня дохода "от 30001 до 50000", "от 50001 до 200000", наименьшая вероятность - у категории "от 0 до 30000". 

Предположительно это связано с тем, что у клиентов с низким уровнем дохода может не хватить средств для оплаты кредита. Самыми стабильными являются клиенты со средним доходом, немного менее стабильными - клиенты с высоким доходом. Это может быть связано с тем, что они заняты в предпринимательской деятельности, связанной с высоким риском.

### Гипотеза 4: Возврат кредита в срок зависит от цели кредита заемщика.

За цель кредита у заемщика отвечает столбец 'purpose_category' - поэтому мы будем искать зависимость между ним и упомянутым ранее столбцом 'debt'.

In [None]:
data.groupby('purpose_category')['debt'].count() # общее количество значений в каждой из категорий

In [None]:
data.loc[data['debt'] == 1].groupby('purpose_category')['debt'].count()  /  data.groupby('purpose_category')['debt'].count()  * 100 # доля имеющих задолжности от всех клиентов по категориям в процентах

In [None]:
print (part_of_category_among_all('purpose_category', 'операции с автомобилем')) # доля категории среди всех задолжностей
print (part_of_category_among_all('purpose_category', 'операции с недвижимостью'))
print (part_of_category_among_all('purpose_category', 'получение образования'))
print (part_of_category_among_all('purpose_category', 'проведение свадьбы'))

#### Вывод:

Доли имеющих задолжности от всех клиентов по категориям в процентах равны:

* операции с автомобилем - 9,3%
* операции с недвижимостью - 7%
* получение образования - 9,2%
* проведение свадьбы - 8%

Доля задолжностей от всех задолжностей равномерно распределена по первым трем категориям, почти в два раза меньше, чем у каждой из первых трех категорий. 

Результаты:

* Самый высокий процент доли задолжностей у категории "операции с автомобилем" и "получение образования".
* Средний результат у категории "проведение свадьбы".
* Самый низкий процент доли задолжностей у категории "операции с недвижимостью".
* Разница в процентах между самым низким и самым высоким значением составляет 24,7% (100 - 7/9,3 х 100).

Итог:

Зависимость возврата кредита в срок от уровня дохода заемщика слабо выражена. Наибольшая вероятность возврата кредита в срок у клиентов с категорией цели кредита "операции с недвижимостью", наименьшая вероятность - у категорий "операции с автомобилем" и "получение образования". 

Предположительно это связано с тем, что операции с недвижимостью - самые безопасные в плане того, что с ней что-то случится. У операций с автомобилем высок риск потерять автомобиль в результате поломки или аварии (либо же возникнут дополнительные траты). Операции с образованием также сопровождаются высоким риском, часть этих клиентов может не иметь работы, либо работу с низким уровнем дохода, также есть риск не справится с нагрузкой и быть отчисленным, либо не найти применения полученным знаниям после окончания обучения.

In [42]:
report_family_status = data.pivot_table(
    index='family_status',
    values='debt',
    aggfunc=['sum', 'count']
)

In [43]:
report_family_status

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,274.0,2810
в разводе,85.0,1195
вдовец / вдова,63.0,959
гражданский брак,388.0,4162
женат / замужем,931.0,12344


In [44]:
report_family_status.columns = report_family_status.columns.droplevel(1)

In [45]:
report_family_status

Unnamed: 0_level_0,sum,count
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,274.0,2810
в разводе,85.0,1195
вдовец / вдова,63.0,959
гражданский брак,388.0,4162
женат / замужем,931.0,12344


In [46]:
report_family_status['prob_debt'] = report_family_status['sum'] / report_family_status['count']

In [47]:
report_family_status

Unnamed: 0_level_0,sum,count,prob_debt
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,274.0,2810,0.097509
в разводе,85.0,1195,0.07113
вдовец / вдова,63.0,959,0.065693
гражданский брак,388.0,4162,0.093224
женат / замужем,931.0,12344,0.075421


## Общий вывод:

Зависимости были найдены по каждому из исследованных критериев.

1. Средне выраженное влияние на возврат кредита в срок оказывают категории "Семейное положение" и "Уровень дохода" с относительной разницей вероятности наличия задолжности между категориями 31,9 и 34,1 процентов соответственно.

2. Слабо выраженное влияние на возврат кредита в срок оказывают категории "Количество детей" и "Цель кредита" с относительной разницей вероятности наличия задолжности между категориями 18,5 и 24,7 процентов соответственно.

3. Идеальным клиентом будет человек без детей, состоящий в браке, со средним уровнем дохода, и берущий кредит на операции с недвижимостью.

4. Самое высокое влияние на вероятность возврата кредита в срок оказывает уровень дохода, самое меньшее - количество детей.
