## Исследование надёжности заёмщиков



Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### План выполнения работы
Шаг 1. Открыть таблицу и изучить общую информацию о данных

Шаг 2. Предобработка данных

Шаг 3. Предоставление ответов на вопросы :
Есть ли зависимость между наличием детей и возвратом кредита в срок?
Есть ли зависимость между семейным положением и возвратом кредита в срок?
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Как разные цели кредита влияют на его возврат в срок?

Шаг 4. Написание общего вывода


### Описание данных
1. children — количество детей в семье 
2. days_employed — общий трудовой стаж в днях 
3. dob_years — возраст клиента в годах 
4. education — уровень образования клиента 
5. education_id — идентификатор уровня образования 
6. family_status — семейное положение 
7. family_status_id — идентификатор семейного положения
8. gender — пол клиента 
9. income_type — тип занятости 
10. debt — имел ли задолженность по возврату кредитов 
11. total_income — ежемесячный доход 
12. purpose — цель получения кредита 

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd  # вставил импорт в отдельную ячейку, как ты порекомендовал

In [2]:
client_data = pd.read_csv('/datasets/data.csv')
client_data.info()  # посмотрим типы значений в столбцах таблиц и их значения

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
client_data.head(10) # посмотрим структуру таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:

#получив название всех столбцов, узнаю в них количество различных значений:

columns_names = ['children', 'days_employed', 'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose']
for name in columns_names:
    print(client_data[name].value_counts())
    

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
-986.927316       1
-7026.359174      1
-4236.274243      1
-6620.396473      1
-1238.560080      1
-3047.519891      1
-7373.150635      1
-1048.380461      1
-4906.125062      1
-1893.222792      1
-849.764227       1
-1741.489608      1
-5135.928528      1
-1453.358707      1
-4977.646061      1
 396078.542064    1
-1399.361282      1
-1645.463049      1
 386155.404320    1
-2793.736218      1
-1171.322169      1
-158.140270       1
-978.830019       1
-941.943913       1
-5208.815041      1
-951.868467       1
-501.078443       1
-725.971741       1
-2308.532389      1
-666.570650       1
                 ..
-1478.092467      1
-568.348795       1
-3453.437905      1
-725.595743       1
-2013.336934      1
-215.245268       1
-3208.792519      1
-1799.455775      1
-979.587235       1
-1312.334477      1
-2184.000174      1
-1218.820922      1
 356642

### Вывод

Таблица состоит из 12 столбцов. Всего в таблице используется 4 типа данных : float64(2), int64(5), object(5). В разных столбцах попадаются пустые значения и дубликаты. 
#### Рассмотрим странные значения по каждому из столбцов :
    1.children
        а) Значение '-1' повторившееся 47 раз указывкет на некорректный ввод, скорее всего имелось в виду значение '1'.
        Скорее всего это некорректно записанное в следствии технических проблем значение '1'.
        б) Значение '20' повторившееся 76 раз слишком велико и никак не вписывается в логику распределения детей по категориям. 
        Скорее всего это некорректно записанное в следствии технических проблем значение '2'.
        
    2.days_employed
        a) Не может быть отрицательных значений количества дней.
        Скорее всего вызваны некорректным автозаполнением.
    3.education 
        а) Замечены дубликаты как следствие разного регистра.
        Челоечесий фактор. Возможно данные заполняли разные люди в разное время, а также никто не привел значения к одному виду
     
    4.gender 
        a) Странное значение "XNA" в количестве 1шт. Можно удалить или неучитывать.
        Неопределенное значение, возможно - случайность, вызванная человеческим фактором
        
    5.purposre 
        a) Много повторяющихся по смыслу значений.
        Челоечесий фактор. Возможно данные заполняли разные люди в разное время, а также никто не привел значения к одному виду
    
    

#### Варианты исправления неточностей
    1.children
        а) замена '-1' на '1'
        б) замена '20' на '2', либо удаление таких значений
        
    2.days_employed
        a) сделать все значение положитьельными (получить модуль всех значений)
        
    3.education 
        а) Произвести замену 
     
    4.gender 
        a) Удалить или не учитывать
        
    5.purposre 
        a) Провести лемматизацию, свести имеющиеся цели к наиболле общим

### Шаг 2. Предобработка данных

### Обработка пропусков

In [5]:
#Рассмотрим уникальные значения в столбцах
for i in columns_names:                         
    print(i)
    print(client_data[i].unique())
    print()
# использовав метотод uniqe() можно убедиться, что во всех столбцах кроме 'days_employed' 
# и 'total_income' нет уникальных значений None и Nan

children
[ 1  0  3  2 -1  4 20  5]

days_employed
[-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]

dob_years
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]

education
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']

education_id
[0 1 2 3 4]

family_status
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']

family_status_id
[0 1 2 3 4]

gender
['F' 'M' 'XNA']

income_type
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']

debt
[0 1]

total_income
[253875.6394526  112080.01410244 145885.95229686 ...  89672.56115303
 244093.05050043  82047.41889948]

p

In [6]:
                       # Осталось рассмотреть 'days_employed' и 'total_income'.
client_data.count()  # Рассмотртим общее количество значений в столбцах. Видно, что в 
                            # 'days_employed' и 'total_income' есть пропуски.

children            21525
days_employed       19351
dob_years           21525
education           21525
education_id        21525
family_status       21525
family_status_id    21525
gender              21525
income_type         21525
debt                21525
total_income        19351
purpose             21525
dtype: int64

In [7]:
print('Количество пропущенных значений в days_employed: {}'.format(client_data['days_employed'].isnull().sum()))


Количество пропущенных значений в days_employed: 2174


In [8]:
print('Количество пропущенных значений в total_income: {}'.format(client_data['total_income'].isnull().sum()))

Количество пропущенных значений в total_income: 2174


In [9]:
client_data[client_data['days_employed'].isnull() == True] #выведем на экран, все строки, где отсутствует информация 
                                                                   # об общем трудовом стаже


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [10]:
client_data['days_employed'] = abs(client_data['days_employed']) # сделаем трудовой стаж положительным во всех ячейках

In [11]:
mean_days_employed = client_data['days_employed'].mean()  

In [12]:
median_total_income = client_data['total_income'].median()      #использовал median с учетом большой разницы в доходах

In [13]:
# заменим отсутствующие значения на средние
client_data['days_employed'] = client_data['days_employed'].fillna(mean_days_employed)

In [14]:
# заменим отсутствующие значения на медианные
client_data['total_income'] = client_data['total_income'].fillna(median_total_income)

In [15]:
# еще раз проверим пропуски'
print('Количество пропущенных значений в days_employed: {}'.format(client_data['days_employed'].isnull().sum())) 
print('Количество пропущенных значений в total_income: {}'.format(client_data['total_income'].isnull().sum()))






Количество пропущенных значений в days_employed: 0
Количество пропущенных значений в total_income: 0


### Вывод

Для поиска пропусков я сначала использовал метод unique(), чтобы среди уникальных значений в столбцах отыскать None и NaN, однако этого метода оказалось недостаточно, т.к. 'days_employed' и 'total_income' имели слишком много уникальных значений для
анализа, однако я точно убедился, что во всех столбцах кроме этих двух нет пропусков. Далее с помощью .isnull().sum() я подсчитал кол-во пропусков, и оно оказалось одинаково для обоих столбцов. Это значит, что пропуски в этих столбцах в одних и тех же строках, в чем можно убидться, если вывести на экран строки с NaN. Данные пропуски являются неслучайными, т.к. взаимозависимы.
    Возможно, чтобы посчитать значения total_income требовуется значения days_employed, поэтому они и пропущены вместе. Либо часть клиентов не давало согласия на сбор таких данных.
    Пропуски количественных переменных теперь заполнены средним значением ('days_employed') и медианным ('total_income'). Перед
заполнением, для подсчета средних значений я избавился от отрицательности в 'days_employed' с помощью abs.

### Замена типа данных

In [16]:
client_data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


#### Заменим тип данных float в days_employed и total_income на int

In [17]:
client_data['days_employed'] = client_data['days_employed'].astype('int')

In [18]:
client_data['total_income'] = client_data['total_income'].astype('int')

In [19]:

client_data.info() #убедимся, что типы данных изменены

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Теперь столбцы 'days_employed' и 'total_income' имеют целочисленный тип данных. Для перевода я выбрал метод astype() т.к. он
может переводить float в int. 

### Обработка дубликатов

In [20]:
client_data['education'].value_counts() # рассмотрим значения в таблице "education"

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [21]:
#заменим значения
client_data['education'] = client_data['education'].replace(['СРЕДНЕЕ','Среднее'] , 'среднее')   
client_data['education'] = client_data['education'].replace(['ВЫСШЕЕ','Высшее'] , 'высшее')
client_data['education'] = client_data['education'].replace(['Неоконченное высшее','НЕОКОНЧЕННОЕ ВЫСШЕЕ'] , 'неоконченное высшее')
client_data['education'] = client_data['education'].replace(['Начальное','НАЧАЛЬНОЕ'] , 'начальное')
client_data['education'] = client_data['education'].replace(['Ученая степень','УЧЕНАЯ СТЕПЕНЬ'] , 'ученая степень')

In [22]:
client_data['education'].value_counts() #рассмотрим результат замены

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [23]:
print('Дубликатов в таблице : {}'.format(client_data.duplicated().sum())) #проверим на дубликаты

Дубликатов в таблице : 71


In [24]:
client_data = client_data.drop_duplicates().reset_index(drop = True) # удалим дубликаты

In [25]:
print('Дубликатов в таблице : {}'.format(client_data.duplicated().sum()))

Дубликатов в таблице : 0


In [26]:
#избавимся от отрицательного значения (-1) для детей
client_data['children'] = client_data['children'].replace(-1, 1)

In [27]:

print(client_data['children'].value_counts())  # проверим, что отрицательных значений не осталось

0     14091
1      4855
2      2052
3       330
20       76
4        41
5         9
Name: children, dtype: int64


### Вывод

На данном этапе я избавился от многообразия значений в стлбце 'education' и привел их к пяти уникальным значениям, после чего проверил таблицу на дубликаты и избавился от них. Я не приводил занчения к одному регистру, а просто заменил ибыточные значений
на более универсальные методом replace(). В данной ситуации этот метод показался мне проще и удобней. Также заменил значения -1 на 1 в 'children'. Скорее всего отрицательное число появилось в следствии технической ошибки во время автозаполнения данных. 

### Лемматизация

In [28]:
from pymystem3 import Mystem
from collections import Counter


In [29]:
m = Mystem()
for index in range(len(client_data['purpose'])):               #выделите леммы в значениях столбца с целями получения кредита
    lemma = m.lemmatize(client_data.loc[index,'purpose'])           
    print(Counter(lemma))

Counter({'покупка': 1, ' ': 1, 'жилье': 1, '\n': 1})
Counter({'приобретение': 1, ' ': 1, 'автомобиль': 1, '\n': 1})
Counter({'покупка': 1, ' ': 1, 'жилье': 1, '\n': 1})
Counter({'дополнительный': 1, ' ': 1, 'образование': 1, '\n': 1})
Counter({'сыграть': 1, ' ': 1, 'свадьба': 1, '\n': 1})
Counter({'покупка': 1, ' ': 1, 'жилье': 1, '\n': 1})
Counter({' ': 2, 'операция': 1, 'с': 1, 'жилье': 1, '\n': 1})
Counter({'образование': 1, '\n': 1})
Counter({' ': 2, 'на': 1, 'проведение': 1, 'свадьба': 1, '\n': 1})
Counter({' ': 3, 'покупка': 1, 'жилье': 1, 'для': 1, 'семья': 1, '\n': 1})
Counter({'покупка': 1, ' ': 1, 'недвижимость': 1, '\n': 1})
Counter({' ': 2, 'покупка': 1, 'коммерческий': 1, 'недвижимость': 1, '\n': 1})
Counter({'сыграть': 1, ' ': 1, 'свадьба': 1, '\n': 1})
Counter({'приобретение': 1, ' ': 1, 'автомобиль': 1, '\n': 1})
Counter({' ': 2, 'покупка': 1, 'жилой': 1, 'недвижимость': 1, '\n': 1})
Counter({' ': 2, 'строительство': 1, 'собственный': 1, 'недвижимость': 1, '\n': 1})
Cou

In [30]:

lemmas = []
for index in range(len(client_data['purpose'])):
    lemma = m.lemmatize(client_data.loc[index,'purpose'])            #получим лемму для строки
    if 'свадьба' in lemma:                                           # найдем ключивые слова и перепишем по ним значения на 
        client_data.loc[index, 'purpose'] = 'расходы на свадьбу'     # универсальные
    if ('недвижимость' in lemma) or ('жилье' in lemma):
        client_data.loc[index, 'purpose'] = 'операции с недвижимостью'
    if 'автомобиль' in lemma:                                            
        client_data.loc[index, 'purpose'] = 'расходы на автомобиль'
    if 'образование' in lemma:                                           
        client_data.loc[index, 'purpose'] = 'образование'
                                                                     

In [31]:
client_data['purpose'].value_counts()  #проверим резульат

операции с недвижимостью    10811
расходы на автомобиль        4306
образование                  4013
расходы на свадьбу           2324
Name: purpose, dtype: int64

In [32]:

Counter(client_data['purpose'])


Counter({'операции с недвижимостью': 10811,
         'расходы на автомобиль': 4306,
         'образование': 4013,
         'расходы на свадьбу': 2324})

In [33]:
#на следующих этапах, при создании pivot tables обнаружил дубликты
client_data.duplicated().sum()

334

In [34]:
#удалим дубликаты
client_data = client_data.drop_duplicates().reset_index(drop = True)


In [35]:
#проверим наличие дубликатов
client_data.duplicated().sum()

0

### Вывод

Значения в столбце 'purpose' повторялись по смыслу. Сначала я вывел список лемм для всех значний, чтобы понять ключевые слова-леммы, с помощью которых можно избавиться от избыточных значений. Я выделил ключевые слова из лемм, и в цикле разбивал каждое значение столбца на леммы, и если среди них попадалсь ключевая лемма, то цикл перезаписывал значение столбца на одно из четырех, которые я выделил ( операции с недвижимостью, расходы на автомобиль, образование, расходы на свадьбу). Я выделил именно леммы ( 'свадьба', 'недвижимость' и 'жилье', 'автомобиль', 'образование' ) т.к. они встречались в строках чаще всего и на мой взгяд логически указывали на принодлежность к одной из четырех базовых категорий. 

### Категоризация данных

#### Выделение словарей

In [36]:

client_data_log = client_data[['children', 'days_employed', 'dob_years', 'education_id', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose' ]]
education_dict = client_data[['education_id', 'education' ]]
family_status_dict = client_data[['family_status_id', 'family_status']]

education_dict = education_dict.drop_duplicates().reset_index( drop = True)           #выделим словарь для образования
family_status_dict = family_status_dict.drop_duplicates().reset_index( drop = True)   #выделим словарь для семейного статуса

In [37]:
education_dict.sort_values( by = 'education_id').head(10)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [38]:
family_status_dict.sort_values( by = 'family_status_id').head(10)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


#### Категоризация столбца 'total_income'

In [39]:
#изучим статистику по столбцу
client_data['total_income'].describe()

count    2.112000e+04
mean     1.655452e+05
std      9.875988e+04
min      2.066700e+04
25%      1.068090e+05
50%      1.450170e+05
75%      1.969560e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [40]:
#для категоризации используем процентели 25%, 50% и 75% 

# функия определения категории
def income_category(value):
    if value < 107000:
        return 'низкий'
    if 107000 < value < 195000:
        return 'средний'
    return 'высокий'
    
 

In [41]:
#добавим столбец с категорией дохода в таблицу
client_data.loc[:,'income_category'] = client_data.loc[:,'total_income'].apply(income_category) 
                                                                             

In [42]:
client_data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,операции с недвижимостью,высокий
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,расходы на автомобиль,средний
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,операции с недвижимостью,средний
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,высокий
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,расходы на свадьбу,средний
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,операции с недвижимостью,высокий
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с недвижимостью,высокий
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,средний
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,расходы на свадьбу,низкий
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,операции с недвижимостью,средний


### Вывод

Я создал словари для 'education' и  'family_status_id'. Добавил столбец с категорией дохода в исходную таблицу.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [43]:

debt_and_chidren = client_data[['children', 'debt']]   #создадим неизбыточную таблицу для ответа на вопрос
#print(debt_and_chidren.head(10))

#подсчитаем количество клиентов с детьми, которые имели задолженности :
with_kids = debt_and_chidren.loc[(debt_and_chidren['children'] != 0) & (debt_and_chidren['debt'] == 1), 'children'].count()
print('Количество клиентов с детьми, которые имели задолженности: {}'.format(with_kids)) 
#подсчитаем количество клиентов с без детей, которые имели задолженности :
without_kids = debt_and_chidren.loc[(debt_and_chidren['children'] == 0) & (debt_and_chidren['debt'] == 1), 'children'].count()
print('Количество клиентов без детей, которые имели задолженности: {}'.format(without_kids)) 
# отношение  с детьми и долгами/без детей с долгами

ratio_kids = without_kids / with_kids
print('Должников без детей больше должников с детьми в {:.2f} раз'.format(ratio_kids))


Количество клиентов с детьми, которые имели задолженности: 678
Количество клиентов без детей, которые имели задолженности: 1061
Должников без детей больше должников с детьми в 1.56 раз


In [44]:
client_data.columns


Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose', 'income_category'],
      dtype='object')

In [45]:
client_data.duplicated().sum()


0

In [46]:
# посмотрим распределение клиентов по детям без долгов
client_data.loc[ client_data ['debt']== 0, 'children'].value_counts()

0     12768
1      4353
2      1845
3       302
20       68
4        36
5         9
Name: children, dtype: int64

In [47]:
# посмотрим распределение клиентов по детям с долгами
client_data.loc[ client_data ['debt']== 1, 'children'].value_counts()


0     1061
1      445
2      194
3       27
20       8
4        4
Name: children, dtype: int64

In [48]:
client_data[client_data['debt'] == 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_category
14,0,1844,56,высшее,0,гражданский брак,1,F,компаньон,1,165127,операции с недвижимостью,средний
32,0,4649,34,среднее,1,гражданский брак,1,F,сотрудник,1,139057,расходы на свадьбу,средний
38,0,597,25,высшее,0,Не женат / не замужем,4,M,сотрудник,1,192247,образование,средний
55,0,66914,54,среднее,1,гражданский брак,1,F,пенсионер,1,145017,расходы на свадьбу,средний
75,1,2953,38,среднее,1,женат / замужем,0,M,сотрудник,1,81935,операции с недвижимостью,низкий
93,1,1446,32,среднее,1,женат / замужем,0,M,сотрудник,1,331139,расходы на автомобиль,высокий
100,0,605,49,среднее,1,вдовец / вдова,2,F,сотрудник,1,176384,операции с недвижимостью,средний
114,0,1599,26,высшее,0,женат / замужем,0,F,сотрудник,1,143471,операции с недвижимостью,средний
124,0,1080,38,среднее,1,женат / замужем,0,F,сотрудник,1,175046,операции с недвижимостью,средний
147,0,5772,47,среднее,1,женат / замужем,0,F,госслужащий,1,74535,операции с недвижимостью,низкий


### Вывод

Выявилось, что должников без детей больше. Т.е. люди с детьми выплачивают кредиты лучше. Возможно клиенты, имеющие детей, более организованы и имеют стабильный доход, позволяющий погашать кредит в срок, нежели клиенты не имеющие детей

---
## Комментарий от наставника

Лучше вывести все таблицей. Возможно результат в относительных единицах будет на уровне статистической погрешности.

-----

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [49]:
debt_and_family_status = client_data[['children', 'debt', 'family_status','family_status_id']]
print(debt_and_family_status.loc[debt_and_family_status['debt'] == 1, 'family_status'].value_counts())
print()
print('Из общего количества клинтов по наличию долгов лидирует жентатые и замужние, но это потому, что такое семейное положение')
print('наиболее популярное сриди клиентов банка, в чем убедимся посчитав количесвто значений :')
print()
print(debt_and_family_status['family_status'].value_counts())
print()
print('Рассмотрим каждую категорию по отдельности:')
print()

def family_status_ratio_counter(status): 
    str_with_debt = debt_and_family_status.loc[(debt_and_family_status['family_status'] == status) & (debt_and_family_status['debt'] == 1), 'family_status'].count()
    str_without_debt = debt_and_family_status.loc[(debt_and_family_status['family_status'] == status) & (debt_and_family_status['debt'] == 0), 'family_status'].count()
    return str_with_debt/str_without_debt

marriage_ratio = family_status_ratio_counter('женат / замужем')
print('процент должников среди жентых / замужних: {:.2%}'.format(marriage_ratio))
print()
civil_marriage_ratio = family_status_ratio_counter('гражданский брак')
print('процент должников в гражданском браке: {:.2%}'.format(civil_marriage_ratio))
print()
single_ratio = family_status_ratio_counter('Не женат / не замужем')
print('процент должников среди неженатых / незамужних: {:.2%}'.format(single_ratio))
print()
divorce_ratio = family_status_ratio_counter('в разводе')
print('процент должников среди разведенных : {:.2%}'.format(divorce_ratio))
print()
widow_ratio = family_status_ratio_counter('вдовец / вдова')
print('процент должников среди вдовцов и вдов: {:.2%}'.format(widow_ratio))
print()



женат / замужем          929
гражданский брак         388
Не женат / не замужем    274
в разводе                 85
вдовец / вдова            63
Name: family_status, dtype: int64

Из общего количества клинтов по наличию долгов лидирует жентатые и замужние, но это потому, что такое семейное положение
наиболее популярное сриди клиентов банка, в чем убедимся посчитав количесвто значений :

женат / замужем          12076
гражданский брак          4124
Не женат / не замужем     2784
в разводе                 1193
вдовец / вдова             943
Name: family_status, dtype: int64

Рассмотрим каждую категорию по отдельности:

процент должников среди жентых / замужних: 8.33%

процент должников в гражданском браке: 10.39%

процент должников среди неженатых / незамужних: 10.92%

процент должников среди разведенных : 7.67%

процент должников среди вдовцов и вдов: 7.16%



In [50]:
#рассмотрим сводную таблицу
family_status_pivot_table = client_data.pivot_table(index = 'family_status', values = 'debt')
family_status_pivot_table
#значения отличаются от процентов в передыдущей ячейке, но тенденция сохраняется точно такая же

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.09842
в разводе,0.071249
вдовец / вдова,0.066808
гражданский брак,0.094083
женат / замужем,0.076929


### Вывод

После проверки добаил pivot_table для полноты предоставления результатов, но опять же в качестве значения aggfunc я использовал mean (по умолчанию), но не знаю корректна ли она в данном случае. Знаю, что есть куча numpy functions для атрибута aggfunc, но не знаю, какие лучше применять.  В ходе анализа выявилось, что больше всего должников среди неженатых и незамужних (10.80%) и людей состоящих в гражданском браке (10.31%). Меньше всего должников среди вдовцов и вдов  (7.03%) и разведенных (7.66%). 

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [51]:
#расчитаем отношение клиентов с долгами к клиентам без долгов для каждой категории доходов:
def income_debt_ratio_counter(status): 
    str_with_debt = client_data.loc[(client_data['income_category'] == status) & (client_data['debt'] == 1), 'income_category'].count()
    str_without_debt = client_data.loc[(client_data['income_category'] == status) & (client_data['debt'] == 0), 'income_category'].count()
    return str_with_debt/str_without_debt
print()
low_ratio = income_debt_ratio_counter('низкий')
print('процент должников c низким доходом: {:.2%}'.format(low_ratio))
print()
medium_ratio = income_debt_ratio_counter('средний')
print('процент должников cо средним доходом: {:.2%}'.format(medium_ratio))
high_ratio = income_debt_ratio_counter('высокий')
print()
print('процент должников c высоким доходом: {:.2%}'.format(high_ratio))
print()




процент должников c низким доходом: 8.66%

процент должников cо средним доходом: 9.80%

процент должников c высоким доходом: 7.73%



In [52]:
client_data.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,операции с недвижимостью,высокий
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,расходы на автомобиль,средний
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,операции с недвижимостью,средний
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование,высокий
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,расходы на свадьбу,средний
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,операции с недвижимостью,высокий
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с недвижимостью,высокий
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,средний
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,расходы на свадьбу,низкий
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,операции с недвижимостью,средний


In [63]:
#выведем среднее арифметическое задолженностей среди клиентов с ранзыми категориями доходов
#не знаю, корректо ли исрользовать среднее арифметическое в качестве показателя уровня задолженностей, но тенденция сохраняется
#как и в предыдущей ячейке - По возврату кредита в срок лидирует категория с высоким доходом, за ней идет клиенты с низким дохо-
#дом. Наиболее безответсвенные клиенты представлены средним классом, среднее арифметическое которого больше всех стремится к 1 (0,089)

income_category_pivot_table = client_data.pivot_table(index = ['income_category'], values = 'debt', aggfunc='mean')
income_category_pivot_table

Unnamed: 0_level_0,debt
income_category,Unnamed: 1_level_1
высокий,0.071732
низкий,0.079706
средний,0.08922


### Вывод

Вне завсисимости от уровня дохода процент должников примерно одинаков для каждой категории. Больше всего задолженностей у клиентов со средним доходом, меньше всего - у клиентов с высоким. Для подкрепления вывода я добавил pivot_table

- Как разные цели кредита влияют на его возврат в срок?

In [54]:
client_data['purpose'].value_counts()

операции с недвижимостью    10578
расходы на автомобиль        4272
образование                  3964
расходы на свадьбу           2306
Name: purpose, dtype: int64

In [55]:
# я не удалял код для наглядности, чтобы было с чем сравнивать результаты в pivot_table

def purpose_debt_ratio_counter(status): #  функция для подсчета отношения задолжающих и незадолжающих по целям кредита
    #кол-во задолжающих по цели кредита:
    str_with_debt = client_data.loc[(client_data['purpose'] == status) & (client_data['debt'] == 1), 'income_category'].count()
    #кол-во не задолжающих по цели кредита:
    str_without_debt = client_data.loc[(client_data['purpose'] == status) & (client_data['debt'] == 0), 'income_category'].count()
    #отношение:
    return str_with_debt/str_without_debt
print()
estate_ratio = purpose_debt_ratio_counter('операции с недвижимостью')
print('процент задолженностией среди операций с недвижимостью: {:.2%}'.format(estate_ratio))
print()
car_ratio = purpose_debt_ratio_counter('расходы на автомобиль')
print('процент задолженностией среди расходов на автомобиль: {:.2%}'.format(car_ratio))
print()
education_ratio = purpose_debt_ratio_counter('образование')
print('процент задолженностией среди расходов на образование: {:.2%}'.format(education_ratio))
print()
wedding_ratio = purpose_debt_ratio_counter('расходы на свадьбу')
print('процент задолженностией среди расходов на свадьбу: {:.2%}'.format(wedding_ratio))
print()


процент задолженностией среди операций с недвижимостью: 7.97%

процент задолженностией среди расходов на автомобиль: 10.39%

процент задолженностией среди расходов на образование: 10.29%

процент задолженностией среди расходов на свадьбу: 8.77%



In [56]:
purpose_pivot_table = client_data.pivot_table(index = 'purpose', values = 'debt', aggfunc = ['count','mean'])
purpose_pivot_table
#показатели отличаются, от показателей в коде, но тенденции сохраняются

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2
образование,3964,0.09334
операции с недвижимостью,10578,0.073832
расходы на автомобиль,4272,0.094101
расходы на свадьбу,2306,0.080659


### Вывод

Лидирующая категория по задолженностям оказалась 'расходы на автомобиль', почти такой же показатель по задолженности и у 'образоывние'. Я предполагаю, что это связано с необдуманностью приянтия решения о кредите в связи с внезапностью такой ситуации, как, например, ремонта автомобиля. Среди клиентов, проводящих операции с недвижимостью меньше всего должников. Я думаю это связано с готовность клиентов взять обязательства на выплату долгосрочного кредита. Расходы на образование на втором месте по кол-ву задолженностей. Скорее всего это связанно с клиентами, сами оплачивающими свое образование и не имеющие стабильного дохода для выплаты кридита в срок.

### Финальный анализ

#### Есть ли зависимость между наличием детей и возвратом кредита в срок?

Количество клиентов с детьми, которые имели задолженности: 678
Количество клиентов без детей, которые имели задолженности: 1061
Должников без детей больше должников с детьми в 1.56 раз

#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [57]:
family_status_pivot_table

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
Не женат / не замужем,0.09842
в разводе,0.071249
вдовец / вдова,0.066808
гражданский брак,0.094083
женат / замужем,0.076929


#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [58]:
income_category_pivot_table

Unnamed: 0_level_0,debt
income_category,Unnamed: 1_level_1
высокий,0.071732
низкий,0.079706
средний,0.08922


#### Как разные цели кредита влияют на его возврат в срок?

In [59]:
purpose_pivot_table

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose,Unnamed: 1_level_2,Unnamed: 2_level_2
образование,3964,0.09334
операции с недвижимостью,10578,0.073832
расходы на автомобиль,4272,0.094101
расходы на свадьбу,2306,0.080659


### Шаг 4. Общий вывод

После подготовки данных и анализа датафрейма c информацией о клиениах крдитного банка можно сказать следущее :
1. Есть  зависимость между наличием детей и возвратом кредита в срок. Клиенты с детьми выплачивают кредиты в срок чаще, чем без детей
2. Есть зависимость между семейным положением и возвратом кредита в срок. Больше всего должников среди неженатых и незамужних  и людей состоящих в гражданском браке. Меньше всего должников среди вдовцов и вдов, разведенных . 
3. Есть зависимость между уровнем дохода и возвратом кредита в срок . Должников со средним доходом больше должников с высоким и низким. Должников с высоким доходом немного больше, чем должников с низким
4. Кредиты на операции с недвижимостью и на огранизацию свадьбы выплачиваются в срок чаще, чем кредиты на расходы на автомобиль и образование.