# Открываем таблицу и изучаем данные
#### Импортируем библеотеку ***pandas*** и читаем таблицу
+ В таблице имеются столбцы
  1. `children` - количество детей в семье
  2. `days_employed` - общий трудовой стаж в днях
  3. `dob_years` - возраст клиента в годах
  4. `education` - уровень образования клиента
  5. `education_id` - идентификатор уровня образования
  6. `family_status` - семейное положение
  7. `family_status_id` - идентификатор семейного положения
  8. `gender` - пол клиента
  9. `income_type` - тип занятости
  10. `debt` - имел ли задолженность по возврату кредитов
  11. `total_income` - ежемесячный доход
  12. `purpose` - цель получения кредита


In [24]:
import pandas as pd
df = pd.read_csv('data.csv')
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


# Предобработка данных
При беглом просмотре таблицы сразу видны пропущенные значения в стоблцах `total_income` и `days_employed`,<br>
так же минусовые значения в `days_employed` и дубликаты с разным регистром строк в `education`

Функция для проверки количества ячеек `NaN` в выбранном столбце

In [2]:

def count_na (data,column):
    x = 0
    for index in data[column].isna():
        if index == True:
            x += 1
    return x

count_na(df, 'total_income')

2174

**2174** `NaN` в столбце `total_income`

Проверяем есть ли какие то закономерности в этих пропущенных значениях. <br>
В таблице видно что пропуск в `total_income`, сопровождается пропуском и в `days_employed`.<br>
Проверим, действительно ли пропуски встречаются сразу в обоих столбцах и на одной строке

In [3]:
nans = df[['total_income', 'days_employed']]
nans[(nans['total_income'].isna() == True)&(nans['days_employed'].isna() == True)].isna().sum()

total_income     2174
days_employed    2174
dtype: int64

Мы создали новую таблицу из столбцов `total_income` и `days_employed`.<br>
Затем с помощью условия оставили только те строки в которых значение пропущенно в обеих столбцах, и суммировали каждую строку.<br>
Мы узнали что количество `NaN` равно друг другу, соотвественно значения пропущенны сразу в обоих столбцах одновеменно

Пропуски могут быть связны по нескольким причинам:
- Человек не имеет официальной работы
- Данные не подлежат разглашению (сомнительно)
- Данные не указанны намеренно

Узнаем долю пропущенных значений `total_income`

In [4]:
income_na_sum = count_na(df, 'total_income')
proportion_income_na = income_na_sum / df['total_income'].count()

print('Доля пропущенных значений income_total: {:.1%}'.format(proportion_income_na))

Доля пропущенных значений income_total: 11.2%


Если удалить строки с пропущенными значениями, они занчительно повлияют на результат исследования, необходимо заполнить пропущенные значения `total_income`.<br> Для начала выясним почему заполнить средним арифметическим будет 
не корректно

In [5]:
income_min = df['total_income'].min()
income_max = df['total_income'].max()
income_mean = df['total_income'].mean()

tot_inc = df['total_income']
tot_inc = tot_inc.sort_values()
min_to_mean = tot_inc.loc[(income_min<=tot_inc) & (tot_inc<=income_mean)]
mean_to_max = tot_inc.loc[(income_mean<=tot_inc) & (tot_inc<=income_max)]

Считаем количество отсортированных значений от меньшего к большему до среднего арифметического по списку, и так же от среднего арифметического до самого большого значения.

In [26]:
print('От меньшего к среднему: {}'.format(min_to_mean.count())) #13835
print('От среднего к большему: {}'.format(mean_to_max.count())) #7690

print('Сумма от меньшего к среднему: {}'.format(min_to_mean.sum())) #1601330703.9787133
print('Сумма от среднего к большему: {}'.format(mean_to_max.sum())) #1953727262.2473834

От меньшего к среднему: 11892
От среднего к большему: 7459
Сумма от меньшего к среднему: 1324462496.5481179
Сумма от среднего к большему: 1915326473.4822369


В итоге: 
- Сумма значений меньше среднего, больше, чем значений больше среднего.<br>
- При этом сумма значений отличается, получается что меньшее количество человек имеет больший доход, чем остальное большинство,<br> 
соответственно в этом случае будет корректней заменить пропуски на медианное число, так как в этом случае  мы получим ровно средний доход среди всех клиентов.

Создаем переменную `income_median`, в которую записываем медианное значение по столбцу `total_income` , 
затем заполняем все значения `NaN` в столбце `total_income` на медианное значение

Проверяем заполнились ли значения `NaN`

In [27]:
income_median = df['total_income'].median() #145017.937533
df['total_income'] = df['total_income'].fillna(income_median)

count_na(df, 'total_income')

0

Большинство значений в столбце `days_employed` отрицательные, заменим их на противоположные числа простой формулой, умножив все отрицательные числа на **-1**, так же отрицательные числа были обнаруженны в столбце `children`, их заменим на **0**

In [10]:
df.loc[df['days_employed'] < 0, 'days_employed'] *= -1
df.loc[df['children'] < 0, 'children'] = 0
df[['days_employed', 'children']].head(10)

Unnamed: 0,days_employed,children
0,8437.673028,1
1,4024.803754,1
2,5623.42261,0
3,4124.747207,3
4,340266.072047,0
5,926.185831,0
6,2879.202052,0
7,152.779569,0
8,6929.865299,2
9,2188.756445,0


Возможно по какой то причине значения `days_employed` изначально были отрицательными и из за этого при прибавлении дней стажа в таблицу, увеличивалось отрицательное число, так же и значения `children` могли быть записанны неправильно по ошибке

Заменим тип данных в столбце `total_income` на целочисленные для удобства и наглядности, сейчас у столбца тип данных: **число с плавающей точкой**

In [36]:
df['total_income'] = df['total_income'].astype('int64')

In [37]:
df['total_income'].dtype

dtype('int64')

Столбец `total_income` теперь имеет **целочисленный** тип данных

Проверяем всю таблицу на наличие дубликатов

In [14]:
print('education')
print(df['education'].unique())
print('____________________')
print('family_status')
print(df['family_status'].unique())
print('____________________')
print('income_type')
print(df['income_type'].unique())
print('____________________')
print('purpose')
print(df['purpose'].unique())

education
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
____________________
family_status
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
____________________
income_type
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
____________________
purpose
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство ж

Убираем явные дубликаты в столбце ***education***

In [15]:
df['education'] = df['education'].str.lower()

С помощью метода `.unique()` мы смогли обнаружить дубликаты. В столбце `education` нам понадобился метод `str.lower()`, что-бы привести все строки к одному регистру

Удаляем стобцы `education` и `family_status` из таблицы, предварительно создав две другие таблицы с теми же столбцами и их ***id***,<br>
таким образом получаем два **"словаря"**

In [16]:
df_education = df[['education_id', 'education']]
df_family_status = df[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)
df.drop(['education', 'family_status'], axis=1, inplace=True)
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,1,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля


Добавляем в таблицу `df` новый столбец `total_income_category`, в который входят оценки дохода людей от "A" до "E"

In [17]:
df['total_income_category'] = df.loc[df['total_income'] <= 30000, 'total_income_category'] = 'E'
df.loc[(df['total_income'] > 30000)&(df['total_income'] <= 50000), 'total_income_category' ] = 'D'
df.loc[(df['total_income'] > 50000)&(df['total_income'] <= 200000), 'total_income_category' ] = 'C'
df.loc[(df['total_income'] > 200000)&(df['total_income'] <= 1000000), 'total_income_category' ] = 'B'
df.loc[df['total_income'] > 1000000, 'total_income_category'] = 'A'

Создаем функцию которая возвращает категорию цели кредита в зависимости от строки

In [18]:
purpose_house = df[df['purpose'].str.contains('|'.join(['жиль','недвиж']))]['purpose'].drop_duplicates().reset_index(drop=True)
purpose_auto = df[df['purpose'].str.contains('авто')]['purpose'].drop_duplicates().reset_index(drop=True)
purpose_marry = df[df['purpose'].str.contains('свадьб')]['purpose'].drop_duplicates().reset_index(drop=True)
#purpose_study = df[df['purpose'].str.contains('|'.join(['образв','занят','допол','получ','проф','выс']))].drop_duplicates().reset_index(drop=True)
def purpose_group (purp):
    for hos in purpose_house:
        if purp in hos:
            return 'операции с недвижимостью'
    for au in purpose_auto:
        if purp in au:
            return 'операции с автомобилем'
    for marr in purpose_marry:
        if purp in marr:
            return 'проведение свадьбы'
        return 'получение образования'

Создаем столбец `purpose_category`, в который записываем категории столбца `purpose` с помощью функции выше

In [19]:
df['purpose_category'] = df['purpose'].apply(purpose_group)

# Основыные вопросы: 
1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

Проверяем зависимость между количеством детей и возвратом кредита в срок

In [20]:
pd.pivot_table(df, index='children', values='debt', aggfunc=['mean','sum'])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,0.074951,1064
1,0.092154,444
2,0.094404,194
3,0.081818,27
4,0.097561,4
5,0.0,0
20,0.105263,8


Проверяем зависимость между семейным положением и возвратом кредита в срок

In [21]:
print(pd.pivot_table(df_family_status, index='family_status',values='family_status_id'))
pd.pivot_table(df, index='family_status_id', values='debt',aggfunc=['mean','sum'])

                       family_status_id
family_status                          
Не женат / не замужем               4.0
в разводе                           3.0
вдовец / вдова                      2.0
гражданский брак                    1.0
женат / замужем                     0.0


Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,0.075202,931
1,0.09289,388
2,0.065625,63
3,0.07113,85
4,0.097405,274


Проверяем зависимость между уровнем дохода и возвратом кредита в срок

In [22]:
pd.pivot_table(df, index='total_income_category', values='debt',aggfunc=['mean','sum'])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,0.08,2
B,0.070621,356
C,0.08454,1360
D,0.06,21
E,0.090909,2


Проверяем как разные цели кредита влияют на его возврат в срок

In [23]:
pd.pivot_table(df, index='purpose_category', values='debt',aggfunc=['mean','sum'])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,0.093395,403
операции с недвижимостью,0.07214,782
получение образования,0.088992,498
проведение свадьбы,0.074935,58


# Итог:
#### 1. Количество детей слабо влияет на возврат кредита в срок, влияет их отсутствие. Если сравнивать по количеству детей, чаще вовремя возвращают люди с тремя детьми.
#### 2. Чаще всего кредит возвращают в срок вдовы/вдовцы, реже не женатые/не замужем и находящиеся в гражданском браке
#### 3. В зависимости от уровня дохода чаще возвращают кредит в срок люди находящиеся между меньшим и средним уровнем дохода, а так же между средним и высоким, в то время как самые частые задолженности у людей находящихся в нижних/средних/высоких категориях, так же стоит отметить что среди людей чаще возвращающих кредит в срок, реже это делают люди с высшим уровнем дохода
#### 4. В зависимости от целей кредита люди по разному возвращают кредит, реже возвращают вовремя владельцы автокредитов, затем идет кредит на образование, чаще кредиты связанные с недвижимостью и свадьбой