**Описание проекта**

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Описание данных**

*children* — количество детей в семье

*days_employed*  — общий трудовой стаж в днях

*dob_years* — возраст клиента в годах

*education* — уровень образования клиента

*education_id* — идентификатор уровня образования

*family_status* — семейное положение

*family_status_id* — идентификатор семейного положения

*gender* — пол клиента

*income_type* — тип занятости

*debt* — имел ли задолженность по возврату кредитов

*total_income* — ежемесячный доход

purpose — цель получения кредита

# Исследование надежности заемщиков.

### Шаг 1. Обзор данных

In [45]:
import pandas as pd
data = pd.read_csv('/Проект_1/data (2).csv')
print(data.head(15))#вывод таблицы, ознакомление с данными
print(data.tail(15))
data.info()#Оценка объема данных
data.describe()#Посмотрела в интернете данную функцию,вывела мак и мин значения 
#unique_days_employed = data['days_employed'].unique()
#unique_total_income = data['total_income'].unique()
#print('Уникальных days_employed:',len(unique_days_employed)) 
#print('Уникальных total_income:',len(unique_total_income))



    children  days_employed  dob_years            education  education_id  \
0          1   -8437.673028         42               высшее             0   
1          1   -4024.803754         36              среднее             1   
2          0   -5623.422610         33              Среднее             1   
3          3   -4124.747207         32              среднее             1   
4          0  340266.072047         53              среднее             1   
5          0    -926.185831         27               высшее             0   
6          0   -2879.202052         43               высшее             0   
7          0    -152.779569         50              СРЕДНЕЕ             1   
8          2   -6929.865299         35               ВЫСШЕЕ             0   
9          0   -2188.756445         41              среднее             1   
10         2   -4171.483647         36               высшее             0   
11         0    -792.701887         40              среднее             1   

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


** Коментарий:**

1.При выводи информации можно заметить, что данные как-будто отстутствуют в столбцах "days_employed" и "total_income".

2.С помощью метода describe(),было выявлено, что у кого-то 20 детей, а у кого-то -1.

3.Минимальное значение  возраст клиента в годах в колонке "dob_years" равно 0.

4 Общий трудовой стаж в днях в колонке days_employed - среднее значение выводит 63046 дней , а это примерно 173 года.

### Шаг 2.1 Заполнение пропусков

In [46]:
#print(data[(data['days_employed'].isna() & data['total_income'].isna())].head())
#data[(data['days_employed'].isna() & data['total_income'].isna())]['income_type'].value_counts()
#print(len(data[data['days_employed'].isna()])) 
#print(len(data[data['total_income'].isna()]))
#print(data['days_employed'].median())
#data.inf0()
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median())#Заполняем все пропущенные значения - медианными 
data['total_income'] = data['total_income'].fillna(data['total_income'].median())
data.head(30)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


### Шаг 2.2 Проверка данных на аномалии и исправления.

In [47]:
print("Количество людей с нулевым возрастом:", data[data['dob_years'] == 0].count()[0])
print("Количество людей с -1 ребенком:", data[data['children'] == -1].count()[0])
print("Количество строк с 20 детьми:", data[data['children'] == 20].count()[0])
print("Количество уникальных людей с 20 детьми:", len(data[data['children'] == 20]['total_income'].unique()))

Количество людей с нулевым возрастом: 101
Количество людей с -1 ребенком: 47
Количество строк с 20 детьми: 76
Количество уникальных людей с 20 детьми: 68


In [48]:
data[['total_income', 'days_employed','children']] = data[['total_income', 'days_employed','children']].abs()
print(data[['total_income', 'days_employed','children']])

        total_income  days_employed  children
0      253875.639453    8437.673028         1
1      112080.014102    4024.803754         1
2      145885.952297    5623.422610         0
3      267628.550329    4124.747207         3
4      158616.077870  340266.072047         0
...              ...            ...       ...
21520  224791.862382    4529.316663         1
21521  155999.806512  343937.404131         0
21522   89672.561153    2113.346888         1
21523  244093.050500    3112.481705         3
21524   82047.418899    1984.507589         2

[21525 rows x 3 columns]


In [49]:
data.loc[data['children'] == 20, 'children'] = 2
display(data.loc[data['children']==20])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [50]:
data.fillna(data['days_employed'].median())
data.fillna(data['total_income'].median())
data = data.dropna().reset_index(drop=True)
print(data)

       children  days_employed  dob_years education  education_id  \
0             1    8437.673028         42    высшее             0   
1             1    4024.803754         36   среднее             1   
2             0    5623.422610         33   Среднее             1   
3             3    4124.747207         32   среднее             1   
4             0  340266.072047         53   среднее             1   
...         ...            ...        ...       ...           ...   
21520         1    4529.316663         43   среднее             1   
21521         0  343937.404131         67   среднее             1   
21522         1    2113.346888         38   среднее             1   
21523         3    3112.481705         38   среднее             1   
21524         2    1984.507589         40   среднее             1   

          family_status  family_status_id gender income_type  debt  \
0       женат / замужем                 0      F   сотрудник     0   
1       женат / замужем        

In [51]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

### Шаг 2.3. Изменение типов данных.

In [52]:
data = data.astype({ "total_income":'int64', "days_employed":'int64'})
#data.info()
#print(data)
print(data)


       children  days_employed  dob_years education  education_id  \
0             1           8437         42    высшее             0   
1             1           4024         36   среднее             1   
2             0           5623         33   Среднее             1   
3             3           4124         32   среднее             1   
4             0         340266         53   среднее             1   
...         ...            ...        ...       ...           ...   
21520         1           4529         43   среднее             1   
21521         0         343937         67   среднее             1   
21522         1           2113         38   среднее             1   
21523         3           3112         38   среднее             1   
21524         2           1984         40   среднее             1   

          family_status  family_status_id gender income_type  debt  \
0       женат / замужем                 0      F   сотрудник     0   
1       женат / замужем        

### Шаг 2.4. Удаление дубликатов.

In [53]:
data["education"]= data["education"].str.lower()# Приведем все значения к одному регистру
data["family_status"] = data["family_status"].str.lower()
#print(data) 
data = data.drop_duplicates()#Удаляем дубликаты 
data.duplicated().sum() #Проверяем все ли дубликаты удалены 

0

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [54]:
education_df = data[['education_id', 'education']].copy()
education_df = education_df.drop_duplicates()
family_status_df  = data[['family_status_id', 'family_status']].copy()
family_status_df = family_status_df.drop_duplicates()
data = data.drop(columns=['education','family_status'])


data.head()


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


In [55]:
data = data.merge(family_status_df ,on ='family_status_id')
data = data.merge(education_df,on ='education_id')
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,family_status,education
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,женат / замужем,высшее
1,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,женат / замужем,высшее
2,2,4171,36,0,0,M,компаньон,0,113943,покупка недвижимости,женат / замужем,высшее
3,0,529,28,0,0,M,сотрудник,0,308848,строительство собственной недвижимости,женат / замужем,высшее
4,1,717,26,0,0,F,сотрудник,0,187863,строительство собственной недвижимости,женат / замужем,высшее


### Шаг 2.6. Категоризация дохода.

In [56]:
def total_income_cat(row):
    
    total_income = row['total_income']
      
    
    if  0 <= total_income <=30000:
        return 'E'
        
    if  30001 <= total_income <=50000:
        return 'D'
    
    if  50001 <= total_income <=200000:
        return 'C'
    
    if  200001<= total_income <=1000000:
        return 'B'
    
    if  1000001 <= total_income:
        return 'A'
    
    
data['total_income_category'] = data.apply(total_income_cat, axis=1)
print(data.head(10))
    

   children  days_employed  dob_years  education_id  family_status_id gender  \
0         1           8437         42             0                 0      F   
1         0           2879         43             0                 0      F   
2         2           4171         36             0                 0      M   
3         0            529         28             0                 0      M   
4         1            717         26             0                 0      F   
5         0            335         36             0                 0      M   
6         0           1203         52             0                 0      F   
7         2           2152         46             0                 0      M   
8         1           2802         28             0                 0      M   
9         1           1203         32             0                 0      M   

   income_type  debt  total_income                                 purpose  \
0    сотрудник     0        253875       

### Шаг 2.7. Категоризация целей кредита.

In [57]:
data['purpose'].unique()

array(['покупка жилья', 'операции с жильем', 'покупка недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'покупка жилья для семьи', 'операции с коммерческой недвижимостью',
       'покупка коммерческой недвижимости',
       'на покупку подержанного автомобиля', 'сделка с автомобилем',
       'жилье', 'автомобиль', 'профильное образование',
       'покупка жилья для сдачи', 'операции со своей недвижимостью',
       'автомобили', 'приобретение автомобиля',
       'на покупку своего автомобиля', 'покупка своего жилья',
       'покупка жилой недвижимости', 'заняться высшим образованием',
       'получение высшего образования',
       'сделка с подержанным автомобилем', 'ремонт жилью',
       'свой автомобиль', 'строительство жилой недвижимости',
       'высшее образование', 'строительство недвижимости',
       'операции с недвижимостью', 'получение образования', 'образование',
       'заняться образованием', 'на покупку автомобиля',
       'дополнительно

In [58]:
def purpose_cat(cell):     
    purpose = cell['purpose']
    
    if 'жил' in purpose or 'недвиж' in purpose:
        return 'операции с недвижимостью'
        
    if 'авто' in purpose :
        return 'операции с автомобилем'
    
    if 'образов' in purpose :
        return 'получение образования'
    
    if 'свадьб' in purpose :
        return 'проведение свадьбы'
    
        
data['purpose_category'] = data.apply(purpose_cat,axis=1)
data.head(10)
    

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,family_status,education,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,женат / замужем,высшее,B,операции с недвижимостью
1,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,женат / замужем,высшее,B,операции с недвижимостью
2,2,4171,36,0,0,M,компаньон,0,113943,покупка недвижимости,женат / замужем,высшее,C,операции с недвижимостью
3,0,529,28,0,0,M,сотрудник,0,308848,строительство собственной недвижимости,женат / замужем,высшее,B,операции с недвижимостью
4,1,717,26,0,0,F,сотрудник,0,187863,строительство собственной недвижимости,женат / замужем,высшее,C,операции с недвижимостью
5,0,335,36,0,0,M,сотрудник,0,414404,недвижимость,женат / замужем,высшее,B,операции с недвижимостью
6,0,1203,52,0,0,F,пенсионер,0,145017,покупка жилья для семьи,женат / замужем,высшее,C,операции с недвижимостью
7,2,2152,46,0,0,M,компаньон,0,592071,операции с коммерческой недвижимостью,женат / замужем,высшее,B,операции с недвижимостью
8,1,2802,28,0,0,M,госслужащий,0,207561,покупка коммерческой недвижимости,женат / замужем,высшее,B,операции с недвижимостью
9,1,1203,32,0,0,M,госслужащий,0,145017,операции с коммерческой недвижимостью,женат / замужем,высшее,C,операции с недвижимостью


### Ответы на вопросы.

#### Вопрос 1:
Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [59]:
data_pivot = data.pivot_table(index=['children'], values = 'debt', aggfunc=['sum','count','mean'])
#data_pivot = ['children', 'sum_debt', 'count_debt','mean_debt']
data_pivot.head()

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,445,4855,0.091658
2,202,2128,0.094925
3,27,330,0.081818
4,4,41,0.097561


#### Коментарий: 
Как видно из таблицы, хоть 3 ребенка в семье, хоть 0 задолжности практически одинаковые.Отсюда следует вывод, что взаимосвязи между количеством детей и возвратом кредита в срок  существеной нет.

##### Вопрос 2: 
Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [60]:
data_pivot_family = data.pivot_table(index=['family_status'], values = 'debt', aggfunc=['sum','count','mean'])

data_pivot_family.head()

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
в разводе,85,1195,0.07113
вдовец / вдова,63,959,0.065693
гражданский брак,388,4151,0.093471
женат / замужем,931,12339,0.075452
не женат / не замужем,274,2810,0.097509


### Коментарий:
Как видно из таблицы люди, которые состоят в гражданском браке или незамужние(холостые) чаще имеют просрочку по кредиту.

### Вопрос 3:
Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


In [61]:
data_pivot_total_income = data.pivot_table(index=['total_income_category'], values = 'debt')

data_pivot_total_income.head(35)

Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,0.08
B,0.070621
C,0.084915
D,0.06
E,0.090909


# Вопрос 4:
Как разные цели кредита влияют на его возврат в срок?

In [62]:
data_pivot_purpose_category = data.pivot_table(index=['purpose_category'], values = 'debt', aggfunc=['sum','count','mean'])

data_pivot_purpose_category.head(35)

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,403,4306,0.09359
операции с недвижимостью,782,10811,0.072334
получение образования,370,4013,0.0922
проведение свадьбы,186,2324,0.080034


### Коментарий:
Из таблицы видно, что задолжности имеют больше те люди, которые взяли кридит для покупки машины или для получения образования

##### Вывод 1:

## Общий вывод:
При работе с данными были заполнены пропущенные значения, удалены дубликаты и выделены категории для целей кредита. Применив метод pivot_table, я проанализировала, какие критерии влияют на возврат кредита.
Пронаализировав данный проект можно сделать вывод, чтоесть категория людей, которые имеют меньше всего задолжностей и это:
1. Люди у которых нет детей или трое  детей
2. Люди, которые потеряли мужа(жену)
3. Люди, которые берут кредит для операции с недвижемостью или получения образования.
4. Люди у которых доход от  30001 до 50000



