## **Описание проекта: оценка рисков невозврата кредита**

В вашем распоряжении данные клиентов банка «Скрудж», которые планируют взять кредит. Вам необходимо выяснить, что из имеющихся данных влияет на своевременное погашение кредита и каким именно образом.

Исследование поможет в создании модели кредитного скоринга — системы для оценки способности потенциального заёмщика погасить свой кредит.

По каждому клиенту есть информация о его семейном положении, образовании, доходе и другие данные. Вам предстоит подготовить данные к анализу и исследовать их, в процессе отвечая на вопросы.

### Описание данных

- `children` — количество детей в семье;
- `days_employed` — сколько дней работает клиент;
- `dob_years` — возраст клиента;
- `education` — уровень образования клиента;
- `education_id` — идентификатор образования клиента;
- `family_status` — семейное положение клиента;
- `family_status_id` — идентификатор семейного положения клиента;
- `gender` — пол клиента;
- `income_type` — тип дохода клиента;
- `debt` — был ли у клиента когда-либо просрочен платёж по кредиту;
- `total_income` — ежемесячный доход;
- `purpose` — причина оформления кредита.



__Цель работы__
- В рамках проекта необходимо проанализировать данные клинетов банка Скрудж для лдальнейшего опредления характеритсик заёмщика, влияющих на своевременное погашение кредита. Это поможет в дальнейшем создать основу для модели кредитного скоринга — системы для оценки способности потенциального заёмщика погасить свой кредит.

__План работы__ <a class="anchor" id="ch0"></a>

* [Первичный анализ данных ](#ch1)
* [Предобработка](#ch2)
* [Выбросы и аномальные значения](#ch3)
  - загрузка и изучение структуры данных
  - проверка и устранение пропущенных значений
  - устраненние некорректных значений
  - устранение неявных дубликатов
* [Создание дополнительных признаков](#ch4)
  - разделите клиентов по уровню дохода
  - разделение по возрастным группам
  - разделение по количеству детей
* [Исследование влияюших факторов](#ch5)
  - Уровень дохода
    - Анализ влияния дохода на своевременное погашение кредита
  - Образование
    - Исследование связи между уровнем образования и вероятностью задолженности
   - Возраст
     - Анализ возрастных категорий и их связи с задолженностью по кредитам
    - Количество детей
      - влияние количества детей на риск задолженности
* [Анализ данных](#ch5)
  - построение графиков и сводных таблиц для наглядной визуализации сравннеия должников и не должников 
* [Проверка исследовательских гипотез](#ch5)
  - У клиентов с детьми более высокий уровень финансовой ответственности и, следовательно, более низкий риск просрочек по кредиту.
  - Одинокие мужчины с низким доходом чаще оказываются должниками, чем семейные мужчины со средним доходом.
* [Выводы](#ch6)
  - описание полученных результатов и итоговые выводы проведённого исследования
  
* [Проведение дополнительного исследования](#ch7)   

__Датасет содержит данные, которые несут в себе информацию о клиентах банка Скрудж:__
- ___демография___
  - возраст, семейное положение, количество детей
- ___финансновые показатели___
  - уровень дохода, тип занятости
- ___данные об образовании___
- ___цель кредита___
- ____информацию о своевременности возврата кредита____


## Шаг 2. Выполнение предобработки данных <a class="anchor" id="ch2"></a>




1. Найдите и изучите пропущенные значения в столбцах. 
2. Устраните пропущенные значения: удалите или замените их. 
3. Объясните выбранную стратегию обработки пропущенных значений.



In [7]:
# найдем пропущенные значения в общем количестве
df.isnull().sum().sort_values(ascending=False)

days_employed       2174
total_income        2174
children               0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
purpose                0
dtype: int64

In [9]:
# найдем пропущенные значения в процентном соотношении
df.isnull().mean().sort_values(ascending=False)

days_employed       0.100999
total_income        0.100999
children            0.000000
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
purpose             0.000000
dtype: float64

  - в колонках _days_employed и total_income_ 2174 пропусков, что составляет 10 процентов от всех данных
  - слишком большой процент для удаления строк из данных
  - поэтому было решено заменить пропуски в зависимости от типа данных

___сначада для обоих столбцов применим describe()___

In [10]:
# Применение метода describe() к двум столбцам: 'days_employed' и 'total_income'
df[['days_employed', 'total_income']].describe()

Unnamed: 0,days_employed,total_income
count,19351.0,19351.0
mean,63046.497661,26787.568355
std,140827.311974,16475.450632
min,-18388.949901,3306.762
25%,-2747.423625,16488.5045
50%,-1203.369529,23202.87
75%,-291.095954,32549.611
max,401755.400475,362496.645


___в колонке days_employed присуствуют отрицательные значения(это приславутые аномалии)___
   - пропущенные же знаенчия заменим 0
     - из идеи что клиенты могли быть безработными на момент заполения данных 

In [11]:
# Замена пропущенных значений в days_employed на 0
df['days_employed'].fillna(0, inplace=True)

___в колонке total_income обратим внимание на мин макс значения___
  - то есть присуствуют явные выбросы
    - таким образом выбираем для замены медианное значение, поскольку оно менее чувститвельно кним 

In [12]:
# Замена пропущенных значений в total_income на медианное значение
df['total_income'].fillna(df['total_income'].median(), inplace=True)

___еще раз проверим данные на пропуски___

In [14]:
# найдем пропущенные значения в общем количестве
df.isnull().sum().sort_values(ascending=False)

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


1. Изучите уникальные значения в столбцах с уровнем образования (`education`) и полом клиента (`gender`). 
2. Устраните неявные дубликаты и некорректные значения.



In [17]:
# Уникальные значения в столбце education
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [19]:
sorted(df['education'].unique())

["BACHELOR'S DEGREE",
 "Bachelor's Degree",
 'GRADUATE DEGREE',
 'Graduate Degree',
 'PRIMARY EDUCATION',
 'Primary Education',
 'SECONDARY EDUCATION',
 'SOME COLLEGE',
 'Secondary Education',
 'Some College',
 "bachelor's degree",
 'graduate degree',
 'primary education',
 'secondary education',
 'some college']

- при анализе уникальных значений в колонке education видны повторяющиеся текстовые значения по смысловому содержанию, но в разных стилях написания
  - например'Secondary Education'и 'SECONDARY EDUCATION'
  - нужно привести все в нижний регистр

In [20]:
# Уникальные значения в столбце education
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

- при анализе уникальных значений в колонке gender видны XNA
  -  заменим на 'Unknown'

___проведем замену и перепроверим уникальные значения в стоблцах education и gender___

In [21]:
# Приведение всех значений в столбце education к нижнему регистру для устранения дубликатов
df['education'] = df['education'].str.lower()

In [22]:
# Уникальные значения в столбце education
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [23]:
sorted(df['education'].unique())

["bachelor's degree",
 'graduate degree',
 'primary education',
 'secondary education',
 'some college']

In [117]:
# Устранение некорректных значений в столбце gender
df['gender'] = df['gender'].replace({'XNA': 'Unknown'})

In [118]:
# Уникальные значения в столбце education
df['gender'].unique()

array(['F', 'M', 'Unknown'], dtype=object)

___проверем информацию по исходной таблице и таблице на данном этапе анализа___

In [119]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



1. Проверьте наличие дубликатов. Изучите дублированные данные, если они есть, и примите решение — удалять их или оставить.



In [121]:
# Проверка наличия дубликатов
duplicates = df.duplicated()
print(f'Количество дубликатов: {duplicates.sum()}')

Количество дубликатов: 71


- в данных присусвует 71 дубликат
- выведим пример дубликатов

In [122]:
# Изучение дублированных данных
duplicate_rows = df[df.duplicated()]
duplicate_rows.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,0.0,41,secondary education,1,married,0,F,employee,0,23202.87,purchase of the house for my family
3290,0,0.0,58,secondary education,1,civil partnership,1,F,retiree,0,23202.87,to have a wedding
4182,1,0.0,34,bachelor's degree,0,civil partnership,1,F,employee,0,23202.87,wedding ceremony
4851,0,0.0,60,secondary education,1,civil partnership,1,F,retiree,0,23202.87,wedding ceremony
5557,0,0.0,58,secondary education,1,civil partnership,1,F,retiree,0,23202.87,to have a wedding


- на первый взгляд сложно оценить какие именно строки дублируются
- для лучшей визуализации отсортируем дублированные строки

In [123]:
# Найти и отсортировать дублированные строки
duplicate_rows = df[df.duplicated(keep=False)]
sorted_duplicates = duplicate_rows.sort_values(by=list(df.columns))

sorted_duplicates.head(6)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
15892,0,0.0,23,secondary education,1,unmarried,4,F,employee,0,23202.87,second-hand car purchase
19321,0,0.0,23,secondary education,1,unmarried,4,F,employee,0,23202.87,second-hand car purchase
3452,0,0.0,29,bachelor's degree,0,married,0,M,employee,0,23202.87,buy residential real estate
18328,0,0.0,29,bachelor's degree,0,married,0,M,employee,0,23202.87,buy residential real estate
4216,0,0.0,30,secondary education,1,married,0,M,employee,0,23202.87,building a real estate
6312,0,0.0,30,secondary education,1,married,0,M,employee,0,23202.87,building a real estate


- удлаим дубликаты

In [124]:
# Удаление дубликатов
df = df.drop_duplicates()
print(f'Количество дубликатов после удаления: {df.duplicated().sum()}')

Количество дубликатов после удаления: 0


___проверем информацию по исходной таблице и таблице на данном этапе анализа___

In [125]:
df_raw.shape

(21525, 12)

In [126]:
df.shape

(21454, 12)

In [127]:
#строк стало на 71 меньше
print(f'Количество строк стало меньше на : {round((1-df.shape[0]/df_raw.shape[0])*100,2)} процента')

Количество строк стало меньше на : 0.33 процента


<div class="alert alert-info">
  <b> * <a href="#ch0">к содержанию</a> </b> 
</div>


---