## **Описание проекта: оценка рисков невозврата кредита**

В вашем распоряжении данные клиентов банка «Скрудж», которые планируют взять кредит. Вам необходимо выяснить, что из имеющихся данных влияет на своевременное погашение кредита и каким именно образом.

Исследование поможет в создании модели кредитного скоринга — системы для оценки способности потенциального заёмщика погасить свой кредит.

По каждому клиенту есть информация о его семейном положении, образовании, доходе и другие данные. Вам предстоит подготовить данные к анализу и исследовать их, в процессе отвечая на вопросы.

### Описание данных

- `children` — количество детей в семье;
- `days_employed` — сколько дней работает клиент;
- `dob_years` — возраст клиента;
- `education` — уровень образования клиента;
- `education_id` — идентификатор образования клиента;
- `family_status` — семейное положение клиента;
- `family_status_id` — идентификатор семейного положения клиента;
- `gender` — пол клиента;
- `income_type` — тип дохода клиента;
- `debt` — был ли у клиента когда-либо просрочен платёж по кредиту;
- `total_income` — ежемесячный доход;
- `purpose` — причина оформления кредита.



__Цель работы__
- В рамках проекта необходимо проанализировать данные клинетов банка Скрудж для лдальнейшего опредления характеритсик заёмщика, влияющих на своевременное погашение кредита. Это поможет в дальнейшем создать основу для модели кредитного скоринга — системы для оценки способности потенциального заёмщика погасить свой кредит.

__План работы__ <a class="anchor" id="ch0"></a>

* [Первичный анализ данных ](#ch1)
* [Предобработка](#ch2)
* [Выбросы и аномальные значения](#ch3)
  - загрузка и изучение структуры данных
  - проверка и устранение пропущенных значений
  - устраненние некорректных значений
  - устранение неявных дубликатов
* [Создание дополнительных признаков](#ch4)
  - разделите клиентов по уровню дохода
  - разделение по возрастным группам
  - разделение по количеству детей
* [Исследование влияюших факторов](#ch5)
  - Уровень дохода
    - Анализ влияния дохода на своевременное погашение кредита
  - Образование
    - Исследование связи между уровнем образования и вероятностью задолженности
   - Возраст
     - Анализ возрастных категорий и их связи с задолженностью по кредитам
    - Количество детей
      - влияние количества детей на риск задолженности
* [Анализ данных](#ch5)
  - построение графиков и сводных таблиц для наглядной визуализации сравннеия должников и не должников 
* [Проверка исследовательских гипотез](#ch5)
  - У клиентов с детьми более высокий уровень финансовой ответственности и, следовательно, более низкий риск просрочек по кредиту.
  - Одинокие мужчины с низким доходом чаще оказываются должниками, чем семейные мужчины со средним доходом.
* [Выводы](#ch6)
  - описание полученных результатов и итоговые выводы проведённого исследования
  
* [Проведение дополнительного исследования](#ch7)   

__Датасет содержит данные, которые несут в себе информацию о клиентах банка Скрудж:__
- ___демография___
  - возраст, семейное положение, количество детей
- ___финансновые показатели___
  - уровень дохода, тип занятости
- ___данные об образовании___
- ___цель кредита___
- ____информацию о своевременности возврата кредита____


## Шаг 4. Добавление  в таблицу новых столбцов  <a class="anchor" id="ch4"></a>




1. **Разделите клиентов на 5 категорий по уровню дохода:**
- Без дохода — люди без работы и с нулевым доходом.
- Очень низкий доход — люди, получающие ниже 14 процентиля от общего распределения дохода.
- Низкий доход — люди, получающие между 14 и 34 процентилями от общего распределения дохода.
- Средний доход — люди, получающие между 34 и 78 процентилями от общего распределения дохода.
- Высокий доход — люди, получающие больше 78 процентиля от общего распределения дохода.



In [155]:
# Процентильные границы
percentile_14 = df['total_income'].quantile(0.14)
percentile_34 = df['total_income'].quantile(0.34)
percentile_78 = df['total_income'].quantile(0.78)

# Функция для присвоения категорий
def income_category(income):
    if income == 0:
        return 'Без дохода'
    elif income < percentile_14:
        return 'Очень низкий доход'
    elif income < percentile_34:
        return 'Низкий доход'
    elif income < percentile_78:
        return 'Средний доход'
    else:
        return 'Высокий доход'

# Создание новой колонки согласно функции
df['income_category'] = df['total_income'].apply(income_category)

display(df[['total_income', 'income_category']].head())
print(df['income_category'].value_counts())

Unnamed: 0,total_income,income_category
0,40620.102,Высокий доход
1,17932.802,Низкий доход
2,23341.752,Средний доход
3,42820.568,Высокий доход
4,25378.572,Средний доход


Средний доход         8870
Высокий доход         4436
Низкий доход          4032
Очень низкий доход    2823
Name: income_category, dtype: int64



1. Разделите клиентов на две категории по возрасту: до 40 лет и после. Сохраните результат в колонке `age_category`.



In [156]:
# Место для вашего кода
# Функция для присвоения возрастных категорий
def age_category(age):
    if age < 40:
        return 'до 40 лет'
    else:
        return 'после 40 лет'
df['age_category'] = df['dob_years'].apply(age_category)
display(df[['dob_years', 'age_category']].head())

Unnamed: 0,dob_years,age_category
0,42,после 40 лет
1,36,до 40 лет
2,33,до 40 лет
3,32,до 40 лет
4,53,после 40 лет



1. Разделите клиентов на несколько категорий по количеству детей: без детей, от одного до двух, от трёх и больше. Сохраните результат в колонке `childrens_category`.



In [157]:
# Место для вашего кода
def childrens_category(children):
    if children == 0:
        return 'без детей'
    elif children <= 2:
        return 'от одного до двух'
    else:
        return 'от трёх и больше'
df['childrens_category'] = df['children'].apply(childrens_category)
display(df[['children','childrens_category']].head())

Unnamed: 0,children,childrens_category
0,1,от одного до двух
1,1,от одного до двух
2,0,без детей
3,3,от трёх и больше
4,0,без детей


как итог

In [158]:
display(df[['children','childrens_category','dob_years', 'age_category','total_income','income_category']].head(10))

Unnamed: 0,children,childrens_category,dob_years,age_category,total_income,income_category
0,1,от одного до двух,42,после 40 лет,40620.102,Высокий доход
1,1,от одного до двух,36,до 40 лет,17932.802,Низкий доход
2,0,без детей,33,до 40 лет,23341.752,Средний доход
3,3,от трёх и больше,32,до 40 лет,42820.568,Высокий доход
4,0,без детей,53,после 40 лет,25378.572,Средний доход
5,0,без детей,27,до 40 лет,40922.17,Высокий доход
6,0,без детей,43,после 40 лет,38484.156,Высокий доход
7,0,без детей,50,после 40 лет,21731.829,Средний доход
8,2,от одного до двух,35,до 40 лет,15337.093,Низкий доход
9,0,без детей,41,после 40 лет,23108.15,Средний доход


<div class="alert alert-info">
  <b> * <a href="#ch0">к содержанию</a> </b> 
</div>


---