# Предварительный анализ данных в CI/CD

In [1]:
import eda

1. Предварительный обзор данных
Data is loaded

Dataset Overview:
--------------------------------------------------

First few rows:
     Income    Age     Loan  Loan to Income  Default
0  66155.93  59.02  8106.53            0.12        0
1  34415.15  48.12  6564.75            0.19        0
2  57317.17  63.11  8020.95            0.14        0
3  42709.53  45.75  6103.64            0.14        0
4  66952.69  18.58  8770.10            0.13        1

Dataset shape: (2000, 5)

Column names: ['Income', 'Age', 'Loan', 'Loan to Income', 'Default']

Data types:
Income            float64
Age               float64
Loan              float64
Loan to Income    float64
Default             int64
dtype: object
2. Анализ пропущенных значений
Income            0.0
Age               0.0
Loan              0.0
Loan to Income    0.0
Default           0.0
dtype: float64
As missing values are all at zero, the visualisation will not have much sense
{'missing_counts': {'Income': 0, 'Age': 0, 'Loan': 0, 'Loan t

График попарного распределения сохранен в 
./output_pages/png/pairplot.png
4. Корреляционный анализ


Матрица корреляций сохранена в 
./output_pages/png/correlation_matrix.png
5. Анализ баланса классов
{'counts': {0: 1717, 1: 283}, 'percentages': {0: 85.85, 1: 14.15}}
График распределения классов сохранен в 
./output_pages/png/class_balance.png
График распределения сумм по классам сохранен в 
./output_pages/png/sum_balance.png


# Визуализация пропущенных значений

![image_miss](output_pages/png/missing_values.png)

# График попарного распределения

![image_miss](output_pages/png/pairplot.png)

# Матрица корреляций

![image_miss](output_pages/png/correlation_matrix.png)

# График распределения классов

![image_miss](output_pages/png/class_balance.png)

# График распределения сумм по классам

![image_miss](output_pages/png/sum_balance.png)

# Выводы на основе предварительного анализа данных

*Как видим, пропусков в датафрейме нет.*
<br>Однако есть ряд небезынтересных моментов.
<p>
<br>Так, из графика попарного распределения видно, что таргет (Default) высок при большом займе, который тем выше, <i>чем выше уровень дохода</i>. То есть имеется некоторый парадокс, при котором у людей с высоким доходом имеется высокая вероятность дефолта. Впрочем, парадокс объяснить можно тем, что дефолт - это несостоятельность по долгам, а у человека с низким доходом он вряд ли возникнет просто потому, что в долг ему никто не даст.
<p> 
<br>Ещё интересно, что <i>у людей более молодого возраста (примерно от 18 до 30 лет)</i> шанс дефолта выше, хотя особой разницы в размере дохода и размеров займа у них не наблюдается. Что характерно, на границе 30 лет люди как будто бы чуть менее охотно берут кредиты. Один из возможных вариантов объяснения подобного может быть тот, что человек до 30 лет ещё не вполне ответственно подходит к своим действиям, неспособен в полной степени оценить риски и находится в поиске, а в районе 30 лет происходит переход в более "зрелое" состояние, в ходе которого люди остерегаются брать кредиты, после которого люди принимают финансовые решения более осознанно, ввиду чего те, кто все-таки решился на получение займа, уже не допускают тех нарушений, которые совершаются людьми более молодого возраста. Впрочем, это не единственное возможное объяснение, необходимо понимать историю формирования датасета. Для целей предсказания это может показывать важность такого предиктора, как возраст, в оценке целевой переменной (при отсутствии линейной зависимости, которая наблюдается, например, в случае с размером дохода и вероятностью дефолта), что может пригодиться при необходимости оптимизировать модель в будущем.
<p>
<br><i>Матрица корреляций</i>, в свою очередь, показывает, что самая высокая корреляция имеется (помимо признаков с самими собой) выявляется между отношением займа к доходу и самим доходом, на втором месте - отношение займа к доходу. Остальные признаки слабо коррелированы, что, конечно, не гарантирует их независимости, но свидетельствует об отсутствии какого-либо явно линейного соотношения.
В плане баланса классов потребовалось внести определенное уточнение, а именно: построить диаграммы не только количества выплачиваемых и невыплаченных займов (1 и 0), но также произвести группировку по суммам - ведь  важным является <i>не количество невыплаченных займов как таковое, а общая сумма тех и других</i>.
<p>
<br>По итогам сведения сумм видно, что <i>невыплаты достигают около трети выплачиваемых займов</i>. При этом если датасет включает в себя не только займы, которые выплачены полностью (или уже не выплачены), но и те, по которым кредиты пока выплачиваются, но срок ещё не истек, то, вероятно, кредитной организации стоит проанализировать свои риски, поскольку треть - это достаточно серьезный объем невыплат, который может потребовать пересмотра целевой категории заемщиков, усиления контроля на стадии рассмотрения исходной заявки.

<b>Выводы</b>

Таким образом:

1) Датасет пропусков не содержит, однако имеет значение история его сбора, которая нам неизвестна.

2) Существует подобие линейной зависимости между доходом заемщика и суммой займа. Однако подобная зависимость имеется также между суммой займа и вероятностью невыплаты по кредиту, что хотя и парадоксально, но может быть объяснено низкой степенью одобрения кредитов изначально неплатежеспособным лицам.

3) Существует связь между возрастом взятия кредита и вероятностью его невозврата. Лица в возрасте 18-30 лет имеют более высокий риск невозврата, при этом данная зависимость является самостоятельной, поскольку уровень дохода данной группы принципиально не отличается от дохода иных групп заемщиков.

4) Общая сумма текущих невыплат достигает трети от сумм выплачиваемых займов, то есть четверти (1/3(1/3 + 3/3)=1/4) всех объемов займов. Это может свидетельствовать об опасной критической массе заемщиков, особенно если при сборе датасета среди "хороших" заемщиков учтены не только уже выплатившие всю стоимость кредита, но и те, кто продолжал выплачивать кредит на момент сбора данных.

