### Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

In [None]:
data = pd.read_csv('data.csv')

### Описание данных

children         — количество детей в семье
days_employed    — общий трудовой стаж в днях
dob_years        — возраст клиента в годах
education        — уровень образования клиента
education_id     — идентификатор уровня образования
family_status    — семейное положение
family_status_id — идентификатор семейного положения
gender           — пол клиента
income_type      — тип занятости
debt             — имел ли задолженность по возврату кредитов
total_income     — ежемесячный доход
purpose          — цель получения кредита


Для просмотра основных и примерных значениях в дата сете выполняем функцию, которая отобразит уникальные значения по всем колонкам

In [None]:
print(data.value_counts())

Поиск пропусков по столбцам, пропуски замечаны в столбцах: days_employed, total_income

In [None]:
print(data.isnull().value_counts())

In [None]:
children  days_employed  dob_years  education  education_id  family_status  family_status_id  gender  income_type  debt   total_income  purpose
False     False          False      False      False         False          False             False   False        False  False         False      19351
          True           False      False      False         False          False             False   False        False  True          False       2174

Поиск процента пропущенных значений

Создание функции возвращающая процент значений Nan

In [None]:
def skip_percentage(column):
    percentage = (column[1] / (column[1] + column[0])) * 100
    return f'{column.name}, values: Nan = {int(percentage)}%'

In [None]:
days_employed, values: Nan = 10%
total_income, values: Nan = 10%

Не заполненые поля появились на мой взгляд из-за человеческого фактора (пользователь просто забыл завести параметры)

Пропущенные значению нужно заполнить медианным значением, потому что для анализа 10% не заполненых значений приемленно, так же среднее значение подходит из-за того что значение приведено в типе float

In [None]:
def replacing_passes(column):
    # пропущенные значения будут заполнены медианой по колонке
    median_value = data[column].median()
    data[column] = data[column].fillna(median_value)
    # проверка
    print(data[column].isnull().value_counts())  
    
replacing_passes('days_employed')
replacing_passes('total_income')

В колонке days_employed встретилось множество артефактов, трудовой стаж в днях имеет отрицательные значение? такого быть не может, предлогаем что минус попал при не правильном заполнение или переносе информации

Так как мы не знаем сколько на самом деле дней человек проработал, было принято решение возвести имеющие значения в модуль числа, что бы дни, которые было стали с положительным знаком

In [None]:
def fixing_artifacts(column):
    data[column] = abs(data[column])
    # проверка
    print(data[column].head(15))
    
fixing_artifacts('days_employed')