# **Предобработка скоринговых данных**

## Получение Data с данными для скоринга банка. Изучение

In [1]:
# импорт библиотек, с присвоение псевдонимов
import pandas as pd
import seaborn as sns
import numpy as np

# создание ДатаФрейма из (.csv)файла
df = pd.read_csv('data.csv')

# знакомство с содержимым:
df.info()
# вывод первых 5 строк
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


## *Работа с пропущенными значениями*

In [2]:
# проверка пропущенных значений, сумма количества по каждой Series
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

***Значения пропущены в столбцах с количесвом рабочих дней и суммой зарплат.\
На данном шаге разберем возможные причины пропусков колонки с Суммой зарплат:***

In [3]:
# проверка наличия закономерностей в строках с пропущенными 'total_income' и 'days_employed':
print("Количество строк с прощуееными значениями одновременно в двух колонках:", df[(df['days_employed'].isna()) & (df['total_income'].isna())].shape[0])

Количество строк с прощуееными значениями одновременно в двух колонках: 2174


***Мы можем наблюдать четкую закономерность в отсутствии значений*** \
в столбцах 'days_employed' и 'total_income', возможные причины:
- отсутствие данных о работе лидов
- отсутствие работы у лидов
- некорректная выгрузка данных

***Так как показатель 'total_income' - количественная переменная, \
будет уместно заполнить пропуски медианными значениями. \
В таком случае, выбросы не сильно исказят конечные результаты,\
а мы получим возможность использовать эти строки в анализе, например, других гипотез.***

In [4]:
# заполним пропуски 'total_income' медианными значениями для этого столбца
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

# повторим с 'days_employed'
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median())

# проверим результат работы предыдущих методов
print("Количество пустых значений в 'total_income':", df['total_income'].isna().sum())
print("Количество пустых значений в 'days_employed':", df['days_employed'].isna().sum())

Количество пустых значений в 'total_income': 0
Количество пустых значений в 'days_employed': 0


Все прошло отлично.\
Проверим аномальные значения и выбросы в строках с количественными данными.

In [5]:
# для удобства и наглядности создам DataFrame через словарь
df_min_max = {'value': ['MIN', 'MAX'],
              'children':         [df['children'].max(),         df['children'].min()],
              'days_employed':    [df['days_employed'].max(),    df['days_employed'].min()],
              'dob_years':        [df['dob_years'].max(),        df['dob_years'].min()],
              'education_id':     [df['education_id'].max(),     df['education_id'].min()],
              'family_status_id': [df['family_status_id'].max(), df['family_status_id'].min()],
              'debt':             [df['debt'].max(),             df['debt'].min()],
              'total_income':     [df['total_income'].max(),     df['total_income'].min()]}

pd.DataFrame(data=df_min_max)

Unnamed: 0,value,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
0,MIN,20,401755.400475,75,4,4,1,2265604.0
1,MAX,-1,-18388.949901,0,0,0,0,20667.26


***В столбце 'children', по всей видимости, присутствует выброс.\
Стоит проверить количесвто вхождения строк со значением 20.\
Немаловероятно, что float был считан с нулем, как 20 int.***
***Отрицательные значения - обычная практика в работе с реальными данным.*** \
Вот несколько возможных причин:
- ошибки про вводе данных
- програмные ошибки, ошибки в логике
- некорректные алгоритмы обработки данных
- ошибки агрегации данных

***Для столбца 'children' можно смело применять функцию abs(),\
так как трудовой стаж измеряется абсолютными целочисленными значениями,\
применим функции к 'days_employed' .abs() и округлим с изменением\
типа данных на int.***

In [6]:
# применим функцию abs() для Series и сменим тип даннх на int
df['children'] = abs(df['children']).astype(int)

# применим функцию abs() для Series и сменим тип даннх на int
df['days_employed'] = round(abs(df['days_employed'])).astype(int)
# проверим значения
print("Минимальное значение для 'children' изменилось на:",      df['children'].min())
print("Минимальное значение для 'days_employed' изменилось на:", df['days_employed'].min())

Минимальное значение для 'children' изменилось на: 0
Минимальное значение для 'days_employed' изменилось на: 24


In [7]:
# ищем выброс в колонке 'children'
print("Количество строк с искомым значением:", df['children'].value_counts()[20])
# нивелируем явный выброс путем замены значения
df['children'].replace(20, 2, inplace=True)
print("Проверка max в кол-ве детей:", df['children'].max())

Количество строк с искомым значением: 76
Проверка max в кол-ве детей: 5


***Все прошло отлично.\
\
Теперь изменим тип данных 'total_income' с object на int.\
Применим метод .astype(int) в паре с фукцией round().\
Конечно, потеря минимальная, но ведь в данном упражнии учимся\
логике проектов, а также методам и функциям в аналитике и Python.***

In [8]:
df['total_income'] = round(df['total_income']).astype(int)
# проверим изменения
df['total_income'].dtype

dtype('int64')

## Работа с дубликатами

***Для начала проверю строки-дубли, изучу.\
После удалю, оставив первое вхождение строки-дубля, с обновлением индексов.***

In [9]:
print("Общее количество строк до:",df.shape[0])
print("Количество строк-дублей до:",df.duplicated().sum())
print()
# удаляе строки, обновляем индексы
df.drop_duplicates(inplace=True, ignore_index=True)
print("Общее количество строк после:",df.shape[0])
print("Количество строк-дублей после:",df.duplicated().sum())

Общее количество строк до: 21525
Количество строк-дублей до: 54

Общее количество строк после: 21471
Количество строк-дублей после: 0


***Успех!\
Теперь можно заняться поиском и правкой неявных дубликатов.***

In [10]:
# зациклю item в ДатаФрэйме и вложу в тело цикла поиск и вывод уникальных значений
for column_name in df.columns:
    unique_values = df[column_name].unique()
    unique_values.sort()
    print(f"Уникальные значения в столбце {column_name}:")
    print(unique_values)
    print()

Уникальные значения в столбце children:
[0 1 2 3 4 5]

Уникальные значения в столбце days_employed:
[    24     30     34 ... 401675 401716 401755]

Уникальные значения в столбце dob_years:
[ 0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
 66 67 68 69 70 71 72 73 74 75]

Уникальные значения в столбце education:
['ВЫСШЕЕ' 'Высшее' 'НАЧАЛЬНОЕ' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Начальное'
 'Неоконченное высшее' 'СРЕДНЕЕ' 'Среднее' 'УЧЕНАЯ СТЕПЕНЬ'
 'Ученая степень' 'высшее' 'начальное' 'неоконченное высшее' 'среднее'
 'ученая степень']

Уникальные значения в столбце education_id:
[0 1 2 3 4]

Уникальные значения в столбце family_status:
['Не женат / не замужем' 'в разводе' 'вдовец / вдова' 'гражданский брак'
 'женат / замужем']

Уникальные значения в столбце family_status_id:
[0 1 2 3 4]

Уникальные значения в столбце gender:
['F' 'M' 'XNA']

Уникальные значения в столбце income_type:
['безработный' 'в д

***Замечательно, проблемки только в 2х Series:\
'education', 'purpose'\
из вывода удобно копипастить значения***

In [11]:
# выявил 5 категорий 'education', согласно 'education_id' 
df['education'].replace(['НАЧАЛЬНОЕ', 'Начальное'], 'начальное', inplace=True)
df['education'].replace(['СРЕДНЕЕ', 'Среднее'], 'среднее', inplace=True)
df['education'].replace(['НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее'], 'неоконченное высшее', inplace=True)
df['education'].replace(['ВЫСШЕЕ', 'Высшее'], 'высшее', inplace=True)
df['education'].replace(['УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень'], 'ученая степень', inplace=True)

***Проверим изменения:***

In [12]:
print(df['education'].unique())

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


## Консолидирование информации, чистка DF

Создам 2 "словаря" для 'education' и 'family_status' с присвоением id.

In [13]:
# "словарь" для 'education'
education_df = df[['education_id', 'education']]
print(education_df.head(3)) # проверка результата

# "словарь" для 'family_status'
family_status_df = df[['family_status_id', 'family_status']]
print(family_status_df.head(3)) # проверка результата

   education_id education
0             0    высшее
1             1   среднее
2             1   среднее
   family_status_id    family_status
0                 0  женат / замужем
1                 0  женат / замужем
2                 0  женат / замужем


In [14]:
# теперь можно удалить лишнюю информацию из исходного ДатаФрейма
df = df.drop(['education', 'family_status'], axis=1)
# проверим, как все прошло
list(df)

['children',
 'days_employed',
 'dob_years',
 'education_id',
 'family_status_id',
 'gender',
 'income_type',
 'debt',
 'total_income',
 'purpose']

## Добавление столбца с присвоением класса платежеспособности

***Добавлю новый столбец для указания класса.\
Создам значения для категорий, а также логику присвоения.\
Воспользуюсь функцией .select() библиотеки Numpy,\
она отлично реализует логику.***

In [15]:
# категорийные значения
values_ti = ['E', 'D' , 'C', 'B', 'A']

# логичекие условия для np.select()
conditions_ti = [
    df['total_income'] <= 30000,
    (df['total_income'] >= 30001) & (df['total_income'] <= 50000),
    (df['total_income'] >= 50001) & (df['total_income'] <= 200000),
    (df['total_income'] >= 200001) & (df['total_income'] <= 1000000),
    df['total_income'] >= 1000001
]

# функция
df['total_income_category'] = np.select(conditions_ti, values_ti)
df.tail(3) # проверка результата

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
21468,1,2113,38,1,1,M,сотрудник,1,89673,недвижимость,C
21469,3,3112,38,1,0,M,сотрудник,1,244093,на покупку своего автомобиля,B
21470,2,1985,40,1,0,F,сотрудник,0,82047,на покупку автомобиля,C


## Агрегирование информации о целях займа

Создание нового столбца консолидирующего схожие цели займа.

In [16]:
# категории для агрегированной информации
values_purpose = ['операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования']

# логические условия
conditions_purpose = [df['purpose'].str.contains('авто'),
                      df['purpose'].str.contains('недвиж') | df['purpose'].str.contains('жиль'),
                      df['purpose'].str.contains('свадь'),
                      df['purpose'].str.contains('образ')
                     ]

df['purpose_category'] = np.select(conditions_purpose, values_purpose)
df.head(3) # проверим, как все прошло

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8438,42,0,0,F,сотрудник,0,253876,покупка жилья,B,операции с недвижимостью
1,1,4025,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145886,покупка жилья,C,операции с недвижимостью


## Проверка гипотез

### Зависимоть между количеством детей в семье и возвратом кредита в срок

In [17]:
debt_from_children = pd.DataFrame()
debt_from_children['count_children'] = df.groupby('children')['debt'].count()
debt_from_children['sum_children'] = df.groupby('children')['debt'].sum()
debt_from_children['result_children'] = debt_from_children['sum_children'] / debt_from_children['count_children'] 
debt_from_children.sort_values('result_children', ascending = False)

Unnamed: 0_level_0,count_children,sum_children,result_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,0.097561
2,2128,202,0.094925
1,4856,445,0.091639
3,330,27,0.081818
0,14107,1063,0.075353
5,9,0,0.0
