# Кредитный скоринг юридических лиц

## Задача: Разработать модель кредитного скоринга юридического лица. Модель должна позволить определить, следует ли выдавать кредит юридическому лицу по заданным признакам

In [1]:
import seaborn as sns
import pandas as pd
import pathlib
import os

sns.set()

### Этап 1: Импорт данных

In [2]:
print(*[f'Список файлов в репозитории {x.split("/")[-1]}: {sorted(os.listdir(x), key=lambda x: len(x))}' for x in ["./train", "./test"]], sep='\n')

Список файлов в репозитории train: ['train_1.csv', 'train_2.csv', 'train_3.csv', 'train_4.csv', 'train_5.csv', 'train_6.csv', 'train_7.csv', 'train_8.csv', 'train_9.csv', 'train_10.csv', '.ipynb_checkpoints']
Список файлов в репозитории test: ['test_1.csv', 'test_2.csv', 'test_3.csv', 'test_4.csv', 'test_5.csv', 'test_6.csv', 'test_7.csv', 'test_8.csv', 'test_9.csv', 'test_10.csv']


In [3]:
# Получим список путей к файлам в папке train
filenames_train = [x for x in sorted(os.listdir("./train"), key=lambda x: len(x)) if x.endswith(".csv")]

# Создадим список для записи считанных файлов train
data_files_train = []

# Считаем все файлы train и добавим их в список
for filename in filenames_train:
    # print(pathlib.Path.cwd().joinpath("./train", filename))
    data_files_train.append(pd.read_csv(pathlib.Path.cwd().joinpath("./train", filename)))

train_df = pd.concat(data_files_train, ignore_index=True)

print('Размерность полных тренировочных данных составляет: {} строка и {} столбец'.format(*train_df.shape))

Размерность полных тренировочных данных составляет: 38731 строка и 421 столбец


In [4]:
# Получим список путей к файлам в папке test
filenames_test = [x for x in sorted(os.listdir("./test"), key=lambda x: len(x)) if x.endswith(".csv")]

# Создадим список для записи считанных файлов test
data_files_test = []

# Считаем все файлы test и добавим их в список
for filename in filenames_test:
    # print(pathlib.Path.cwd().joinpath("./test", filename))
    data_files_test.append(pd.read_csv(pathlib.Path.cwd().joinpath("./test", filename)))

test_df = pd.concat(data_files_test, ignore_index=True)

print('Размерность полных тренировочных данных составляет: {} строка и {} столбец'.format(*test_df.shape))

Размерность полных тренировочных данных составляет: 19826 строка и 420 столбец


### Этап 2: Обзор набора данных

In [5]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38731 entries, 0 to 38730
Columns: 421 entries, target to feature_418
dtypes: float64(418), int64(2), object(1)
memory usage: 124.4+ MB


In [6]:
# train_df.describe()

In [7]:
print('Отсутствующие значения в наборе данных поездов:', sum(train_df.isnull().sum()))
print('Отсутствующие значения в наборе данных поездов:', sum(test_df.isnull().sum()))

Отсутствующие значения в наборе данных поездов: 0
Отсутствующие значения в наборе данных поездов: 0


### Этап 3: Обзор признаков

In [8]:
# sns.set(rc={"figure.figsize": (50, 20)})
# sns.heatmap(train_df.drop(
#     columns=["target", "smpl", "id"]).corr(),  
#     fmt = ".1g", 
#     annot = False,
#     cmap= 'coolwarm',
#     cbar=False,
# )
corr_matrix = train_df.drop(columns=["target", "smpl", "id"]).corr()

In [10]:
abs_corr = corr_matrix.abs().unstack()
abs_corr.sort_values(ascending=False)

feature_1    feature_1      1.000000e+00
feature_210  feature_210    1.000000e+00
feature_134  feature_134    1.000000e+00
feature_135  feature_135    1.000000e+00
feature_136  feature_136    1.000000e+00
                                ...     
feature_149  feature_5      4.527810e-07
feature_147  feature_298    4.473353e-07
feature_298  feature_147    4.473353e-07
feature_88   feature_367    1.529711e-07
feature_367  feature_88     1.529711e-07
Length: 174724, dtype: float64