In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Загрузка данных
file_path = 'financial_loan.csv'
data = pd.read_csv(file_path, delimiter=';', encoding='latin1')

In [2]:
# Выборочные описательные статистики
columns_to_analyze = ['annual_income', 'dti', 'loan_amount', 'total_acc', 'total_payment']
mean_values = data[columns_to_analyze].mean()
median_values = data[columns_to_analyze].median()
std_values = data[columns_to_analyze].std()

print("Средние значения:\n", mean_values)
print("Медианы:\n", median_values)
print("Стандартное отклонение:\n", std_values)

Средние значения:
 annual_income    69645.874799
dti                  0.133274
loan_amount      11296.644413
total_acc           22.132901
total_payment    12263.788696
dtype: float64
Медианы:
 annual_income    60000.0000
dti                  0.1342
loan_amount      10000.0000
total_acc           20.0000
total_payment    10042.5000
dtype: float64
Стандартное отклонение:
 annual_income    64298.048523
dti                  0.066658
loan_amount       7460.878302
total_acc           11.392806
total_payment     9051.192116
dtype: float64


In [3]:
# Обработка пропущенных значений
missing_values = data.isnull().sum()
print("Пропущенные значения до заполнения:\n", missing_values)

data_filled = data.fillna(data.mean(numeric_only=True))
missing_values_after = data_filled.isnull().sum()
print("Пропущенные значения после заполнения:\n", missing_values_after)

Пропущенные значения до заполнения:
 id                          0
address_state               0
application_type            0
emp_length                  0
emp_title                1438
grade                       6
home_ownership              6
issue_date                  6
last_credit_pull_date       6
last_payment_date           6
loan_status                 6
next_payment_date           6
member_id                   6
purpose                     6
sub_grade                   6
term                        6
verification_status         6
annual_income               6
dti                         6
installment                 6
int_rate                    6
loan_amount                 6
total_acc                   6
total_payment               6
dtype: int64
Пропущенные значения после заполнения:
 id                          0
address_state               0
application_type            0
emp_length                  0
emp_title                1438
grade                       6
home_owner

In [4]:
# Нормализация данных
scaler = MinMaxScaler()
data_normalized = data_filled.copy()
data_normalized[['annual_income', 'loan_amount', 'total_payment']] = scaler.fit_transform(data_filled[['annual_income', 'loan_amount', 'total_payment']])

print("Первые несколько строк нормализованных данных:\n", data_normalized[['annual_income', 'loan_amount', 'total_payment']].head())

Первые несколько строк нормализованных данных:
    annual_income  loan_amount  total_payment
0       0.004336     0.057971       0.016658
1       0.007338     0.072464       0.066718
2       0.007672     0.333333       0.059593
3       0.006338     0.115942       0.083325
4       0.013175     0.086957       0.064941


In [5]:
# Коэффициенты корреляции
correlation_matrix = data_filled[['annual_income', 'loan_amount', 'total_payment']].corr()
print("Коэффициенты корреляции:\n", correlation_matrix)

Коэффициенты корреляции:
                annual_income  loan_amount  total_payment
annual_income       1.000000     0.268169       0.254599
loan_amount         0.268169     1.000000       0.887481
total_payment       0.254599     0.887481       1.000000


In [6]:
# Сохранение обработанных данных в новый CSV-файл
output_file_path = 'processed_financial_loan.csv'
data_normalized.to_csv(output_file_path, index=False)

print(f"Обработанные данные сохранены в файл: {output_file_path}")

Обработанные данные сохранены в файл: processed_financial_loan.csv
