Импортируем необходимые библиотеки для анализа данных и визуализации. pandas для работы с таблицами, numpy для числовых операций, stats из scipy для статистических тестов, seaborn и matplotlib.pyplot для построения графиков, MinMaxScaler из sklearn.preprocessing для масштабирования данных.

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler


Загрузка данных из файла credit_train.csv с указанием разделителя ;, десятичного знака , и кодировки windows-1251.

In [None]:
df = pd.read_csv('credit_train.csv', sep=';', decimal=',', encoding='windows-1251')


Удаляем строки с пропусками данных (NaN), чтобы избежать проблем при дальнейшей обработке.

In [None]:
df = df.dropna()

Отбираем только числовые столбцы из датафрейма для дальнейшего анализа.

In [None]:
numeric_df = df.select_dtypes(include=[np.number])


Вычисляем Z-оценки для числовых значений и удаляем строки с выбросами (где Z-оценка больше 3).

In [None]:
z_scores = np.abs(stats.zscore(numeric_df))
numeric_df_no_outliers = numeric_df[(z_scores < 3).all(axis=1)]


Вычисляем корреляционную матрицу для числовых данных без выбросов и визуализируем её с помощью тепловой карты (heatmap).

In [None]:
correlation_matrix = numeric_df_no_outliers.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title("Корреляционная матрица")
plt.show()


Создаем случайную выборку данных для визуализации зависимостей между переменными. Строим графики зависимостей с помощью seaborn.pairplot.

In [None]:
sample_size = min(1000, len(numeric_df_no_outliers))
sampled_data = numeric_df_no_outliers.sample(n=sample_size, random_state=1)
sns.pairplot(sampled_data)
plt.show()


Импортируем тест Шапиро-Уилка для проверки нормальности распределения и выполняем его для каждого числового столбца. Выводим результаты теста и делаем выводы о нормальности распределения на основе p-значений.

In [None]:
from scipy.stats import shapiro

for column in numeric_df_no_outliers.columns:
    stat, p = shapiro(numeric_df_no_outliers[column])
    print(f'{column}: p-value={p}')
    if p > 0.05:
        print(f'Колонка {column} имеет нормальное распределение\n')
    else:
        print(f'Колонка {column} не имеет нормального распределения\n')


Масштабируем данные с использованием Min-Max нормализации (преобразуем значения в диапазон [0, 1]). Создаем новый датафрейм из масштабированных данных.

In [None]:
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(numeric_df_no_outliers)
df_scaled = pd.DataFrame(scaled_data, columns=numeric_df_no_outliers.columns)


Сохраняем масштабированные данные в новый CSV-файл credit_train_processed.csv без индексов строк.

In [None]:
df_scaled.to_csv('credit_train_processed.csv', index=False)


1. Обработка данных и оценка выбросов
Код: Мы загрузили данные, удалили строки с пропусками, отобрали числовые столбцы и удалили выбросы с помощью Z-оценок.

Вывод: После обработки данные стали чище и более пригодными для анализа, так как выбросы, которые могли искажать результаты, были удалены.

2. Корреляционная матрица
Код: Мы вычислили корреляционную матрицу для числовых данных без выбросов и визуализировали её с помощью тепловой карты.

График: Тепловая карта показывает степень взаимосвязи между переменными. Значения корреляции варьируются от -1 до 1, где значения ближе к 1 или -1 указывают на сильную корреляцию (положительную или отрицательную), а значения ближе к 0 указывают на слабую или отсутствующую корреляцию.

Вывод: Матрица корреляции позволяет выявить, какие переменные имеют сильные взаимосвязи. Это может быть полезно для выбора признаков и дальнейшего анализа. Если на графике есть переменные с высокой корреляцией (ближе к 1 или -1), это может свидетельствовать о линейной зависимости между ними.

3. Графики зависимостей
Код: Мы построили графики зависимостей между числовыми переменными с использованием функции sns.pairplot.

График: Графики зависимостей позволяют визуализировать отношения между различными парами переменных. Они могут показать, как изменяются данные и есть ли явные тренды или кластеры.

Вывод: Графики зависимостей помогают выявить паттерны в данных, такие как линейные или нелинейные зависимости, а также могут показать наличие выбросов или необычных точек данных.

4. Тест на нормальность распределения
Код: Мы выполнили тест Шапиро-Уилка для проверки нормальности распределения числовых столбцов.

Результаты: Тест Шапиро-Уилка для каждой переменной выводит p-значение, которое показывает, имеет ли переменная нормальное распределение.

Если p-значение > 0.05, то переменная имеет нормальное распределение.

Если p-значение ≤ 0.05, то переменная не имеет нормального распределения.

Вывод: Результаты теста на нормальность распределения важны для выбора методов анализа. Многие статистические методы предполагают нормальное распределение данных.

5. Масштабирование данных
Код: Мы масштабировали данные с использованием Min-Max нормализации.

Вывод: Масштабирование данных преобразовало все значения в диапазон [0, 1], что упростит дальнейший анализ и обучение моделей машинного обучения.

Общий вывод
Наш анализ показал, что после обработки и очистки данных мы получили более качественный набор данных для дальнейшего анализа. Корреляционная матрица и графики зависимостей помогли выявить взаимосвязи между переменными. Тест на нормальность распределения показал, какие переменные имеют нормальное распределение, что важно для выбора методов анализа. Масштабирование данных привело значения переменных к единому масштабу, что улучшит их использование в дальнейших расчетах и моделировании.