In [None]:
#ОПИСАНИЕ ДАТАСЕТА "CAR SALES DATA"
#ПРЕДМЕТНАЯ ОБЛАСТЬ: Автомобильный рынок

#ИСТОЧНИК ДАННЫХ И ХАРАКТЕР

"""
Источник данных: Реальные данные
Характер данных: Синтетические данные, отражающие реальные закономерности
Реалистичность: Высокая
"""

#ОПИСАНИЕ АТРИБУТОВ
"""
Manufacturer: Производитель автомобиля (строковый)

Model: Модель автомобиля (строковый)

Engine size: Обьем двигателя в литрах (чиловой)

Fuel type: Тип топлива (строковый)

Year of manufacture: Год выпуска (числовой)

Mileage: Пробег (числовой)

Price: Стоимость (числовой)
"""


#ОПИСАНИЕ ЗАДАЧИ АНАЛИЗА
#Исследование факторов, влияющих на цену автомобилей.#


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns



df = pd.read_csv('D:\car_sales_data.csv')  

numeric_cols = ['Engine size', 'Year of manufacture', 'Mileage', 'Price']

print("Пропущенные значения")
print(df.isnull().sum())

stats = df[numeric_cols].agg(['mean', 'std'])
print("\nСреднее значение и СКО:")
print(stats)


for col in numeric_cols:
    plt.figure(figsize=(6,4))
    sns.histplot(df[col], bins=20, kde=True)
    plt.title(f'Гистограмма {col}')
    plt.xlabel(col)
    plt.ylabel('Частота')
    plt.show()
    

    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    print(f"{col} - количество выбросов: {len(outliers)}")

corr_matrix = df[numeric_cols].corr()
print("Матрица корреляций:")
print(corr_matrix)

high_corr_list = []
low_corr_list = []

for i in numeric_cols:
    for j in numeric_cols:
        if i != j:
            r = corr_matrix.loc[i, j]
            if abs(r) > 0.5:
                high_corr_list.append({'Атрибуты': f'{i} - {j}', 'Коэффициент корреляции': r})
            elif abs(r) < 0.1:
                low_corr_list.append({'Атрибуты': f'{i} - {j}', 'Коэффициент корреляции': r})


high_corr_df = pd.DataFrame(high_corr_list)
low_corr_df = pd.DataFrame(low_corr_list)

print("Высокая корреляция:")
display(high_corr_df)  

print("Низкая корреляция:")
display(low_corr_df)


sns.pairplot(df[numeric_cols])
plt.suptitle("Матрица графиков рассеивания", y=1.02)
plt.show()


