In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

ModuleNotFoundError: No module named 'sklearn'

In [3]:

# 1. Завантаження даних
# Використаємо набір даних про продажі відеоігор
df = pd.read_csv('vgsales.csv')

# 2. Попередній перегляд даних
print("Перші 5 рядків даних:")
print(df.head())
print("\nІнформація про набір даних:")
print(df.info())

# 3. Очищення даних
# Перевірка пропущених значень
print("\nКількість пропущених значень:")
print(df.isnull().sum())

# Видалення рядків з пропущеними значеннями
df = df.dropna()

# Видалення дублікатів
df = df.drop_duplicates()

# 4. Трансформація даних
# Вибір числових колонок для аналізу
numeric_columns = ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']

# Нормалізація числових даних
scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df[numeric_columns]), 
                        columns=numeric_columns)

# One-Hot Encoding для категоріальних змінних
df_encoded = pd.get_dummies(df['Genre'], prefix='Genre')
df_transformed = pd.concat([df_scaled, df_encoded], axis=1)

# 5. Декомпозиція набору даних
# Підготовка даних для моделювання (прогнозування Global_Sales)
X = df_transformed.drop('Global_Sales', axis=1)
y = df_transformed['Global_Sales']

# Розділення на тренувальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Описова статистика та візуалізація
# Описова статистика
print("\nОписова статистика для числових змінних:")
print(df[numeric_columns].describe())

# Створення візуалізацій
plt.figure(figsize=(12, 6))

# Гістограма продажів
plt.subplot(2, 2, 1)
sns.histplot(data=df, x='Global_Sales', bins=50)
plt.title('Розподіл глобальних продажів')

# Коробкова діаграма продажів за регіонами
plt.subplot(2, 2, 2)
df_melted = df[numeric_columns].melt()
sns.boxplot(data=df_melted, x='variable', y='value')
plt.xticks(rotation=45)
plt.title('Продажі за регіонами')

# Кореляційна матриця
plt.subplot(2, 2, 3)
correlation_matrix = df[numeric_columns].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Кореляційна матриця')

plt.tight_layout()
plt.show()

# 7. Побудова та оцінка моделі
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозування
y_pred = model.predict(X_test)

# Оцінка моделі
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\nРезультати моделювання:")
print(f"Mean Squared Error: {mse:.4f}")
print(f"R² Score: {r2:.4f}")

# 8. Висновки
print("\nОсновні висновки:")
print("1. Розподіл продажів має правосторонню асиметрію")
print("2. Найбільші продажі спостерігаються в Північній Америці")
print("3. Існує сильна кореляція між глобальними продажами та продажами в окремих регіонах")
print(f"4. Модель пояснює {r2*100:.2f}% варіації в даних")

FileNotFoundError: [Errno 2] No such file or directory: 'vgsales.csv'