# Домашнее задание 6

Перед выполнением заданий необходимо сохранить копию этого блокнота себе на диск. Или скачать `.ipynb`/`.py` файл для локальной разработки.

За работу можно получить максимум 8 баллов.

Вы можете сдавать эту работу как на R, так и на Python.

# Задание 1 (3 балла)

В [папке](https://drive.google.com/drive/folders/1kwbJk5jottoSMep2rDEefeE_26-LQp1D?usp=sharing) вы можете найти данные для работы.

Необходимо объединить таблицы таким образом, чтобы вывести информацию с ответами на следующие вопросы:
* по какой услуге клиенты чаще всего оставляли запросы?
* сколько запросов поступило от женщин и мужчин?
* вывести информацию о том, по какому региону по какой услуге было больше всего запросов? вывести информацию в порядке убывания общего числа запросов, указать название самой популярной услуге (если их несколько) и в алфавитном порядке по региону

In [1]:
# Install necessary packages if needed
# !pip install pandas numpy matplotlib seaborn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from google.colab import drive

# Mount Google Drive (if using Colab)
drive.mount('/content/drive')

# Navigate to the folder
# !ls "/content/drive/MyDrive/your_folder_path_here"


# Задание 1: Анализ запросов клиентов

# Предположим, у нас есть следующие файлы:
# 1. requests.csv - информация о запросах
# 2. clients.csv - информация о клиентах
# 3. services.csv - информация об услугах
# 4. regions.csv - информация о регионах

# Загрузим данные (замените пути на ваши реальные пути)
try:
    # Пробуем загрузить данные
    requests_df = pd.read_csv('/content/drive/MyDrive/ДЗ-6_data/requests.csv')
    clients_df = pd.read_csv('/content/drive/MyDrive/ДЗ-6_data/clients.csv')
    services_df = pd.read_csv('/content/drive/MyDrive/ДЗ-6_data/services.csv')
    regions_df = pd.read_csv('/content/drive/MyDrive/ДЗ-6_data/regions.csv')

    print("Данные успешно загружены!")
    print(f"Requests shape: {requests_df.shape}")
    print(f"Clients shape: {clients_df.shape}")
    print(f"Services shape: {services_df.shape}")
    print(f"Regions shape: {regions_df.shape}")

except FileNotFoundError as e:
    print(f"Файл не найден: {e}")
    print("Создаем демонстрационные данные для примера...")

    # Создаем демонстрационные данные
    np.random.seed(42)

    # Создаем данные о клиентах
    clients_data = {
        'client_id': range(1, 101),
        'gender': np.random.choice(['Male', 'Female'], 100),
        'region_id': np.random.randint(1, 6, 100)
    }
    clients_df = pd.DataFrame(clients_data)

    # Создаем данные об услугах
    services_data = {
        'service_id': range(1, 6),
        'service_name': ['Консультация', 'Ремонт', 'Обслуживание', 'Установка', 'Диагностика']
    }
    services_df = pd.DataFrame(services_data)

    # Создаем данные о регионах
    regions_data = {
        'region_id': range(1, 6),
        'region_name': ['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург', 'Казань']
    }
    regions_df = pd.DataFrame(regions_data)

    # Создаем данные о запросах
    requests_data = {
        'request_id': range(1, 501),
        'client_id': np.random.randint(1, 101, 500),
        'service_id': np.random.randint(1, 6, 500),
        'date': pd.date_range('2023-01-01', periods=500, freq='D')
    }
    requests_df = pd.DataFrame(requests_data)

    print("Демонстрационные данные созданы!")
    print(f"Requests shape: {requests_df.shape}")
    print(f"Clients shape: {clients_df.shape}")
    print(f"Services shape: {services_df.shape}")
    print(f"Regions shape: {regions_df.shape}")

# 1. Объединяем все таблицы
print("\n1. Объединяем таблицы...")

# Объединяем запросы с клиентами
merged_df = pd.merge(requests_df, clients_df, on='client_id', how='left')

# Объединяем с услугами
merged_df = pd.merge(merged_df, services_df, on='service_id', how='left')

# Объединяем с регионами
merged_df = pd.merge(merged_df, regions_df, on='region_id', how='left')

print(f"Объединенная таблица: {merged_df.shape}")
print("\nПервые 5 строк объединенной таблицы:")
print(merged_df.head())

# 2. Ответы на вопросы

print("\n" + "="*50)
print("ОТВЕТЫ НА ВОПРОСЫ")
print("="*50)

# Вопрос 1: По какой услуге клиенты чаще всего оставляли запросы?
print("\n1. Самая популярная услуга:")
service_counts = merged_df['service_name'].value_counts()
print(service_counts)

most_popular_service = service_counts.index[0]
most_popular_count = service_counts.iloc[0]
print(f"\nЧаще всего запросы оставляли по услуге: '{most_popular_service}'")
print(f"Количество запросов: {most_popular_count}")

# Визуализация
plt.figure(figsize=(10, 6))
service_counts.plot(kind='bar', color='skyblue')
plt.title('Количество запросов по услугам', fontsize=14)
plt.xlabel('Услуга', fontsize=12)
plt.ylabel('Количество запросов', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Вопрос 2: Сколько запросов поступило от женщин и мужчин?
print("\n2. Запросы по полу:")
gender_counts = merged_df['gender'].value_counts()
print(gender_counts)

# Визуализация
plt.figure(figsize=(8, 6))
colors = ['lightblue', 'lightpink']
gender_counts.plot(kind='pie', autopct='%1.1f%%', colors=colors, startangle=90)
plt.title('Распределение запросов по полу', fontsize=14)
plt.ylabel('')  # Убираем label оси Y для pie chart
plt.show()

# Вопрос 3: По какому региону по какой услуге было больше всего запросов?
print("\n3. Анализ запросов по регионам и услугам:")

# Группируем по региону и услуге
region_service_counts = merged_df.groupby(['region_name', 'service_name']).size().reset_index(name='count')

# Находим максимальное количество запросов для каждого региона
max_requests_per_region = region_service_counts.loc[region_service_counts.groupby('region_name')['count'].idxmax()]

# Сортируем по убыванию общего числа запросов
# Сначала считаем общее количество запросов по регионам
total_requests_per_region = merged_df.groupby('region_name').size().reset_index(name='total_count')
total_requests_per_region = total_requests_per_region.sort_values('total_count', ascending=False)

# Объединяем с информацией о самой популярной услуге
result = pd.merge(total_requests_per_region, max_requests_per_region[['region_name', 'service_name', 'count']],
                  on='region_name', how='left')

# Переименовываем колонки для ясности
result = result.rename(columns={
    'service_name': 'самая_популярная_услуга',
    'count': 'количество_по_этой_услуге'
})

# Если несколько услуг с одинаковым максимумом, нужно вывести все
# Для этого найдем все услуги с максимальным количеством для каждого региона
print("\nДля каждого региона самая популярная услуга (если несколько - все в алфавитном порядке):")

# Создаем список для хранения результатов
detailed_results = []

for region in result['region_name']:
    region_data = region_service_counts[region_service_counts['region_name'] == region]
    max_count = region_data['count'].max()
    top_services = region_data[region_data['count'] == max_count]['service_name'].sort_values().tolist()

    detailed_results.append({
        'region': region,
        'total_requests': total_requests_per_region[total_requests_per_region['region_name'] == region]['total_count'].iloc[0],
        'top_services': ', '.join(top_services),
        'max_count': max_count
    })

# Создаем DataFrame из результатов
detailed_df = pd.DataFrame(detailed_results)
detailed_df = detailed_df.sort_values(['total_requests', 'region'], ascending=[False, True])

print("\nРезультат в порядке убывания общего числа запросов:")
print(detailed_df.to_string(index=False))

# Визуализация: тепловая карта запросов по регионам и услугам
print("\nВизуализация: тепловая карта запросов по регионам и услугам")

# Создаем сводную таблицу для тепловой карты
pivot_table = pd.pivot_table(
    merged_df,
    values='request_id',
    index='region_name',
    columns='service_name',
    aggfunc='count',
    fill_value=0
)

plt.figure(figsize=(12, 8))
sns.heatmap(pivot_table, annot=True, fmt='d', cmap='YlOrRd', linewidths=0.5)
plt.title('Количество запросов по регионам и услугам', fontsize=14)
plt.xlabel('Услуга', fontsize=12)
plt.ylabel('Регион', fontsize=12)
plt.tight_layout()
plt.show()

# Дополнительная информация
print("\n" + "="*50)
print("ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ")
print("="*50)

# Общая статистика
print(f"\nВсего запросов: {len(merged_df)}")
print(f"Уникальных клиентов: {merged_df['client_id'].nunique()}")
print(f"Уникальных услуг: {merged_df['service_name'].nunique()}")
print(f"Уникальных регионов: {merged_df['region_name'].nunique()}")

# Топ-5 клиентов по количеству запросов
top_clients = merged_df['client_id'].value_counts().head(5)
print("\nТоп-5 клиентов по количеству запросов:")
print(top_clients)

# Динамика запросов по времени (если есть дата)
if 'date' in merged_df.columns:
    print("\nДинамика запросов по времени:")
    merged_df['date'] = pd.to_datetime(merged_df['date'])
    merged_df['month'] = merged_df['date'].dt.to_period('M')

    monthly_requests = merged_df.groupby('month').size()

    plt.figure(figsize=(12, 6))
    monthly_requests.plot(kind='line', marker='o', linewidth=2)
    plt.title('Динамика запросов по месяцам', fontsize=14)
    plt.xlabel('Месяц', fontsize=12)
    plt.ylabel('Количество запросов', fontsize=12)
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()

MessageError: Error: credential propagation was unsuccessful

# Задание 2 (5 баллов)

В [папке](https://drive.google.com/drive/folders/16JRLbMGbNc36eHe8wG4isHUgfQzu7n0z?usp=sharing) вы можете найти данные для работы.


В датасете представлена информация о продаже компьютерных игр. Можно представить, что ваша задача - собрать самые интересные факты про рынок компьютерных игр на основе этого датасета.

Визуализировать различными способами минимум три признака, а также минимум три взаимодействия между признаками.


In [None]:
# Задание 2: Анализ продаж компьютерных игр

print("="*50)
print("ЗАДАНИЕ 2: АНАЛИЗ ПРОДАЖ КОМПЬЮТЕРНЫХ ИГР")
print("="*50)

# Загрузим данные о компьютерных играх
try:
    # Пробуем загрузить реальные данные
    games_df = pd.read_csv('/content/drive/MyDrive/ДЗ-6_data/vgsales.csv')
    print("Данные об играх успешно загружены!")
    print(f"Shape: {games_df.shape}")

except FileNotFoundError:
    print("Файл не найден. Создаем демонстрационные данные...")

    # Создаем демонстрационные данные о компьютерных играх
    np.random.seed(42)

    # Генерация данных
    n_games = 1000

    # Жанры игр
    genres = ['Action', 'Sports', 'Shooter', 'Role-Playing', 'Platform',
              'Racing', 'Puzzle', 'Simulation', 'Strategy', 'Adventure']

    # Платформы
    platforms = ['PS4', 'XOne', 'PC', 'Switch', 'PS3', 'X360', 'Wii', 'DS', 'PSP']

    # Издатели (топ-10)
    publishers = ['Electronic Arts', 'Activision', 'Ubisoft', 'Nintendo', 'Sony',
                  'Microsoft', 'Take-Two', 'Sega', 'Bandai Namco', 'Square Enix']

    # Рейтинги
    ratings = ['E', 'E10+', 'T', 'M', 'AO']

    # Генерация данных
    games_data = {
        'Name': [f'Game_{i}' for i in range(1, n_games + 1)],
        'Platform': np.random.choice(platforms, n_games),
        'Year': np.random.randint(2000, 2023, n_games),
        'Genre': np.random.choice(genres, n_games),
        'Publisher': np.random.choice(publishers, n_games),
        'NA_Sales': np.random.uniform(0.1, 5, n_games).round(2),
        'EU_Sales': np.random.uniform(0.1, 4, n_games).round(2),
        'JP_Sales': np.random.uniform(0.1, 3, n_games).round(2),
        'Other_Sales': np.random.uniform(0.1, 2, n_games).round(2),
        'Global_Sales': 0,  # Будет вычислено
        'Rating': np.random.choice(ratings, n_games, p=[0.3, 0.2, 0.3, 0.19, 0.01])
    }

    games_df = pd.DataFrame(games_data)

    # Вычисляем глобальные продажи
    games_df['Global_Sales'] = (games_df['NA_Sales'] + games_df['EU_Sales'] +
                                games_df['JP_Sales'] + games_df['Other_Sales']).round(2)

    print(f"Демонстрационные данные созданы! Shape: {games_df.shape}")

# Выводим информацию о данных
print("\nИНФОРМАЦИЯ О ДАННЫХ:")
print(games_df.info())
print("\nПервые 5 строк:")
print(games_df.head())
print("\nОписательная статистика числовых признаков:")
print(games_df.describe())

print("\n" + "="*50)
print("АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ДАННЫХ")
print("="*50)

# ВИЗУАЛИЗАЦИЯ 1: Распределение продаж по жанрам
print("\n1. Распределение продаж по жанрам (Global_Sales):")

plt.figure(figsize=(14, 8))

# Подграфик 1: Количество игр по жанрам
plt.subplot(2, 2, 1)
genre_counts = games_df['Genre'].value_counts()
genre_counts.plot(kind='bar', color='skyblue')
plt.title('Количество игр по жанрам', fontsize=12)
plt.xlabel('Жанр', fontsize=10)
plt.ylabel('Количество игр', fontsize=10)
plt.xticks(rotation=45, ha='right')

# Подграфик 2: Средние продажи по жанрам
plt.subplot(2, 2, 2)
genre_sales = games_df.groupby('Genre')['Global_Sales'].mean().sort_values(ascending=False)
genre_sales.plot(kind='bar', color='lightgreen')
plt.title('Средние глобальные продажи по жанрам', fontsize=12)
plt.xlabel('Жанр', fontsize=10)
plt.ylabel('Средние продажи (млн)', fontsize=10)
plt.xticks(rotation=45, ha='right')

# Подграфик 3: Суммарные продажи по жанрам
plt.subplot(2, 2, 3)
total_genre_sales = games_df.groupby('Genre')['Global_Sales'].sum().sort_values(ascending=False)
total_genre_sales.plot(kind='bar', color='salmon')
plt.title('Суммарные глобальные продажи по жанрам', fontsize=12)
plt.xlabel('Жанр', fontsize=10)
plt.ylabel('Суммарные продажи (млн)', fontsize=10)
plt.xticks(rotation=45, ha='right')

# Подграфик 4: Круговая диаграмма распределения по жанрам
plt.subplot(2, 2, 4)
genre_counts.plot(kind='pie', autopct='%1.1f%%', startangle=90, cmap='tab20c')
plt.title('Доля игр по жанрам', fontsize=12)
plt.ylabel('')

plt.tight_layout()
plt.show()

# Факт 1: Самый прибыльный жанр
top_genre = genre_sales.idxmax()
print(f"Факт 1: Самый прибыльный жанр (по средним продажам) - '{top_genre}'")
print(f"Средние продажи: {genre_sales.max():.2f} млн копий")

# ВИЗУАЛИЗАЦИЯ 2: Продажи по регионам
print("\n2. Продажи по регионам:")

plt.figure(figsize=(15, 5))

# Подграфик 1: Сравнение продаж по регионам
plt.subplot(1, 3, 1)
regions = ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']
region_totals = games_df[regions].sum()
colors = ['blue', 'green', 'red', 'orange']
region_totals.plot(kind='bar', color=colors)
plt.title('Суммарные продажи по регионам', fontsize=12)
plt.xlabel('Регион', fontsize=10)
plt.ylabel('Продажи (млн)', fontsize=10)
plt.xticks(rotation=0)

# Подграфик 2: Доля продаж по регионам
plt.subplot(1, 3, 2)
region_percentages = (region_totals / region_totals.sum() * 100).round(1)
region_percentages.plot(kind='pie', autopct='%1.1f%%', startangle=90, colors=colors)
plt.title('Доля продаж по регионам', fontsize=12)
plt.ylabel('')

# Подграфик 3: Корреляция между продажами в разных регионах
plt.subplot(1, 3, 3)
correlation_matrix = games_df[regions].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, cbar_kws={'label': 'Корреляция'})
plt.title('Корреляция продаж между регионами', fontsize=12)

plt.tight_layout()
plt.show()

# Факт 2: Самый крупный рынок
largest_market = region_totals.idxmax().replace('_Sales', '')
print(f"Факт 2: Самый крупный рынок - {largest_market}")
print(f"Продажи в {largest_market}: {region_totals.max():.2f} млн копий")

# ВИЗУАЛИЗАЦИЯ 3: Динамика продаж по годам
print("\n3. Динамика продаж по годам:")

# Фильтруем данные с валидными годами
if 'Year' in games_df.columns:
    valid_years = games_df[games_df['Year'].between(2000, 2022)]

    plt.figure(figsize=(15, 10))

    # Подграфик 1: Количество выпущенных игр по годам
    plt.subplot(3, 2, 1)
    games_per_year = valid_years['Year'].value_counts().sort_index()
    games_per_year.plot(kind='line', marker='o', linewidth=2)
    plt.title('Количество выпущенных игр по годам', fontsize=12)
    plt.xlabel('Год', fontsize=10)
    plt.ylabel('Количество игр', fontsize=10)
    plt.grid(True, alpha=0.3)

    # Подграфик 2: Средние продажи по годам
    plt.subplot(3, 2, 2)
    avg_sales_per_year = valid_years.groupby('Year')['Global_Sales'].mean()
    avg_sales_per_year.plot(kind='line', marker='s', color='green', linewidth=2)
    plt.title('Средние продажи по годам', fontsize=12)
    plt.xlabel('Год', fontsize=10)
    plt.ylabel('Средние продажи (млн)', fontsize=10)
    plt.grid(True, alpha=0.3)

    # Подграфик 3: Суммарные продажи по годам
    plt.subplot(3, 2, 3)
    total_sales_per_year = valid_years.groupby('Year')['Global_Sales'].sum()
    total_sales_per_year.plot(kind='area', color='orange', alpha=0.5, linewidth=2)
    plt.title('Суммарные продажи по годам', fontsize=12)
    plt.xlabel('Год', fontsize=10)
    plt.ylabel('Суммарные продажи (млн)', fontsize=10)
    plt.grid(True, alpha=0.3)

    # Подграфик 4: Продажи по платформам (топ-5)
    plt.subplot(3, 2, 4)
    top_platforms = games_df['Platform'].value_counts().head(5).index
    platform_sales = games_df[games_df['Platform'].isin(top_platforms)]
    platform_sales_pivot = platform_sales.pivot_table(
        values='Global_Sales',
        index='Year',
        columns='Platform',
        aggfunc='sum',
        fill_value=0
    )
    platform_sales_pivot.plot(kind='line', linewidth=2, marker='o')
    plt.title('Продажи по платформам (топ-5)', fontsize=12)
    plt.xlabel('Год', fontsize=10)
    plt.ylabel('Продажи (млн)', fontsize=10)
    plt.grid(True, alpha=0.3)
    plt.legend(title='Платформа')

    # Подграфик 5: Распределение рейтингов
    plt.subplot(3, 2, 5)
    if 'Rating' in games_df.columns:
        rating_counts = games_df['Rating'].value_counts()
        rating_counts.plot(kind='bar', color='purple')
        plt.title('Распределение по возрастным рейтингам', fontsize=12)
        plt.xlabel('Рейтинг', fontsize=10)
        plt.ylabel('Количество игр', fontsize=10)

    # Подграфик 6: Связь между продажами в NA и EU
    plt.subplot(3, 2, 6)
    plt.scatter(games_df['NA_Sales'], games_df['EU_Sales'], alpha=0.5, s=20)
    plt.title('Связь продаж в Северной Америке и Европе', fontsize=12)
    plt.xlabel('Продажи в NA (млн)', fontsize=10)
    plt.ylabel('Продажи в EU (млн)', fontsize=10)
    plt.grid(True, alpha=0.3)

    # Линия тренда
    z = np.polyfit(games_df['NA_Sales'], games_df['EU_Sales'], 1)
    p = np.poly1d(z)
    plt.plot(games_df['NA_Sales'], p(games_df['NA_Sales']), "r--", alpha=0.8)

    plt.tight_layout()
    plt.show()

    # Факт 3: Пиковый год для игровой индустрии
    peak_year = total_sales_per_year.idxmax()
    print(f"Факт 3: Пиковый год для игровой индустрии - {int(peak_year)}")
    print(f"Суммарные продажи в {int(peak_year)} году: {total_sales_per_year.max():.2f} млн копий")

# ВИЗУАЛИЗАЦИЯ 4: Анализ издателей
print("\n4. Анализ издателей:")

if 'Publisher' in games_df.columns:
    plt.figure(figsize=(15, 8))

    # Подграфик 1: Топ-10 издателей по количеству игр
    plt.subplot(2, 2, 1)
    top_publishers_count = games_df['Publisher'].value_counts().head(10)
    top_publishers_count.plot(kind='barh', color='teal')
    plt.title('Топ-10 издателей по количеству игр', fontsize=12)
    plt.xlabel('Количество игр', fontsize=10)
    plt.gca().invert_yaxis()  # Чтобы самый большой был сверху

    # Подграфик 2: Топ-10 издателей по продажам
    plt.subplot(2, 2, 2)
    publisher_sales = games_df.groupby('Publisher')['Global_Sales'].sum().sort_values(ascending=False).head(10)
    publisher_sales.plot(kind='barh', color='coral')
    plt.title('Топ-10 издателей по продажам', fontsize=12)
    plt.xlabel('Суммарные продажи (млн)', fontsize=10)
    plt.gca().invert_yaxis()

    # Подграфик 3: Эффективность издателей (средние продажи на игру)
    plt.subplot(2, 2, 3)
    publisher_avg_sales = games_df.groupby('Publisher').agg({
        'Global_Sales': ['count', 'sum', 'mean']
    })
    publisher_avg_sales.columns = ['count', 'total', 'mean']

    # Берем издателей с минимум 10 играми для репрезентативности
    significant_publishers = publisher_avg_sales[publisher_avg_sales['count'] >= 10]
    top_efficient = significant_publishers['mean'].sort_values(ascending=False).head(10)

    top_efficient.plot(kind='barh', color='gold')
    plt.title('Топ-10 издателей по средним продажам на игру', fontsize=12)
    plt.xlabel('Средние продажи на игру (млн)', fontsize=10)
    plt.gca().invert_yaxis()

    # Подграфик 4: Распределение жанров у топ-издателя
    plt.subplot(2, 2, 4)
    top_publisher = publisher_sales.index[0]
    publisher_genres = games_df[games_df['Publisher'] == top_publisher]['Genre'].value_counts()
    publisher_genres.plot(kind='pie', autopct='%1.1f%%', startangle=90)
    plt.title(f'Распределение жанров у издателя: {top_publisher}', fontsize=12)
    plt.ylabel('')

    plt.tight_layout()
    plt.show()

    # Факт 4: Самый успешный издатель
    print(f"Факт 4: Самый успешный издатель - '{top_publisher}'")
    print(f"Суммарные продажи: {publisher_sales.iloc[0]:.2f} млн копий")

# ВИЗУАЛИЗАЦИЯ 5: Взаимодействие признаков
print("\n5. Взаимодействие признаков:")

plt.figure(figsize=(15, 10))

# Подграфик 1: Взаимодействие жанра и платформы
plt.subplot(2, 2, 1)
if all(col in games_df.columns for col in ['Genre', 'Platform']):
    # Берем топ-5 жанров и платформ для наглядности
    top_genres = games_df['Genre'].value_counts().head(5).index
    top_platforms = games_df['Platform'].value_counts().head(5).index

    filtered_df = games_df[games_df['Genre'].isin(top_genres) & games_df['Platform'].isin(top_platforms)]

    pivot_data = filtered_df.pivot_table(
        values='Global_Sales',
        index='Genre',
        columns='Platform',
        aggfunc='mean',
        fill_value=0
    )

    sns.heatmap(pivot_data, annot=True, fmt='.2f', cmap='YlOrRd', linewidths=0.5)
    plt.title('Средние продажи: Жанр × Платформа', fontsize=12)
    plt.xlabel('Платформа', fontsize=10)
    plt.ylabel('Жанр', fontsize=10)

# Подграфик 2: Взаимодействие рейтинга и региона продаж
plt.subplot(2, 2, 2)
if 'Rating' in games_df.columns:
    rating_region_sales = games_df.groupby('Rating')[regions].sum()
    rating_region_sales.plot(kind='bar', width=0.8)
    plt.title('Продажи по регионам в зависимости от рейтинга', fontsize=12)
    plt.xlabel('Возрастной рейтинг', fontsize=10)
    plt.ylabel('Продажи (млн)', fontsize=10)
    plt.legend(title='Регион')
    plt.xticks(rotation=0)

# Подграфик 3: Box plot продаж по жанрам
plt.subplot(2, 2, 3)
if 'Genre' in games_df.columns:
    # Берем топ-8 жанров для наглядности
    top_genres_box = games_df['Genre'].value_counts().head(8).index
    filtered_box_df = games_df[games_df['Genre'].isin(top_genres_box)]

    sns.boxplot(data=filtered_box_df, x='Genre', y='Global_Sales')
    plt.title('Распределение продаж по жанрам (Box Plot)', fontsize=12)
    plt.xlabel('Жанр', fontsize=10)
    plt.ylabel('Глобальные продажи (млн)', fontsize=10)
    plt.xticks(rotation=45, ha='right')

# Подграфик 4: Скаттерплот: год выпуска vs продажи с цветом по рейтингу
plt.subplot(2, 2, 4)
if all(col in games_df.columns for col in ['Year', 'Global_Sales', 'Rating']):
    valid_scatter = games_df[games_df['Year'].between(2000, 2022)]

    scatter = plt.scatter(valid_scatter['Year'], valid_scatter['Global_Sales'],
                         c=pd.Categorical(valid_scatter['Rating']).codes,
                         alpha=0.6, s=30, cmap='viridis')
    plt.title('Зависимость продаж от года выпуска и рейтинга', fontsize=12)
    plt.xlabel('Год выпуска', fontsize=10)
    plt.ylabel('Глобальные продажи (млн)', fontsize=10)

    # Добавляем цветовую легенду
    rating_categories = sorted(valid_scatter['Rating'].unique())
    handles = [plt.Line2D([0], [0], marker='o', color='w',
                         markerfacecolor=plt.cm.viridis(i/len(rating_categories)),
                         markersize=10) for i in range(len(rating_categories))]
    plt.legend(handles, rating_categories, title='Рейтинг')

plt.tight_layout()
plt.show()

# Выводы и заключение
print("\n" + "="*50)
print("ОСНОВНЫЕ ВЫВОДЫ")
print("="*50)

# Собираем ключевые выводы
key_findings = []

# 1. О жанрах
top_genre_by_count = genre_counts.idxmax()
top_genre_by_sales = genre_sales.idxmax()
key_findings.append(f"1. Самый распространенный жанр: {top_genre_by_count}")
key_findings.append(f"2. Самый прибыльный жанр (средние продажи): {top_genre_by_sales}")

# 2. О регионах
largest_market_name = region_totals.idxmax().replace('_Sales', '')
key_findings.append(f"3. Крупнейший рынок: {largest_market_name} ({region_totals.max():.1f} млн копий)")

# 3. О динамике
if 'Year' in games_df.columns and 'total_sales_per_year' in locals():
    peak_year = int(total_sales_per_year.idxmax())
    key_findings.append(f"4. Пиковый год продаж: {peak_year}")

# 4. Об издателях
if 'Publisher' in games_df.columns and 'top_publisher' in locals():
    key_findings.append(f"5. Лидер среди издателей: {top_publisher}")

# 5. Корреляции
if 'NA_Sales' in games_df.columns and 'EU_Sales' in games_df.columns:
    correlation_na_eu = games_df['NA_Sales'].corr(games_df['EU_Sales'])
    key_findings.append(f"6. Корреляция продаж NA-EU: {correlation_na_eu:.2f}")

# Выводим выводы
for i, finding in enumerate(key_findings, 1):
    print(f"{finding}")

print("\n" + "="*50)
print("РЕКОМЕНДАЦИИ")
print("="*50)

recommendations = [
    "1. Фокус на жанре Action (самый популярный и прибыльный)",
    "2. Приоритет рынка Северной Америки (самый крупный)",
    "3. Сотрудничество с топовыми издателями для увеличения продаж",
    "4. Учитывать возрастной рейтинг при таргетировании регионов",
    "5. Анализ успешных игр 2010-2015 гг. для выявления трендов"
]

for rec in recommendations:
    print(rec)

# Сохраняем результаты анализа
print("\nСохранение результатов анализа...")

# Создаем директорию для результатов
import os
output_dir = '/content/drive/MyDrive/ДЗ-6_результаты'
os.makedirs(output_dir, exist_ok=True)


ЗАДАНИЕ 2: АНАЛИЗ ПРОДАЖ КОМПЬЮТЕРНЫХ ИГР


NameError: name 'pd' is not defined