<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
Команда игры «Секреты Темнолесья» ищет способы привлечь новую аудиторию. Одним из них является публикация статьи о развитии индустрии игр в начале XXI века, плавно подводящая к игре «Секреты Темнолесья». В статье-исследовании необходим обзор игровых платформ, изучение объёмов продаж игр разных жанров и региональные предпочтения игроков — акцент на играх жанра RPG, изучение развития игровой индустрии с 2000 по 2013 год на основе исторических данных, собранных из открытых источников. Эти данные содержат информацию о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр
</div>

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
Задача проекта - получить рабочий срез данных (изучим исходные данные, проверим их корректность и проведем предобработку)
</div>

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
<h1>Структура работы:</h1>
<p>1. Загрузка и знакомство с данными </p>
<p>2. Проверка ошибок в данных и их предобработка: <p>
    <li>2.1 Названия, или метки, столбцов датафрейма 
    <li>2.2 Наличие пропусков в данных
    <li>2.3 Типы данных
    <li>2.4 Явные и неявные дубликаты в данных <p>
        
<p>3. Фильтрация данных<p>
<p>4. Категоризация данных:<p>
    <li>4.1 Оценки пользователей
    <li>4.2 Оценки критиков
    <li>4.3 Топ-7 платформ
    </div>

1. Загрузка и знакомство с данными

In [2]:
import pandas as pd

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [5]:
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Были загружены данные new_games.csv Они содержат 11 столбцов и 16956 строк, в которых представлена информация о о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. При первичном знакомстве с данными и их предобработкой получены следующие результаты:
- в шести столбцах ('Name', 'Year of Release', 'Genre', 'Critic Score', 'User Score', 'Rating') были обнаружены пропущенные значения;
- типы данных некоторых столбцов, необходимо оптимизировать (например 'Year of Release');
- необходимо также привести названия столбцов к единому стилю snake case;
- выполнить предобработку данных в части пропусков

2. Проверка ошибок в данных и их предобработка

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
Для самопроверки и отслеживания изменений создадим переменные, считающее количество строк и пропусков - до начала предобработки
</div>


In [6]:
# Статистика до преобразований
initial_rows = df.shape[0]
initial_na_count = df.isna().sum()

2.1 Названия, или метки, столбцов датафрейма:

- выведем названия колонок списком:

In [7]:
list(df.columns)

['Name',
 'Platform',
 'Year of Release',
 'Genre',
 'NA sales',
 'EU sales',
 'JP sales',
 'Other sales',
 'Critic Score',
 'User Score',
 'Rating']

- приведем названия колонок к стилю snake case:

In [8]:
df = df.rename(columns={'EU sales': 'EU_sales',
                        'Year of Release': 'year_of_release',
                        'NA sales': 'NA_sales',
                        'JP sales' : 'JP_sales',
                        'Other sales' : 'other_sales',
                        'Critic Score' : 'critic_score',
                        'User Score' : 'user_score',
                        'Platform' : 'platform',
                        'Genre' : 'genre',
                        'Rating' : 'rating',
                        'Name': 'name'})

- проверяем, что наименования столбцов действительно изменились:

In [9]:
list(df.columns)

['name',
 'platform',
 'year_of_release',
 'genre',
 'NA_sales',
 'EU_sales',
 'JP_sales',
 'other_sales',
 'critic_score',
 'user_score',
 'rating']

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
Все столбцы успешно приведены к стилю написания snake_case
</div>

2.2 Наличие пропусков в данных:

- количество пропущенных строк в датафрейме в абсолюных значениях:

In [10]:
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
NA_sales              0
EU_sales              0
JP_sales              0
other_sales           0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

- количество пропущенных строк в датафрейме в относительных значениях:

In [11]:
columns = ['name', 'year_of_release', 'genre', 'critic_score', 'user_score', 'rating']

In [13]:
(df[columns].isna().mean() * 100).sort_values(ascending=False).round(2)

critic_score       51.39
rating             40.52
user_score         40.13
year_of_release     1.62
name                0.01
genre               0.01
dtype: float64

Колонка ‘critic_score ‘ (оценка критиков) больше чем наполовину оказалась не заполнена. Предположим, это могло произойти по вполне объяснимой причине отсутствия рецензий на игру критиков от изданий (небольшие проекты, недостаточно внимания к проекту). Вариант объясняющий это недавним релизом игры не рассматриваем, ведь разброс отсутствия оценок неравномерно распределен по году их выпуска. Возможно также из-за того что данные собраны по задумке проекта коллегами вручную из открытых источников, их просто не было. В данном случае считаю что лучшим вариантом, будет заполнить пропуски ‘NaN’ будут заполнены в зависимости от аналогичных совпадений по колонкам жанра игры 'genre', платформы на которой она была выпущена 'platform' и года выпуска 'year_of_release', дабы не потерять важные данные при аргументации в статье

Третья по показателю пропусков колонка ‘user_score’ (оценка пользователей), по полученным данным отсутствует около 40% значений! Эти показатели не менее важны, поэтому ее пропуски будут заполнены в зависимости от аналогичных совпадений по колонкам жанра игры 'genre', платформы на которой она была выпущена 'platform' и года выпуска 'year_of_release'

Показатели колонки два ‘rating’ (рейтинг организации ESRB) нуждаются в дополнительном пояснении. В контексте изучения коллегами исторических данных игровой индустрии, данные этой колонки будут вспомогательным и как мне кажется необязательным элементом при анализе игр. Однако считаю, для полноты исследования сохраним их. К тому же терять 40% данных нецелесообразно. Заполнить пропуски нулевыми значениями будет неправильно, необходимо присвоить категорию ESRB - RP, Rating Pending (используется в рекламных материалах для игр, которым ещё не присвоен окончательный рейтинг ESRB) или соответствующую, но с учетом аналогичных данных для других колонок по жанру игры 'genre', платформы на которой она была выпущена 'platform' и года выпуска 'year_of_release'

С показателями пропусков колонок ‘year_of_release’, ‘name’, ‘genre’ поступим иначе и удалим. Они составляют около 1% от всех данных и не повлияют на результат исследования

In [14]:
df.dropna(subset=['year_of_release', 'name', 'genre'], inplace=True)

In [15]:
print("Пропуски до обработки:")
print(df[['rating', 'critic_score', 'user_score']].isna().sum())

Пропуски до обработки:
rating          6778
critic_score    8594
user_score      6705
dtype: int64


Заполним пропуски для ['rating']

In [16]:
def fill_missing_ratings(df):
    # Функция для заполнения пропусков
    def fill_rating(row):
        if pd.isna(row['rating']):
            # Ищем другие значения в той же группе
            group = df[
                (df['genre'] == row['genre']) &
                (df['platform'] == row['platform']) &
                (df['year_of_release'] == row['year_of_release'])
            ]
            
            # Если есть другие значения в группе
            if not group['rating'].isna().all():
                return group['rating'].dropna().iloc[0]
            else:
                return 'RP'
        return row['rating']
    
    # Применяем функцию к каждой строке
    df['rating'] = df.apply(fill_rating, axis=1)
    
    return df

# Применение функции
df = fill_missing_ratings(df)

Заполним пропуски для ['user_score'], но учтем что в уникальных значениях колонки, содержатся строки 'tbd' (предположим - to be determined), их тоже необходимо заполнить

In [17]:
def fill_missing_scores(df):
    # Преобразуем значения в числовой формат и заменяем 'tbd' на NaN
    df['user_score'] = pd.to_numeric(df['user_score'].replace('tbd', None), errors='coerce')
    
    # Сохраняем групповые средние
    group_means = df.groupby(['genre', 'platform', 'year_of_release'])['user_score'].transform('mean')
    
    # Сохраняем словарь групповых средних
    group_means_dict = df.groupby(['genre', 'platform', 'year_of_release'])['user_score'].mean().to_dict()
    
    # Заполняем пропуски групповыми средними
    df['user_score'] = df['user_score'].fillna(group_means)
    
    # Сохраняем глобальное среднее
    global_mean = df['user_score'].mean()
    
    # Заполняем оставшиеся пропуски глобальным средним
    df['user_score'] = df['user_score'].fillna(global_mean)
    
    return df

# Применение функции
df = fill_missing_scores(df)  

Заполним пропуски для ['critic_score']

In [18]:
def fill_missing_scores(df):
    # Преобразуем значения в числовой формат
    df['critic_score'] = pd.to_numeric(df['critic_score'], errors='coerce')
    
    # Сохраняем групповые средние
    group_means = df.groupby(['genre', 'platform', 'year_of_release'])['critic_score'].transform('mean')
    
    # Заполняем пропуски групповыми средними
    df['critic_score'] = df['critic_score'].fillna(group_means)
    
    # Сохраняем глобальное среднее
    global_mean = df['critic_score'].mean()
    
    # Заполняем оставшиеся пропуски глобальным средним
    df['critic_score'] = df['critic_score'].fillna(global_mean)
    
    return df

# Применение функции
df = fill_missing_scores(df)

In [19]:
print("Пропуски после обработки:")
print(df[['rating', 'critic_score', 'user_score']].isna().sum())

Пропуски после обработки:
rating          0
critic_score    0
user_score      0
dtype: int64


Убедимся, что после обработки значений пропусков нет:

In [20]:
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
NA_sales           0
EU_sales           0
JP_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

2.3 Типы данных:

- проверим встречаются ли некорректные типы данных и проведем их преобразование в случае необходимости:

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   NA_sales         16679 non-null  float64
 5   EU_sales         16679 non-null  object 
 6   JP_sales         16679 non-null  object 
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(5), object(6)
memory usage: 1.5+ MB


Оптимизируем типы данных в столбцах с понижением разрядности:

- platform - object: преобразуем в категорию, так как это ограниченный набор значений;
- year_of_release - int64: оптимизируем до int16, так как диапазон лет ограничен;
- genre - object: аналогично платформе преобразуем в категорию, ведь это ограниченный набор значений;
- NA_sales - float64: попробуем понизить до float32;
- EU_sales - object: очевидно должен быть числовым, попробуем преобразовать в float32;
- JP_sales - object: также попробуем преобразовать в float32;
- other_sales - float64: попробуем понизить до float32;
- critic_score - float64: преобразуем в int8, так как оценки критиков целые числа и варьируются от 0 до 100;
- user_score - object: преобразуем в float16;
- rating - object: преобразуем в категорию, так как рейтинг  в данном случае строго ограничен

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
необходимо понимать, что комментарий выше для числовых значений стоит рассматривать как ожидаемый результат после автоподбора с понижением разрядности
</div>

In [22]:
# Преобразование названий в строковый тип
df['name'] = df['name'].astype('string')

# Преобразование категориальных переменных
df['platform'] = df['platform'].astype('category')
df['genre'] = df['genre'].astype('category')
df['rating'] = df['rating'].astype('category')

# Преобразуем напрямую, так как точно знаем что там только год
df['year_of_release'] = df['year_of_release'].astype('int16')

#Преобразуем напрямую оценки критиков, так как диапазон известен
df['critic_score'] = df['critic_score'].astype('int8')

# Преобразование числовых типов с применением автоматического выбора пониженного разряда
df['other_sales'] = pd.to_numeric(df['other_sales'], downcast='float')
df['NA_sales'] = pd.to_numeric(df['NA_sales'], downcast='float')
df['EU_sales'] = pd.to_numeric(df['EU_sales'], errors='coerce', downcast='float')
df['JP_sales'] = pd.to_numeric(df['JP_sales'], errors='coerce', downcast='float')
df['user_score'] = pd.to_numeric(df['user_score'], downcast='float')

В ходе преобразования числовых типов колонок ['EU_sales'] и ['JP_sales'] происходит ошибка, это говорит о наличии не числовых данных в них, но это и не NaN - так как мы уже проставили их ранее, поэтому игнорируя ошибку и проверяем: преобразование прошло успешно, значит заменим проблемные строки в колонках медианными значениями и проверим количество строк выведя информацию о датафрейме


In [23]:
df['EU_sales'] = df['EU_sales'].fillna(df['EU_sales'].median())
df['JP_sales'] = df['JP_sales'].fillna(df['JP_sales'].median())

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16679 non-null  string  
 1   platform         16679 non-null  category
 2   year_of_release  16679 non-null  int16   
 3   genre            16679 non-null  category
 4   NA_sales         16679 non-null  float32 
 5   EU_sales         16679 non-null  float32 
 6   JP_sales         16679 non-null  float32 
 7   other_sales      16679 non-null  float32 
 8   critic_score     16679 non-null  int8    
 9   user_score       16679 non-null  float32 
 10  rating           16679 non-null  category
dtypes: category(3), float32(5), int16(1), int8(1), string(1)
memory usage: 686.5 KB


2.4 Явные и неявные дубликаты в данных:

- нормализуем текстовые данные приведя их к единому регистру:

In [25]:
# Приводим названия игр к нижнему регистру
df['name'] = df['name'].str.lower()

# Приводим жанры к нижнему регистру
df['genre'] = df['genre'].str.lower()

# Приводим платформы к верхнему регистру
df['platform'] = df['platform'].str.upper()

# Приводим рейтинги к верхнему регистру
df['rating'] = df['rating'].str.upper()

# Проверка результатов
print("Проверка формата данных:")
print(f"Название: {df['name'].head(1)}")
print(f"Жанр: {df['genre'].head(1)}")
print(f"Платформа: {df['platform'].head(1)}")
print(f"Рейтинг: {df['rating'].head(1)}")

Проверка формата данных:
Название: 0    wii sports
Name: name, dtype: string
Жанр: 0    sports
Name: genre, dtype: object
Платформа: 0    WII
Name: platform, dtype: object
Рейтинг: 0    E
Name: rating, dtype: object


In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  string 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   NA_sales         16679 non-null  float32
 5   EU_sales         16679 non-null  float32
 6   JP_sales         16679 non-null  float32
 7   other_sales      16679 non-null  float32
 8   critic_score     16679 non-null  int8   
 9   user_score       16679 non-null  float32
 10  rating           16679 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(3), string(1)
memory usage: 1.0+ MB


In [27]:
# Статистика после предобработки данных
final_rows = df.shape[0]
rows_removed = initial_rows - final_rows
percent_removed = (rows_removed / initial_rows) * 100

print(f'В процессе обработки данных было удалено {rows_removed} строк, что составляет примерно {percent_removed:.2f}% от общего объема данных')
print(f'- Все столбцы после обработки имеют одинаковое количество значений ({final_rows})')
print(f'- Общее количество строк уменьшилось на {rows_removed}')

В процессе обработки данных было удалено 277 строк, что составляет примерно 1.63% от общего объема данных
- Все столбцы после обработки имеют одинаковое количество значений (16679)
- Общее количество строк уменьшилось на 277


3. Фильтрация данных

Для изучения истории продаж игр в начале XXI века, отфильтруем данные по кретерию период с 2000 по 2013 год включительно. Новый срез данных сохраним в датафрейме - df_actual:


In [28]:
# Создание нового датафрейма с данными за период 2000-2013
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]

# Проверка распределения по годам
print("\nРаспределение игр по годам:")
print(df_actual['year_of_release'].value_counts().sort_index())



Распределение игр по годам:
year_of_release
2000     357
2001     491
2002     839
2003     789
2004     771
2005     950
2006    1020
2007    1218
2008    1445
2009    1450
2010    1279
2011    1149
2012     670
2013     552
Name: count, dtype: int64


4. Категоризация данных

In [29]:
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12980 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12980 non-null  string 
 1   platform         12980 non-null  object 
 2   year_of_release  12980 non-null  int16  
 3   genre            12980 non-null  object 
 4   NA_sales         12980 non-null  float32
 5   EU_sales         12980 non-null  float32
 6   JP_sales         12980 non-null  float32
 7   other_sales      12980 non-null  float32
 8   critic_score     12980 non-null  int8   
 9   user_score       12980 non-null  float32
 10  rating           12980 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(3), string(1)
memory usage: 798.6+ KB


4.1 Оценки пользователей:

Разделим все игры по оценкам пользователей и выделим категории: 
- высокая оценка (от 8 до 10 включительно);
- средняя оценка (от 3 до 8, не включая правую границу интервала);
- низкая оценка (от 0 до 3, не включая правую границу интервала):

In [30]:
# Создаем копию DataFrame, чтобы избежать предостережения
df_actual = df_actual.copy()

# Создаем категории
df_actual['user_rating_category'] = pd.cut(
    df_actual['user_score'],
    bins=[0, 3, 8, 10],
    labels=['низкая', 'средняя', 'высокая'],
    right=False
)

# Выводим распределение по категориям
print("\nРаспределение игр по категориям оценок:")
print(df_actual['user_rating_category'].value_counts())


Распределение игр по категориям оценок:
user_rating_category
средняя    9766
высокая    3082
низкая      132
Name: count, dtype: int64


4.2 Оценки критиков

Разделим все игры по оценкам критиков и выделим категории:
- высокая оценка (от 80 до 100 включительно);
- средняя оценка (от 30 до 80, не включая правую границу интервала);
- низкая оценка (от 0 до 30, не включая правую границу интервала):

In [31]:
# Создаем категории оценок критиков
df_actual['critic_rating_category'] = pd.cut(
    df_actual['critic_score'],
    bins=[0, 30, 80, 100],
    labels=['низкая', 'средняя', 'высокая'],
    right=False
)

# Проверяем распределение
print("Распределение игр по оценкам критиков:")
print(df_actual['critic_rating_category'].value_counts())

Распределение игр по оценкам критиков:
critic_rating_category
средняя    11098
высокая     1822
низкая        60
Name: count, dtype: int64


4.3 Топ-7 платформ

Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период:

In [32]:
# Подсчитываем количество игр по каждой платформе
platform_counts = df_actual['platform'].value_counts()

# Выводим топ-7 платформ
top_platforms = platform_counts.head(7)
print("Топ-7 платформ по количеству игр:")
print(top_platforms)

Топ-7 платформ по количеству игр:
platform
PS2     2154
DS      2146
WII     1294
PSP     1199
X360    1138
PS3     1107
GBA      826
Name: count, dtype: int64


<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
Заключение по категоризации данных:
<li> проведен анализ распределения игр по категориям пользовательских оценок
<li> исследовано распределение игр по оценкам критиков
<li> определен топ-7 платформ по количеству выпущенных игр<p>
    
Полученные результаты пользовательских оценок говорят о том, что средняя категория доминирует с 9766 играми <p>
Оценки критиков также в большинстве своем расположились в средней категории 11098 игр <p>
В обоих случаях (пользовательские и критические оценки) большинство игр попадает в среднюю категорию, однако высокая оценка встречается значительно реже, чем средняя

Несколько слов о платформах - лидирующая группа безусловно PS2 и DS (речь о Nintendo DS) с практически одинаковым количеством игр 2154 и 2146 соответственно, лидирующие платформы показывают практически идентичные результаты, платформы Sony и Nintendo доминируют на рынке
</div> 

<div style="background-color: #D8E8E9; color: #333333; padding: 20px; border: 1px solid #A8D0DA;">
<h1>Заключение</h1>
Цель исследования заключалась в анализе развития игровой индустрии начала XXI века для создания статьи, направленной на привлечение новой аудитории к игре «Секреты Темнолесья». <p>
В ходе работы был проведен анализ исторических данных игровой индустрии за период с 2000 по 2013 год. <p>
Временной анализ показал динамику роста количества игр: от 357 в 2000 году до пика в 1450 игр в 2009 году.<p>
Оценка качества выявила, что большинство игр получили средние оценки как от пользователей (9766 игр), так и от критиков (11098 игр).<p>
Платформенный анализ определил лидеров рынка: PlayStation 2 и Nintendo DS с более чем 2000 игр каждая.<p>
Особое внимание было уделено работе с неполными данными:<p>
<li>разработана методика заполнения пропусков в оценках на основе жанра, платформы и года выпуска
<li>определен подход к обработке рейтинга ESRB
<li>проведен отбор значимых данных с удалением несущественных пропусков<p>
    
Результаты исследования демонстрируют значительный рост индустрии игр в рассматриваемый период, а анализ оценок показывает преобладание игр среднего качества<p>
Подготовленные данные для команды игры «Секреты Темнолесья» помогут привлечь новую аудиторию и подготовить статью о развитии индустрии игр в начале XXI века<p>
</div> 