# Аналитика для команды игры "Секреты Темнолесья"

- Автор: Потапов Роман
- Дата: 14.08.2025

### Цели и задачи проекта

Цель проекта:
Провести анализ исторических данных о продажах компьютерных игр за период с 2000 по 2013 год, чтобы изучить развитие игровой индустрии, выявить популярные платформы, жанры и региональные предпочтения игроков. Результаты анализа будут использованы для создания статьи, направленной на привлечение новой аудитории к игре «Секреты Темнолесья».

Задачи проекта:

    1.Загрузить и изучить предоставленные данные, проверить их корректность.

    2.Провести предобработку данных: исправить типы, обработать пропуски, устранить дубликаты.

    3.Отфильтровать данные за период с 2000 по 2013 год.

    4.Категоризировать игры по оценкам пользователей и критиков.

    5.Выделить топ-7 платформ по количеству выпущенных игр.

### Содержимое проекта

#### Загрузка и первичный анализ данных

    - Импорт библиотек.

    - Загрузка данных из new_games.csv.

    - Проверка структуры данных.

#### Предобработка данных

    - Приведение названий столбцов к snake_case.

    - Проверка и исправление типов данных.

    - Обработка пропущенных значений.

    - Устранение дубликатов (явных и неявных).

#### Фильтрация данных

    - Отбор игр, выпущенных с 2000 по 2013 год.

#### Категоризация данных

    - Разделение игр по оценкам пользователей (User_Score):

    - Высокая (8–10), Средняя (3–8), Низкая (0–3).

    - Разделение игр по оценкам критиков (Critic_Score):

    - Высокая (80–100), Средняя (30–80), Низкая (0–30).

#### Анализ данных

    - Топ-7 платформ по количеству выпущенных игр.

    - Анализ продаж по жанрам и регионам.

#### Выводы

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('/datasets/new_games.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
df.isna().sum()

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

In [5]:
df.isna().sum() / df.shape[0]

Name               0.000118
Platform           0.000000
Year of Release    0.016218
Genre              0.000118
NA sales           0.000000
EU sales           0.000000
JP sales           0.000000
Other sales        0.000000
Critic Score       0.513918
User Score         0.401274
Rating             0.405225
dtype: float64

- Всего в датафрейме 16956 строк, все столбцы соответствуют своему описанию. 
- Пропуски встречаются и довольно часто, наибольшее количество в стоблце "Critic Score" - 8714, что более 50%. В остальных столбцах также количество пропусков значительно: "User Score" - 6 804 или 40%, "Rating" - 6 871 или 41%. В столбцах "Name" и "Year of Release" количество пропусков менее значительно: 2 и 275 cоответственно.
- Не во всех столбцах используются корректные типы данных: так, в столбце "Year of Release" тип данных нужно заменить на int64 для последующей корректной фильтрации данных в промежутке между 2000 и 2013 гг. включительно. Также столбцы "EU Sales", "JP Sales" по аналогии со столбцом "Na sales" нужно привести к типу данных float64, так как во всех трех столбцах содержаться данные о продажах в разных регионах. Столбец "User Score" требуется привести к типу float64 по аналогии со столбцом "Critic Score", так как в обоих столбцах содержаться данные об оценках пользователей и критиков.
- Все столбцы требуется привести к виду snake case

---

## 2.  Проверка ошибок в данных и их предобработка


In [6]:
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [7]:
df.columns = df.columns.str.lower().str.replace(' ', '_')

### 2.2. Типы данных

Некорректные типы данных в столбцах могли появиться вследствие некорректного автоматического определения типа данных столбцов pandas

In [8]:
df = df.dropna(subset = ['name', 'year_of_release', 'eu_sales', 'jp_sales'])

In [9]:
df['year_of_release'] = df['year_of_release'].astype('int64')

In [9]:
df['year_of_release']

0        2006.0
1        1985.0
2        2008.0
3        2009.0
4        1996.0
          ...  
16951    2016.0
16952    2006.0
16953    2016.0
16954    2003.0
16955    2016.0
Name: year_of_release, Length: 16956, dtype: float64

In [10]:
df[['eu_sales', 'jp_sales']] = df[['eu_sales', 'jp_sales']].replace('unknown', np.nan)

In [11]:
df[['eu_sales', 'jp_sales']] = df[['eu_sales', 'jp_sales']].astype('float64')

In [12]:
df['user_score'] = df['user_score'].replace('tbd', np.nan)

In [13]:
df['user_score'] = df['user_score'].astype('float64')

### 2.3. Наличие пропусков в данных


In [14]:
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [15]:
df.isna().sum() / df.shape[0]

name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64

- Пропуски в столбце "name" скорее всего, типа MCAR, так как их количество незначительно(менее одного процента), то их можно удалить
- Пропуски в столбце 'year_of_release' также типа MCAR, и так как их количество менее 2 процентов, можно их спокойно удалить
- Пропуски в столбце "critic_score" составлют значительную часть от всех значений столбца(более 50 процентов). Установить корреляцию между пропусками в этом столбце и данными других столбцов не удалось, поэтому заменим пропуски на значение-индикатор -1, так же поступим и со столбцом "user_score".
- Столбцы "genre", "rating" не будут использоваться в анализе, поэтому с пропусками в этих столбцах можно ничего не делать.
- Столбцы "eu_sales", "jp_sales" содержат незначительное количество пропусков, поэтому их можно удалить

In [16]:
df = df.dropna(subset = ['name', 'year_of_release', 'eu_sales', 'jp_sales'])

In [17]:
df = df.copy()
df['critic_score'] = df['critic_score'].fillna(-1)

In [18]:
df = df.copy()
df['user_score'] = df['user_score'].fillna(-1)

### 2.4. Явные и неявные дубликаты в данных

In [None]:
for column in ['name', 'genre', 'platform', 'critic_score', 'user_score', 'year_of_release']:
    print(df[column].unique())

In [None]:
df['name'] = df['name'].str.lower()

In [None]:
df['genre'] = df['genre'].str.lower()

In [None]:
df.duplicated(subset = None).sum()

In [None]:
df.duplicated(subset = None).sum() / df.shape[0]

In [None]:
df.drop_duplicates(subset = None, inplace = True)

In [None]:
df.duplicated(subset = None).sum()

Для поиска неявных дубликатов мы привели все значения в столбцах "name", "genre" к нижнему регистру, а затем удалили все повторяющиеся строки

После предобработки данных имеем следующую картину:

    - Количество строк до обработки: 16956
    
    - Количество строк после обработки: 16434
    
    - Количество удаленных строк: 522, что составляет 3% от общего числа строк

- После проведения предобработки данных напишите общий промежуточный вывод.

 Загрузили и изучили предоставленные данные, проверили их корректность.

 Провели предобработку данных: исправили типы, обработали пропуски, устранили дубликаты.

---

## 3. Фильтрация данных
Фильтруем данные за период с 2000 по 2013 год.

In [None]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]

---

## 4. Категоризация данных
   Категоризируем игры по оценкам пользователей и критиков.

In [None]:
def users_grade(score):
    if 8 <= score <= 10:
        return 'Высокая оценка'
    elif 3 <= score < 8:
        return 'Средняя оценка'
    else:
        return 'Низкая оценка'
    

In [None]:
df_actual = df_actual.copy()
df_actual['user_grade'] = df_actual['user_score'].apply(users_grade)

In [None]:
def critics_grade(score):
    if 80 <= score <= 100:
        return 'Высокая оценка'
    elif 30 <= score < 80:
        return 'Средняя оценка'
    else:
        return 'Низкая оценка'

In [None]:
df_actual = df_actual.copy()
df_actual['critic_grade'] = df_actual['critic_score'].apply(critics_grade)

In [None]:
grouped_user_grade_count = df_actual.groupby('user_grade')['name'].count()

In [None]:
grouped_critic_grade_count = df_actual.groupby('critic_grade')['name'].count()
display(grouped_critic_grade_count)

- Выделяем топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [None]:
top_platform = df_actual.groupby('platform')['name'].count().sort_values(ascending=False).head(7)
display(top_platform)

---

## 5. Итоговый вывод

Во время выполнения проекта была проделана следующая работа:

    - Загрузили и изучили предоставленные данные, проверили их корректность.

    - Провели предобработку данных: исправили типы, обработали пропуски, устранили дубликаты.

    - Отфильтровали данные за период с 2000 по 2013 год.

    - Категоризировали игры по оценкам пользователей и критиков.

    - Выделили топ-7 платформ по количеству выпущенных игр.

Во время выполнения проекта также были добавлены следующие столбцы в исходный датафрейм:

    - Столбец 'user_grade', в котором каждой игре присвоена своя категория("Высокая оценка", "Средння оценка", "Низкая 
    оценка") в зависимости от оценок игроков
    
    - Столбец 'critic_grade', в котором каждой игре присвоена своя категория("Высокая оценка", "Средння оценка", "Низкая
    оценка") в зависимости от оценок критиков

Также, исходя из требований заказчика, датафрейм был приведен к требуемому срезу, содержащему только игры, выпущенные в промежутке между 2000 и 2013 гг. включительно.