# Проект. Изучение развития игровой индустрии.

- Автор: Павел Олегович Г.
- Дата: 06.05.2025

### Цели и задачи проекта
Наша задача — изучить данные, предобработать, получить необходимый срез данных.\
Необходимо отфильтровать и категорировать данные, выполнить отбор популярных платформ.

### Описание данных
Данные содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:\
**Name** — название игры.\
**Platform** — название платформы.\
**Year of Release** — год выпуска игры.\
**Genre** — жанр игры.\
**NA sales** — продажи в Северной Америке (в миллионах проданных копий).\
**EU sales** — продажи в Европе (в миллионах проданных копий).\
**JP sales** — продажи в Японии (в миллионах проданных копий).\
**Other sales** — продажи в других странах (в миллионах проданных копий).\
**Critic Score** — оценка критиков (от 0 до 100).\
**User Score** — оценка пользователей (от 0 до 10).\
**Rating** — рейтинг организации ESRB (англ. Entertainment Software Rating Board).\
Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта
1. Загрузка данных, ознакомление с данными
2. Предобработка данных: 
    - Поиск и обработка пропущенных значений
    - Проверка и корректировка типов данных
    - Проверка наличия и обработка дубликатов
3. Фильтрация данных
4. Категоризация данных

---

## 1. Загрузка данных и знакомство с ними

- Загружаем необходимые библиотеки Python и данные датасета `new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Выгружаем данные из датасета `new_games.csv` в датафрейм 'df'
# Локальный путь:
# df = pd.read_csv("/Users/pavelolegovich/Desktop/DATA_PR_7/new_games.csv")

# Ссылка для ревью:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
display(df)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.0,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.0,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.0,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.00,,,


- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [3]:
# Выводим информацию о датафрейме
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


None

In [4]:
# Выводим первые строки датафрейма на экран
display(df.head())

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


## Выводы о полученных данных: объёмы и типы данных.

Датасет `hotel_dataset.csv` содержит 11 столбцов и 16956 строк с информацией о продажах игр разных жанров и платформ, а также о пользовательских и экспертных оценках.

Изучим типы данных и их корректность:
- **Булевые значения (bool).** Данные типа `bool` отсутствуют.
- **Целочисленные значения (int64).** Данные типа `int64` отсутствуют.
- **Числовые значения с плавающей запятой (float64).** 4 столбца с типом `float64`:
    - `NA sales`, `Other sales`, `Critic Score` содержат продажи в Северной Америке, продажи в других странах и оценку критиков соответственно, и представлены типом `float64`, что корректно, т.к. данные могут иметь дробную часть. 
    - `Year of Release` содержит информацию о дате релиза. Для таких данных рекомендуется использовать тип `int64` для корректности временных вычислений и анализа периодов.
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name` и `Genre` содержат строковую информацию (название игры, название платформы и жанр), это верный тип для текстовых данных. Здесь тип данных `object` подходит.
    - `EU sales`, `JP sales` и `User Score` имеют тип данных `object`, но хранят числовые данные с дробной частью, в связи с чем целесообразно использовать тип `float64`.
    - `Rating`, `Platform`  и `Genre` также хранят текстовые данные, но их можно рассматривать как категориальный признак. В этом случае можно использовать тип `category`, чтобы улучшить производительность и оптимизировать память, если набор значений ограничен и заведомо известен.\

- В результате анализа типов данных можем сделать вывод, что большинство столбцов представлены некорректно. 
Необходимо преобразовать данные типа `float64`, содержащие год выхода игры, в тип `int64`, строковые данные, содержащие числовые показатели, преобразовать в тип `float64`. Также целесообразно преобразовать 3 столбца, приведя их к типу `category`. Также обратим внимание на неоднородность стиля названий колонок.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма



In [5]:
# Выводим на экран названия всех столбцов датафрейма и проверяем их стиль написания.
print(df.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [6]:
# Приводим все столбцы к стилю snake case, названия переводим в нижний регистр, а пробелов заменим подчёркиванием.

# df = df.rename(columns={'Name': 'name', 'Platform': 'platform', 'Year of Release': 'year_of_release', 'Genre': 'genre', 'NA sales': 'na_sales', 
# 'EU sales': 'eu_sales', 'JP sales': 'jp_sales', 'Other sales': 'other_sales', 
# 'Critic Score': 'critic_score', 'User Score': 'user_score', 'Rating': 'rating'})

df.columns = df.columns.str.lower().str.replace(' ','_')

In [7]:
# Проверяем результат преобразования.

print(df.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### 2.2. Типы данных

- В датафрейме встречаются некорректные типы данных, целесообразно провести преобразование некоторых типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

In [None]:
# Преобразовываем типы

# В некоторых числовых столбцах встречаются строковые значения. Приведем такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

df[['eu_sales', 'jp_sales','user_score']] = df[['eu_sales', 'jp_sales','user_score']].apply(pd.to_numeric, errors='coerce')

df['year_of_release'] = df['year_of_release'].fillna(0)

df['year_of_release'] = df['year_of_release'].astype('int64')

# Преобразовываем числовому к типу:
for column in ['eu_sales', 'jp_sales', 'user_score']:
    df[column] = pd.to_numeric(df[column], downcast='integer')

# Приводим столбец 'rating' к категориальному типу:
df['rating'] = df['rating'].astype('category')
df['genre'] = df['genre'].astype('category')
df['platform'] = df['platform'].astype('category')


In [9]:
# Проверяем изменения в типах данных
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16956 non-null  category
 2   year_of_release  16956 non-null  int64   
 3   genre            16954 non-null  category
 4   na_sales         16956 non-null  float64 
 5   eu_sales         16950 non-null  float64 
 6   jp_sales         16952 non-null  float64 
 7   other_sales      16956 non-null  float64 
 8   critic_score     8242 non-null   float64 
 9   user_score       7688 non-null   float64 
 10  rating           10085 non-null  category
dtypes: category(3), float64(6), int64(1), object(1)
memory usage: 1.1+ MB
None


### 2.3. Наличие пропусков в данных

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [10]:
# Количество пропущенных строк в датафрейме (абсолютные значения)
df.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [11]:
# Процент строк с пропусками (относительные значения)
df.isna().sum() / len(df) * 100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

В данных наблюдаются пропуски в следующих столбцах:
- В столбцах `name` и `genre` нехватка данных минимальна (менее 1%). В столбце `year_of_release` пропуски также незначительны (1.6%)
- Столбцы `critic_score`, `user_score` и `rating` имеют значительное количество пропусков (более 40%).

Пропуски в данных могли возникнуть по следующим причинам:
- технические ограничения платформ, например, отсутствие возможности поставить пользовательскую оценку на определенных платформах
- возможные технические ошибки общего характера, например при парсинге, объединении таблиц и пр.
- задержка публикаций рецензий критиков
- возраст игр - часть игр ранних выпусков могли не получать ESRB оценок
- возможные региональные несоответствия

### Обработка пропущенных значений. 
- Для каждого случая выберем оптимальный вариант замены: замена на определённое значение, удаление или оставляем прежнее значение.
- При замене пропусков на значение-индикатор, убедимся, что предложенное значение не может быть использовано в данных.
- При наличии пропусков в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

- Столбец `critic_score`: в более чем 50% данных отсутствует информация об оценках критиков. Удалять и заменять средним нецелесообразно, поэтому оставляем в исходном виде.
- Столбец `user_score`: 40.1% данных содержат пропуски. Удалять и заменять средним нецелесообразно, поэтому оставляем в исходном виде.
- Столбец `name`: 0.011% данных содержат пропуски. Заменяем пропуски индикатором с помощью метода `fillna('Название отсутствует')`.
- Столбец `year_of_release`: `year_of_release` заменяем пропуски индикатором с помощью метода `fillna(0)`.

In [12]:
# заполняем пропуски:

df['name'] = df['name'].fillna('Название отсутствует')
df['user_score'] = df['user_score'].replace({'unknown': 'NaN', 'tbd': 'NaN'})

# заполним пропуски в 'eu_sales' средним с группировкой по году выпуска и платформе:

def mean_group_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = df[(df['year_of_release'] == row['year_of_release']) & 
                   (df['platform'] == row['platform'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

df['eu_sales'] = df.apply(mean_group_eu_sales, axis=1)

# аналогично поступим с пропусками в 'jp_sales':

def mean_group_jp_sales(row):
    if pd.isna(row['jp_sales']):
        group = df[(df['year_of_release'] == row['year_of_release']) & 
                   (df['platform'] == row['platform'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

df['jp_sales'] = df.apply(mean_group_jp_sales, axis=1)

### 2.4. Явные и неявные дубликаты в данных


In [13]:
# Приведем текстовые данные столбцов 'name', 'rating', 'genre' и 'platform' к одному регистру с помощью метода 'str.lower()'. 
# Это поможет избежать ситуаций, когда одно и то же значение записано по-разному.
df['name'] = df['name'].str.lower()
df['rating'] = df['rating'].str.lower()
df['genre'] = df['genre'].str.lower()
df['platform'] = df['platform'].str.lower()

In [14]:
# Также избавимся от лишних пробелов в начале и в конце строки с помощью метода 'str.strip()':
df['name'] = df['name'].str.strip()
df['rating'] = df['rating'].str.strip()
df['genre'] = df['genre'].str.strip()
df['platform'] = df['platform'].str.strip()

In [15]:
unique_df_names = df['name'].unique()
print(f'Уникальные имена: {unique_df_names}')
print()
unique_df_genres = df['genre'].unique()
print(f'Уникальные жанры: {unique_df_genres}')
print()
unique_df_rate = df['rating'].unique()
print(f'Уникальный рейтинг: {unique_df_rate}')
print()
unique_df_platform = df['platform'].unique()
print(f'Уникальные платформы: {unique_df_platform}')

Уникальные имена: ['wii sports' 'super mario bros.' 'mario kart wii' ...
 'woody woodpecker in crazy castle 5' 'lma manager 2007'
 'haitaka no psychedelica']

Уникальные жанры: ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' nan]

Уникальный рейтинг: ['e' nan 'm' 't' 'e10+' 'k-a' 'ao' 'ec' 'rp']

Уникальные платформы: ['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']


### После того как нормализовали данные и устранили неявные дубликаты, проверяем наличие явных дубликатов в данных.

In [16]:
# Проверяем и обрабатываем явные дубликаты:

initial_row_count = df.shape[0]
print(f'Количество строк до удаления дубликатов: {initial_row_count}')

duplicates = df[df.duplicated(keep='first')]
print("Дублирующиеся строки:")
print(duplicates)

# Удаляем дублирующиеся строки:
df_cleaned = df.drop_duplicates()

# Количество строк после удаления дубликатов:
final_row_count = df_cleaned.shape[0]
print()
print(f'Количество строк после удаления дубликатов: {final_row_count}')
print()

# Проверим количество дублирующихся строк после удаления:
print(f'Дублирующихся строк: {df.duplicated().sum()}')
print(f'Доля дублирующихся строк: {round(df.duplicated().sum()/initial_row_count, 4)}')
print(f'Дублирующихся строк после обработки: {df_cleaned.duplicated().sum()}')

Количество строк до удаления дубликатов: 16956
Дублирующиеся строки:
                                                name platform  \
268                            batman: arkham asylum      ps3   
368                 james bond 007: agent under fire      ps2   
717                            god of war: ascension      ps3   
823                                wipeout: the game      wii   
848                  rayman raving rabbids: tv party      wii   
...                                              ...      ...   
16671        fullmetal alchemist: prince of the dawn      wii   
16753                                      routes pe      ps2   
16799                            transformers: prime      wii   
16912  metal gear solid v: the definitive experience     xone   
16940                          the longest 5 minutes      psv   

       year_of_release      genre  na_sales  eu_sales  jp_sales  other_sales  \
268               2009     action      2.24      1.31      0.07       

### Промежуточный вывод о найденных дубликатах и действиях по их обработке.

- Мы изучили уникальные значения в данных, в том числе названиями жанра игры, платформы, рейтинга.
- Провели нормализацию данных с текстовыми значениями.
- В целях выявления неявных дубликатов, привели текстовые данные столбцов `name`, `rating`, `genre` и `platform` к нижнему регистру с помощью метода `str.lower()`.
- Также избавились от лишних пробелов в начале и в конце строки с помощью метода `str.strip()`
- Используя метод `unique()`, определили уникальные значения в столбцах.
- Используя метод `duplicated()`, мы определили явные дублирующиеся строки. Выявлена 241 дублирующаяся строка.
- Используя метод `drop_duplicates()` мы удалили дибликаты в датафрейме.
- Используя метод `duplicated().sum()` проверяем результат очистки датафрейма от дублирующихся строк.
- В процессе подготовки данных мы выполнили удаление строк с пропусками, дубликаты и прочее. После чего проверили количество удалённых строк в абсолютном и относительном значениях.
- Доля дублирующихся строк составила 0.0142. Все дубликаты были удалены.
---
- Отдельно отметим, что за всю предобработку мы лишились незначительной части данных `(менее 1%)`, включая удаление дубликатов `(доля от всех строк - 0.0142)` и строк с пропусками `(пропуски были заменены - без удалений)`. `Данный показатель посчитаем приемлемым`, если потеря данных менее, чем 10%. 

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. \
Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме - `df_actual`.

In [17]:
df_actual =  df_cleaned[(df_cleaned['year_of_release'] > 2000) & (df_cleaned['year_of_release'] <= 2013)]
print(df_actual)

                                                   name platform  \
0                                            wii sports      wii   
2                                        mario kart wii      wii   
3                                     wii sports resort      wii   
6                                 new super mario bros.       ds   
7                                              wii play      wii   
...                                                 ...      ...   
16947                     men in black ii: alien escape       gc   
16949                woody woodpecker in crazy castle 5      gba   
16950  score international baja 1000: the official game      ps2   
16952                                  lma manager 2007     x360   
16954                                  spirits & spells      gba   

       year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0                 2006    sports     41.36     28.96      3.77         8.45   
2                 2008   

---

## 4. Категоризация данных
    
Проводим категоризацию данных:
- Разделяем все игры по оценкам пользователей и выделяем такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [18]:
df_actual['user_score_categ'] = pd.cut(df_actual['user_score'], bins=[0, 2, 7, 10], labels=['Низкая оценка', 'Средняя оценка', 'Высокая оценка'])

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [19]:
df_actual['critic_score_categ'] = pd.cut(df_actual['critic_score'], bins=[0, 29, 79, 100], labels=['Низкая оценка', 'Средняя оценка', 'Высокая оценка'])

### Группируем данные по категориям

In [20]:
# Группируем данные по оценкам игроков и считаем количество игр в каждой категории:

total_by_user_cat = df_actual.groupby('user_score_categ')['name'].count()
print(total_by_user_cat)

user_score_categ
Низкая оценка       45
Средняя оценка    2322
Высокая оценка    4008
Name: name, dtype: int64


In [21]:
# Группируем данные по оценкам критиков и считаем количество игр в каждой категории:

total_by_critic_cat = df_actual.groupby('critic_score_categ')['name'].count()
print(total_by_critic_cat)

critic_score_categ
Низкая оценка       52
Средняя оценка    5320
Высокая оценка    1654
Name: name, dtype: int64


### Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [22]:
total_by_plat = df_actual.groupby('platform')['name'].count().sort_values(ascending=False).head(7)
print(total_by_plat)


platform
ds      2120
ps2     2045
wii     1275
psp     1180
x360    1121
ps3     1087
gba      810
Name: name, dtype: int64


---

## 5. Итоговый вывод


Были загружены данные датасета `hotel_dataset.csv`. Датасет содержит 11 столбцов и 16956 строк с информацией о продажах игр разных жанров и платформ, а также о пользовательских и экспертных оценках. При первичном знакомстве с данными и их предобработке получили такие результаты:
- В шести столбцах были обнаружены пропущенные значения. Максимальное значение пропущенных данных в столбце `critic_score` (51.4%).
- Для оптимизации работы с данными в датафрейме были произведены следующие изменения типов данных:
    - Столбцы `rating`, `genre`, `platform` привели к типу `category`.
    - Тип данных столбца `year_of_release` заменили на `int64`.
    - Столбцы `eu_sales`, `jp_sales`, `user_score` привели к целочисленному типу `float64`.
- Для дополнительной работы с данными были созданы дополнительные столбцы:
    - `user_score_categ`: столбец необходим для разделения всех игр на категории по оценкам игроков.
    - `critic_score_categ`: столбец необходим для разделения всех игр на категории по оценкам критиков.\
  Наибольшее количество игр в по оценкам игроков имеет `высокую оценку`, в то время как критики дают большинству игр `среднюю оценку`.
- Используя группировку данных по платформе, сортировку по убыванию, а также органичение выборки семью строками, мы получили выборку `топ-7 платформ по количеству игр, выпущенных за весь актуальный период`.