# От PlayStation до Wii: эволюция игровой индустрии в начале XXI века

## Цели и задачи проекта:

Цель проекта — провести анализ данных о продажах RPG видеоигр за период с 2000 по 2013 год, чтобы выявить ключевые тенденции и особенности, влияющие на успешность игр. В ходе проекта будет проведена очистка и подготовка данных, а также изучение продаж игр по жанрам, платформам и регионам. Мы также добавим новые переменные, такие как категории оценок, для более детального анализа.

Задачи проекта включают в себя обработку пропусков и дубликатов, создание новых столбцов для улучшения анализа, а также исследование зависимости между характеристиками игр и их успешностью на разных платформах и в различных регионах. На основе результатов анализа будет сделан вывод, который поможет лучше понять, какие игры и платформы имели наибольший успех в начале XXI века.

## План работы:

1. Знакомство с данными:
* Знакомство с данными, выгрузка информации о датасете
* Описание данных
* Вывод о датафрейме

2. Предобработка данных:
* Очистка и приведение данных к нужным типам (например, преобразование строковых значений в числовые).
* Обработка пропущенных данных и дубликатов.
* Переименование столбцов для удобства дальнейшего анализа.
* Отфильтровать данные по заданному заказчиком периоду
  
3. Анализ данных:
* Исследование взаимосвязей между переменными
* Категоризация данных и изучение их в срезе по оценкам критиков и игроков
* Выявление топ-7 популярных платформ в начале XXI века

## Описание данных
Данные `new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:

* `Name` — название игры.
* `Platform` — название платформы.
* `Year of Release` — год выпуска игры.
* `Genre` — жанр игры.
* `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
* `EU sales` — продажи в Европе (в миллионах проданных копий).
* `JP sales` — продажи в Японии (в миллионах проданных копий).
* `Other sales` — продажи в других странах (в миллионах проданных копий).
* `Critic Score` — оценка критиков (от 0 до 100).
* `User Score` — оценка пользователей (от 0 до 10).
* `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

In [5]:
# Импортируем библиотеку pandas
import pandas as pd

In [6]:
# Выгружаем данные из датасета new_games.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [7]:
# Получаем первые 5 строк
games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [8]:
# Получаем информацию о датафрейме
games.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


#### Выводы о датафрейме

Полученные данные содержат информацию о 16956 записях, каждая из которых относится к одной игре, и охватывают продажи игр по регионам, а также оценки критиков и пользователей. Большинство столбцов имеют правильные типы данных, однако есть несколько моментов, которые требуют внимания. Например, в столбцах с продажами по регионам (EU sales, JP sales) данные представлены в виде строк (object), что является ошибочным типом данных, так как эти значения должны быть числовыми для корректного анализа. В некоторых столбцах, таких как "Year of Release", "Critic Score", "User Score" и "Rating", встречаются пропущенные значения, что также потребует корректной обработки.

Названия столбцов в целом соответствуют содержимому, но некоторые из них могут быть записаны с пробелами или некорректными символами, что стоит исправить для удобства работы с данными. Столбец "User Score" также представлен в виде строк, хотя, скорее всего, он должен содержать числовые значения, что также необходимо будет исправить. Пропуски в данных требуют внимательной обработки, и, вероятно, потребуется замена некоторых значений на оптимальные индикаторы или их заполнение на основе статистики.

## Проверка ошибок в данных и их предобработка

Для начала разберемся с названиями столбцов для удобства работы в дальнейшем:

In [12]:
# Приводим название столбцов к нижнему регистру
games.columns = games.columns.str.lower()

In [13]:
# Приводим нужные названия к snake case для дальнейшего удобства при работе с датафреймом
games = games.rename(columns = {
    'year of release':'year_of_release',
    'na sales':'na_sales',
    'eu sales':'eu_sales',
    'jp sales':'jp_sales',
    'other sales':'other_sales',
    'critic score':'critic_score',
    'user score':'user_score'
})
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

In [14]:
# Вот все текущие названия столбцов:
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

#### Типы данных

Из метода `games.info()` мы звметили что не все данные хранятся в типах данных, нужных нам для работы

Поскольку ожидается что в столбцах `year_of_release` `eu_sales` `jp_sales` и `user_score` будет число, нужно привести их к нужным типам данных

In [18]:
# Приводим столбцы к нужным типам данных
conv_columns = ['year_of_release', 'eu_sales', 'jp_sales', 'user_score']
games[conv_columns] = games[conv_columns].apply(pd.to_numeric, errors='coerce')

# Сразу проверяем тип данных
games.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

#### Наличие пропусков в данных

In [20]:
# Вычисляем абслютное число пропусков и их %
missing_data = games.isna().sum()
missing_share = games.isna().sum() / len(games) * 100
missing_all = pd.DataFrame({f'Пропуски (абс.)': missing_data, f'Пропуски (%)': missing_share})
missing_all = missing_all.sort_values(by='Пропуски (абс.)', ascending=False)
missing_all

Unnamed: 0,Пропуски (абс.),Пропуски (%)
user_score,9268,54.659118
critic_score,8714,51.391838
rating,6871,40.522529
year_of_release,275,1.621845
eu_sales,6,0.035386
jp_sales,4,0.02359
name,2,0.011795
genre,2,0.011795
platform,0,0.0
na_sales,0,0.0


* `name` и `genre` - 2 пропущенных значения (0.01%)
* `year_of_release` - 275 пропусков (1.6%)
* `eu_sales` и `jp_sales` - менее 0.1%
* `critic_score` и `user_score` - более 50% пропусков.
* `rating` - 41% пропусков.

Исходя из данных, самое большое количество пропусков находятся в колонках с рейтингами от критиков и пользователей. Можно предположить что либо некоторые предоставленные игры не получили оценку потому что игра вышла недавно и оценки от игроков и критиков не поставлены или данные пока не собраны
Также может быть что некоторые игры малоизвестны и просто не имеют оценку от игроков и критиков.
**Такие данные можно заменить на -1 чтобы не искажать среднее значение и данные с пропусками были легко отличимыми**

Много игр с отсутствием рейтига, что тоже может говорить о том что игра новая и не проходила рейтинговую сертификацию. 
**Эти пропуски тоже меняем на -1 с сохранением строкового типа данных**

Пропуски связанные с количеством продаж по регионам вполне объяснимы - игра могла не продаваться в том или ином регионе. 
**Эти данные будем менять на среднее значение в зависимости от названия платформы и года выхода игры.**

Пропуски в столбце с годом выходы игры и жанром малообъяснимы, но всего таких записей менее 2% и поскольку в будущем нам очень важен срез по годам и жанрам и дальнейший анализ будет строится по отфильтрованным по этим столбцам данным. 
**Лучшим решением будет удалить эти записи и провести анализ по оставшимся играм.**


In [23]:
# Меняем значение в рейтингах на -1
change_from = ['critic_score', 'user_score']
games[change_from] = games[change_from].fillna(-1)
games['rating'] = games['rating'].fillna('-1')

# Заменим значения в продажах по регионам на среднее по платформе и году выхода
def mean_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = games[(games['platform'] == row['platform']) & 
                      (games['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

def mean_jp_sales(row):
    if pd.isna(row['jp_sales']):
        group = games[(games['platform'] == row['platform']) & 
                      (games['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

games['eu_sales'] = games.apply(mean_eu_sales, axis=1)
games['jp_sales'] = games.apply(mean_jp_sales, axis=1)

# Удаляем пропуски в столбцах о жанре и дате релиза
games = games.dropna(subset=['year_of_release', 'genre'])

games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB


Теперь пропусков нет и можно работать с датасетом

#### Неявные дубликаты в данных:

Давайте рассмотрим уникальные записи в столбцах для выявления неявных дубликатов

In [27]:
# Выявляем неявные дубликаты связаные с опечатками или разным способом написания
unique_genre = games['genre'].unique()
unique_platform = games['platform'].unique()
unique_rating = games['rating'].unique()
unique_year_of_release = games['year_of_release'].unique() 
unique_genre, unique_platform, unique_rating, unique_year_of_release

(array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
        'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
        'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
        'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
        'PUZZLE', 'STRATEGY'], dtype=object),
 array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
        'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
        'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
        '3DO', 'GG', 'PCFX'], dtype=object),
 array(['E', '-1', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object),
 array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
        2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
        1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
        2016., 2003., 1986., 2000., 1995., 1991., 1981., 1987., 1980.,
        1983.]))

Мы можем заметить что столбец с жанром содержит неявные дубликаты связанные с разным регистром, это надо исправить

In [29]:
# Приводим жанры и названия игр к нижнему регистру
games[['name', 'genre']] = games[['name', 'genre']].apply(lambda x: x.str.lower())
unique_genre = games['genre'].unique()
unique_genre

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

После обработки у нас осталось 12 жанров из 24

#### Явные дубликаты в данных

Давайте посмотрим, сколько явных дубликатов можно найти в нашем датафрейме:

In [33]:
# Выводим количество дубликатов
duplicate_values = games.duplicated()
duplicate_values.sum()

235

235 Явных дубликатов - эти данные будут мешать нашему анализу и их нужно удалить

In [35]:
# Удаляем явные дубликаты
games = games.drop_duplicates()

In [36]:
# Проверим
duplicate_values = games.duplicated()
duplicate_values.sum()

0

Всего было выявлено и удалено 235 явных дубликатов. 
Также мы выявили 12 повторяющихся жанров, но в разном регистре. Эти данные были приведены к одному виду. 

#### Количество удалённых строк в абсолютном и относительном значениях:

И так, в начале у нас было 16956 записей, сейчас информация о нашем датафрейме выглядит так:

In [40]:
games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16444 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16444 non-null  object 
 1   platform         16444 non-null  object 
 2   year_of_release  16444 non-null  float64
 3   genre            16444 non-null  object 
 4   na_sales         16444 non-null  float64
 5   eu_sales         16444 non-null  float64
 6   jp_sales         16444 non-null  float64
 7   other_sales      16444 non-null  float64
 8   critic_score     16444 non-null  float64
 9   user_score       16444 non-null  float64
 10  rating           16444 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB


In [41]:
deleted_rows = 16956 - 16444
deleted_rows_share = deleted_rows / 16956 *100
f'Было удалено {deleted_rows} строк ({round(deleted_rows_share, 2)}% от общего числа строк)'

'Было удалено 512 строк (3.02% от общего числа строк)'

### Промежуточный вывод после обработки данных


После проведения предобработки данных, были выполнены следующие шаги: удаление дубликатов, обработка пропущенных значений, а также приведение некоторых столбцов к нужным типам данных. В ходе работы с данными были удалены строки с некорректными или отсутствующими значениями в критичных столбцах, что позволило улучшить качество и точность анализа.

В результате очистки данных количество строк в датафрейме было снижено на определённое количество, что составило примерно 3.02% от первоначального объёма. Теперь данные готовы для дальнейшего анализа и построения модели, что позволит более точно выявить закономерности и зависимости, которые мы будем изучать в рамках текущего проекта.

## Фильтрация данных


Для анализа нам необходимо отобрать данные за период с 2000 по 2013 год включительно. Также в условии сказано что акцент нужно сделать на играх жанра RPG — так называют компьютерные ролевые игры, в которых игроки управляют персонажами.  

Создаем  новый датафрейм с нужным срезом данных по году выпуска и жанру:

In [46]:
# Сохраняем нужный срез в новом датафрейме
df_actual = games[(games['year_of_release'] >= 2000) & (games['year_of_release'] <= 2013)].copy()
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  float64
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.2+ MB


In [47]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,Wii,2006.0,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,mario kart wii,Wii,2008.0,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,Wii,2009.0,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,new super mario bros.,DS,2006.0,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,wii play,Wii,2006.0,misc,13.96,9.18,2.93,2.84,58.0,6.6,E


## Категоризация данных


Тут нам нужно создать категории по оценке критиков и игроков:

In [50]:
# Разделим игры на категории, в зависимости от оценки игроков и критиков
df_actual.loc[:, 'critic_rate_category'] = pd.cut(
    df_actual['critic_score'], 
    bins=[0, 30, 80, 100], 
    labels=['низкая оценка', 'средняя оценка', 'высокая оценка'], 
    right=False, 
    include_lowest=True
)

df_actual.loc[:, 'user_rate_category'] = pd.cut(
    df_actual['user_score'], 
    bins=[0, 3, 8, 10], 
    labels=['низкая оценка', 'средняя оценка', 'высокая оценка'], 
    right=False, 
    include_lowest=True
)

df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,critic_rate_category,user_rate_category
0,wii sports,Wii,2006.0,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,средняя оценка,высокая оценка
2,mario kart wii,Wii,2008.0,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,Wii,2009.0,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка,высокая оценка
6,new super mario bros.,DS,2006.0,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,wii play,Wii,2006.0,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка,средняя оценка


Найдем топ-7 платформ по количеству игр, выпущенных за весь актуальный период:

In [52]:
top_platforms = df_actual.groupby('platform')['name'].count()
top_platforms_sorted = top_platforms.sort_values(ascending=False)
top_platforms_sorted.head(7)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

## Основной вывод

В процессе работы с данными были проведены несколько шагов по очистке и подготовке информации для анализа. Мы отобрали данные за период с 2000 по 2013 год, чтобы сосредоточиться на продажах игр в начале XXI века. После этого были добавлены новые столбцы, включая категорию оценок критиков и пользователей, разделённую на три группы: "низкая оценка", "средняя оценка" и "высокая оценка", на основе значений столбца critic_score и user_score соответственно. Все пропуски в данных были обработаны, включая замену пропусков в оценках на -1, а также заполнение пропусков в продажах по регионам на среднее значение по платформе и году выпуска.

Были также выполнены агрегированные вычисления, например, подсчёт количества игр на разных платформах с последующей сортировкой данных по этому показателю. Все эти изменения позволили получить более структурированные и чистые данные, готовые для дальнейшего анализа, включая выявление тенденций по платформам и жанрам игр.

В ходе исследования был проведён анализ популярных платформ. Топ-7 платформ по количеству игр в нашем датасете:

1. PS2 — 2127 игр
2. DS — 2120 игр
3. Wii — 1275 игр
4. PSP — 1180 игр
5. X360 — 1121 игр
6. PS3 — 1087 игр
7. GBA — 811 игр

Топ-7 платформ по количеству игр показывают доминирование консолей PlayStation (PS2, PSP, PS3) и Nintendo (DS, Wii, GBA) в анализируемый период. Xbox 360 также занял значительное место среди популярных платформ. Это подтверждает, что именно эти игровые системы были наиболее востребованы среди разработчиков и игроков в 2000–2013 годах.