# *Проект спринта №7. Python. Предобработка данных*

**Автор:** Семин Андрей Геннадьевич

**Дата:** 30.01.2025г.

<a class="anchor" id="1_charter"></a> 
## Проект по запросу команды `"Секреты Темнолесья"`

### Описание проекта

Команда игры «Секреты Темнолесья» снова на связи! Коллеги хотят привлечь новую аудиторию и подготовить статью о развитии индустрии игр в начале XXI века. Выпустить статью хотят на одном известном IT-ресурсе. По идее коллег статья должна привлечь внимание людей, которые любят старые игры, и заодно заинтересовать их «Секретами Темнолесья».
В статье-исследовании хотят сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров и региональные предпочтения игроков. Акцент в статье хотят сделать на играх жанра RPG — так называют компьютерные ролевые игры, в которых игроки управляют персонажами.
Для статьи понадобится изучить развитие игровой индустрии с 2000 по 2013 год. В начале XXI века индустрия игр активно росла: развивались игровые платформы и появлялись мощные консоли (PlayStation 2, Xbox, Nintendo Wii). Возникало множество игровых жанров, а также росло количество многопользовательских онлайн-игр и сообществ. Видеоигры стали считаться важной частью массовой культуры и объединили миллионы людей по всему миру.

### Цель проекта:

Подготовка, обрабокта и агрегация данных по запросу заказчика для оформления статьи на изветсном IT-ресурсе.

### Запрос заказчика:

1. Отобрать данные по времени выхода игры. Период с 2000 по 2013 год включительно.
2. Категоризовать игры по оценкам пользователей и экспертов. Выделите три категории:
- высокая оценка — с оценкой от 8 до 10 и от 80 до 100, включая правые границы интервалов.
- средняя оценка — с оценкой от 3 до 8 и от 30 до 80, не включая правые границы интервалов.
- низкая оценка — с оценкой от 0 до 3 и от 0 до 30, не включая правые границы интервалов.
3. Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.

### Описание данных: 

Данные `https://code.s3.yandex.net//datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

## Содержание проекта
* [Проект по запросу команды `"Секреты Темнолесья"`](#1_charter)
* [1. Загрузка данных и знакомтсво с ними](#2_charter)
* [2. Проверка ошибок в данных и их предобработка](#3_charter)
  * [2.1. Названия, или метки, столбцов датафрейма](#4_charter)
  * [2.2. Типы данных](#5_charter)
  * [2.3. Наличие пропусков в данных](#6_charter)
  * [2.4. Явные и неявные дубликаты в данных](#7_charter)
* [3. Фильтрация данных](#8_charter)
* [4. Категоризация данных](#9_charter)
* [5. Итоговый вывод](#10_charter)

<a class="anchor" id="2_charter"></a> 
## 1. Загрузка данных и знакомство с ними

In [10]:
# Для начала работы с данными и последующего анализа необходимо прикрепление следующих блибилотек:
import pandas as pd

In [11]:
# Процесс загрузки данных в оперативную память блокнота
dataset = pd.read_csv('new_games.csv')
all_len_dataset = dataset.shape[0]
dataset.head(15)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [12]:
# Вызовем метод `info()` для ознакомления со всеми столбцами датасета, 
# его размерами, типами данных, а также наличием пропусков
dataset.info()
dataset.isna().mean()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Name               0.000118
Platform           0.000000
Year of Release    0.016218
Genre              0.000118
NA sales           0.000000
EU sales           0.000000
JP sales           0.000000
Other sales        0.000000
Critic Score       0.513918
User Score         0.401274
Rating             0.405225
dtype: float64

С помощью используемых методов была получена следуюая информация о датасете:
- Размеры датасета составляют `16956 строк и 11 столбцов`;
- Данные представлены типами данных `float64` - 4 шт., `object` - 7 шт.;
- В датасете присутствуют столбцы, в которых встречаются пустые значения: `Name` - название игры; `Year of Release` - год релиза; `Critic Score` - оценка критиков; `User Score` - оценка пользователей; `Rating` - рейтинг игры;
-  Есть несоответствие в типах данных: графа `Year of Release` представлена типом `float64` (вещественный тип данных), для года может подойти дата, однако представленные данные содержат только год, который можно записать в формате `integer`; графы `EU sales`, `JP sales` и `User Score` представлены типом данных `object` при этом содержат вещественные числа;
-  Название столбцов записаны неудобно для дальнейшей работы.

In [13]:
# Изучим количество пропусков в абсолютных и относительных величинах
display(dataset.isna().sum())
display(dataset.isna().sum() / dataset.shape[0] * 100)

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

Name                0.011795
Platform            0.000000
Year of Release     1.621845
Genre               0.011795
NA sales            0.000000
EU sales            0.000000
JP sales            0.000000
Other sales         0.000000
Critic Score       51.391838
User Score         40.127389
Rating             40.522529
dtype: float64

При изучении пропусков заметно, что часть столбцов содержат незначительное количество пропусков: `Name` - 2 пропуска (0.012%), `Year of Release` - 275 пропусков (1.62%), `Genre` - 2 пропуска (0.012%). Относительно всего объема записей о играх пропущенные значения составляют небольшую долю. Как следствие, для упрощения дальнейшего анализа, этими данными можно принебречь и удалить их так как их значения не сильно отразятся на общей статистики. В отличии от этих данных, есть столбцы, в которых количество пропусков намного больше. К таким столбцам относятся: `Critic Score` - 8714 пропусков (51.39%), `User Score` - 6804 пропусков (40.13%) и `Rating` - 6871 пропуск (40.52%). Все указанные столбцы данных связаны с пользовательской или экспертной оценкой игры, а также ее рейтингом. На основе этого можно выдвинуть гипотезу о том, что данные могут быть пропущены из-за популярности игры (возможно игра непопулярна и количество оценок недостатчно чтобы рассчитать общую оценку игры), году издания (старые игры менее пополуряны из-за этого нет общей оценки), а также отсуствие рейтнга игры может быть обусловлено тем, что организация определяющая рейтинга начала работу в 1994 году и старым играм не был присвоен рейтинг. 

#### Общий вывод по разделу

Представленые данные следует предобработать для осуществления дальнейшего анализа. Необходимо выполнить следующие задачи:
- Переименовать название столбцов для упрощения работы с датасетом;
- Заменить типы данных для некоторых ячеек;
- Проверить уникальное содержимое ячеек на наличие неподходящих данных, дубликатов и возможных опечаток;
- Обработать пропуски;
- Проверить и избавиться от явных и неявных дубликатов.

<a class="anchor" id="3_charter"></a> 
## 2. Проверка ошибок в данных и их предобработка

<a class="anchor" id="4_charter"></a> 
### 2.1 Название, или метки, столбцов датафрейма

In [14]:
# Для начала работы с датасетом произведем замену названий столбцов датасета,
# а также приведем названия к единому регистру
dataset=dataset.rename(columns = {'Name':'name',
                                 'Platform':'platform',
                                 'Year of Release':'year_of_release',
                                 'Genre':'genre',
                                 'NA sales':'na_sales',
                                 'EU sales':'eu_sales',
                                 'JP sales':'jp_sales',
                                 'Other sales':'other_sales',
                                 'Critic Score':'critic_score',
                                 'User Score':'user_score',
                                 'Rating':'rating'})
dataset.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

Для удобвства работы все названия приведены к нижнему регистру, а также к стилю `snake_case`.

<a class="anchor" id="5_charter"></a> 
### 2.2 Типы данных

В представленных данных есть столбцы с несоответствующим типом данных, которые необходимо перевести в подходящий. Однако есть столбцы, в которых есть пропуски и их необходимо переввести в целочисленный тип данных `int64`. Учитывая что количество пропусков в данных немного им можно принебречь и убрать из датасета.

Примечание: некоретный тип данных мог появится при формировании датасета, который автоматически подобрал подходящие типы к столбцам, в которых встречались неоднотипные данные (например: в числовых данных могли быть строковые значения, что привело к автоматическому определение типа `object` вместо типа `integer` или `float`).

In [15]:
# Первоначально сделаем выборку данных по году в зависимости от наличия данных в записях
len_dataset = dataset.shape[0]
display(f'Количество строк данных до удаления записей без года: {len_dataset}')
dataset = dataset[dataset['year_of_release'].isna() == False]
display(f'Количество данных после удаление составило: {dataset.shape[0]}.')
display(f'Удалено: {len_dataset - dataset.shape[0]} записей.')
display(f'Осталось: {round(dataset.shape[0] / len_dataset * 100,2)}%')

'Количество строк данных до удаления записей без года: 16956'

'Количество данных после удаление составило: 16681.'

'Удалено: 275 записей.'

'Осталось: 98.38%'

Для удобства обработки данных было удалено 1.62% записей, которые содержали пустые значения в столбце года релиза игры. Следующим шагом будет преобразование типа данных из `float64` в `integer`.

In [16]:
# Информация в графе год релиза игры содержит небольшие значения, которые могут иметь максимальное 
# значение 2025 (настоящий год проведения работы с датасетом).
# Для удобства и уменьшения объема памяти, используемой датасетом вопользуемся методом `to_numeric`
# с использованием параметра `downcast`.
dataset['year_of_release'] = pd.to_numeric(dataset['year_of_release'], downcast = 'integer')
dataset['year_of_release'].dtypes

dtype('int16')

Данные в столбце год релиза игры были преобразованы из типа `float64` в целочисленный `int16`, который занимает меньший объем в оперативной памяти. Следующий шаг это преобразование типов данных в столбцах `EU sales`, `JP sales` и `User Score`. Данные в перечисленных столбцах представлены в формате `object`.

In [17]:
# Для начала необходимо проверить какие данные содержаться в заявленных столбцах
# Для этого выведем уникальные значения представленные в них.
dataset[['eu_sales', 'jp_sales', 'user_score']].value_counts().tail()

eu_sales  jp_sales  user_score
0.12      0.0       8.1           1
          0.01      3.6           1
                    5.1           1
                    5.9           1
unknown   1.93      9             1
dtype: int64

Проверка показала, что в данных присутствуют текстовые записи `unknown`. Это привело к автоматическому определению типа данных `object`. В переподе значение 'unknown' - не определено, вероятнее всего для перечисленных игр неопределены значения продаж или пользовательская оценка. Для удобства обработки данных замением это значение на пропуск и преобразуем данные в тип данных `float64` для дальнейшей дообработки пропусков.

In [18]:
dataset['eu_sales'] = pd.to_numeric(dataset['eu_sales'], errors = 'coerce', downcast = 'float')
dataset['jp_sales'] = pd.to_numeric(dataset['jp_sales'], errors = 'coerce', downcast = 'float')
dataset['user_score'] = pd.to_numeric(dataset['user_score'], errors = 'coerce', downcast = 'float')
dataset[['eu_sales', 'jp_sales', 'user_score']].dtypes

eu_sales      float32
jp_sales      float32
user_score    float32
dtype: object

Проверка типов данных подтвердила, что преобразование данных из типа `object` в `float32` произошла успешно и теперь мы сможем обрабатывать данные в этих столбцах как числовые значения.

<a class="anchor" id="6_charter"></a> 
### 2.3 Наличие пропусков в данных

Ранее мы уже провели проверку на пропуски данных. Однако, в предыдущем подразделе для преобразования типов данных мы убрали из датасета строчки с пропуском в годе реализации, а также заменили значения `unknown` на пропуски. Поэтому первым шагом снова проверим количество пропусков в данных для принятия решений о методе для обработки пропусков.

In [19]:
# Снова проверим данные с помощью метода `info()`
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16675 non-null  float32
 6   jp_sales         16677 non-null  float32
 7   other_sales      16681 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float32
 10  rating           9901 non-null   object 
dtypes: float32(3), float64(3), int16(1), object(4)
memory usage: 1.2+ MB


После преобразования типов данных получили следующее описание датасета:
- Количество столбцов - 11 шт., количество строк - 16681 (уменьшилось на 275 по сравнению с первичным датасетом);
- Типы данных датасета: `float32` - 3 столбца; `float64` - 3 столбца; `int16` - 1 столбец; `object` - 4 столбца.
- Изменилось количество пропусков (об этом поговорим после следующей проверки);
- Появились пропуски в тех столбцах, где раньше их не было: `eu_sales`, `jp_sales`.

Для подбора метода необходимо оценить отношение количество пропусков.

In [20]:
# Изучим количество пропусков в абсолютных и относительных величинах в новом датасете
display(dataset.isna().sum())
display(dataset.isna().sum() / dataset.shape[0] * 100)

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

name                0.011990
platform            0.000000
year_of_release     0.000000
genre               0.011990
na_sales            0.000000
eu_sales            0.035969
jp_sales            0.023979
other_sales         0.000000
critic_score       51.531683
user_score         54.690966
rating             40.645045
dtype: float64

Из результата видно, что пропусков в столбцах `name` и `genre` не изменилось и составляет малую часть, которую также можно удалить из выборки. Тем более это также подтверждается задачей, которую хотят выполнить коллеги из "Темнолесья" - сделать акцент на играх RPG, что подтверждает важность жанра.

Пропуски в столбцах `eu_sales` и `jp_sales` также малы относительно всего набора данных. В таком случае можно выбрать два метода: не обращать внимание на пропуски (это повлияет на анализ объемов продаж игр в зависимости от страны) или заменить пропуски средним значением продаж в зависимости от года выхода игры, платформы и региона (есть вероятность, что игры определенных жанров имеют различные уровни популярности в различных странах).

Пропуски в столбцах `critic_score`, `user_score` и `rating` составляют большую долю относительно всех данных. В таком случае не получится подобрать средние значения под каждое пропущенное значение, потому что количество пропусков много и это повлияет на достоверность данных. Ранее мы уже выдвинули гипотезу, что такое количество пропусков может быть объяснено тем, что некоторые игры менее популярны и эксперты и пользователи их еще не оценила, а рейтинг могли не присвоить из-за раннего выхода игры и отсуствия процедуры определения рейтинга. Первично необходимо проверить данную теорию.

In [21]:
display(dataset.groupby('year_of_release')['rating'].count() / dataset.groupby('year_of_release')['year_of_release'].count() * 100)
display(dataset.groupby('year_of_release')['critic_score'].count() / dataset.groupby('year_of_release')['year_of_release'].count() * 100)
dataset.groupby('year_of_release')['user_score'].count() / dataset.groupby('year_of_release')['year_of_release'].count() * 100

year_of_release
1980     0.000000
1981     0.000000
1982     0.000000
1983     0.000000
1984     0.000000
1985     7.142857
1986     0.000000
1987     0.000000
1988     6.666667
1989     0.000000
1990     0.000000
1991     0.000000
1992     4.651163
1993     0.000000
1994     0.826446
1995     0.000000
1996     2.621723
1997     6.484642
1998     8.333333
1999    12.609971
2000    42.016807
2001    70.468432
2002    78.903456
2003    79.087452
2004    78.339818
2005    75.263158
2006    67.058824
2007    68.719212
2008    68.719723
2009    70.827586
2010    63.643471
2011    61.792863
2012    53.731343
2013    58.152174
2014    59.417808
2015    51.960784
2016    55.818540
dtype: float64

year_of_release
1980     0.000000
1981     0.000000
1982     0.000000
1983     0.000000
1984     0.000000
1985     7.142857
1986     0.000000
1987     0.000000
1988     6.666667
1989     0.000000
1990     0.000000
1991     0.000000
1992     2.325581
1993     0.000000
1994     0.826446
1995     0.000000
1996     2.996255
1997     5.802048
1998     7.291667
1999    11.730205
2000    40.336134
2001    67.820774
2002    75.566150
2003    75.411914
2004    73.540856
2005    69.684211
2006    61.372549
2007    58.045977
2008    50.173010
2009    45.448276
2010    39.796716
2011    43.777198
2012    48.507463
2013    50.362319
2014    44.863014
2015    37.091503
2016    45.759369
dtype: float64

year_of_release
1980     0.000000
1981     0.000000
1982     0.000000
1983     0.000000
1984     0.000000
1985     7.142857
1986     0.000000
1987     0.000000
1988     6.666667
1989     0.000000
1990     0.000000
1991     0.000000
1992     2.325581
1993     0.000000
1994     0.826446
1995     0.000000
1996     2.996255
1997     6.143345
1998     8.072917
1999     9.384164
2000    29.971989
2001    53.564155
2002    55.899881
2003    66.539924
2004    63.942931
2005    62.105263
2006    54.509804
2007    52.545156
2008    46.366782
2009    43.103448
2010    37.294762
2011    43.864230
2012    51.343284
2013    55.978261
2014    56.506849
2015    49.019608
2016    51.873767
dtype: float64

Гипотеза о том, что игры вышедшие в более раннии годы не прошли процедуру рейтинга не подтвердилась так как рейтинг есть у игр, которые вышли в 1985, но при игры вышедшие в 1995 году не получили рейтинг. Более детальное расммотрение полученного результата позволяет выдвинуть другую гипотезу: `Игры получают рейтинг в зависимости от их популярности: если у игры есть оценка критиков или пользователей, то у игры есть рейтинг.` Однако на данном этапе подтвердить эту гипотезу проблематично и потребует больших ресурсов. Как следствие, учитывая зависимость рейтинга от оценок, пропуски по данному показателю также можно заменить на значение-индикатор. Приступим к обработке пропусков.


In [22]:
# Первоочередно избавимся от строк с пропусками в названии игры и жанре
len_dataset = dataset.shape[0]
display(f'Количество записей до удаления строк с пропусками в названии игр или жанре: {len_dataset}.')
dataset = dataset[(dataset['name'].isna() == False) | (dataset['genre'].isna()==False)]
display (f'Количество записей после удаления строк с пропусками: {dataset.shape[0]}.')
display(f'Удалено: {len_dataset - dataset.shape[0]} значений.')
display(f'Осталось: {dataset.shape[0]/len_dataset * 100} % значений от предыдущего датасета.')

'Количество записей до удаления строк с пропусками в названии игр или жанре: 16681.'

'Количество записей после удаления строк с пропусками: 16679.'

'Удалено: 2 значений.'

'Осталось: 99.98801031113243 % значений от предыдущего датасета.'

In [23]:
# Теперь заменим пропуски в числах медианным значением по группе игр определнного года, платформы и жанра
# Функция для замены пропусков медианным значением по группе игр определнного года, платформы и жанра для столбца eu_sales
def mean_for_play_eu_sales (row):
    if pd.isna(row['eu_sales']):
        group = dataset[(dataset['year_of_release'] == row['year_of_release'])&
                        (dataset['platform'] == row['platform'])&
                        (dataset['genre'] == row['genre'])]
        return group['eu_sales'].median()
    else:
        return row['eu_sales']
# Функция для замены пропусков медианным значением по группе игр определнного года, платформы и жанра для столбца jp_sales        
def mean_for_play_jp_sales (row):
    if pd.isna(row['jp_sales']):
        group = dataset[(dataset['year_of_release'] == row['year_of_release'])&
                        (dataset['platform'] == row['platform'])&
                        (dataset['genre'] == row['genre'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']
        
dataset['eu_sales'] = dataset.apply(mean_for_play_eu_sales, axis=1)
dataset['jp_sales'] = dataset.apply(mean_for_play_jp_sales, axis=1)

Замена пропусков в столбцах продаж игр в различных страных выполнена. Для этого созданы две отдельные функции, которые заменили пропуски медианным значением в зависимости от года релиза игры, платформы и жанра.

Теперь приступим к замене пропусков в столбцах оценок. Оценки экспертов выставляются по стобалльной системе (от 0 до 100), а оценки пользователей по десятибалльной системе (от 0 до 100). Таким образом, чтобы не менять формат типа данных ячеек можно заменить пропуски значением индикатором "-1". Что будет означать, что игра не получил оценку. При этом, оценка экспертов представлена целым числом, поэтому тип данных также можно заменить.


In [24]:
dataset['critic_score'] = dataset['critic_score'].fillna(-1)
dataset['user_score'] = dataset['user_score'].fillna(-1)
dataset['critic_score'] = pd.to_numeric(dataset['critic_score'], downcast = 'integer')

Приступим к заполнению пропусков в столбце `rating`. Столбец содержит значения в типе данных `object`, все значения в столбце представлены строковыми данными. Для заполнение пропусков подойдет значение-индикатор "Unknown" (руск. - неопределен). При этом, тип данных столбца не будет изменен.

In [25]:
dataset['rating'] = dataset['rating'].fillna('Unknown')

In [26]:
# Осуществим проверку заполнения всех пропусков
display(dataset.info())
display(dataset.isna().sum())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  int8   
 9   user_score       16679 non-null  float32
 10  rating           16679 non-null  object 
dtypes: float32(1), float64(4), int16(1), int8(1), object(4)
memory usage: 1.3+ MB


None

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

В результате все пропуски были устранены и перезаполнены медианными значеними или значениями индикатарами. Также был изменен тип данных в столбце `critic_score` на `int8`.

<a class="anchor" id="7_charter"></a> 
### 2.4 Явные и неявные дубликаты в данных

Для начала следует проверить наличие неявных дубликатов в данных. Появление неявных дубликатов может быть вызванно различными условиями (сокращение названий, ошибки при вводе данных: наличие лишних пробелов или иных символов, орфографические ошибки, повторение записей с разными значениями и т.д.)

Первостепенно выведем уникальные значения по годам, жанрам, платформам, рейтингу и названием игр


In [27]:
dataset['year_of_release'].unique()

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983], dtype=int16)

При рассмотрении значений в столбце `year_of_release` неявных дубликатов необнаружено. Все значения уникальны.

In [28]:
dataset['rating'].unique()

array(['E', 'Unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

При рассмотрении значений в столбце `rating` неявных дубликатов необнаружено. Все значения уникальны.

In [29]:
dataset['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

В столбце `genre` присутвуют неявные дубликаты. Жанры задублировались из-за записи в разных регистрах. 

In [30]:
# Данные в колонке `genre` представляют собой строки, потому воспользуемся акцессором `.str`
# и приведем все записи к нижнему регистру
dataset['genre'] = dataset['genre'].str.lower()

In [31]:
dataset['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

При рассмотрении значений в столбце `platform` неявных дубликатов необнаружено. Все значения уникальны.

In [32]:
dataset['name'].value_counts()

Need for Speed: Most Wanted                            12
Monopoly                                                9
FIFA 14                                                 9
Ratatouille                                             9
LEGO Marvel Super Heroes                                9
                                                       ..
Gran Turismo 2                                          1
I Spy: Fun House                                        1
Zettai Kaikyuu Gakuen: Eden with Roses and Phantasm     1
Jewel Quest: Expeditions                                1
Crystal Castles                                         1
Name: name, Length: 11426, dtype: int64

В первом приближении дубликатов в названии игр не обнаружено, однако следует привести все к единому регистру.

In [33]:
# Действуем по аналогии со столбцом `genre`
dataset['name'] = dataset['name'].str.lower()

После устранения неявных дубликатов проверим наличие явных дубликатов и узнаем их количество. Так как игру могли занести в датасет несколько раз с разными числовыми значениями, проверим дубликаты по основным категориальным величным: название и платформа.

In [34]:
dataset.duplicated(subset = ['name', 'platform'], keep = 'first').sum()

238

Суммарно мы нашли в данных 238 дубликатов игр по названию игры и платформе. Для дальнейшего анализа наличие дубликатов нежелательно, так как может отразиться на его результатах, тем самым предоставив некачественные данные. Их следует удалить.

In [35]:
dataset.drop_duplicates(subset = ['name', 'platform'], keep = 'first', inplace = True)

Все дубликаты в датасете были удалены.

In [36]:
display(f'Всего удалено: {all_len_dataset - dataset.shape[0]} записей по сравнению с исходным датасетом.')
display(f'Всего удалено: {(all_len_dataset - dataset.shape[0])/all_len_dataset*100} %.')

'Всего удалено: 515 записей по сравнению с исходным датасетом.'

'Всего удалено: 3.0372729417315405 %.'

#### Общий вывод по разделу:

В ходе выполнения работ по предобработки данных были устранены все пропуски и дубликаты датасета. При этом подобраны оптимальные типы данных для дальнейшей работы. В процессе предобработки было удалено 515 записей: 275 значенйи из-за отсутсвия значений в столбце `year_of_release`, 2 значения из-за отсутсвия значений в столбцах `name` и `genre`, а также 238 дубликатов. Удаленные записи составили 3.04%.

<a class="anchor" id="8_charter"></a> 
## 3 Фильтрация данных

По заданию коллег из "Секреты Темнолесья" необходимо отобрать данные за период с 2000 по 2013 год включительно. Для этого необходимо создадим новый датасет, в который будет помещене срез данных за указанный временной промежуток.

In [37]:
# Отберем необходимые данные по двум условиям: значение в столбце `year_of_release` больше 
# или равно 2000 и значение в столбце `year_of_release` меньше или равно 2013.
dataset_00_13 = dataset[(dataset['year_of_release']>= 2000) & (dataset['year_of_release']<= 2013)]
dataset_00_13.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12778 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12778 non-null  object 
 1   platform         12778 non-null  object 
 2   year_of_release  12778 non-null  int16  
 3   genre            12778 non-null  object 
 4   na_sales         12778 non-null  float64
 5   eu_sales         12778 non-null  float64
 6   jp_sales         12778 non-null  float64
 7   other_sales      12778 non-null  float64
 8   critic_score     12778 non-null  int8   
 9   user_score       12778 non-null  float32
 10  rating           12778 non-null  object 
dtypes: float32(1), float64(4), int16(1), int8(1), object(4)
memory usage: 985.8+ KB


В результате был получен новый датасет `dataset_00_13`, в котором представлены данные за указанный ранее промежуток. Типы данных и их характеристики остались неимзенными. В новом датасете осталось 12778 записей.

In [38]:
 # код ревьюера
 # Создаем DataFrame
df_my = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# Давай его посмотрим
print('Вот так выглядит df_my изначально')
display(df_my)

# А теперь давай создадим "копию" DataFrame без использования .copy()
df_fake_copy = df_my


# А теперь вносим изменения в "копию"
df_fake_copy.loc[0, 'A'] = 100
print('Вот так выглядит df_fake_copy  после внесения изменений')
display(df_fake_copy)

# А теперь вопрос на засыпку, что произойдёт с df_my?

 
 
 # Смотрим
display(df_my)
# И оказывается что он принял все изменения df_fake_copy


# Но в чём тогда смысл df_copy = df_my, если изменения в одном, немедленно приведёт к изменениям в другом? 
# 
# Чтобы сделать настоящую копию:

df_real_copy = df_my.copy()

# И теперь если мы внесём изменения в df_real_copy, это не приведёт к изменениям в df_my, а если мы изменим df_my, 
# df_real_copyэто не приведёт к изменениям 

#  обрати на это внимание

# Почему так происходит .copy()? Python, объекты, такие как DataFrame, являются ссылочными типами данных. 
# Это означает, что переменные, которые хранят эти объекты, фактически хранят ссылки на место в памяти, 
# где находится объект. Давай посмотрим id df_my и id df_fake_copy
df_my_id = id(df_my)
df_fake_copy_id = id(df_fake_copy)

print(f"Смотрим сектора хранения информации df_my: {df_my_id} и df_fake_copy_id: {df_fake_copy_id}")

# И видим что они идентичные! То есть наши это фреймы по-прежнему ссылаются на один и тот же сектор
# Вот поэтому изменения в одном приводят к изменению в другом


Вот так выглядит df_my изначально


Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Вот так выглядит df_fake_copy  после внесения изменений


Unnamed: 0,A,B
0,100,4
1,2,5
2,3,6


Unnamed: 0,A,B
0,100,4
1,2,5
2,3,6


Смотрим сектора хранения информации df_my: 140356564475472 и df_fake_copy_id: 140356564475472


Также, коллеги хотели сделать акцент на играх в жанре RPG. Для этих целей создадим еще один датасет, в который попадут только записи с подходящим жанром. На основе предыдущего ознакомления с данными и обработки жанр RPG записан в датасете как `role-playing`. Совершим фильтрацию именно по этому значению.

In [39]:
dataset_00_13_rpg = dataset_00_13[dataset_00_13['genre'] == 'role-playing']
dataset_00_13_rpg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1079 entries, 20 to 16942
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             1079 non-null   object 
 1   platform         1079 non-null   object 
 2   year_of_release  1079 non-null   int16  
 3   genre            1079 non-null   object 
 4   na_sales         1079 non-null   float64
 5   eu_sales         1079 non-null   float64
 6   jp_sales         1079 non-null   float64
 7   other_sales      1079 non-null   float64
 8   critic_score     1079 non-null   int8   
 9   user_score       1079 non-null   float32
 10  rating           1079 non-null   object 
dtypes: float32(1), float64(4), int16(1), int8(1), object(4)
memory usage: 83.2+ KB


In [40]:
display(f'Количество удаленных записей после фильтрации по году составило: {dataset.shape[0] - dataset_00_13.shape[0]} записей.')
display(f'Осталось: {dataset_00_13.shape[0]/dataset.shape[0] * 100}% записей.')
display(f'Количество удаленных записей после фильтрации датасета `dataset_00_13`по жанру составило: {dataset_00_13.shape[0] - dataset_00_13_rpg.shape[0]} записей.')
display(f'Осталось: {dataset_00_13_rpg.shape[0]/dataset_00_13.shape[0] * 100}% записей.')

'Количество удаленных записей после фильтрации по году составило: 3663 записей.'

'Осталось: 77.72033331305882% записей.'

'Количество удаленных записей после фильтрации датасета `dataset_00_13`по жанру составило: 11699 записей.'

'Осталось: 8.444200970417906% записей.'

#### Общий вывод по разделу:

В разделе совершена фильтрация первоначальных предобработанных данных. На основе проведенной фильтрации создано два датасета:
- `dataset_00_13` - игры вышедшие с 2000 года по 2013 год включительно;
- `dataset_00_13_rpg` - игры в жанре RPG вышешдшие с 2000 года по 2013 год включительно.

В результате после первой фильтрации было удалено 3663 записи, осталось 12778 записей (77.72% от первоначального датасета). После второй фильтрации было отсеяно большее количество строк - 11699, осталось 1079 строк (8.44% от датасета собранного в результате фильтрации по году).

<a class="anchor" id="9_charter"></a> 
## 4 Категоризация данных


Коллеги из "Секреты Темнолесья" попросило произвести категоризацию игр по оценкам пользователей и экспертов. Основным условием является выделение трех категорий:
- высокая оценка — с оценкой от 8 до 10 и от 80 до 100, включая правые границы интервалов.
- средняя оценка — с оценкой от 3 до 8 и от 30 до 80, не включая правые границы интервалов.
- низкая оценка — с оценкой от 0 до 3 и от 0 до 30, не включая правые границы интервалов.

Для этого потребуется добавить новый столбец в имеющиеся датасеты, в котором будет представлена категория оценки. Так как в прошлом разделе мы создали два датасета, то поработаем с ними поотдельности.

Кроме того, ранее для игр, у которых нет информации о рейтинге, было занесено значение-индикатор "-1". На основе этого значения мы добавим категорию "Не оценена критиком"/"Не оценена пользователем"

In [41]:
# Функция для категоризации оценки для датасета `dataset_00_13`, произведем категоризацию данных с помощью метода `aplly()` по значениям
# столбца с оценками критика
def category_assessment_critic(row):
    if 80 <= row['critic_score'] <= 100:
        return 'Высокая оценка'
    elif 30 <= row['critic_score'] < 80:
        return 'Средняя оценка'
    elif 0 < row['critic_score'] < 30:
        return 'Низкая оценка'
    else:
        return 'Не оценена критиком'
    
# Функция для категоризации оценки для датасета `dataset_00_13`, произведем категоризацию данных с помощью метода `aplly()` по значениям
# столбца с оценками пользователя
def category_assessment_user(row_1):
    if 8 <= row_1['user_score'] <= 10:
        return 'Высокая оценка'
    elif 3 <= row_1['user_score'] < 8:
        return 'Средняя оценка'
    elif 0 < row_1['user_score'] < 3:
        return 'Низкая оценка'
    else:
        return 'Не оценена пользователем'
    

dataset_00_13['assessment_critic']=dataset_00_13.apply(category_assessment_critic, axis = 1)
dataset_00_13['assessment_user']=dataset_00_13.apply(category_assessment_user, axis = 1)
display(dataset_00_13.head(10))
dataset_00_13.info()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_00_13['assessment_critic']=dataset_00_13.apply(category_assessment_critic, axis = 1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_00_13['assessment_user']=dataset_00_13.apply(category_assessment_user, axis = 1)


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,assessment_critic,assessment_user
0,wii sports,Wii,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E,Средняя оценка,Высокая оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,Высокая оценка,Высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,Средняя оценка,Средняя оценка
8,new super mario bros. wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,Высокая оценка,Высокая оценка
10,nintendogs,DS,2005,simulation,9.05,10.95,1.93,2.74,-1,-1.0,Unknown,Не оценена критиком,Не оценена пользователем
11,mario kart ds,DS,2005,racing,9.71,7.47,4.13,1.9,91,8.6,E,Высокая оценка,Высокая оценка
13,wii fit,Wii,2007,sports,8.92,8.03,3.6,2.15,80,7.7,E,Высокая оценка,Средняя оценка
14,kinect adventures!,X360,2010,misc,15.0,4.89,0.24,1.69,61,6.3,E,Средняя оценка,Средняя оценка


<class 'pandas.core.frame.DataFrame'>
Int64Index: 12778 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               12778 non-null  object 
 1   platform           12778 non-null  object 
 2   year_of_release    12778 non-null  int16  
 3   genre              12778 non-null  object 
 4   na_sales           12778 non-null  float64
 5   eu_sales           12778 non-null  float64
 6   jp_sales           12778 non-null  float64
 7   other_sales        12778 non-null  float64
 8   critic_score       12778 non-null  int8   
 9   user_score         12778 non-null  float32
 10  rating             12778 non-null  object 
 11  assessment_critic  12778 non-null  object 
 12  assessment_user    12778 non-null  object 
dtypes: float32(1), float64(4), int16(1), int8(1), object(6)
memory usage: 1.2+ MB


В результате работы было получено два новых столбца `assessment_critic` и `assessment_user`, в которые были помещены категории оценки критика и пользователя соответственно. После этого количество данных в датасете изменилось, вместо 11 столбцов стало 13. Количество строк при этом не изменилось.


***P.S.: Не знаю как избавиться от ошибки в этом случае.***

Теперь совершим аналогичное действие со вторым датасетом `dataset_00_13_rpg`.

In [42]:
# В этот раз произведем категоризацию с помощью метода 'cut()'
dataset_00_13_rpg['assessment_critic'] = pd.cut(dataset_00_13_rpg['critic_score'], 
                                               bins = [-2,0,30,80,101], 
                                               labels = ['Не оценена критиком','Низкая оценка','Средняя оценка','Высокая оценка']ь
                                               right=False)
dataset_00_13_rpg['assessment_user'] = pd.cut(dataset_00_13_rpg['user_score'], 
                                               bins = [-2,0,3,8,11], 
                                               labels = ['Не оценена пользователем','Низкая оценка','Средняя оценка','Высокая оценка'],
                                              right=False)
display(dataset_00_13_rpg.head(10))
dataset_00_13_rpg.info()

SyntaxError: invalid syntax (3024553479.py, line 4)

В результате работы было получено два новых столбца `assessment_critic` и `assessment_user`, в которые были помещены категории оценки критика и пользователя соответственно. После этого количество данных в датасете изменилось, вместо 11 столбцов стало 13. Количество строк при этом не изменилось.


***P.S.: Не знаю как избавиться от ошибки в этом случае.***

Теперь подсчитаем количество игр в каждой категории, для этого воспользуемся методом для столбцов датафреймов`value_counts()`.

In [None]:
display(dataset_00_13['assessment_critic'].value_counts())
display(dataset_00_13['assessment_critic'].value_counts(normalize = True))
display(dataset_00_13['assessment_user'].value_counts())
display(dataset_00_13['assessment_user'].value_counts(normalize = True))


После категоризации заметно, что большинство игр вышедших за указанный период с 2000 по 2013 год получили среднюю оценку от критиков. **Суммарно критики оценили 7166 игр.** При этом 5612 игр не получили оценку от критиков. Оцененные игры распределись следующим образом: 0.5% (67) игр вышедшие в этот период получили низкую оценку, 11.6% (1486) игр получили высокую оценку, 43.93% (5612) игр получили среднюю оценку и 43.92% (5612) игр не были оценены. 

В отношении пользователей сложилась немного иная картина. В отличии от критиков пользователи оценили меньшее количество игр. **Суммарно пользователи оценили  6479 игр.** Оценки пользователей распределись следующим образом: 1% (132) игр получили низкую оценку, 15.9% (2031) игр получили высокую оценку, 33.78% (4316) игр получили среднюю оценку и 49.3% (6299) игр вовсе не получили оценки от пользователей.

In [None]:
# Совершим аналогичное действие но для датасета `dataset_00_13_rpg`
display(dataset_00_13_rpg['assessment_critic'].value_counts())
display(dataset_00_13_rpg['assessment_critic'].value_counts(normalize = True))
display(dataset_00_13_rpg['assessment_user'].value_counts())
display(dataset_00_13_rpg['assessment_user'].value_counts(normalize = True))

После категоризации заметно, что большинство игр вышедших за указанный период с 2000 по 2013 год в жанре RPG получили среднюю оценку от критиков. **Суммарно критики оценили 613 игр.** При этом 466 игр не получили оценку от критиков. Оцененные игры распределись следующим образом: 0.0% (0) игр вышедшие в этот период получили низкую оценку, 14.64% (158) игр получили высокую оценку, 42.17% (455) игр получили среднюю оценку и 43.19% (466) игр не были оценены. 

В отношении пользователей сложилась немного иная картина. **Суммарно пользователи оценили  611 игр.** Оценки пользователей распределись следующим образом: 0.09% (1) игр получили низкую оценку, 23.3% (251) игр получили высокую оценку, 33.27% (359) игр получили среднюю оценку и 43.4% (468) игр вовсе не получили оценки от пользователей.

Таким образом, можно сказать что пользователи более лояльны при оценивании игр и чаще чем критики ставят высокие оценки. Срез по играм в жанре RPG также это демонстрирует.

От коллег также поступало задание вывести топ-7 платформ по количеству игр, выпущенных за период с 2000 по 2013 год. По аналогии с предыдущей задачей выполним этот запрос двумя способами для разных датасетов.

In [None]:
# Воспоьзуемся двумя методами: 
# `groupby` для групировки и последующей агрегации данных
# `sort_values` для сортировки полученной серии в порядке убывания значений для платформ
dataset_00_13.groupby('platform')['name'].count().sort_values(ascending = False).head(7)

В результате получили топ-7 платформ по выпуску игр в период с 2000 по 2013 год. В топ попали платформу с суммарным количеством выпущенных игр от 811 до 2127. 

In [None]:
# Теперь решим поставленную задачу для другого датасета, в котором отобраны игры в жанре PRG
# Для этого воспользуемся методом'value_counts()' так как в получившимся датасете нет пропусков
dataset_00_13_rpg['platform'].value_counts()


В результате был получен список всех платформ с указанием частоты появления в датасете. Из этого списка можно выбрать первые 7 платформ, которые и войдут в топ-7, это: DS, PSP, PS2, PS3, PC, GBA, X360. В топ попали платформы, которые в указанный период выпустили от 69 до 196 игр в жанре RPG. При этом, топ-7 платформ по количеству выпущенных игр за указанный период вне зависимости от жанра значительн отличается. В двух топах присутствуют 5 одинаковых платформ, но они занимают разные места.

<a class="anchor" id="10_charter"></a> 
## 5 Итоговый вывод

В ходе выполнения работ над проектом были выполнены следующие задачи:
1. Загружены данные 
2. Проверены ошибки в данных и соверешна их предобработка

   2.1.Изменены названия столбцов датафрейма

   2.2. Изменены типы данных столбцов датафрейма

   2.3. Были обнаружены и устранены пропуски в данных

   2.4. Были обнаружены и впоследствии устранены явные и неявные дубликаты в данных
   
4. Осуществлена фильтрация данных
5. Совершена категоризация данных


По запросу заказчика были добавлены новые столбцы, которые содержат информацию о категориях оценок критиков и пользователей, а также выведен топ-7 платформ. Для предоставления более полной информации сделано два датасета `dataset_00_13`и `dataset_00_13_rpg`, в которых хранятся данные с 2000 по 2013 год, а также данные об играх жанра RPG соответственно.

В ходе предобработки данных **было удалено 3.04%** от всех полученных данных. Так как в задачу не входит посчитать прибыль от реализации игр, то **такое количество данных не сильно повлияет на проведенной анализ**.


Изучение категоризации оценок критиков и пользователей также показало, что **пользователи более лояльны в вопросе высталения оценок играм чем критики**. Но при этом, **критики ставят оценки играм чаще**. В ходе преодбработки данных также **выдвинута гипотеза: "Рейтинг игры может быть сформирован только в том случае, если игра получила хотя бы одну из оценок"**. 

Гипотеза подтверждается следующими данными: 
- при первом изучении пропусков в данных замечено, что доля пропусков в оценках пользователей и критиков разные, но при этом доля пропусков в столбце рейтинга намного ниже, чем в оценках;
- при детальном изучении количества оценных игр и игр, у которых заполнен рейтинг по годам, заметно, что рейтинг и оценки в различные годы коррелируются и почти равны друг другу;
- при изучении первых строк данных также заметно,что выдвигаемое предположение подтверждается.

Однако, выдвинутая гипотеза требует более детально рассмотрения для подтверждения.

В результате в период **с 2000 по 2013 год было выпущено 12778 игр**, из них **в жанре RPG 1079 игр.**
**Топ-7 платформ** по количеству выпущенных игр возглавили: **S2, DS, Wii, PSP, X360, PS3, GBA (в порядке убывания).**
А по количеству выпущенных игр **в жанре RPG - DS, PSP, PS2, PS3, PC, GBA, X360.**