# Исследования развития игровой индустрии в начале XXI века
----------------------------------------------------------------------------------------------------------------------

- Автор: Григорьев Константин 
- Дата: 28.11.2024

### Цели и задачи проекта
----------------------------

Цель проекта познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных, сделать анализ на полученных данных и выводы для статьи о развитии игровой индустрии в начале XXI века.

Перед анализом необходимо дополнительно сделать следующее:

- Отобрать данные по времени выхода игры. Нужен период с `2000` по `2013` год включительно.;
- Категоризовать игры по оценкам пользователей и экспертов. Выделите три категории:;
 - `высокая оценка` — с оценкой от `8 до 10` и `от 80 до 100`, включая правые границы интервалов.;
 - `средняя оценка` — с оценкой от `3 до 8` и от `30 до 80`, не включая правые границы интервалов.;
 - `низкая оценка` — с оценкой от `0 до 3` и от `0 до 30`, не включая правые границы интервалов.;
 
- Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.;

### Описание данных
----------------

Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр за период с 2000 по 2013 год включительно:
- `Name` — название игры.;
- `Platform` — название платформы.;
- `Year of Release` — год выпуска игры.;
- `Genre` — жанр игры.;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).;
- `EU sales` — продажи в Европе (в миллионах проданных копий).;
- `JP sales` — продажи в Японии (в миллионах проданных копий).;
- `Other sales` — продажи в других странах (в миллионах проданных копий).;
- `Critic Score` — оценка критиков (от 0 до 100).;
- `User Score` — оценка пользователей (от 0 до 10).;
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.;

Для разделения на категории были добавлены следующие поля:
- `user_score_group` - высокая оценка — с оценкой от 8 до 10, средняя оценка — с оценкой от 3 до 8, низкая оценка — с оценкой от 0 до 3;
- `critic_score_group` - высокая оценка — с оценкой от 80 до 100, средняя оценка — с оценкой 30 до 80, низкая оценка — с оценкой от 0 до 30;

### Содержимое проекта
--------------------------

1. Загрузка и знакомство с данными.
2. Проверка ошибок в данных и их предобработка.
3. Фильтрация данных.
4. Категоризация данных.
5. Итоговый вывод.

### Описание проекта: 
----

В ходе работы над сделаем предобработку данных датасета `/datasets/new_games.csv`, а именно: 
- загрузим и изучим датасет; 
- подключим необходимые для исследования бибилиотеке `Pandas` и `NumPy`; 
- проверим датасет на ошибки; 
- найдем и предобработаем пропущенные значения; 
- проверим на наличие явных и неявных дубликатов; 
- отфильтруем данные по годам с 2003 по 2013; 
- категоризируем отфильтрованные данные по оценкам пользователей и критиков; 
- проведем небольшой анализ результатов.

## 1. Загрузка и знакомство с данными
---

1. Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.
2. Познакомьтесь с данными: выведите первые строки и результат метода `.info()`.
3. Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
4. Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

In [1]:
import pandas as pd #подключим библиотеку "Pandas"

In [2]:
import numpy as np #подключим библиотеку "Numpy"

In [3]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv') #прочитаем CSV-файл

In [4]:
df.head(10) #строки для ознакомления

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [5]:
df.info() #выведем информатицю о датасете

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Датасет `/datasets/new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о рейтинге игр.

Изучим типы данных и их корректность:

Типом `float64` представлены 4 столбца: 

- `Year of Release` в этом столбце хранятся данные о дате релиза игры, тип данных с плавающей точкой не подходит для хранения и дальнейшего использования в анализе, поэтому его нужно будет преобразовать в `int(8)` или `int(16)` этого будет достаточно для отбора по периоду;
- `NA sales` хранит данные о продажах в млн. копий и данном случае тип данных `float(64)` корректен для этого столбца, но дополнительно для оптимизации его можно заменить на `float(32)`;
- `Other sales` хранит данные о продажах в млн. копий в других странах и тип `float(64)` будет корректным для этого столбца, но для оптимизации может быть заменен на `float(32)`;
- `Critic Score` хранит данные об оценках критиков от 0 до 100, тип данных `floaat(64)` тут может быть заменен на `int(8)` или `int(16)`

Типом `object` представлены 7 столбцов:

- `Name` хранит данные о названии игр и будет корерктным для данного столбца;
- `EU sales`,`JP sales` хранят данные о продажах в млн. копий, поэтому их необходимо преобразовать в `float(64)` или `float(32`;
- `Platform`,`Genre` хранят данные о типе игровых платформ и жанре игр и подходят под тип `category` их нужно преобразовать для дальнейшего анализа;
- `User Score` хранит данные о пользовательских рейтингах играх, тип `object` будет некорректен для этих данных - его нужно заменить на `float(64)` или `float(32)`;
- `Rating` - хранит данные о возрастном рейтинге и подходит под тип данных `category`

Также стоит отметить что названия столбцов нужно изменить к стилю snake case, а у столбцов `Name`,`Year of Release`,`Genre`,`Critic Score`,`User Score` и `Rating` есть пропущеные значения, которые нужно будет учитывать при дальнейшей работе с данными.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма: 

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания. 
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [6]:
# выведем названия столбцов, чтобы проверить стиль написания 
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Из выведенных названий можно сделать вывод, что они называются хаотично и для дальнейшей работы их необходимо привести к `snake case`.

In [7]:
# приведем названием колонок в правильный формат
df.columns = df.columns.str.lower().str.replace(" ", "_")

In [9]:
df.head(3)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E


В датасете были выведены названия столбцов и приведены к стилю `snake_case` методом `rename()`.

### 2.2. Типы данных: 

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу int64. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных. 
- В числовых столбцах могут встретиться строковые значения, например, `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [10]:
# ознакомимся с типами столбцов
df.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

В пункте 1.1. были сделаны выводы, теперь приведем столбцы к нужным типам данных:
- `year_of_release` - `integer`
- `critic_score` - `integer`
- `eu_sales` - `float`
- `jp_sales` - `float`
- `user_score` - `float`

In [11]:
# заменим тип данных на int
for column in ['year_of_release','critic_score']:
    df[column] = pd.to_numeric(df[column], errors='coerce', downcast='integer')

In [12]:
# заменим тип данных на float
for column in ['eu_sales','jp_sales','user_score']:
    df[column] = pd.to_numeric(df[column], errors='coerce', downcast='float')

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float32
 6   jp_sales         16952 non-null  float32
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float32
 10  rating           10085 non-null  object 
dtypes: float32(3), float64(4), object(4)
memory usage: 1.2+ MB


В столбцах `year_of_release` и `critic_score` не были приведены к типу `integer` потому что в столбцах есть пропуски. Займемся ниже их обработкой.

В данном блоке была выведена информция о типах столбцов и приведены к нужному типу. Для преоброзавания типов данных был использован `цикл` с методом `to_numeric()` в аргументах метода использованы `coerce`.

### 2.2. Наличие пропусков в данных: 

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.
- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [14]:
# выводим количество пропущенных строк в датафрейме
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [15]:
df.isna().sum().sum()

25142

Пропущеные значения есть в столбцах `name`, `year_of_release`, `genre`, `critic_score`, `user_score`, `rating` 


In [16]:
# подсчитываем процент строк с пропусками
df.isna().sum() / len(df) * 100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

Большая часть пропусков распределена в столбцах с рейтингами и относятся к виду `MAR` доля пропусков в этих столбцах примерно одинаково распределены и можно сделать вывод, что пропуски есть из-за отсутсвия данных. Выведем по порядку столбцы и детально разберемся с причиной появления пропусков. 

In [17]:
#выводим пропущеные занчение в столбце eu_sales
df[df['eu_sales'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
446,Rhythm Heaven,DS,2008.0,Misc,0.55,,1.93,0.13,83.0,9.0,E
802,Dead Rising,X360,2006.0,Action,1.16,,0.08,0.2,85.0,7.6,M
1131,Prince of Persia: Warrior Within,PS2,2004.0,Action,0.54,,0.0,0.22,83.0,8.5,M
1132,Far Cry 4,XOne,2014.0,Shooter,0.8,,0.01,0.14,82.0,7.5,M
1394,Sonic Advance 3,GBA,2004.0,Platform,0.74,,0.08,0.06,79.0,8.4,E
1612,Ratatouille,DS,2007.0,Action,0.49,,0.0,0.14,,,


In [18]:
#выводим пропущеные занчение в столбце jp_sales
df[df['jp_sales'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
467,Saints Row 2,X360,2008.0,Action,1.94,0.79,,0.28,81.0,8.1,M
819,UFC 2009 Undisputed,X360,2009.0,Fighting,1.48,0.39,,0.19,83.0,7.9,T
1379,Hello Kitty Party,DS,2007.0,Misc,0.78,0.51,,0.12,,,E
4732,Castlevania: The Dracula X Chronicles,PSP,2007.0,Platform,0.22,0.09,,0.07,80.0,7.8,T


Значения в этих столбцах были `"unknown"` и при преобразовании типов данных мы их заменили на пропуски. Таких данных немного, можно либо уточнить данные и заменить их, либо удалить. Я удалю данные пропуски из выборки, т.к. у меня отсутсвуют данные по этим продажам.

In [19]:
# удаляем строки с пропусками по столбцам eu_sales, jp_sales
# df = df.dropna(subset=['eu_sales', 'jp_sales'])

In [20]:
# заполним пропуски в данных в столбцах eu_sales, jp_sales медианными значениями по группам платформы и даты выхода 
def fill_median(group):
    return group.fillna(group.median())

df['eu_sales'] = df.groupby(['platform','year_of_release'])['eu_sales'].apply(fill_median)
df['jp_sales'] = df.groupby(['platform','year_of_release'])['jp_sales'].apply(fill_median)

In [21]:
# проверим, что значения заполнились верно и выведем строки для проверки
df[['eu_sales', 'jp_sales']].isnull().sum()

eu_sales    275
jp_sales    275
dtype: int64

In [22]:
df[['eu_sales', 'jp_sales']].head(-10)

Unnamed: 0,eu_sales,jp_sales
0,28.959999,3.77
1,3.580000,6.81
2,12.760000,3.79
3,10.930000,3.28
4,8.890000,10.22
...,...,...
16941,0.000000,0.01
16942,0.000000,0.01
16943,0.010000,0.00
16944,0.000000,0.01


Все верно, нет нулевых значений, значит данные заполнились верно 

In [23]:
# Код ревьюера

df['jp_sales'] = df['jp_sales']\
    .fillna(df.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean'))

In [24]:
#выводим пропущеные занчение в столбце name - они совпадают по кол-ву со столбцом genre - это одни и те же пропуски
df[df['name'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


Эти данные находятся в "серой зоне" - мы не можем их заполнить или что-либо сделать с ними, поэтому их придется удалить, чтобы они не мешали дальнейшему анализу

In [25]:
# удаляем строки с пропусками по столбцам name, genre
df = df.dropna(subset=['name', 'genre'])

In [26]:
#выводим пропущеные значения в столбце year_of_release
df[df['year_of_release'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,,Sports,4.26,,,0.71,94.0,8.5,E
379,FIFA Soccer 2004,PS2,,Sports,0.59,,,0.51,84.0,6.4,E
458,LEGO Batman: The Videogame,Wii,,Action,1.80,,,0.29,74.0,7.9,E10+
477,wwe Smackdown vs. Raw 2006,PS2,,Fighting,1.57,,,0.41,,,
611,Space Invaders,2600,,Shooter,2.36,,,0.03,,,
...,...,...,...,...,...,...,...,...,...,...,...
16609,PDC World Championship Darts 2008,PSP,,Sports,0.01,,,0.00,43.0,,E10+
16641,Freaky Flyers,GC,,Racing,0.01,,,0.00,69.0,6.5,T
16685,Inversion,PC,,Shooter,0.01,,,0.00,59.0,6.7,M
16695,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,0.01,,,0.00,,,


Так же как и пропуски в данных о продажах в разных странные, заполнить пропуски невозможно из-за отсутвия данных, поэтому их следует удалить из выборки. Но можно тоже уточнить реальные данные и заполнить эти пропуски.

In [27]:
df = df.dropna(subset=['year_of_release'])

In [28]:
#выводим пропущеные значения в столбце critic_score
df[df['critic_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989.0,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005.0,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


In [29]:
#выводим пропущеные значения в столбце user_score
df[df['user_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989.0,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005.0,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


In [30]:
#выводим пропущеные значения в столбце rating
df[df['rating'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989.0,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005.0,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


В столбцах `critic_score`, `rating_score` и `rating` данные о рейтингах отсутсвуют либо из-за более ранней даты релиза (примерно до 2000 года), что может говорить о том что данных за этот период нет, а так же стоит учитывать что категории рейтинга ESRB - были введены с 1994 года и в играх до этого года будут пропуски в данных. Тут стоит заполнить данные "заглушкой", чтобы они не влияли на статистические показатели.

Так же рейтинг отсутсвует из-за малых или нулевых продаж, скорее всего это непопулярные игры и для них нет рейтинга.

In [31]:
# заполним столбец critic_score на "заглушку"
df['critic_score'] = df['critic_score'].fillna(-1) 

In [32]:
# заполним столбец user_score на "заглушку"
df['user_score'] = df['user_score'].fillna(-1) 

In [33]:
# заполним столбец rating на "заглушку"
df['rating'] = df['rating'].fillna('нет данных') 

Теперь после обработки пропусков, приведем типы данных в необходимые и удобные для анализа:

In [34]:
# заменим тип данных на int
for column in ['year_of_release','critic_score']:
    df[column] = pd.to_numeric(df[column], errors='coerce', downcast='integer')

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float32
 6   jp_sales         16679 non-null  float32
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  int8   
 9   user_score       16679 non-null  float32
 10  rating           16679 non-null  object 
dtypes: float32(3), float64(2), int16(1), int8(1), object(4)
memory usage: 1.1+ MB


In [36]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.959999,3.77,8.45,76,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1,-1.0,нет данных
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1,-1.0,нет данных



На основе предобработки можно сделать вывод, что пропуски характерны для столбцов `critic_score`, `user_score` и `rating` пропуски случайны, а поэтому относятся к виду `MAR` вероятность появления пропуска зависит от некоторой известной нам переменной, в данном датасете мы знаем, что в столбце `rating` данные отсутствуют из-за того, что данные были за период меньше 1994 года, либо игры не очень популярны или описание по ним отсутсвует, поэтому данные по ним не заполнены, такой же вывод характерен и для столбцов `other_sales`, `critic_score` и `user_score`.

Пропуски в столбцах `year_of_release` и `name` было принято решение удалить, т.к. заполнить их без необходимых данных не представляется возможным. 

Пропуски в столбцах `eu_sales`, `jp_sales` были заменены медианными значениям в разрезе групп по платформе и дате релиза игр. 

Для удаления был использован метод `dropna()`, а для заполнения пропусков `fillna()`, `apply()`.

Всего было обнаружено `25142` пропусков. Которые распределены в основном по столбцам в %:
- critic_score -      `51.391838`
- user_score   -      `54.659118`
- rating    -         `40.522529`
- name     -           `0.011795`
- year_of_release -    `1.621845`
- genre      -         `0.011795`
- eu_sales     -       `0.035386`
- jp_sales     -       `0.023590`

### 2.4. Явные и неявные дубликаты в данных: 

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.
- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.
- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

В процессе подготовки данных вы могли удалять данные, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях. После проведения предобработки данных напишите общий промежуточный вывод.

In [37]:
# выведем уникальные значения для жанров
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

Из уникальных данных по столбцу `genre` можно сделать вывод, что встречаются одинаковые данные, но записанные разным регистром, после нормализации данных жанры будут записаны в едином стиле.

In [38]:
# выведем уникальные значения для платформ
df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [39]:
# выведем уникальные значения для возрастного рейтинга
df['rating'].unique()

array(['E', 'нет данных', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [40]:
# выведем уникальные значения для годов релиза
df['year_of_release'].unique()

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983], dtype=int16)

In [41]:
# выведем уникальные значения для названия игр
df['name'].unique()

array(['Wii Sports', 'Super Mario Bros.', 'Mario Kart Wii', ...,
       'Woody Woodpecker in Crazy Castle 5', 'LMA Manager 2007',
       'Haitaka no Psychedelica'], dtype=object)

Ниже нормализируем данные приведя в нижний или врехний регистр и посмотрим на данные, проверим и исправим при необходимости:

In [42]:
df['genre'] = df['genre'].str.lower()

In [43]:
df['name'] = df['name'].str.lower()

In [44]:
df['platform'] = df['platform'].str.upper()

In [45]:
df['rating'] = df['rating'].str.upper()

Выведем уникальные названия для жанра, названия, платформы и возврастного рейтинга:

In [46]:
df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [47]:
df['name'].unique()

array(['wii sports', 'super mario bros.', 'mario kart wii', ...,
       'woody woodpecker in crazy castle 5', 'lma manager 2007',
       'haitaka no psychedelica'], dtype=object)

In [48]:
df['platform'].unique()

array(['WII', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XONE',
       'WIIU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [49]:
df['rating'].unique()

array(['E', 'НЕТ ДАННЫХ', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

После нормализации данных уникальные значения не повторяются и нет необходимости заменять их. Все жанры, платформы и возрастные рейтинги абсолютно уникальны. 

Неявные дубликаты удалены, теперь стоит заняться обработкой явных дубликатов:

In [50]:
# считаем кол-во строк до удаления дубликатов
initial_row_count = df.shape[0]

# Сортируем датафрейм по всем столбцам
df_sorted = df.sort_values(by=list(df.columns))

# Удаляем дубликаты
df_no_duplicates = df_sorted.drop_duplicates()

# Сохраняем количество строк после удаления дубликатов
final_row_count = df_no_duplicates.shape[0]

# абсолютное кол-во дубликатов
abs_duplicates = initial_row_count - final_row_count

# относительное кол-во дубликатов
percent_duplicates = round(100 - ((final_row_count / initial_row_count) * 100),2)

# Выводим результаты
print(f"Количество строк до удаления дубликатов: {initial_row_count}")
print(f"Количество строк после удаления дубликатов: {final_row_count}")
print(f"Количество удаленых дубликатов: {abs_duplicates}")
print(f"Процент удаленных строк: {percent_duplicates}%")

Количество строк до удаления дубликатов: 16679
Количество строк после удаления дубликатов: 16444
Количество удаленых дубликатов: 235
Процент удаленных строк: 1.41%


Итого было удалено `235` дублирующих строк. Это `1,41%` от всех данных. 


In [51]:
# проверим дублирующие строки по столбцам name, platform, year_of_release, genre
four_row_dup = df[df.duplicated(subset=['name', 'platform', 'year_of_release', 'genre'])]


In [52]:
four_row_dup

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
268,batman: arkham asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91,8.9,T
368,james bond 007: agent under fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72,7.9,T
717,god of war: ascension,PS3,2013,action,1.23,0.63,0.04,0.35,80,7.5,M
823,wipeout: the game,WII,2009,misc,1.94,0.00,0.00,0.12,-1,-1.0,НЕТ ДАННЫХ
848,rayman raving rabbids: tv party,WII,2008,misc,0.72,1.08,0.00,0.23,73,7.7,E10+
...,...,...,...,...,...,...,...,...,...,...,...
16671,fullmetal alchemist: prince of the dawn,WII,2009,adventure,0.00,0.00,0.01,0.00,-1,-1.0,НЕТ ДАННЫХ
16753,routes pe,PS2,2007,adventure,0.00,0.00,0.01,0.00,-1,-1.0,НЕТ ДАННЫХ
16799,transformers: prime,WII,2012,action,0.00,0.01,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ
16912,metal gear solid v: the definitive experience,XONE,2016,action,0.01,0.00,0.00,0.00,-1,-1.0,M


In [53]:
four_row_dup.shape[0]

236

Из вывыденых дубликатов можно сделать вывод, что в есть 236 дублирующих строк по названию игры, платформе, году релиза и жанру.

In [54]:
# изучим данные по удаленным строкам за все этапы предобработки
# загрузим изначальные данные
df_delete = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
# найдем общее кол - строк
df_d_row = df_delete.shape[0]
# посчитаем кол-во удаленных строк
deleted_rows = df_d_row - final_row_count
# посчитаем процент всех удаленных строк 
df_delete_percent = round((deleted_rows / df_d_row) * 100 ,2)
# выведем необходимые данные 
print(f"Количество строк до предобработки данных: {df_d_row}")
print(f"Количество строк после предобработки данных: {final_row_count}")
print(f"Количество удаленных строк: {deleted_rows}")
print(f"Процент удаленных строк: {df_delete_percent}%")

Количество строк до предобработки данных: 16956
Количество строк после предобработки данных: 16444
Количество удаленных строк: 512
Процент удаленных строк: 3.02%


Данные были обработаны от неявных дубликатов, а именно выведены с помощью метода `unique()` уникальные значения и с помощью нормализации данных по столбцам `name`, `genre`, `platform`, `rating` - стили написания были приведены в единый регистр (для `name`,`genre` в нижний регистр, а для `platform`, `rating` - в верхний регистр). С помощью метода `drop_duplicates()` были очищены данные от явных дубликатов. Всего было удалено `235` дублирующий строк, что составило `1,41`%. Также были посчитано общее кол-во удаленный строк `512`, что составило `3,02`% от исходного кол-ва строк. 


---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [55]:
df_actual = df.copy()

In [56]:
# сделаем выборку за период с 2000 по 2013 год включительно
df_actual = df_actual.loc[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]

In [57]:
# Код ревьюера

# Вот пример на массивах, но с df похожая ситуация может произойти
list_1 = [1, 2, 3]
list_2 = list_1
list_2[0] = 4

print('По идее list_1 не должен меняться, но list_1 =', list_1)

list_1 = [1, 2, 3]
list_2 = list_1.copy()
list_2[0] = 4

print('list_1 не изменился, list_1 =', list_1)

По идее list_1 не должен меняться, но list_1 = [4, 2, 3]
list_1 не изменился, list_1 = [1, 2, 3]


In [58]:
# отсортируем результат по годам в порядке возрастания 
df_actual.sort_values(by='year_of_release')

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
10435,foxkids.com micro maniacs racing,PS,2000,racing,0.06,0.04,0.00,0.01,-1,-1.0,НЕТ ДАННЫХ
3970,final fantasy,WS,2000,role-playing,0.00,0.00,0.51,0.00,-1,-1.0,НЕТ ДАННЫХ
370,rugrats in paris: the movie,PS,2000,action,1.96,1.33,0.00,0.23,-1,-1.0,НЕТ ДАННЫХ
6352,evil dead: hail to the king,PS,2000,adventure,0.15,0.10,0.00,0.02,51,6.0,M
2959,mobile suit gundam: journey to jaburo,PS2,2000,simulation,0.16,0.13,0.36,0.04,58,8.1,T
...,...,...,...,...,...,...,...,...,...,...,...
7104,game & wario,WIIU,2013,misc,0.05,0.06,0.12,0.01,-1,-1.0,НЕТ ДАННЫХ
4739,terraria,PS3,2013,action,0.07,0.20,0.09,0.05,81,7.9,T
14006,j.league pro soccer club o tsukurou! 8 euro plus,PSP,2013,sports,0.00,0.00,0.04,0.00,-1,-1.0,НЕТ ДАННЫХ
14033,date a live: rine utopia,PS3,2013,adventure,0.00,0.00,0.04,0.00,-1,-1.0,НЕТ ДАННЫХ


In [59]:
# выведем полученный результат
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,WII,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E
2,mario kart wii,WII,2008,racing,15.68,12.760000,3.79,3.29,82,8.3,E
3,wii sports resort,WII,2009,sports,15.61,10.930000,3.28,2.95,80,8.0,E
6,new super mario bros.,DS,2006,platform,11.28,9.140000,6.50,2.88,89,8.5,E
7,wii play,WII,2006,misc,13.96,9.180000,2.93,2.84,58,6.6,E
...,...,...,...,...,...,...,...,...,...,...,...
16947,men in black ii: alien escape,GC,2003,shooter,0.01,0.000000,0.00,0.00,-1,-1.0,T
16949,woody woodpecker in crazy castle 5,GBA,2002,platform,0.01,0.000000,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ
16950,score international baja 1000: the official game,PS2,2008,racing,0.00,0.000000,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ
16952,lma manager 2007,X360,2006,sports,0.00,0.010000,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [60]:
# разделим игры по оценкам пользователей
#df_actual['user_score_group'] = pd.cut(df_actual['user_score'], 
                            #    bins=[-1, 3, 8, 10], 
                            #    labels=["Низкая оценка", "Средняя оценка", "Высокая оценка"])

In [61]:
# разделим игры на категории по оценкам пользователей:
def categorize_user(score):
    if score < 0:
        return "Нет оценок"
    elif score < 3.0:
        return "Низкая оценка"
    elif score < 8.0:
        return "Средняя оценка"
    elif score < 10.0:
        return "Высокая оценка"
    else:
        return "Неизвестная категория"
    
df_actual['user_score_group'] = df_actual['user_score'].apply(categorize_user)

In [62]:
# разделим игры по оценкам критиков
#df_actual['critic_score_group'] = pd.cut(df_actual['critic_score'], 
                            #    bins=[-1, 30, 80, 100], 
                              #  labels=["Низкая оценка", "Средняя оценка", "Высокая оценка"])

In [63]:
# разделим игры на категории по оценкам критиков
def categorize_critic(score):
    if score < 0:
        return "Нет оценок"
    elif score < 30:
        return "Низкая оценка"
    elif score < 80:
        return "Средняя оценка"
    elif score < 100:
        return "Высокая оценка"
    else:
        return "Неизвестная категория"
    
df_actual['critic_score_group'] = df_actual['critic_score'].apply(categorize_critic)

In [64]:
# выведем полученные результат
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group,critic_score_group
0,wii sports,WII,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E,Высокая оценка,Средняя оценка
2,mario kart wii,WII,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,WII,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,Высокая оценка,Высокая оценка
7,wii play,WII,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,Средняя оценка,Средняя оценка


In [65]:
# зададим новые переменные, в которых сгруппируем данные по категориям оценок пользователей и критиков, 
# чтобы сделать сводные таблицы
summary_table_user = df_actual.groupby('user_score_group').count()

summary_table_critic = df_actual.groupby('critic_score_group').count()


In [66]:
# выведем сводную таблицу по категориям оценок пользователей
summary_table_user

Unnamed: 0_level_0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,critic_score_group
user_score_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Высокая оценка,2307,2307,2307,2307,2307,2307,2307,2307,2307,2307,2307,2307
Нет оценок,6408,6408,6408,6408,6408,6408,6408,6408,6408,6408,6408,6408
Низкая оценка,117,117,117,117,117,117,117,117,117,117,117,117
Средняя оценка,4148,4148,4148,4148,4148,4148,4148,4148,4148,4148,4148,4148


In [67]:
# выведем сводную таблицу по категориям оценок критиков
summary_table_critic

Unnamed: 0_level_0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group
critic_score_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Высокая оценка,1712,1712,1712,1712,1712,1712,1712,1712,1712,1712,1712,1712
Нет оценок,5713,5713,5713,5713,5713,5713,5713,5713,5713,5713,5713,5713
Низкая оценка,55,55,55,55,55,55,55,55,55,55,55,55
Средняя оценка,5500,5500,5500,5500,5500,5500,5500,5500,5500,5500,5500,5500


Далее для топа 7 платформ по кол-ву выпущенных игр сгрупируем данные по платформам и посчитаем кол-во выпущенных игр за весь актуальный период, дополнительно сгруппируя данные по порядку убывания.

In [68]:
grouped_data = df_actual.groupby(['platform'], as_index=False)['name'].count()

In [69]:
grouped_data.sort_values(by='name', ascending=False).head(7)

Unnamed: 0,platform,name
9,PS2,2154
2,DS,2146
14,WII,1294
12,PSP,1199
17,X360,1138
10,PS3,1107
4,GBA,826


В итоге получилось, что больше всего игр было выпущено на платформе `Play Station 2`, а замыкает ТОП 7 платформа `Game Boy Advance` в них было выпущено 2153 и 825 игр соответвенно. 

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Подключены библиотеки `Pandas` и `NumPy`.

Названия столбцов приведены к стилю `snake case`, проведена нормализация и данные были очищены от неявных дубликатов.

Датасет отчищен от явных дубликатов. Кол-во дубликатов составало `235`, это `1,41`% от всех данных в датасете.

Сделан срез от `2000` по `2013` годы включительно. Данные отсортированы по годам и были добавлены новые столбцы с названиями категорий по оценкам пользователей и критиков. 

Актуальный среp данных был выведен в `ТОП 7` по выпущенным играм. В основном можно сделать вывод, что основной платформой по кол-ву выпускаемых игр будет `Play Station 2`, на ней было выпущено `2153` игры. 

В ходе исследования была выведена информация методом `info()` о датасете `/datasets/new_games.csv`, общее кол-во строк в котором было `16956`. Были обнаружены неверные типы данных и преобразованы:
- `year_of_release` - `integer`
- `critic_score` - `integer`
- `eu_sales` - `float`
- `jp_sales` - `float`
- `user_score` - `float`

При проверке датасета на ошибки обнаружено `25142` пропусков, что в процентом соотношении по столбцам состовляет: 
- critic_score -      `51.391838`
- user_score   -      `54.659118`
- rating    -         `40.522529`
- name     -           `0.011795`
- year_of_release -    `1.621845`
- genre      -         `0.011795`
- eu_sales     -       `0.035386`
- jp_sales     -       `0.023590`

Пропуски в столбцах `year_of_release` и `name` было принято решение удалить, т.к. заполнить их без необходимых данных не представляется возможным. 

Пропуски в столбцах `eu_sales`, `jp_sales` были заменены медианными значениям в разрезе групп по платформе и дате релиза игр. 

Для удаления был использован метод `dropna()`, а для заполнения пропусков `fillna()`, `apply()`.

Также данные очищены от дубликатов, количество удаленых дубликатов `235`, что сотавляет `1.41`% от обработанных данных. 

Количество строк до предобработки данных составляло `16956`, после предобработки данных `16444`, количество удаленных строк - `512`, что составляет `3.02`% от исходного кол-ва строк. 