<a href="https://colab.research.google.com/github/NatalyaPetykhova/Practicum_projects/blob/main/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82_%D0%A1%D0%BF%D1%80%D0%B8%D0%BD%D1%82%D0%B0_7__%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8_%D0%B8%D0%B3%D1%80_%D0%B2_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B5_XXI_%D0%B2%D0%B5%D0%BA%D0%B0_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Анализ индустрии игр в начале XXI века

- Автор: Петухова Наталья
- Дата: 02.12.2024

### Цели и задачи проекта

Цель: Изучить развитие игровой индустрии. Сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров и региональные предпочтения игроков.

Задачи: Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Описание данных

В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:

- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.



### Содержимое проекта

1. Знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод


---

## Загрузка и знакомство с данными

1. Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.
2. Познакомьтесь с данными: выведите первые строки и результат метода `.info()`.
3. Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
4. Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

In [None]:
# Импортируем библиотеку pandas
import pandas as pd
import numpy as np

In [None]:
# Выгружаем данные из датасета new_games.csv в датафрейм new_games
new_games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [None]:
# Выводим первые стороки таблицы для знакомства с данными
new_games.head(15)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [None]:
# Выводим информацию о датафрейме
new_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Датасет new_games.csv сожержит 11 столбцов и 16956 строк в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Изучив первые строки таблицы, в данных обнаружены пропуски в столбцах `Name`, `Year of Release`, `Genre`, `Critic Score`, `User Score`, `Rating`. Названия столбцов и данные в них соответствуют описанию, но названия столбцов представлены в неудобном для работы виде, нужно привести их к змеиному регистру.

Изучим типы данных и их корректность:
- **Числовые значения с плавающей точкой (float64).** Четыре столбца имеют тип данных `float64`:
    - Столбец `Year of Release`, содержит информацию о дате выпуска игры и представлен типом `float64`. Это не верное решение, так, как дата должна быть представлена типом `int64`.
    - Столбец `NA sales`, сдержит информацию о продажах в Северной Америке (в миллионах проданных копий), а столбец `Other sales`, продажи в других странах (в миллионах проданных копий). Столбцы представлены типом `float64`, это верное решение.
    - Столбец `Critic Score`, содержит информацию об оценке критиков (от 0 до 100). Данный столбец представлен типом `float64`, это верное решение.
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name`, `Platform`, `Genre` и `Rating` содержат строковую информацию (название игры, название платформы, жанр и рейтинг организации ESRB) и представлены типом `object`, что логично для текстовых данных. Здесь тип данных `object` подходит.
    - `EU sales` и `JP sales` хранят информацию о продажах в Европе и продажах в Японии (в миллионах проданных копий). Для таких данных рекомендуется использовать тип `float64`.
    - Столбец `User Score` хранит информацию об оценке пользователей (от 0 до 10) и представлен типом `object`. Это не верное решение и данный столбец нужно привести к типу `float64`.

После анализа типов данных видно, что некоторые столбцы представлены некорректно и нужно выполнить преобразование типов данных.


---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма:

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [None]:
# Выводим названия столбцов, для того чтобы проверить стиль написания
columns_names = new_games.columns
display(columns_names)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [None]:
# Приводим названия колонок в правильный формат
new_games.columns = columns_names.str.lower().str.replace(" ", "_")
new_games.head(20)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Для более удобной работы приводим названия столбцов к стилю snake case

### Типы данных:

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу int64. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.
- В числовых столбцах могут встретиться строковые значения, например, `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

В данных встречаются столбцы с некорректными типами данных и пропусками, выполним преобразование типов.

Типы данных при выгрузке назначаются автоматически, поэтому некоторым столбцам, по ошибке назначились некорректные типы данных.

Столбцы `EU sales`, `JP sales` и `User Score` имеют тип данных `object` возможно потому, что в них содержатся строковые значения.

In [None]:
# Преобразуем тип данных столбца 'year_of_release' к типу Int64
new_games['year_of_release'] = new_games['year_of_release'].astype('Int64')

In [None]:
# Выводим минимальную и максимальную дату, для того чтобы посмотреть в каком временном промежутке у нас данные
display(new_games['year_of_release'].min())
display(new_games['year_of_release'].max())

1980

2016

In [None]:
# Преобразуем тип данных столбцов 'eu_sales', 'jp_sales' и 'user_score' к типу float64
new_games['eu_sales'] = pd.to_numeric(new_games['eu_sales'], errors = 'coerce')

new_games['jp_sales'] = pd.to_numeric(new_games['jp_sales'], errors = 'coerce')

new_games['user_score'] = pd.to_numeric(new_games['user_score'], errors = 'coerce')

In [None]:
# Проверяем, выполнилось ли преобразование
new_games.dtypes

name                object
platform            object
year_of_release      Int64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

Преобразование 4 столбцов прошло успешно. Теперь все столбцы имеют правильный тип данных.

### Наличие пропусков в данных:

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.
- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [None]:
# Посчитаем количество строк с пропусками в каждом столбце
new_games.isna().sum().sort_values(ascending = False)

user_score         9268
critic_score       8714
rating             6871
year_of_release     275
eu_sales              6
jp_sales              4
name                  2
genre                 2
platform              0
na_sales              0
other_sales           0
dtype: int64

In [None]:
# Посчитаем процент строк с пропусками
new_games.isna().mean().sort_values(ascending = False)* 100

user_score         54.659118
critic_score       51.391838
rating             40.522529
year_of_release     1.621845
eu_sales            0.035386
jp_sales            0.023590
name                0.011795
genre               0.011795
platform            0.000000
na_sales            0.000000
other_sales         0.000000
dtype: float64

В столбце `critic_score` (оценка критиков (от 0 до 100)), 9268 строк с пропущенными значениями, это 54,6%. Пропуски могли пойвится в результате того, что критики не захотели поставить оценку или еще не играли в игру, и поэтому оценки нет. Пропуски можно можно заполнить значением, которое не попадает в диапазон от 0 - 100.

В столбце `rating` (рейтинг организации ESRB), 8714 строка с пропускми, это 51,4%. Пропуски могли появится в результате того, что рейтинг не был присвоен или для старых игр был утерян. Данные пропуски можно заполнить несуществующим значением, чтобы оно не попало в диапазон.

В столбце `user_score` (оценка пользователей (от 0 до 10)), 6871 строки с пропущенными значениями, это 40,5%. Пропуски могли пойвится в результате того, что пользователи не захотели поставить оценку, забыли поставить оценку или еще не закончили игру, и поэтому оценки нет. Пропуски можно можно заполнить значением, которое не попадает в диапазон от 0 - 10.

В столбце `year_of_release` (год выпуска игры), 275 пропусков, это 1,6%. Данные могли быть утеряны или не заполнены, в результате чего появились пропуски. Так как пропусков в данных всего 1,6% можно ничего с ними не делать или заменить на 0.

В столбце `eu_sales` (продажи в Европе), 6 строк с пропусками, это меньше 1%, поэтому пропуски можно заполнить средним значением.

В столбце `jp_sales` (продажи в Японии), 4 строки с пропусками, это меньше 1%, поэтому пропуски можно заполнить средним значением.

В столбце `name` (название игры), 2 строки с пропусками, это меньше 1%, поэтому пропуски можно удалить.

В столбце `genre` (жанр игры), 2 строки с пропусками, это меньше 1%, поэтому пропуски можно удалить.



In [None]:
# Заполняем пропуски значением-индикатор
new_games['critic_score'] = new_games['critic_score'].fillna(-1)
new_games['rating'] = new_games['rating'].fillna(-1)
new_games['user_score'] = new_games['user_score'].fillna(-1)
new_games['year_of_release'] = new_games['year_of_release'].fillna(0)


In [None]:
# Заполняем пропуски средним значением
mean_eu_sales = new_games['eu_sales'].mean()
new_games['eu_sales'] = new_games['eu_sales'].fillna(mean_eu_sales)

mean_jp_sales = new_games['jp_sales'].mean()
new_games['jp_sales'] = new_games['jp_sales'].fillna(mean_jp_sales)

In [None]:
# Удаляем пропуски в столбцах 'name' и 'genre'
new_games = new_games.dropna(subset=['name', 'genre'])

In [None]:
# Проверяем результат работы
new_games.isna().sum()

name                       0
platform                   0
year_of_release            0
genre                      0
na_sales                   0
eu_sales                   0
jp_sales                   0
other_sales                0
critic_score               0
user_score                 0
rating                     0
user_score_categories      0
critic_score_categories    0
count_games                0
dtype: int64

Теперь пропусков в данных нет.


### Явные и неявные дубликаты в данных:

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.
- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.
- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

В процессе подготовки данных вы могли удалять данные, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях. После проведения предобработки данных напишите общий промежуточный вывод.

In [None]:
# Проверим, есть ли дубликаты в названиях жанров игр
unique_values = new_games['genre'].unique()
display(unique_values)

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

Жанры игр написаны в разном регистре, приведем все названия жанров к нижнему регистру

In [None]:
# Приводим названия жанров к нижнему регистру
new_games['genre'] = new_games['genre'].str.lower()


In [None]:
# Проверим, есть ли дубликаты в названиях игровых платформ
unique_values = new_games['platform'].unique()
display(unique_values)

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

Среди названий платформ дубликатов нет, все значения уникальны

Консоли и Портативные Системы
- Wii: Nintendo Wii
- NES: развлекательная система Nintendo
- GB: Game Boy
- DS: Nintendo DS
- X360: Xbox 360
- PS3: PlayStation 3
- PS2: PlayStation 2
- SNES: развлекательная система Super Nintendo
- GBA: Game Boy Advance
- PS4: PlayStation 4
- 3DS: Nintendo 3DS
- N64: Nintendo 64
- PS: PlayStation (оригинальная)
- XB: Xbox (оригинальная)
- PC: персональный компьютер (не является конкретной консолью, а скорее общим термином для компьютеров)
- 2600: Atari 2600
- PSP: PlayStation Portable
- XOne: Xbox One
- WIIIU: Wii U
- GC: Nintendo GameCube
- GEN: Sega Genesis (также известна как Sega Mega Drive)
- DC: Sega Dreamcast
- PSV: PlayStation Vita
- SAT: Sega Saturn
- SCD: Компакт-диск Sega
- WS: WonderSwan
- NG: Neo Geo
- TG16: TurboGrafx-16 (также известная как PC Engine)

Другие Платформы
- 3DO: интерактивный мультиплеер 3DO
- GG: Игровое оборудование Sega
- PCFX: PC-FX

In [None]:
# Проверим, есть дубликаты в данных о рейтинге
unique_values = new_games['rating'].unique()
display(unique_values)

array(['E', -1, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

Дубликатов в данных рейтинга нет. Но есть значение которого нет в расшифровках аббревиатуры рейтингов - К-А.

По данным интернета этот рейтинг использовался до 1998 года, когда его переименовали в E.

In [None]:
# Заменим значение рейтинга на актуальную информацию
new_games['rating'] = new_games['rating'].replace('K-A', 'E')

unique_values = new_games['rating'].unique()
display(unique_values)

array(['E', -1, 'M', 'T', 'E10+', 'AO', 'EC', 'RP'], dtype=object)

In [None]:
# Проверим, есть дубликаты в столбце год выхода игры
unique_values = new_games['year_of_release'].unique()
display(unique_values)

<IntegerArray>
[2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010, 2013, 2004,
 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014, 1992, 1997, 1993, 1994,
 1982, 2016, 2003, 1986, 2000,    0, 1995, 1991, 1981, 1987, 1980, 1983]
Length: 38, dtype: Int64

Дубликатов в данных о годе выхода игр нет.

Неявные дубликаты выявили, теперь проверим данные на наличие явных дубликатов.

In [None]:
# Отсортируем датафрейм по всем столбцам в порядке возрастания — так будет удобнее находить дубликаты
new_games_sorted = new_games.sort_values(by=new_games.columns.tolist())
display(new_games_sorted)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
15191,Beyblade Burst,3DS,2016,role-playing,0.00,0.00,0.03,0.00,-1.0,-1.0,-1
15192,Beyblade Burst,3DS,2016,role-playing,0.00,0.00,0.03,0.00,-1.0,-1.0,-1
1086,Fire Emblem Fates,3DS,2015,role-playing,0.81,0.23,0.52,0.11,-1.0,-1.0,-1
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.00,0.05,-1.0,-1.0,-1
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.00,0.04,-1.0,-1.0,-1
...,...,...,...,...,...,...,...,...,...,...,...
647,uDraw Studio,Wii,2010,misc,1.65,0.57,0.00,0.20,71.0,-1.0,E
8397,uDraw Studio: Instant Artist,Wii,2011,misc,0.06,0.09,0.00,0.02,-1.0,-1.0,E
15836,uDraw Studio: Instant Artist,X360,2011,misc,0.01,0.01,0.00,0.00,54.0,5.7,E
477,wwe Smackdown vs. Raw 2006,PS2,0,fighting,1.57,1.02,0.00,0.41,-1.0,-1.0,-1


In [None]:
# Посчитаем общее количество дубликатов
duplicates = new_games.duplicated().sum()
display(duplicates)

241

Теперь нужно удалить дубликаты во всем датафрейме

In [None]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = new_games.shape[0]

In [None]:
# Удаляем дубликаты
new_games_no_duplicates = new_games_sorted.drop_duplicates()

In [None]:
# Сохраняем количество строк после удаления дубликатов
final_row_count = new_games_no_duplicates.shape[0]

In [None]:
# Считаем количество удаленных строк
total_row_count = initial_row_count - final_row_count
perc_total_row_count = round((total_row_count / initial_row_count * 100), 2)
display(total_row_count, perc_total_row_count)

241

1.42

В результате проведения предобработки данных были выявлены и преобразованы неявные дубликаты в названиях жанров игр. С помощью приведения всех названий жанров к одинаковому регистру, дубликаты устранены.

Проверили наличие дубликатов в названиях игровых платформ. Среди названий платформ все значения уникальны.

Во время поиска дубликатов в данных о рейтингах выявлено значение которого нет в расшифровках аббревиатуры рейтингов - К-А.
По данным интернета этот рейтинг использовался до 1998 года, когда его переименовали в E. Значение рейтинга К-А заменили на более актаульное - Е.

Дубликатов в данных о годе выхода игр нет.

Так же в данных обнаружены и удалены явные дубликаты. Таких дубликатов 1,42%



---

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [None]:
# Проводим сортировку по году выхода игр
new_games_actual = new_games[(new_games['year_of_release'] >= 2000) & (new_games['year_of_release'] <= 2013)]

In [None]:
# Сортируем данные по возрастанию
new_games_actual = new_games_actual.sort_values(by='year_of_release')
display(new_games_actual.head(10))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
10435,FoxKids.com Micro Maniacs Racing,PS,2000,racing,0.06,0.04,0.0,0.01,-1.0,-1.0,-1
3970,Final Fantasy,WS,2000,role-playing,0.0,0.0,0.51,0.0,-1.0,-1.0,-1
370,Rugrats in Paris: The Movie,PS,2000,action,1.96,1.33,0.0,0.23,-1.0,-1.0,-1
6352,Evil Dead: Hail to the King,PS,2000,adventure,0.15,0.1,0.0,0.02,51.0,6.0,M
2959,Mobile Suit Gundam: Journey to Jaburo,PS2,2000,simulation,0.16,0.13,0.36,0.04,58.0,8.1,T
1279,Banjo-Tooie,N64,2000,platform,0.82,0.36,0.25,0.06,-1.0,-1.0,-1
8742,NCAA Final Four 2001,PS,2000,sports,0.09,0.06,0.0,0.01,55.0,-1.0,E
1269,WWF No Mercy,N64,2000,fighting,1.2,0.27,0.02,0.02,-1.0,-1.0,-1
362,WWF SmackDown!,PS,2000,fighting,2.01,1.35,0.06,0.16,-1.0,-1.0,-1
10830,"Sakura Wars 2: Kimi, Shinitamou koto Nakare",DC,2000,adventure,0.0,0.0,0.1,0.0,-1.0,-1.0,-1


---

## Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [None]:
# С помощью пользовательской функции разделяем все игры по оценкам пользователей на три категории.
def user_score_categories(score):
    if  0 <= score < 3:
        return 'Низкая оценка'
    elif 3 <= score < 8:
        return 'Средняя оценка'
    elif 8 <= score <= 10:
        return 'Высокая оценка'
    else:
        return 'Нет данных'

new_games['user_score_categories'] = new_games['user_score'].apply(user_score_categories)
display(new_games)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_categories
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка
1,Super Mario Bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,-1,Нет данных
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.89,10.22,1.00,-1.0,-1.0,-1,Нет данных
...,...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,action,0.00,0.00,0.01,0.00,-1.0,-1.0,-1,Нет данных
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,-1,Нет данных
16953,Haitaka no Psychedelica,PSV,2016,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,-1,Нет данных
16954,Spirits & Spells,GBA,2003,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,-1,Нет данных


In [None]:
# С помощью пользовательской функции разделяем все игры по оценкам критиков на три категории.
def critic_score_categories(score):
    if  0 <= score < 30:
        return 'Низкая оценка'
    elif 30 <= score < 80:
        return 'Средняя оценка'
    elif 80 <= score <= 100:
        return 'Высокая оценка'
    else:
        return 'Нет данных'

new_games['critic_score_categories'] = new_games['critic_score'].apply(critic_score_categories)
display(new_games)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_categories,critic_score_categories
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
1,Super Mario Bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,-1,Нет данных,Нет данных
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.89,10.22,1.00,-1.0,-1.0,-1,Нет данных,Нет данных
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,action,0.00,0.00,0.01,0.00,-1.0,-1.0,-1,Нет данных,Нет данных
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,-1,Нет данных,Нет данных
16953,Haitaka no Psychedelica,PSV,2016,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,-1,Нет данных,Нет данных
16954,Spirits & Spells,GBA,2003,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,-1,Нет данных,Нет данных


In [None]:
# Выделим топ-7 платформ по количеству игр
# Вычислим общую сумму продаж
new_games['count_games'] = new_games['na_sales'] + new_games['eu_sales'] + new_games['jp_sales'] + new_games['other_sales']

In [None]:
# Группируем данные по платформе и находим количество продаж
count_games_platform = new_games.groupby('platform')['count_games'].count()
# Выводим результат на экран отсортировав по убыванию и ограничив выдачу до 7 позиций, тем самым получив топ-7 платформ по количеству продаж
display(count_games_platform.sort_values(ascending = False).head(7))

platform
PS2     2189
DS      2177
PS3     1355
Wii     1340
X360    1281
PSP     1229
PS      1215
Name: count_games, dtype: int64

---

## Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Датасет `new_games.csv` содержит 11 столбцов и 16956 строк в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Изучив первые строки таблицы, в данных были обнаружены пропуски в столбцах `Name`, `Year of Release`, `Genre`, `Critic Score`, `User Score`, `Rating`. Названия столбцов и данные в них соответствуют описанию, но названия столбцов представлены в неудобном для работы виде, поэтому названия столбцов приведены к стилю `snake case`.

Проведя анализ типов данных выявлено, что некоторые столбцы представлены некорректно, поэтому выполнили преобразование типов данных.
- Столбец `year_of_release` привели к типу `int64`
- Столбws `eu_sales`, `jp_sales`, `user_score` приведены к типу `float64`

В данных были обнаружены пропущенные значения. Все пропуски устранены.

- В столбцах `critic_score`, `rating`, `user_scor`e пропуски заполнили значение-индикатор.
- В столбце `year_of_release` пропуски заменили на 0.
- В столбцах `eu_sales` и `jp_sales` пропуски заполнили средним значением.
- В столбцах `name` и `genre строк` с пропусками меньше 1%, поэтому пропуски были удалены.

В результате проведения предобработки данных были выявлены и преобразованы неявные дубликаты в названиях жанров игр. С помощью приведения всех названий жанров к одинаковому регистру, дубликаты устранены.

Проверили наличие дубликатов в названиях игровых платформ. Среди названий платформ все значения уникальны.

Во время поиска дубликатов в данных о рейтингах выявлено значение которого нет в расшифровках аббревиатуры рейтингов - К-А. По данным интернета этот рейтинг использовался до 1998 года, когда его переименовали в E. Значение рейтинга К-А заменили на более актаульное - Е.

Дубликатов в данных о годе выхода игр нет.

Так же в данных обнаружены и удалены явные дубликаты. Таких дубликатов 1,42%

Был выполнен срез данных за период с 2000 по 2013 год включительно, для того, чтобы изучить историю продаж игр в начале XXI века. Отберали данные по этому показателю, новый срез данных сохранили в отдельном датафрейме `df_actual`.

В датасет добавили новые поля:
- `user_score_categories` - категория оценки пользователей игр (Низкая оценка, Средняя оценка, Высокая оценка)
- `critic_score_categories` - категория оценки критиков (Низкая оценка, Средняя оценка, Высокая оценка)

Так же выделили топ-7 платформ по количеству продаж игр. В топ вошли такие платформы:
- PS2  - 2189 млн. проданных копий
- DS   - 2177 млн. проданных копий
- PS3  - 1355 млн. проданных копий
- Wii  - 1340 млн. проданных копий
- X360 - 1281 млн. проданных копий
- PSP  - 1229 млн. проданных копий
- PS   - 1215 млн. проданных копий