# Анализ индустрии игр в начале XXI века

- Автор: Сергей Панченко
- Дата: 18.01.2025

### Цели и задачи проекта

Изучить развитие игровой индустрии.Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

<img src="https://upload.wikimedia.org/wikipedia/commons/b/ba/Warning_sign_4.0.png" align=left width=44, heigth=33>
<div class="alert alert-warning">
    
Для обычного текста лучше не использовать ####, потому что иначе он превращается в  заголовок (пусть и не очень высокого уровня)   
</div>

### Описание данных

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод

---

## 1. Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd
# Выгружаем данные из датасета datasets/new_games.csv в датафрейм new_games
new_games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
# Выводим информацию о датафрейме
new_games.info()
# Выводим первые строки датафрейма на экран
new_games.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

<font color='#777778'>Используйте ячейки типа Markdown для промежуточных выводов и расширенных комментариев к действиям с данными. </font>

Датасет `datasets/new_games.csv` содержит 11 столбцов и 16 956 строк, в которых представлена информация об играх.

Изучим типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64).** Четыре столбца представлены типом данных `float64`, `Year of Release`- год выпуска игры, как мне кажется разумнее было бы хранить данную информацию в типе данных `int64`. следующий столбец `NA sales`- продажи в Северной Америке (в миллионах проданных копий), в принципе логично хранить в данном типе данных, так как там явно не будет целого значения, далее `Other sales`- продажи в других странах (в миллионах проданных копий) так же логично хранить данные в `float64` для лучшей детализации продаж и `Critic Score`- оценка критиков (от 0 до 100) в принципе можно так и оставить я думаю не критично.
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    -`Name`, `Platform`, `Genre` название игры, название платформы и жанр игры соответсвенно эти данные содержат строковую информацию и вполне логично имеют тип данных `object`, тут всё впорядке.
    -`EU sales` `JP sales` и `User Score` логичгнее было бы привести к типу данных с плавающей запятой (`float64`), так как во первых это числа, во вторых не целые, соответственно `object` не подходит.
    -`Rating` рейтинг организации ESRB (англ. Entertainment Software Rating Board), ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию, как мне кажется логичнее представить эти данные не в `object`, а в `category` данный тип хранит ограниченный список значений-категорий, как раз то что надо.
После анализа типов данных видно, что большинство столбцов корректно представлены. Однако для оптимизации и точной корректности некоторые данные в столбцах нужно будет преобразовывать в другие типы данных.   
  

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [2]:
# Выводим названия столбцов датафрейма
print(new_games.columns) 

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

In [4]:
new_games.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

In [5]:
# выводим уникальные значения для eu_sales и jp_sales, user_score:
unique_eu_sales= new_games['eu_sales'].unique()
unique_jp_sales = new_games['jp_sales'].unique()
unique_user_score = new_games['user_score'].unique()
print(unique_eu_sales, unique_jp_sales, unique_user_score)

['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0.55' '2.19' '1.11' '2.29' '2.5' '0.96'
 '

 Выше были выгружены уникальные значения для столбцов: 'eu_sales' и 'jp_sales', 'user_score'. Судя по всему у данных столбцов тип данных object из-за того что в данных столбцах помимо числовых значений присутвуют и строчные значения. Именно object позволяет хранить смешанный тип данных

In [6]:
# ниже преобразовываем некорректные типы данных, это необходимо для дальнейшей работы с данными 
new_games['eu_sales'] = pd.to_numeric(new_games['eu_sales'], errors='coerce') 
new_games['jp_sales'] = pd.to_numeric(new_games['jp_sales'], errors='coerce')
new_games['user_score'] = pd.to_numeric(new_games['user_score'], errors='coerce')
new_games['year_of_release'] = pd.to_numeric(new_games['year_of_release'], errors='coerce')
new_games['rating'] = new_games['rating'].astype('category')
new_games[['eu_sales', 'jp_sales', 'user_score', 'year_of_release', 'rating']].dtypes


eu_sales            float64
jp_sales            float64
user_score          float64
year_of_release     float64
rating             category
dtype: object

Если преобразование типов данных не сделать. то и корректно работать с ними не получится, соответственно провести нормальный анализ данных тожже не получится. Я думаю причиной неккоректных типов данных является в основном человеческий фактор и невнимательность к данным.

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [7]:
# Выводим количество пропущенных строк в датафрейме
new_games.isna().sum()


name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [8]:
# Подсчитываем процент строк с пропусками
new_games.isna().sum() / len(new_games) * 100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


Как можно увидеть достаточно большой % пропусков в столбце `user_score`(оценка пользователей), более 54% смею предположить что далеко не все пользователи оставляли оценки отсюда и пропуски, с одной стороны это вполне нормально когда пользователи не дают обратную связь в виде оценок, но с другой стороны процент пропусков уж очень велик, заменим пропуски на значение `-1`, такой оценки нет и быть не может, но тип данных тот же. Так же пропуски присутствуют в:
`EU sales` и `JP sales`, продажи в Европе и Японии соответственно, пропусков менее 0,1 % это не кретично, думаю что с данными пропусками можно ничего не делать, но всё же я решил их заменить на среднее значение, используя метод `apply` + `функция`, предпалагаю что пропуски могут быть связаны с тем что игры просто не продавались в данных регионах или же доля продаж была очень мала и в статистику просто не попала.
`rating` - на самом деле много пропусков (6871) порядка 40%, но опять же рейтинг относится к категориальному типу данных с ограниченным диапазоном и как мне кажется заменять данные пропуски на какие-либо значения не целесообразно, как раз замена здесть и может исказить объективную информацию, пропуски в данном столбце как мне кажется это абсолютно нормальное явление, т.к. даалеко не всем играм ставятся оценки, какие-то из игр особенно малобюджетных проходят мимо внимания критиков.
`year_of_release` - год выхода игры, 275 пропусков, по факту просто нет данных о выходе тех или иных игр, предполагаю что это больше относится к малобюджетным играм, информации о которых не так много. Тут в принципе пропуски можно заменит на 0, данное значение по факту ни на что не повлияет и сразу будет понятно что это пропуск. В столбцах `name` и `genre` так же есть пропуски, но их количество не значительно порядка 0,1%, поэтому мы их просто удалим. Что касается пропусков в столбце `genre` то это вр=полне обяснимое явление не всегда в играх указывается жанр или просто не понятно к какому жанру отнести игру. Пропуски по столбцу `name` скорее всего относятся к очень малоизвестным играм.

Как мне кажется '-1'  это же вроде норм заглушка-индикатор, отрицательных значений в столбцах нет и разу будет понятно что это пропуск, а при подсчётах отрицательные значения всегда можно убрать. Ну это как мне кажется, поправь меня если ошибаюсь. Спасибо.

In [9]:
# Проверяем максимальные и минимальные значения для 'user_score' и 'critic_score', для дальнейшего применения заглушки '-1'
min_user_score = new_games['user_score'].min()
max_user_score = new_games['user_score'].max()
min_critic_score = new_games['critic_score'].min()
max_critic_score = new_games['critic_score'].max()
print('Минимальная оценка пользователя:', min_user_score)
print('Максимальная оценка пользователя:', max_user_score) 
print('Минимальная оценка критиков:', min_critic_score)
print('Максимальная оценка критиков:', max_critic_score) 

Минимальная оценка пользователя: 0.0
Максимальная оценка пользователя: 9.7
Минимальная оценка критиков: 13.0
Максимальная оценка критиков: 98.0


Исходя из данных выше можно сделать вывод о том что заглушка-индикатор `-1` отлично подходит для обоих столбцов 'user_score' и 'critic_score'

In [10]:
new_games['user_score'] = new_games['user_score'].fillna(-1) # меняем пропуски в столбце оценка пользователей на значение -1
new_games['critic_score'] = new_games['critic_score'].fillna(-1) #  так же меняем на значение -1, такой оценки по факту нет, сразу будет понятно что это пропуск
new_games['year_of_release'] = new_games['year_of_release'].fillna(0) # пропуски в годе выхода заменим на 0
new_games = new_games.dropna(subset=['name', 'genre']) # удаляем пропуски в столбцах имя и жанр
new_games.isna().sum() / len(new_games) * 100

name                0.000000
platform            0.000000
year_of_release     0.000000
genre               0.000000
na_sales            0.000000
eu_sales            0.035390
jp_sales            0.023593
other_sales         0.000000
critic_score        0.000000
user_score          0.000000
rating             40.515513
dtype: float64

In [11]:
for column in ['eu_sales', 'jp_sales']:
    new_games[column] = new_games[column].fillna(
        new_games.groupby(['platform', 'year_of_release'])[column].transform('mean')
       )
print(new_games[['eu_sales', 'jp_sales']].head())

   eu_sales  jp_sales
0     28.96      3.77
1      3.58      6.81
2     12.76      3.79
3     10.93      3.28
4      8.89     10.22


In [12]:
new_games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16954 non-null  object  
 2   year_of_release  16954 non-null  float64 
 3   genre            16954 non-null  object  
 4   na_sales         16954 non-null  float64 
 5   eu_sales         16954 non-null  float64 
 6   jp_sales         16954 non-null  float64 
 7   other_sales      16954 non-null  float64 
 8   critic_score     16954 non-null  float64 
 9   user_score       16954 non-null  float64 
 10  rating           10085 non-null  category
dtypes: category(1), float64(7), object(3)
memory usage: 1.4+ MB


In [13]:
new_games['year_of_release'] = new_games['year_of_release'].astype('int64') # приводим год к целочисленному значению.

In [14]:
new_games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16954 non-null  object  
 2   year_of_release  16954 non-null  int64   
 3   genre            16954 non-null  object  
 4   na_sales         16954 non-null  float64 
 5   eu_sales         16954 non-null  float64 
 6   jp_sales         16954 non-null  float64 
 7   other_sales      16954 non-null  float64 
 8   critic_score     16954 non-null  float64 
 9   user_score       16954 non-null  float64 
 10  rating           10085 non-null  category
dtypes: category(1), float64(6), int64(1), object(3)
memory usage: 1.4+ MB


<img src="https://upload.wikimedia.org/wikipedia/commons/b/ba/Warning_sign_4.0.png" align=left width=44, heigth=33>
<div class="alert alert-warning">
Советую проверить себя, например вывести info() и убедиться, что пропуски обработаны корректно.

</div>

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [15]:
# выводим уникальные значения:
unique_name = new_games['name'].unique()
unique_genre = new_games['genre'].unique()
unique_platform = new_games['platform'].unique()
unique_rating = new_games['rating'].unique()
unique_year_of_release = new_games['year_of_release'].unique()
print(unique_name, unique_genre, unique_platform, unique_rating, unique_year_of_release)

['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica'] ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY'] ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX'] ['E', NaN, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']
Categories (8, object): ['E', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'] [2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000    0 1995 1991 1981 1987 1980 1983]


Как видно из данных выше неявные дубликаты встречаются в столбце жанр игры, как пример 'ADVENTURE' и 'Adventure', 'Action' и 'ACTION', 'Role-Playing' и 'ROLE-PLAYING' понятно что это одни и те же жанры просто написаны в разных регистрах. Логично привести данные к единому регистру в соответствующих столбцах и соответственно неявные дубликаты пропадут.

In [16]:
# данные в зависимости от столбцов к единым регистрам
new_games['genre'] = new_games['genre'].str.lower()
new_games['rating'] = new_games['rating'].str.upper()
display (new_games[['genre', 'rating']])

Unnamed: 0,genre,rating
0,sports,E
1,platform,
2,racing,E
3,sports,E
4,role-playing,
...,...,...
16951,action,
16952,sports,
16953,adventure,
16954,platform,


- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [17]:
# проверяем строки на явные дубликаты, должно быть значение 'True', но проверять каждую строку это долго
duplicated_rows = new_games.duplicated()
display(duplicated_rows)

0        False
1        False
2        False
3        False
4        False
         ...  
16951    False
16952    False
16953    False
16954    False
16955    False
Length: 16954, dtype: bool

- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

In [18]:
# подсчитаем сумму строк с явным дублированием, получилось 241 строка
new_games.duplicated().sum() 

241

In [19]:
new_games_sorted= new_games.sort_values(by=new_games.columns.tolist())
duplicates = new_games[new_games_sorted.duplicated(keep=False)]
display(duplicates)

  duplicates = new_games[new_games_sorted.duplicated(keep=False)]


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
267,Batman: Arkham Asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91.0,8.9,T
268,Batman: Arkham Asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91.0,8.9,T
367,James Bond 007: Agent Under Fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72.0,7.9,T
368,James Bond 007: Agent Under Fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72.0,7.9,T
716,God of War: Ascension,PS3,2013,action,1.23,0.63,0.04,0.35,80.0,7.5,M
...,...,...,...,...,...,...,...,...,...,...,...
16799,Transformers: Prime,Wii,2012,action,0.00,0.01,0.00,0.00,-1.0,-1.0,
16911,Metal Gear Solid V: The Definitive Experience,XOne,2016,action,0.01,0.00,0.00,0.00,-1.0,-1.0,M
16912,Metal Gear Solid V: The Definitive Experience,XOne,2016,action,0.01,0.00,0.00,0.00,-1.0,-1.0,M
16939,The Longest 5 Minutes,PSV,2016,action,0.00,0.00,0.01,0.00,-1.0,-1.0,


In [20]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = new_games.shape[0]
# Сортируем датафрейм по всем столбцам
new_games = new_games.sort_values(by=list(new_games.columns))
# Удаляем дубликаты
new_games = new_games.drop_duplicates()
# Сохраняем количество строк после удаления дубликатов
final_row_count = new_games.shape[0]
count_delete = initial_row_count - final_row_count
share_final_row_count = round((count_delete / initial_row_count)*100, 2)   
print(f"Количество строк до удаления дубликатов: {initial_row_count}")
print(f"Количество строк после удаления дубликатов: {final_row_count}")
print(f"Количество удаленных строк: {count_delete}")
print(f"Доля (%) удаленных строк: {share_final_row_count} %")

Количество строк до удаления дубликатов: 16954
Количество строк после удаления дубликатов: 16713
Количество удаленных строк: 241
Доля (%) удаленных строк: 1.42 %


- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

- После проведения предобработки данных напишите общий промежуточный вывод.

Итак типы данных приведены в порядок, пропуски заменены там где это возможно, неявные дубликаты так же устранены и так же удалены строки с явными дубликатами, в целом доля удаленных строк составила 1,42% это достаточно немного и на общую картину анализа не повлияет.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [21]:
# фильтруем данные и выводим информацию об играх за 2000-2013 года
df_actual_game = new_games.loc[(new_games['year_of_release'] >= 2000) & (new_games['year_of_release'] <= 2013)] # для среза данных используем loc 
display(df_actual_game.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.0,0.05,-1.0,-1.0,
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.0,0.04,-1.0,-1.0,
2478,Tales of Xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T
8460,.hack//G.U. Vol.1//Rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1.0,-1.0,
7182,.hack//G.U. Vol.2//Reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1.0,-1.0,


In [22]:
df_actual_game.info() # выводим информацию о новом датафрейме 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 3394 to 9260
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           8723 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [23]:
# выполняем категоризацию по оценкам пользователей добавляем столбец 'user_score_category'
df_actual_game['user_score_category'] = pd.cut(df_actual_game['user_score'], bins=[-2, 0, 3, 8, 10], labels=["без оценки", "низкая оценка", "средняя оценка", "высокая оценка"], right=False)
display(df_actual_game)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_actual_game['user_score_category'] = pd.cut(df_actual_game['user_score'], bins=[-2, 0, 3, 8, 10], labels=["без оценки", "низкая оценка", "средняя оценка", "высокая оценка"], right=False)


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.00,0.05,-1.0,-1.0,,без оценки
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.00,0.04,-1.0,-1.0,,без оценки
2478,Tales of Xillia 2,PS3,2012,role-playing,0.20,0.12,0.45,0.07,71.0,7.9,T,средняя оценка
8460,.hack//G.U. Vol.1//Rebirth,PS2,2006,role-playing,0.00,0.00,0.17,0.00,-1.0,-1.0,,без оценки
7182,.hack//G.U. Vol.2//Reminisce,PS2,2006,role-playing,0.11,0.09,0.00,0.03,-1.0,-1.0,,без оценки
...,...,...,...,...,...,...,...,...,...,...,...,...
16731,thinkSMART: Chess for Kids,DS,2011,misc,0.01,0.00,0.00,0.00,-1.0,-1.0,E,без оценки
647,uDraw Studio,Wii,2010,misc,1.65,0.57,0.00,0.20,71.0,-1.0,E,без оценки
8397,uDraw Studio: Instant Artist,Wii,2011,misc,0.06,0.09,0.00,0.02,-1.0,-1.0,E,без оценки
15836,uDraw Studio: Instant Artist,X360,2011,misc,0.01,0.01,0.00,0.00,54.0,5.7,E,средняя оценка


In [25]:
# выполняем категоризацию по оценкам критиков добавляем столбец 'critic_score_category'
df_actual_game['critic_score_category'] = pd.cut(df_actual_game['critic_score'], bins=[-2, 0, 30, 80, 100], labels=["без оценки", "низкая оценка", "средняя оценка", "высокая оценка"], right=False)
display(df_actual_game)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_actual_game['critic_score_category'] = pd.cut(df_actual_game['critic_score'], bins=[-2, 0, 30, 80, 100], labels=["без оценки", "низкая оценка", "средняя оценка", "высокая оценка"], right=False)


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.00,0.05,-1.0,-1.0,,без оценки,без оценки
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.00,0.04,-1.0,-1.0,,без оценки,без оценки
2478,Tales of Xillia 2,PS3,2012,role-playing,0.20,0.12,0.45,0.07,71.0,7.9,T,средняя оценка,средняя оценка
8460,.hack//G.U. Vol.1//Rebirth,PS2,2006,role-playing,0.00,0.00,0.17,0.00,-1.0,-1.0,,без оценки,без оценки
7182,.hack//G.U. Vol.2//Reminisce,PS2,2006,role-playing,0.11,0.09,0.00,0.03,-1.0,-1.0,,без оценки,без оценки
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16731,thinkSMART: Chess for Kids,DS,2011,misc,0.01,0.00,0.00,0.00,-1.0,-1.0,E,без оценки,без оценки
647,uDraw Studio,Wii,2010,misc,1.65,0.57,0.00,0.20,71.0,-1.0,E,без оценки,средняя оценка
8397,uDraw Studio: Instant Artist,Wii,2011,misc,0.06,0.09,0.00,0.02,-1.0,-1.0,E,без оценки,без оценки
15836,uDraw Studio: Instant Artist,X360,2011,misc,0.01,0.01,0.00,0.00,54.0,5.7,E,средняя оценка,средняя оценка


<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/Stop_sign.png/240px-Stop_sign.png" align=left width=35, heigth=35>
<div class="alert alert-danger">
Здесь тоже ошибка связанная с включением правой границы интервала. Пожалуйста исправь по аналогии с предыдущим
</div>

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [26]:
df_actual_game.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 3394 to 9260
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   name                   12781 non-null  object  
 1   platform               12781 non-null  object  
 2   year_of_release        12781 non-null  int64   
 3   genre                  12781 non-null  object  
 4   na_sales               12781 non-null  float64 
 5   eu_sales               12781 non-null  float64 
 6   jp_sales               12781 non-null  float64 
 7   other_sales            12781 non-null  float64 
 8   critic_score           12781 non-null  float64 
 9   user_score             12781 non-null  float64 
 10  rating                 8723 non-null   object  
 11  user_score_category    12781 non-null  category
 12  critic_score_category  12781 non-null  category
dtypes: category(2), float64(6), int64(1), object(4)
memory usage: 1.2+ MB


In [27]:
# группируем данные по оценкам пользователей
grouped_user_score_category = df_actual_game.groupby('user_score_category')['name'].count()
print(grouped_user_score_category) 

user_score_category
без оценки        6298
низкая оценка      116
средняя оценка    4081
высокая оценка    2286
Name: name, dtype: int64


In [28]:
# группируем данные по оценкам критиков
grouped_critic_score_category = df_actual_game.groupby('critic_score_category')['name'].count()
print(grouped_critic_score_category)

critic_score_category
без оценки        5612
низкая оценка       55
средняя оценка    5422
высокая оценка    1692
Name: name, dtype: int64


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [29]:
# Выделяем топ-7 платформ по количеству игр, выпущенных за весь актуальный период.
grouped_critic_score_platform  = df_actual_game.groupby('platform')['name'].count().sort_values(ascending=False).head(7)
print(grouped_critic_score_platform)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Данные были приведены в порядок, а именно: приведены к необходимым типам данных, заменены пропуски, а так же мы избавились от явных и не явных дубликатов. В первоначальном датафрейме было 16956 строк и 11 столбцов, после удаления дубликатов и фильтрации по годам (были отобраны игры вышедшие в период 2000-2013 годов) количество строк в актуальном датафреме уменьшилось до 12980 строк, а вот количество столбцов выросло до 13, добавились столбцы с категориями оценок пользователей и критиков ('user_score_category' и 'critic_score_category'). Как видно из данных по играм за актуальный период преобладает средняя оценка как среди критиков так и среди пользователей. Если обратить внимание на топ платформ по количеству игр, то там с большим отрывом лидируют 'PS2': 2154 игры и 'DS':2146 игр.