# Развитие индустрии игр в начале XXI века 

- Автор Волкова Карина
- Дата:  10.03.2025

### Цели и задачи проекта

<font color='#777778'>
Цели:
    
- Заинтересовать людей, которые любят старые игры, и представить им проект «Секреты Темнолесья».    
- Изучить и представить информацию о росте и изменениях в игровой индустрии с 2000 по 2013 год.   

Задачи:

- Исследовать исторические данные о продажах игр, жанрах и платформах.
- Выделить игры, выпущенные в период с 2000 по 2013 год.
- Категоризовать игры по оценкам пользователей и экспертов на три категории.
- Провести анализ игровых платформ и жанров, с акцентом на RPG.
- Изучить региональные предпочтения игроков в разные годы.
- Эти цели и задачи помогут создать информативную и привлекательную статью, которая будет интересна как старым поклонникам игр, так и новым игрокам. </font>

### Описание данных

<font color='#777778'> Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.</font>

### Содержимое проекта

<font color='#777778'>
    
    
- Проверка ошибок в данных и их предобработка
- Фильтрация данных
- Категоризация данных
    
</font>

---

## 1. Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [8]:
import pandas as pd

In [9]:
games = pd.read_csv('')

- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [12]:
games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [13]:
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


- **Объем данных:**
Датафрейм содержит 16,956 записей (строк) и 11 столбцов.

- **Соответствие описанию:**
Данные, судя по названиям столбцов, соответствуют описанию, связанному с продажами игр, их жанрами, платформами и оценками.

- **Пропуски в данных:**
В столбце `Name` 2 пропуска (16954 из 16956).
В столбце `Year of Releas`e 275 пропусков (16681 из 16956).
В столбце `Genre` 2 пропуска (16954 из 16956).
В столбцах `Critic Score`, `User  Score`, и `Ratin`g также есть значительное количество пропусков:
`Critic Score`: 8,264 непустых значений (пропуски: 8,692).
`User  Score`: 10,152 непустых значений (пропуски: 6,804).
`Rating`: 10,085 непустых значений (пропуски: 6,871).

- **Типы данных:**
Столбцы `NA sales`, `EU sales`, `JP sales` указаны как *object*, что может означать, что в них хранятся данные в текстовом формате (возможно, присутствуют символы, которые не позволяют интерпретировать их как числовые значения). Это может потребовать дополнительной обработки для анализа.

 Столбцы `Other sales`, `Critic Score` и `User  Scor`e имеют тип *float64* и *object*, соответственно, что также требует внимания для корректного анализа.
Рекомендации:

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [19]:
games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [20]:
games.columns = [col.lower().replace(' ', '_') for col in games.columns]
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

Пропуски (NaN): Если в столбце есть пропуски, pandas не сможет преобразовать этот столбец в целочисленный тип (int), так как NaN (Not a Number) не может быть представлен в виде целого числа.

Неверные форматы: Например, если в столбце чисел есть строки (например, 'N/A', 'unknown'), это также может привести к ошибкам при преобразовании.

Тип данных: Иногда данные могут быть загружены как строковые (например, '1000' вместо 1000), что требует преобразования.

- Преобразуем 'year_of_release' из object в числовой тип

In [189]:
games['year_of_release'] = pd.to_numeric(games['year_of_release'], errors='coerce')

- Некоторые записи могут содержать текстовые строки (например, "unknown"), которые не могут быть преобразованы в числа.
- Некоторые игры могут не иметь информации о годе выпуска, что приводит к пустым значениям (NaN).
- Проблемы при вводе данных могли привести к отсутствию информации.

- нужно заполнить пропуски значением -1, чтобы обозначить, что информация отсутствует,
- 
затем преобразовать в int64 для удобства

In [191]:
# Заполненим пропуски значением -1
games['year_of_release'] = games['year_of_release'].fillna(-1).astype('int64')

In [186]:
games.head(10)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,Not Rated
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1.0,-1.0,Not Rated
5,Tetris,GB,1989,Puzzle,23.2,2.26,4.22,0.58,-1.0,-1.0,Not Rated
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984,Shooter,26.93,0.63,0.28,0.47,-1.0,-1.0,Not Rated


- Данные о продажах Северной Америки, Европы и Японии тоже нужно привести к чиловому типу, что более логично для работы с ними.

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [30]:
games['na_sales'] = pd.to_numeric(games['na_sales'], errors = 'coerce')
games['eu_sales'] = pd.to_numeric(games['eu_sales'], errors = 'coerce')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], errors = 'coerce')

In [32]:
games.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(5), int64(1), object(5)
memory usage: 1.4+ MB


### 2.3. Наличие пропусков в данных

- Количество пропусков в каждом столбце в абсолютных значениях:


In [34]:
games.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

- Количество пропусков в каждом столбце в относительных значениях:

In [36]:
games.isna().sum() / len(games)

name               0.000118
platform           0.000000
year_of_release    0.000000
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.401274
rating             0.405225
dtype: float64

**Пропуски:**

- name и genre: *Пропуски могут возникать из-за отсутствия информации о названии или жанре игры, возможно, в случае ошибок при вводе данных.*

- na_sales, eu_sales, jp_sales: *Пропуски в данных о продажах могут быть связаны с отсутствием отчетов о продажах в определенных регионах или с тем, что игра не продавалась в этих регионах.*

- critic_score, user_score и rating: *Высокое количество пропусков в этих столбцах может быть связано с тем, что не все игры получили оценки от критиков или пользователей.*

Возможные действия с пропусками:
Удаление пропусков: Можно удалить строки с пропусками, если количество таких строк незначительно по сравнению с общим объемом данных.

Замена пропусков: Можно заполнить пропуски средними значениями, медианами или модами для числовых данных (например, для продаж) или использовать наиболее частые значения для категориальных данных (например, для жанра). Это поможет сохранить объем данных и предотвратить искажения анализа.

Анализ пропусков: Провести анализ причин пропусков и понять, как это может повлиять на анализ данных. Например, если пропуски в оценках критиков связаны с новыми играми, это может повлиять на общую оценку популярности игр.

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

*Строки с пропусками в названиях и жанрах лучше удалить, т.к. их по 2 из 16956, а так же Название игры является ключевым атрибутом. Если отсутствует название, строка не имеет смысла.*

In [42]:
games = games.dropna(subset=['name','genre'])

*В строках продаж по регионам пропуски лучше заменить на среднее значение.*  

In [198]:
# среднее значения na_sales
def fill_na_sales(row):
    if pd.isna(row['na_sales']):
        return games[(games['year_of_release'] == row['year_of_release']) & 
                     (games['platform'] == row['platform'])]['na_sales'].mean()
    return row['na_sales']

games['na_sales'] = games.apply(fill_na_sales, axis=1)
games['na_sales'].isna().sum()

0

In [200]:
# среднее значения eu_sales
def fill_na_sales(row):
    if pd.isna(row['eu_sales']):
        return games[(games['year_of_release'] == row['year_of_release']) & 
                     (games['platform'] == row['platform'])]['eu_sales'].mean()
    return row['eu_sales']

games['eu_sales'] = games.apply(fill_na_sales, axis=1)
games['eu_sales'].isna().sum()

0

In [202]:
# среднее значения jp_sales
def fill_na_sales(row):
    if pd.isna(row['jp_sales']):
        return games[(games['year_of_release'] == row['year_of_release']) & 
                     (games['platform'] == row['platform'])]['jp_sales'].mean()
    return row['jp_sales']

games['jp_sales'] = games.apply(fill_na_sales, axis=1)
games['jp_sales'].isna().sum()

0

*В строках оценок критиков и пользователей пропуски лучше заменить значением «-1».*  

In [50]:
games['critic_score'] = games['critic_score'].fillna(-1)

*В строках оценок пользователей кроме пропусков есть значение tbd, заменим его и пропуски на «-1».*

In [53]:
games['user_score'] = games['user_score'].replace('tbd',-1).astype('float64')

In [204]:
games['user_score'] = games['user_score'].fillna(-1)
games.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,Not Rated
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1.0,-1.0,Not Rated


In [207]:
# пропуски в Rating заменим на 'Not Rated'
games['rating'] = games['rating'].fillna('Not Rated')

In [58]:
games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16954 non-null  float64
 6   jp_sales         16954 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     16954 non-null  float64
 9   user_score       16954 non-null  float64
 10  rating           16954 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.6+ MB


### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [60]:
rows = games.shape[0]
rows

16954

In [61]:
# Количество дубликатов
games.duplicated().sum()

182

In [62]:
games['name'].str.lower().value_counts()

name
need for speed: most wanted                                       12
terraria                                                           9
lego marvel super heroes                                           9
monopoly                                                           9
madden nfl 07                                                      9
                                                                  ..
the idolm@ster sp: wandering star / perfect sun / missing moon     1
genji: dawn of the samurai                                         1
what's cooking? jamie oliver                                       1
me & my katamari                                                   1
haitaka no psychedelica                                            1
Name: count, Length: 11559, dtype: int64

In [63]:
games['genre'].str.lower().value_counts()

genre
action          3418
sports          2375
misc            1772
role-playing    1516
shooter         1346
adventure       1323
racing          1273
platform         904
simulation       884
fighting         862
strategy         691
puzzle           590
Name: count, dtype: int64

In [64]:
games['genre'].str.lower().nunique()

12

In [65]:
games['platform'].value_counts()

platform
PS2     2189
DS      2177
PS3     1355
Wii     1340
X360    1281
PSP     1229
PS      1215
PC       990
XB       839
GBA      837
GC       563
3DS      530
PSV      435
PS4      395
N64      323
XOne     251
SNES     241
SAT      174
WiiU     147
2600     135
NES      100
GB        98
DC        52
GEN       27
NG        12
SCD        6
WS         6
3DO        3
TG16       2
GG         1
PCFX       1
Name: count, dtype: int64

In [66]:
games['platform'].nunique()

31

In [67]:
games['year_of_release'].value_counts()

year_of_release
 2009    1450
 2008    1445
 2010    1279
 2007    1218
 2011    1149
 2006    1020
 2005     950
 2002     839
 2003     789
 2004     771
 2012     670
 2015     612
 2014     584
 2013     552
 2016     507
 2001     491
 1998     384
 2000     357
 1999     341
 1997     293
-1        275
 1996     267
 1995     220
 1994     121
 1993      60
 1981      46
 1992      43
 1991      42
 1982      37
 1986      22
 1983      18
 1989      17
 1987      17
 1990      16
 1988      15
 1985      14
 1984      14
 1980       9
Name: count, dtype: int64

In [68]:
games['platform'].nunique()

31

In [69]:
games['rating'].str.upper().value_counts()

rating
NOT RATED    6869
E            4037
T            3005
M            1587
E10+         1441
EC              8
K-A             3
RP              3
AO              1
Name: count, dtype: int64

In [70]:
games['rating'].str.upper().nunique()

9

In [71]:
# рейтинг K-A заменяем на E, т.к.это аббревиатура использовалась ранее
games['rating'] = games['rating'].replace('K-A','E')

In [72]:
games['rating'].value_counts()

rating
Not Rated    6869
E            4040
T            3005
M            1587
E10+         1441
EC              8
RP              3
AO              1
Name: count, dtype: int64

In [73]:
games['name_low'] = games['name'].str.lower()
games['genre_low'] = games['genre'].str.lower()
games['platform_low'] = games['platform'].str.lower()
games['rating_upp'] = games['rating'].str.upper()

In [76]:
# Количество дубликатов
duplicate_count = games.duplicated(subset=['name_low', 'genre_low', 'platform_low', 'rating_upp']).sum()
duplicate_count

245

In [77]:
# Удаляем дубликаты на основе нижнего регистра
games = games.drop_duplicates(subset=['name_low','genre_low', 'platform_low', 'rating_upp'])

In [79]:
# Удаляем временные столбцы
games = games.drop(columns=['name_low','genre_low', 'platform_low', 'rating_upp'])

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [81]:
games.duplicated().sum()

0

В процессе анализа данных в DataFrame games были найдены 245 дубликата в столбцах, содержащих информацию о названиях, жанрах, платформах и рейтингах. Эти дубликаты могли возникнуть из-за различий в регистре написания или незначительных опечаток.

Действия по обработке дубликатов:
Приведение к нижнему регистру: Все значения в столбцах name, genre, platform и rating были приведены к нижнему регистру для унификации данных.
Удаление дубликатов: После приведения к нижнему регистру был использован метод .drop_duplicates(), удалены все строки, которые имели одинаковые значения в указанных столбцах.
Удаление временных столбцов: Временные столбцы, созданные для проверки дубликатов, были удалены.

In [83]:
games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16709 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16709 non-null  object 
 1   platform         16709 non-null  object 
 2   year_of_release  16709 non-null  int64  
 3   genre            16709 non-null  object 
 4   na_sales         16709 non-null  float64
 5   eu_sales         16709 non-null  float64
 6   jp_sales         16709 non-null  float64
 7   other_sales      16709 non-null  float64
 8   critic_score     16709 non-null  float64
 9   user_score       16709 non-null  float64
 10  rating           16709 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


Было 16955 строк, стало 16709.
Всего было очищено 246 строк, доля удаленных строк 1,45%

In [85]:
share_dupl = round((245/rows)*100,2)
share_dupl

1.45

Доля удаленных дубликатов 1.47%

In [87]:
rows_aft = games.shape[0]
share_dupl_after = round((245/rows_aft)*100,2)
share_dupl_after

1.47

**1.45% DataFrame games было очищено**

В процессе предобработки были удалены некоторые пропуски, часть пропусков были заменены на средние значения по региону продажи, в столбце Rating пропуски заменены на not rated. Удалены 246 строк для чистоты датафрейма.

*Предобработка данных позволила значительно улучшить их качество и структуру, что создаёт более надежную основу для дальнейшего анализа. Удаление пропусков и дубликатов способствует повышению точности и достоверности результатов последующих исследований.*

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [93]:
df_actual = games[(games['year_of_release']>=2000) & (games['year_of_release']<=2013)].copy()

In [95]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [99]:
df_actual['user_score_category'] = pd.cut(df_actual['user_score'], bins=[0, 3, 8, 10], labels=["низкая оценка", "средняя оценка", "высокая оценка"], 
   right=False)

In [100]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,высокая оценка
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка


- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [102]:
df_actual['critic_score_category'] = pd.cut(df_actual['critic_score'], bins=[0, 30, 80, 100], labels=["низкая оценка", "средняя оценка", "высокая оценка"], 
   right=False)

In [104]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,высокая оценка,средняя оценка
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка,высокая оценка
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка,средняя оценка


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [106]:
df_actual.groupby('user_score_category',observed=False)['name'].count()

user_score_category
низкая оценка      116
средняя оценка    4080
высокая оценка    2284
Name: name, dtype: int64

In [107]:
df_actual.groupby('critic_score_category',observed=False)['name'].count()

critic_score_category
низкая оценка       55
средняя оценка    5422
высокая оценка    1689
Name: name, dtype: int64

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [109]:
df_actual.groupby('platform')['name'].count().sort_values(ascending = False).head(7)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1120
PS3     1086
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод



В ходе работы были:

*Отфильтрованы данные:* Создан новый DataFrame df_actual, который содержит только игры, выпущенные в период с 2000 по 2013 год. Это позволяет сосредоточиться на интересующем нас временном интервале и исключить данные, которые не соответствуют этому критерию.

*Проанализированы данные:* Анализ распределения игр по пользовательским и критическим рейтингам, выявлено количество игр с низкими, средними и высокими оценками. Это дало представление о том, как игры воспринимаются игроками и критиками.

 Выделены топ-7 платформ по количеству выпущенных игр за указанный период. Результаты показали, что наиболее популярными платформами были:*

- PS2 — 2160 игр
- DS — 2150 игр
- Wii — 1309 игр
- PSP — 1192 игры
- X360 — 1144 игры
- PS3 — 1106 игр
- XB — 824 игры

*Описание среза данных:* В df_actual мы имеем только те игры, которые были выпущены в начале XXI века, что значительно упрощает дальнейший анализ и позволяет делать более точные выводы о тенденциях на рынке игр в этот период.

**Основные выводы:**
- Тенденции на рынке: В начале XXI века наблюдался рост популярности определённых платформ, что может быть связано с их уникальными предложениями и играми, которые они предоставляли.
- Качество игр: Разные рейтинги показывают, что на рынке были как высококачественные, так и менее успешные проекты, что подчеркивает разнообразие игрового контента.