# Развитие игровой индустрии

- Автор: Чернышова О.В.
- Дата: 21.10.2025г.

Цели и задачи проекта

<font color='#777778'>Провести обзор игровых платформ, изучить объёмы продаж игр разных жанров и региональные предпочтения игроков. Изучить развитие игровой индустрии с 2000 по 2013 год. 
.</font>

Описание данных

<font color='#777778'>Данные содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
    
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.
.</font>


Содержимое проекта
<font color='#777778'>
    
    
1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод</font>

## Загрузка данных и знакомство с ними

<font color='#777778'>-`.</font>


In [87]:
import pandas as pd

In [89]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


<div class="alert alert-block alert-warning">
<b></b> 
    
    
Вывод о полученных данных:
    
Были загружены данные ...

Они содержат 11 столбцов и 16956 строк, в которых представлена информацияо продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

При первичном знакомстве с данными и их предобработкой получили такие результаты:

В восьми столбцах ('name', 'year_of_release','genre', 'eu_sales', 'jp_sales', 'critic_score', 'user_score', 'rating') 
были обнаружены пропущенные значения.

Максимальное значение пропущенных данных в столбце amenities used — 54%.
</div>

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма



In [90]:
df.head() 

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [91]:
# Передайте атрибуту columns новые названия столбцов
df.columns = df.columns.str.lower().str.replace(" ", "_")

In [92]:
df.head() 

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


### Типы данных


In [93]:
# Выводим информацию о датафрейме вместе с пропусками
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [94]:
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors='coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors='coerce')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


###  Наличие пропусков в данных



In [95]:
# Считаем пропуски 
print(df.isna().sum())


name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64


In [96]:
# Подсчитываем долю строк с пропусками
print(df.isna().sum() / len(df))


name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64


<div class="alert alert-block alert-warning">
<b></b>  Анализ пропусков:
    
Изначально были пропуски в столбцах

- 'name' - 2 , абсолютное значение - 0.000118
- 'year_of_release'- 275, абсолютное значение -0.016218
- 'genre' - 2, абсолютное значение - 0.000118
- 'eu_sales' -6, абсолютное значение -0.000354
- 'jp_sales' - 4, абсолютное значение - 0.000236
- 'critic_score' - 8712, абсолютное значение - 0.513918
- 'user_score' - 9266, абсолютное значение -0.546591
- 'rating'- 6869, абсолютное значение -0.405225


Пропуски могли возникнуть по причине случайных техническихе ошибок в данных, также вызванные человеческим фактором.

Первоначально провести нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему. Можно удалить строку, где name и genre - 2, year_of_release - 275, пропускам по столбцу 'year_of_release' применить среднее значение по данному столбцу.
</div>

In [97]:
# Заполняем пропуски средним значением
mean_age = df['year_of_release'].mean()
df['year_of_release'] = df['year_of_release'].fillna(mean_age)

In [98]:
# Считаем пропуски 
print(df.isna().sum())

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64


In [99]:
# Выводим данные и пропуски в них
print('Данные')
print(df)
print('Пропуски')
print(df.isna())

Данные
                                name platform  year_of_release         genre  \
0                         Wii Sports      Wii           2006.0        Sports   
1                  Super Mario Bros.      NES           1985.0      Platform   
2                     Mario Kart Wii      Wii           2008.0        Racing   
3                  Wii Sports Resort      Wii           2009.0        Sports   
4           Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing   
...                              ...      ...              ...           ...   
16951  Samurai Warriors: Sanada Maru      PS3           2016.0        Action   
16952               LMA Manager 2007     X360           2006.0        Sports   
16953        Haitaka no Psychedelica      PSV           2016.0     Adventure   
16954               Spirits & Spells      GBA           2003.0      Platform   
16955            Winning Post 8 2016      PSV           2016.0    Simulation   

       na_sales  eu_sales  jp_sa

In [100]:
# Отбираем строки без пропусков в столбце date
df = df.dropna(subset=['name', 'genre']) 
print(df.isna().sum())

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8712
user_score         9266
rating             6869
dtype: int64


In [101]:
# Выводим данные и пропуски в них
print('Данные')
print(df)
print('Пропуски')
print(df.isna())

Данные
                                name platform  year_of_release         genre  \
0                         Wii Sports      Wii           2006.0        Sports   
1                  Super Mario Bros.      NES           1985.0      Platform   
2                     Mario Kart Wii      Wii           2008.0        Racing   
3                  Wii Sports Resort      Wii           2009.0        Sports   
4           Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing   
...                              ...      ...              ...           ...   
16951  Samurai Warriors: Sanada Maru      PS3           2016.0        Action   
16952               LMA Manager 2007     X360           2006.0        Sports   
16953        Haitaka no Psychedelica      PSV           2016.0     Adventure   
16954               Spirits & Spells      GBA           2003.0      Platform   
16955            Winning Post 8 2016      PSV           2016.0    Simulation   

       na_sales  eu_sales  jp_sa

### Явные и неявные дубликаты в данных


In [102]:
for column in ['platform','year_of_release','genre','rating']:
        print(f'Уникальные значения в столбце {column}:')
        print(df[column].sort_values().unique())
        print()

Уникальные значения в столбце platform:
['2600' '3DO' '3DS' 'DC' 'DS' 'GB' 'GBA' 'GC' 'GEN' 'GG' 'N64' 'NES' 'NG'
 'PC' 'PCFX' 'PS' 'PS2' 'PS3' 'PS4' 'PSP' 'PSV' 'SAT' 'SCD' 'SNES' 'TG16'
 'WS' 'Wii' 'WiiU' 'X360' 'XB' 'XOne']

Уникальные значения в столбце year_of_release:
[1980.         1981.         1982.         1983.         1984.
 1985.         1986.         1987.         1988.         1989.
 1990.         1991.         1992.         1993.         1994.
 1995.         1996.         1997.         1998.         1999.
 2000.         2001.         2002.         2003.         2004.
 2005.         2006.         2006.48552245 2007.         2008.
 2009.         2010.         2011.         2012.         2013.
 2014.         2015.         2016.        ]

Уникальные значения в столбце genre:
['ACTION' 'ADVENTURE' 'Action' 'Adventure' 'FIGHTING' 'Fighting' 'MISC'
 'Misc' 'PLATFORM' 'PUZZLE' 'Platform' 'Puzzle' 'RACING' 'ROLE-PLAYING'
 'Racing' 'Role-Playing' 'SHOOTER' 'SIMULATION' 'SPORTS' '

In [103]:
# названия рейтинга приводим к верхнему регистру.
df['rating']=df['rating'].str.upper() 

In [104]:
# Названия игр привеодим к нижнему регистру 
df['name']=df['name'].str.lower() 

In [105]:
# Названия жанра привеодим к нижнему регистру 
df['genre']=df['genre'].str.lower() 

In [106]:
#Необходимо также избавиться от лишних пробелов в начале и в конце строки, которые могут создавать дубликаты
columns_to_strip = ['genre', 'name', 'rating']  # Укажите здесь имена нужных вам столбцов
df[columns_to_strip] = df[columns_to_strip].apply(lambda x: x.str.strip())

In [107]:
# Определяем количество уникальных значений в столбце 'name'
unique_client_count = df['name'].nunique()
print("Количество уникальных значений в столбце 'name':", unique_client_count) 

Количество уникальных значений в столбце 'name': 11559


In [108]:
# Определите уникальные значения в столбце 'name'
unique_categories = df['name'].unique()
print("Уникальные значения в столбце 'name':", unique_categories)

Уникальные значения в столбце 'name': ['wii sports' 'super mario bros.' 'mario kart wii' ...
 'woody woodpecker in crazy castle 5' 'lma manager 2007'
 'haitaka no psychedelica']


In [109]:
# Определяем количество уникальных значений в столбце 'genre'
unique_client_count = df['genre'].nunique()
print("Количество уникальных значений в столбце 'genre':", unique_client_count) 

Количество уникальных значений в столбце 'genre': 12


In [110]:
# Определите уникальные значения в столбце 'genre'
unique_categories = df['genre'].unique()
print("Уникальные значения в столбце 'genre':", unique_categories)

Уникальные значения в столбце 'genre': ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']


In [111]:
# Определяем количество уникальных значений в столбце 'rating'
unique_client_count = df['rating'].nunique()
print("Количество уникальных значений в столбце 'rating':", unique_client_count) 

Количество уникальных значений в столбце 'rating': 8


In [112]:
# Определите уникальные значения в столбце 'rating'
unique_categories = df['rating'].unique()
print("Уникальные значения в столбце 'rating':", unique_categories)

Уникальные значения в столбце 'rating': ['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [113]:
df['year_of_release'] = df['year_of_release'].round(0)

In [114]:
for column in ['platform','year_of_release','genre','rating']:
        print(f'Уникальные значения в столбце {column}:')
        print(df[column].sort_values().unique())
        print()

Уникальные значения в столбце platform:
['2600' '3DO' '3DS' 'DC' 'DS' 'GB' 'GBA' 'GC' 'GEN' 'GG' 'N64' 'NES' 'NG'
 'PC' 'PCFX' 'PS' 'PS2' 'PS3' 'PS4' 'PSP' 'PSV' 'SAT' 'SCD' 'SNES' 'TG16'
 'WS' 'Wii' 'WiiU' 'X360' 'XB' 'XOne']

Уникальные значения в столбце year_of_release:
[1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. 1991.
 1992. 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2000. 2001. 2002. 2003.
 2004. 2005. 2006. 2007. 2008. 2009. 2010. 2011. 2012. 2013. 2014. 2015.
 2016.]

Уникальные значения в столбце genre:
['action' 'adventure' 'fighting' 'misc' 'platform' 'puzzle' 'racing'
 'role-playing' 'shooter' 'simulation' 'sports' 'strategy']

Уникальные значения в столбце rating:
['AO' 'E' 'E10+' 'EC' 'K-A' 'M' 'RP' 'T' nan]



In [115]:
# Замена значения 'K-A' на 'E' в столбце rating
df['rating'] = df['rating'].replace('K-A', 'E') 

In [116]:
for column in ['platform','year_of_release','genre','rating']:
        print(f'Уникальные значения в столбце {column}:')
        print(df[column].sort_values().unique())
        print()

Уникальные значения в столбце platform:
['2600' '3DO' '3DS' 'DC' 'DS' 'GB' 'GBA' 'GC' 'GEN' 'GG' 'N64' 'NES' 'NG'
 'PC' 'PCFX' 'PS' 'PS2' 'PS3' 'PS4' 'PSP' 'PSV' 'SAT' 'SCD' 'SNES' 'TG16'
 'WS' 'Wii' 'WiiU' 'X360' 'XB' 'XOne']

Уникальные значения в столбце year_of_release:
[1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. 1991.
 1992. 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2000. 2001. 2002. 2003.
 2004. 2005. 2006. 2007. 2008. 2009. 2010. 2011. 2012. 2013. 2014. 2015.
 2016.]

Уникальные значения в столбце genre:
['action' 'adventure' 'fighting' 'misc' 'platform' 'puzzle' 'racing'
 'role-playing' 'shooter' 'simulation' 'sports' 'strategy']

Уникальные значения в столбце rating:
['AO' 'E' 'E10+' 'EC' 'M' 'RP' 'T' nan]



In [117]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = df.shape[0]
# Сортируем датафрейм по всем столбцам
df_sorted = df.sort_values(by=list(df.columns))
# Удаляем дубликаты
df_no_duplicates = df_sorted.drop_duplicates()
# Сохраняем количество строк после удаления дубликатов
final_row_count = df_no_duplicates.shape[0]
# Выводим результаты
print(f"Количество строк до удаления дубликатов: {initial_row_count}")
print(f"Количество строк после удаления дубликатов: {final_row_count}")
duplicates_removed = initial_row_count - final_row_count
duplicates_share = duplicates_removed / initial_row_count
print(f"Количество удаленных дубликатов: {duplicates_removed}")
print(f"Доля удаленных дубликатов: {duplicates_share:.2%}")

Количество строк до удаления дубликатов: 16954
Количество строк после удаления дубликатов: 16713
Количество удаленных дубликатов: 241
Доля удаленных дубликатов: 1.42%


In [118]:
# Выводим информацию 
df_no_duplicates.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16713 entries, 4782 to 9260
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16713 non-null  object 
 2   year_of_release  16713 non-null  float64
 3   genre            16713 non-null  object 
 4   na_sales         16713 non-null  float64
 5   eu_sales         16707 non-null  float64
 6   jp_sales         16709 non-null  float64
 7   other_sales      16713 non-null  float64
 8   critic_score     8137 non-null   float64
 9   user_score       7590 non-null   float64
 10  rating           9949 non-null   object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB


In [119]:
# Считаем пропуски после обработки данных
print(df_no_duplicates.isna().sum())

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8576
user_score         9123
rating             6764
dtype: int64


Промежуточный вывод:

Для достижения большей точности при расчетах, обязательна предварительная обработка данных:
- нормализация данных с текстовыми значениями, 
- замена пропущенных значений, 
- исключение маловажных строк, которые не могут повлиять на аналитику,
- удаление дубликатов.

Количество удаленных строк с пропусками в столбцах 'name' и 'genre:

'name' - 2 , абсолютное значение - 0.000118

'genre' - 2, абсолютное значение - 0.000118.
    
    
Также в столбце year_of_release - 275 пропусков, абсолютное значение -0.016218, где провели замену на среднее значение по данному столбцу.
    
Также были исключены дубликаты

Количество строк до удаления дубликатов: 16954
    
Количество строк после удаления дубликатов: 16713
    
Количество удаленных дубликатов: 241, Доля удаленных дубликатов: 1.42%

---

## Фильтрация данных



In [120]:
# Выбираем срезы по строкам и столбцам

df_actual = df_no_duplicates[(df_no_duplicates['year_of_release'] >= 2000) & (df_no_duplicates['year_of_release'] <= 2013)]
df_actual = df_actual.sort_values(by='year_of_release')
print(df_actual)

                                                    name platform  \
4174                                         fantavision      PS2   
14540                         monster rancher hop-a-bout       PS   
12107            monster rancher battle card: episode ii       PS   
7711                                     disney's tarzan      N64   
4731   world soccer jikkyou winning eleven 2000: u-23...       PS   
...                                                  ...      ...   
495                                 call of duty: ghosts     XOne   
60                                  call of duty: ghosts     X360   
5413                                call of duty: ghosts     WiiU   
15649                    toki no kizuna: hanayui tsuzuri      PSP   
12134                   magi: the labyrinth of beginning      3DS   

       year_of_release         genre  na_sales  eu_sales  jp_sales  \
4174            2000.0        puzzle      0.14      0.11      0.19   
14540           2000.0        a

---

## Категоризация данных
    


In [121]:
# Определяем интервалы и метки
bins = [0, 3, 8, 10]
labels = ['низкая оценка', 'средняя оценка', 'высокая оценка']

# Применяем метод pd.cut()
df_actual['categorizes'] = pd.cut(df_actual['user_score'], bins=bins, labels=labels, right=False)
# Выводим результаты
print(df_actual['categorizes']) 

4174     средняя оценка
14540               NaN
12107               NaN
7711                NaN
4731                NaN
              ...      
495      средняя оценка
60        низкая оценка
5413     средняя оценка
15649               NaN
12134               NaN
Name: categorizes, Length: 13050, dtype: category
Categories (3, object): ['низкая оценка' < 'средняя оценка' < 'высокая оценка']


In [122]:
# Определяем интервалы и метки
bins = [0, 30, 80, 100]
labels = ['низкая оценка', 'средняя оценка', 'высокая оценка']

# Применяем метод pd.cut()
df_actual['categorizes_cr'] = pd.cut(df_actual['critic_score'], bins=bins, labels=labels, right=False)
# Выводим результаты
print(df_actual['categorizes_cr']) 

4174     средняя оценка
14540               NaN
12107               NaN
7711                NaN
4731                NaN
              ...      
495      средняя оценка
60       средняя оценка
5413     средняя оценка
15649               NaN
12134               NaN
Name: categorizes_cr, Length: 13050, dtype: category
Categories (3, object): ['низкая оценка' < 'средняя оценка' < 'высокая оценка']


In [123]:
# количество игр в каждой категории по оценкам критиков
df_actual['categorizes'] = categorizes
grouped_data = df_actual.groupby(['categorizes']).size().reset_index(name='count')
print(grouped_data)

      categorizes  count
0  высокая оценка   2330
1   низкая оценка   6559
2  средняя оценка   4161


In [124]:
# количество игр в каждой категории по оценкам критиков
df_actual['categorizes_cr'] = categorizes_cr
grouped_data_r = df_actual.groupby(['categorizes_cr']).size().reset_index(name='count')
print(grouped_data_r)

   categorizes_cr  count
0  высокая оценка   1725
1   низкая оценка   5785
2  средняя оценка   5540


In [125]:
 # Группировка по платформам и подсчёт количества игр
platform_counts = df_actual.groupby('platform').size().reset_index(name='count')

# Сортировка по количеству игр в порядке убывания
platform_counts_sorted = platform_counts.sort_values(by='count', ascending=False)

# Выборка топ-7 платформ
top_7_platforms = platform_counts_sorted.head(7)
print(top_7_platforms)

   platform  count
10      PS2   2161
3        DS   2150
16      Wii   1309
13      PSP   1196
18     X360   1151
11      PS3   1112
19       XB    824


---

## Итоговый вывод

Были загружены данные .

Датафрейм содержит 11 столбцов и 16956 строк, в котором представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.


При первичном знакомстве с данными и их предобработкой получили такие результаты:

- в восьми столбцах были обнаружены пропущенные значения. 

- максимальное значение пропущенных данных в столбце amenities used — 54%.


Для оптимизации работы с данными в датафрейме были проведена предобработка данных:

- удалены 2 строки с пропусками,

- в 275 строках пропуски дополнили средним значением,

- провели нормализация данных с текстовыми значениями,

- удалили 241 строку с дубликатами.



Сохранен новый срез данных периода с 2000 по 2013 год включительно в отдельном датафрейме df_actual.

По оценкам пользователей и критиков данные сгруппированы по категориям - высокая оценка, средняя оценка, низкая оценка.

По каждой категории посчитано количество проданных игр.

Выделены топ-7 платформ по количеству игр, выпущенных за весь актуальный период.