# Анализ игровой индустрии с 2003 по 2013 год.

- Автор:Васильева Ирина
- Дата: 22.05.2025

1.Цели и задачи проекта

Провести аналитику игр с 2003 по 2013 год. Провести категоризацию игр по оценке пользователей и экспертов. Выделить ТОП-7 платформ, по играм выпущенным в этот период.

2 Описание данных

Данные содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки.

3 Содержимое проекта
    1.Знакомство с данными. 
    2. Предобработка данных
    3. Фильтрация данных на пропуски, дубликаты и ошбики.
    4. Категоризация данных.

## 1. Загрузка данных и знакомство с ними




In [1]:
import pandas as pd
from IPython.display import display

df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
display(df.head())

display(df.tail())
display(df.shape)
display(df.columns)  

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


(16956, 11)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Данные содержатся в 11 колонках, содержат 16956 строк

In [2]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None


Объем данных 1.4 МБ. Данные представлены 2 типами: Name, Platform, Genre, EU sales, JP sales, User Score, 
    Rating - объекты, остальные колонки float 64. Стболбцы EU sales, JP sales должны быть числовыми. Столбец User Score
    тоже должен быть числовым. Возможно в этих колонках есть текст. Year of Release - год должен быть по типу int.
    В данных есть пропуски в колонке Name - 2 пропуска. Year of Release - 275, Genre - 2, Critic Score - 8714, 
    User Score - 6804, Rating - 6871. Названия столбцов не соответствуют правилу snake case.


---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- На экран выведены названия всех столбцов датафрейма и проверен их стиль написания.
- Все столбцы приведены к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [3]:
df = df.rename(columns={
    'Name': 'name',
    'Platform': 'platform',
    'Year of Release': 'year_of_release',
    'Genre': 'genre',
    'NA sales': 'north_america_sales',
    'EU sales': 'europe_sales',
    'JP sales': 'japan_sales',
    'Other sales': 'other_sales',
    'Critic Score': 'critic_score',
    'User Score': 'user_score',
    'Rating': 'rating',
})

print(df)


                                name platform  year_of_release         genre  \
0                         Wii Sports      Wii           2006.0        Sports   
1                  Super Mario Bros.      NES           1985.0      Platform   
2                     Mario Kart Wii      Wii           2008.0        Racing   
3                  Wii Sports Resort      Wii           2009.0        Sports   
4           Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing   
...                              ...      ...              ...           ...   
16951  Samurai Warriors: Sanada Maru      PS3           2016.0        Action   
16952               LMA Manager 2007     X360           2006.0        Sports   
16953        Haitaka no Psychedelica      PSV           2016.0     Adventure   
16954               Spirits & Spells      GBA           2003.0      Platform   
16955            Winning Post 8 2016      PSV           2016.0    Simulation   

       north_america_sales europe_sales

### 2.2. Типы данных

- Если встречаются некорректные типы данных, предполагаем их причины.
- При необходимости проводим преобразование типов данных.

In [4]:
df['year_of_release'].unique()

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

In [5]:
df['rating'].unique()

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводим такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [6]:
columns_to_clean = ['year_of_release', 'europe_sales', 'japan_sales', 'critic_score', 'user_score']

for col in columns_to_clean:
    df[col] = pd.to_numeric(df[col], errors='coerce')
    df['year_of_release'] = df['year_of_release'].astype('Int64')
    df['critic_score'] = df['critic_score'].astype('Int64')

print(df.dtypes)
print(df.head())


name                    object
platform                object
year_of_release          Int64
genre                   object
north_america_sales    float64
europe_sales           float64
japan_sales            float64
other_sales            float64
critic_score             Int64
user_score             float64
rating                  object
dtype: object
                       name platform  year_of_release         genre  \
0                Wii Sports      Wii             2006        Sports   
1         Super Mario Bros.      NES             1985      Platform   
2            Mario Kart Wii      Wii             2008        Racing   
3         Wii Sports Resort      Wii             2009        Sports   
4  Pokemon Red/Pokemon Blue       GB             1996  Role-Playing   

   north_america_sales  europe_sales  japan_sales  other_sales  critic_score  \
0                41.36         28.96         3.77         8.45            76   
1                29.08          3.58         6.81         

Колонки с числовыми данными приведены к типу float64, строки в числовых колонках заменены на Nan.
Колонка год реализации приведена к типу int.

2.3. Наличие пропусков в данных



In [7]:
missing_counts = df.isna().sum()

missing_percent = df.isna().mean() * 100

missing_data = pd.DataFrame({
    'missing_count': missing_counts,
    'missing_percent': missing_percent
})

print(missing_data)

                     missing_count  missing_percent
name                             2         0.011795
platform                         0         0.000000
year_of_release                275         1.621845
genre                            2         0.011795
north_america_sales              0         0.000000
europe_sales                     6         0.035386
japan_sales                      4         0.023590
other_sales                      0         0.000000
critic_score                  8714        51.391838
user_score                    9268        54.659118
rating                        6871        40.522529


По пропускам в абсолютном значении в колонке name 2 пропуска, year_of_release - 275, genre - 2, europe_sales - 6,
japan_sales - 4, critic_score - 8714, user_score - 9268, rating - 6871. Значимы для анализа пропуски в колонках critic_score,
user_score и rating это около 50% всех данных, заполнять такие пропуски не следует это исказит результаты,
заменим пропуски на показатель -1.
Для дальнейшего анализа удалим данные с 2 пропусками в колонке name, и 275 строк в колонке
year_of_release это 1,6% данных. Так как нам нужно провести анализ с 2003-2013 год. И игра без названия и года не имеет смысла.
Данные в колонках europe_sales и japan_sales заменим на медианные значения.

In [8]:
df = df.dropna(subset=['name', 'year_of_release'])

df['europe_sales'] = df['europe_sales'].fillna(df['europe_sales'].median())
df['japan_sales'] = df['japan_sales'].fillna(df['japan_sales'].median())
df[['critic_score', 'user_score', 'rating']] = df[['critic_score', 'user_score', 'rating']].fillna(-1)


print(df[['europe_sales', 'japan_sales']].isna().sum()) 


europe_sales    0
japan_sales     0
dtype: int64


### 2.4. Явные и неявные дубликаты в данных



In [9]:
for col in df.columns:
    print(f'Уникальные значения в колонке "{col}":')
    print(df[col].nunique())
    print('-' * 50)

Уникальные значения в колонке "name":
11426
--------------------------------------------------
Уникальные значения в колонке "platform":
31
--------------------------------------------------
Уникальные значения в колонке "year_of_release":
37
--------------------------------------------------
Уникальные значения в колонке "genre":
24
--------------------------------------------------
Уникальные значения в колонке "north_america_sales":
401
--------------------------------------------------
Уникальные значения в колонке "europe_sales":
307
--------------------------------------------------
Уникальные значения в колонке "japan_sales":
244
--------------------------------------------------
Уникальные значения в колонке "other_sales":
155
--------------------------------------------------
Уникальные значения в колонке "critic_score":
82
--------------------------------------------------
Уникальные значения в колонке "user_score":
96
--------------------------------------------------
Уникал

Приведем заполнение данных в колонках к нижнему регистру и проверим на пробелы

In [10]:
for col in ['genre', 'platform', 'name', 'rating']:
    print(f'{col}: {df[col].unique()}')
mask_strip = df['platform'] != df['platform'].str.strip()
print("Строки с пробелами в начале/конце:")
print(df.loc[mask_strip, 'platform'].unique())
print("Всего строк в колонке 'name':", df['name'].shape[0])
print("Уникальных значений в колонке 'name':", df['name'].nunique())


genre: ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
platform: ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
name: ['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']
rating: ['E' -1 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
Строки с пробелами в начале/конце:
[]
Всего строк в колонке 'name': 16679
Уникальных значений в колонке 'name': 11426


In [11]:

for col in ['genre', 'platform', 'name', 'rating']:
    print(f'{col}: {df[col].unique()}')
mask_strip = df['platform'] != df['platform'].str.strip()
print("Строки с пробелами в начале/конце:")
print(df.loc[mask_strip, 'platform'].unique())
print("Всего строк в колонке 'name':", df['name'].shape[0])
print("Уникальных значений в колонке 'name':", df['name'].nunique())
print(df[['name', 'platform', 'year_of_release', 'genre']].duplicated().sum())


genre: ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
platform: ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
name: ['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']
rating: ['E' -1 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
Строки с пробелами в начале/конце:
[]
Всего строк в колонке 'name': 16679
Уникальных значений в колонке 'name': 11426
180


Значение в колонке name должно быть уникальным в сочетании с годом, платформой и жанром. Выявлено 236 явных дубликатов.
Удалим явные дубликаты.

In [13]:
df['score_count'] = df[['critic_score', 'user_score', 'rating']].apply(lambda row: sum(row != -1), axis=1)
df = df.sort_values(by='score_count', ascending=False)
df = df.drop_duplicates(subset=['name', 'platform', 'year_of_release', 'genre'], keep='first')
df = df.drop(columns='score_count')
df = df.drop_duplicates().reset_index(drop=True)
print("Осталось строк после удаления дубликатов:", len(df))
mask_strip = df['name'].str.strip() != df['name']
print(df.loc[mask_strip, 'platform'].unique())
print("Всего строк в колонке 'name':", df['name'].shape[0])
print("Уникальных значений в колонке 'name':", df['name'].nunique())
print(df[['name', 'platform', 'year_of_release', 'genre']].duplicated().sum())

Осталось строк после удаления дубликатов: 16499
['PS3' '3DS' 'PS4' 'WiiU' 'PSV' 'PSP' 'X360' 'Wii' 'DS']
Всего строк в колонке 'name': 16499
Уникальных значений в колонке 'name': 11426
0


Проведена предобработка данных. Удалены строки с пропусками в ключевых для анализа колонках Название и год.
Все данные приведены к нижнему регистру, проведена проверка на пропуски в написании.
Выявлено 236 явных дубликатов, они удалены. Приоритетно удалялись данные где не заполнены все данные.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [14]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()
print(df_actual)

                                                    name platform  \
0                                             Wii Sports      Wii   
1                               Link's Crossbow Training      Wii   
2                                   MX vs. ATV Unleashed      PS2   
3         Tom Clancy's Ghost Recon Advanced Warfighter 2      PS3   
4                    Grand Theft Auto: Vice City Stories      PSP   
...                                                  ...      ...   
16490                            Great Battle Full Blast      PSP   
16491           Lise no Atelier: Ordre no Renkinjutsushi       DS   
16495                                        Torino 2006       XB   
16496                                            Amnesia      PSP   
16497  Tabi no Yubisashi Kaiwachou DS: DS Series 5 De...       DS   

       year_of_release         genre  north_america_sales  europe_sales  \
0                 2006        Sports                41.36         28.96   
1                 200

Проведена фильтрация данных, отобраны игры с 2003 по 2013 год включительно. Осталось 12780 игр для анализа.

---

## 4. Категоризация данных
    
Провести категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [15]:
def categorize_user_score(score):
    if score == -1:
        return 'без оценки'
    elif 8 <= score <= 10:
        return 'высокая оценка'
    elif 3 <= score < 8:
        return 'средняя оценка'
    elif 0 <= score < 3:
        return 'низкая оценка'

df_actual['user_score_category'] = df_actual['user_score'].apply(categorize_user_score)

print(df_actual[['user_score', 'user_score_category']].head())

   user_score user_score_category
0         8.0      высокая оценка
1         7.1      средняя оценка
2         8.4      высокая оценка
3         8.1      высокая оценка
4         8.0      высокая оценка


Проведена категоризация игр по показателю user_score

In [16]:
def categorize_critic_score(score):
    if score == -1:
        return 'нет оценок'
    elif 80 <= score <= 100:
        return 'высокая'
    elif 30 <= score < 80:
        return 'средняя'
    elif 0 <= score < 30:
        return 'низкая'
df_actual['critic_score_category'] = df_actual['critic_score'].apply(categorize_critic_score)
print(df_actual[['critic_score', 'critic_score_category']].head())

   critic_score critic_score_category
0            76               средняя
1            68               средняя
2            79               средняя
3            84               высокая
4            86               высокая


- Разделим все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

Проведена категоризация по колонке critic_score

- После категоризации данных проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [17]:
print("Распределение по user_score_category:")
print(df_actual['user_score_category'].value_counts().sort_index())

print("\nРаспределение по critic_score_category:")
print(df_actual['critic_score_category'].value_counts().sort_index())

Распределение по user_score_category:
без оценки        6322
высокая оценка    2289
низкая оценка      116
средняя оценка    4101
Name: user_score_category, dtype: int64

Распределение по critic_score_category:
высокая       1695
нет оценок    5632
низкая          55
средняя       5446
Name: critic_score_category, dtype: int64


- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [18]:
top_platforms = (
    df_actual['platform']
    .value_counts()
    .head(7)
)

print("Топ-7 платформ по количеству игр (2000–2013):")
print(top_platforms)

Топ-7 платформ по количеству игр (2000–2013):
PS2     2131
DS      2126
Wii     1279
PSP     1184
X360    1126
PS3     1089
GBA      813
Name: platform, dtype: int64


Выведены топ-7 платформ по количеству игр с 2003 по 2013 годы

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Проведен анализ данных игровой индустрии. Сделана предобработка массива данных на пропуски, дубликаты, неправильное заполнение.
Проведена фильтрация для учета игр только за 2003-2013 год. Созданы новые поля для категоризации данных по оценке зрителей
и оценке критиков. Выделены топ-7 платформ по количеству игр.Платформы Sony (PS2, PSP, PS3) и Nintendo (DS, Wii, GBA) имели наибольшее количество релизов в период с 2000 по 2013 год. Более половины игр не имеют пользовательских оценок  это может быть связано с низкой популярностью или отсутствием данных. Среди оценённых игр доминируют игры со средней оценкой. Почти половина игр не получила также оценок и от критиков, что может говорить о низком интересе к ним. Из тех, что получили, преобладают средние оценки - как и у пользователей