# Изучение развития игровой индустрии

- Автор:Сурков Алексей Александрович  
- Дата:25.12.2024 
<a id='intro'></a>

### Цели и задачи проекта

- Отобрать данные по времени выхода игры.Нужен период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов. Выделите три категории:
   - высокая оценка — с оценкой от 8 до 10 и от 80 до 100, включая правые границы интервалов.
   - средняя оценка — с оценкой от 3 до 8 и от 30 до 80, не включая правые границы интервалов.
   - низкая оценка — с оценкой от 0 до 3 и от 0 до 30, не включая правые границы интервалов.
- Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.

### Описание данных

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта


- [Загрузка и знакомство с данными](#1.-Загрузка-данных-и-знакомство-с-ними)
- [Проверка ошибок в данных и их предобработка](#2.-Проверка-ошибок-в-данных-и-их-предобработка)
- [Фильтрация данных](#3.-Фильтрация-данных)
- [Категоризация данных](#4.-Категоризация-данных)
- [Итоговый вывод](#5.-Итоговый-вывод)

---

# 1. Загрузка данных и знакомство с ними




In [1]:
import pandas as pd 

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv.

In [3]:
df= pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [4]:
# Выводим информацию о датафрейме

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [6]:
# Выводим первые строки датафрейма на экран

In [7]:
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,



Датасет /datasets/new_games.csv содержит 11 столбцов и 16956 строк, которые содержат информацию о продажах игр разных жанров и платформ
Изучим типы данных и их корректность:

Столбцы соответствуют описанию, представленному в проекте. Каждый столбец содержит информацию о различных аспектах видеоигр, таких как название, платформа, год выпуска, жанр, продажи и оценки.
* Пропуски:

В столбце Name и Genre по 2 пропуска.
В столбце Year of Release 275 пропусков. Это может быть проблематично для анализа, особенно если мы хотим изучить тенденции по годам.
В столбцах Critic Score, User  Score и Rating также присутствуют пропуски (8,714, 6,804 и 6,871 соответственно). Это может повлиять на анализ оценок и рейтингов игр.
* Тип данных:

Большинство столбцов имеют правильные типы данных (например, float64 для продаж и оценок).
Однако столбцы EU sales, JP sales и User  Score имеют тип object, что может указывать на наличие некорректных данных (например, строки вместо чисел).
* Названия столбцов:

Названия столбцов в целом понятные, но стоит обратить внимание на формат. Например, названия с пробелами (такие как Year of Release) могут затруднить работу с данными. 
* Другие особенности:

Необходимо проверить, нет ли дубликатов в данных, так как это может исказить результаты анализа.
Возможно, стоит рассмотреть возможность категоризации данных по жанрам или платформам для дальнейшего анализа.
Также стоит обратить внимание на возможные выбросы в данных о продажах и оценках, которые могут повлиять на результаты анализа.


# 2. Проверка ошибок в данных и их предобработка




### 2.1. Названия, или метки, столбцов датафрейма

In [8]:
# Выводим названия всех столбцов датафрейма

In [9]:
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [10]:
# Приводим названия столбцов к стилю snake case, нижнему регистру и вместо проблеов- подчёркивания. 

In [11]:
df.columns = df.columns.str.lower().str.replace(' ', '_')
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных


In [12]:
# проверяем тип данных 

In [13]:
df.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

In [14]:
df.head(15)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [15]:
# Выводим количество пропущенных строк

In [16]:
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

In [17]:
round(df.isna().sum()/len(df)*100,2) # Подсчитываем процент строк с пропусками

name                0.01
platform            0.00
year_of_release     1.62
genre               0.01
na_sales            0.00
eu_sales            0.00
jp_sales            0.00
other_sales         0.00
critic_score       51.39
user_score         40.13
rating             40.52
dtype: float64

In [18]:
# Преобразуем столбцы с некорректными типами данных
df['year_of_release'] = df['year_of_release'].fillna(0).astype(int)
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors='coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors='coerce')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

In [19]:
df.dtypes

name                object
platform            object
year_of_release      int32
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

In [20]:
df.head(15)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984,Shooter,26.93,0.63,0.28,0.47,,,


### 2.3. Наличие пропусков в данных



### В процессе анализа данных были выявлены пропуски в:

* Name: 2 пропуска (0.01%)
* Year of Release: 275 пропусков (1.62%)
* Genre: 2 пропуска (0.01%)
* Critic Score: 8714 пропусков (51.39%)
* User Score: 6804 пропуска (40.13%)
* Rating: 6871 пропусков (40.52%)

### Возможные причины пропусков
- Name и Genre: Пропуски могут возникать из-за ошибок при сборе данных или отсутствия информации о названии или жанре игры.
- Year of Release: Пропуски могут быть связаны с отсутствием данных о годе выпуска, либо их просто не занесли в таблицу.
- Critic Score, User Score и Rating: Высокое количество пропусков в этих столбцах может свидетельствовать о том, что не все игры были оценены критиками или пользователями.

* В столбцах Critic Score, User  Score и Rating заменим пропуски на значение 'unknown', чтобы сохранить целостность данных для дальнейшего анализа.
* В Name , genre и year_of_release  оставим все без изменений , т.к % проспусков незначителен 

In [21]:
# Заменяем пропуски на значение 'unknown
df['critic_score'].fillna('unknown', inplace=True) 
df['user_score'].fillna('unknown', inplace=True)
df['rating'].fillna('unknown', inplace=True)

In [22]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,unknown,unknown,unknown
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,unknown,unknown,unknown


### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [23]:
# Изучаем уникальные значения в категориальных данных
unique_genre = df['genre'].unique()
unique_platform = df['platform'].unique()
unique_rating = df['rating'].unique()
unique_year = df['year_of_release'].unique()
display("жанры:", unique_genre)
display("платформы:", unique_platform)
display("рейтинги:", unique_rating)
display("год выпуска:", unique_year)

'жанры:'

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', nan, 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION',
       'SHOOTER', 'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE',
       'SIMULATION', 'PUZZLE', 'STRATEGY'], dtype=object)

'платформы:'

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

'рейтинги:'

array(['E', 'unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

'год выпуска:'

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000,    0, 1995,
       1991, 1981, 1987, 1980, 1983])

In [24]:
df['genre'] = df['genre'].str.lower()
df['platform'] = df['platform'].str.lower()
df['rating'] = df['rating'].str.upper()
display(df['genre'])
display(df['platform'])
display(df['rating'])

0              sports
1            platform
2              racing
3              sports
4        role-playing
             ...     
16951          action
16952          sports
16953       adventure
16954        platform
16955      simulation
Name: genre, Length: 16956, dtype: object

0         wii
1         nes
2         wii
3         wii
4          gb
         ... 
16951     ps3
16952    x360
16953     psv
16954     gba
16955     psv
Name: platform, Length: 16956, dtype: object

0              E
1        UNKNOWN
2              E
3              E
4        UNKNOWN
          ...   
16951    UNKNOWN
16952    UNKNOWN
16953    UNKNOWN
16954    UNKNOWN
16955    UNKNOWN
Name: rating, Length: 16956, dtype: object

In [25]:
# Проверяем наличие явных дубликатов
duplicates = df.duplicated().sum()
display(f'Количество явных дубликатов: {duplicates}')

'Количество явных дубликатов: 241'

In [26]:
# Удаляем явные дубликаты
df.drop_duplicates(inplace=True)
display(df.head(15))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,nes,1985,platform,29.08,3.58,6.81,0.77,unknown,unknown,UNKNOWN
2,Mario Kart Wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,gb,1996,role-playing,11.27,8.89,10.22,1.0,unknown,unknown,UNKNOWN
5,Tetris,gb,1989,puzzle,23.2,2.26,4.22,0.58,unknown,unknown,UNKNOWN
6,New Super Mario Bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,wii,2009,platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,nes,1984,shooter,26.93,0.63,0.28,0.47,unknown,unknown,UNKNOWN


- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

#### Проверка на явные дубликаты показала, что в данных есть 241 дубликат. Эти дубликаты могут быть удалены с помощью метода drop_duplicates().
В процессе нормализации данных были устранены неявные дубликаты, связанные с различным регистром букв и написанием названий жанров и рейтингов.

Пропуски в данных были обработаны, и данные были нормализованы для дальнейшего анализа.

[Начало тетрадки](#intro)

---

## 3. Фильтрация данных



Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [27]:
# Фильтрация данных по году выпуска
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]

# Проверим, сколько строк в новом датафрейме
df_actual.shape



(12781, 11)

In [28]:
# Выведем первые строки 

In [29]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,Mario Kart Wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,New Super Mario Bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E


[начало тетрадки](#intro)

---

## 4. Категоризация данных
    
- Разделяем все игры по оценкам пользователей и выделяем такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [30]:
# Функция для категоризации оценок пользователей
def categorize_user_score(score):
    if pd.isna(score) or score == 'unknown':
        return 'unknown'
    score = float(score)  # Преобразуем в float для сравнения
    if 8 <= score <= 10:
        return 'high'
    elif 3 <= score < 8:
        return 'medium'
    else:
        return 'low'


- Разделяем  все игры по оценкам критиков и выделяем такие категории как : высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [31]:
# Функция для категоризации оценок критиков
def categorize_critic_score(score):
    if pd.isna(score) or score == 'unknown':
        return 'unknown'
    score = float(score)  # Преобразуем в float для сравнения
    if 80 <= score <= 100:
        return 'high'
    elif 30 <= score < 80:
        return 'medium'
    else:
        return 'low'

In [32]:
# Применяем функции категоризации к соответствующим столбцам с использованием .loc
df_actual.loc[:, 'user_score_category'] = df_actual['user_score'].apply(categorize_user_score)
df_actual.loc[:, 'critic_score_category'] = df_actual['critic_score'].apply(categorize_critic_score)

# Проверяем результат: группируем данные по категориям и считаем количество игр в каждой категории
user_score_counts = df_actual['user_score_category'].value_counts()
critic_score_counts = df_actual['critic_score_category'].value_counts()

display("Количество игр по категориям оценок пользователей:")
display(user_score_counts)

display("\nКоличество игр по категориям оценок критиков:")
display(critic_score_counts)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[key] = value


'Количество игр по категориям оценок пользователей:'

unknown    6298
medium     4081
high       2286
low         116
Name: user_score_category, dtype: int64

'\nКоличество игр по категориям оценок критиков:'

unknown    5612
medium     5422
high       1692
low          55
Name: critic_score_category, dtype: int64

- Выделяем топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [33]:
# Выделяем топ-7 платформ по количеству игр
top_platforms = df_actual['platform'].value_counts().head(7)
("\nТоп-7 платформ по количеству игр:")
top_platforms


ps2     2127
ds      2120
wii     1275
psp     1180
x360    1121
ps3     1087
gba      811
Name: platform, dtype: int64

[начало тетрадки](#intro)

---

## 5. Итоговый вывод


#### В ходе выполнения проекта была проведена предобработка и анализ данных из датасета, содержащего информацию о продажах видеоигр.   
* Датасет включает 11 столбцов и 16956 строк, содержащих данные о различных аспектах игр, таких как название, платформа, год выпуска, жанр, продажи и оценки.
#### Предобработка данных,проверка и нормализация названий столбцов,обработка пропусков. 
- Пропуски в столбцах Critic Score, User  Score и Rating были заменены на значение 'unknown', в то время как пропуски в столбцах Name, Genre и Year of Release оставлены без изменений из-за их незначительного объёма.
#### Удаление дубликатов: 
- В процессе анализа было выявлено 241 явный дубликат, который был успешно удалён.
- Данные были отфильтрованы по годовому диапазону с 2000 по 2013. Новый датафрейм df_actual содержит 12781 строку.
#### Категоризация данных:

* Оценки пользователей были разделены на три категории: высокая, средняя и низкая.
* Оценки критиков также были категоризированы по аналогичному принципу.
* Было выделено топ-7 платформ по количеству игр, выпущенных за актуальный период, среди которых наибольшее количество игр выпущено для платформ PS2 и DS.
#### Выводы:
* Данные о продажах видеоигр содержат значительное количество пропусков и дубликатов, что требует внимательной предобработки перед анализом.
* Наиболее популярными платформами в начале XXI века являются PS2 и DS, что может свидетельствовать о их влиянии на рынок видеоигр в тот период.
* Категоризация оценок позволяет лучше понять, как пользователи и критики воспринимают игры, что может быть полезно для дальнейшего анализа и принятия решений в индустрии.
* Таким образом, проведённый анализ и предобработка данных позволяют более глубоко изучить рынок видеоигр, выявить тенденции и сделать обоснованные выводы для дальнейшей работы.

[начало тетрадки](#intro)