# Анализ развитие игровой индустрии с 2000 по 2013 год для команды игры «Секреты Темнолесья»

- Автор: Миронов В.А.
- Дата: 15.01.2024

### Цели и задачи проекта

<font color='#777778'>

**Цель проекта:**

Проанализировать развитие игровой индустрии с 2000 по 2013 год, выявить популярные игровые платформы, жанры и особенности оценок, чтобы подготовить материалы для привлечения аудитории к игре «Секреты Темнолесья».

**Задачи проекта:**

Познакомиться с предоставленными данными и изучить их структуру.
Проверить корректность данных и провести их предобработку.
Выделить период с 2000 по 2013 год для анализа.
Категоризировать игры по оценкам пользователей и экспертов.
Определить топ-7 игровых платформ по количеству выпущенных игр.
Подготовить визуализации и выводы для дальнейшего использования в статье..</font>

### Описание данных

<font color='#777778'>Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию..</font>

### Содержимое проекта

<font color='#777778'>
    
**Загрузка и изучение данных:**
- проверка на пропуски, дубликаты и аномалии.

**Предобработка данных:**
- Фильтрация данных по году выхода (2000–2013).
- Категоризация игр по оценкам (высокие, средние, низкие).

**Анализ данных:**
- Определение топ-7 платформ по количеству выпущенных игр.
- Исследование жанров и региональных предпочтений игроков.
- Итоговый анализ.

**Формирование рекомендаций:**
- для подготовки статьи о развитии индустрии игр.</font>

## 1. Загрузка данных и знакомство с ними


In [1]:
# Импорт библиотеки pandas
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# Загрузка данных
file_path = '/datasets/new_games.csv'
data = pd.read_csv(file_path)

# Первые 5 строк для просмотра структуры данных
display(data.head(5))

# Проверим общую информацию о данных
display(data.info())

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


None

###### Объем и структура данных
- Количество записей: 16,956 строк.
- Количество столбцов: 11 столбцов с разными типами данных.

###### Проблемы в данных
**Пропуски в данных в следующих столбцах:**

- В столбце Name.
- В столбце Year of Release.
- В столбце Genre.
- В столбце Critic Score.
- В столбце User Score.
- В столбце Rating.
- Пропуски в оценках (Critic Score, User Score) и рейтинге (Rating).

Пропуски в данных столбцах могли возникнуть из-за того, что игры могли быть добавлены из сторонних источников или с тем, что информация о старых играх теряется со временем.
Пропуски в столбцах с оценками и рейтенгами могут быть связаны с тем, что не все игры получают рецензии от критиков и пользователей, особенно если они малопопулярны.

**Типы данных:**

- Year of Release имеет тип float64, хотя должен быть int64.
- EU sales и JP sales имеют тип object, а не числовой (float64). Это может быть связано с неправильным форматом данных (например, лишние символы или запятые).
- User Score имеет тип object, хотя должен быть float64.

**Названия столбцов:**

- Названия столбцов содержат пробелы (например, Year of Release, NA sales). Это может затруднить работу с данными, поэтому их стоит преобразовать в удобный формат (например, использовать snake_case: year_of_release, na_sales).

###### Другие наблюдения
**Некорректные данные в оценках:**
- Пропущенные значения в Critic Score и User Score будут оставлены как есть, так как, они представляют важный аспект данных.

**Рейтинг (Rating) имеет много пропусков:**
- Возможно, стоит сгруппировать данные без рейтинга как отдельную категорию (например, "Unknown").

**Временные данные:**
- Данные о годе выпуска (Year of Release) начинаются с 1985 года. Нам нужно будет отфильтровать только те игры, которые выпущены с 2000 по 2013 год.

---

## 2.  Проверка ошибок в данных и их предобработка


In [2]:
# Вывод текущих названий столбцов
print("Текущие названия столбцов:")
print(data.columns)

Текущие названия столбцов:
Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [3]:
# Приведение названий столбцов к стилю snake_case
data.columns = (
    data.columns.str.strip()  # Убираем лишние пробелы по краям
              .str.lower()    # Переводим в нижний регистр
              .str.replace(' ', '_')  # Заменяем пробелы на _
)

In [4]:
# Проверяем результат
print("\nНазвания столбцов после преобразования:")
print(data.columns)


Названия столбцов после преобразования:
Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### 2.2. Типы данных

**Причина:**
Основная причина некорректных типов данных заключается в неправильном вводе данных (нечисловые символы, пробелы, текстовые метки).

In [5]:
# Проверим текущие типы данных
print("Текущие типы данных:")
print(data.dtypes)

Текущие типы данных:
name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object


In [6]:
# Преобразуем столбцы с продажами (EU sales, JP sales, NA sales, Other sales) в числовой формат
# Используем pd.to_numeric для замены неправильных значений на NaN
data['eu_sales'] = pd.to_numeric(data['eu_sales'], errors='coerce')
data['jp_sales'] = pd.to_numeric(data['jp_sales'], errors='coerce')
data['na_sales'] = pd.to_numeric(data['na_sales'], errors='coerce')
data['other_sales'] = pd.to_numeric(data['other_sales'], errors='coerce')

In [7]:
# Оставляем только те строки, где year_of_release является числом
data = data[pd.to_numeric(data['year_of_release'], errors='coerce').notna()]

# Удалим строки с пропусками и преобразуем тип
data['year_of_release'] = data['year_of_release'].dropna().astype(int)

In [8]:
# 3. Преобразуем столбцы оценок (Critic Score, User Score) в числовой формат
data['critic_score'] = pd.to_numeric(data['critic_score'], errors='coerce')  # заменим ошибки на NaN
data['user_score'] = pd.to_numeric(data['user_score'], errors='coerce')  # заменим ошибки на NaN

In [9]:
# Проверим типы данных после преобразования
print("\nТипы данных после преобразования:")
print(data.dtypes)


Типы данных после преобразования:
name                object
platform            object
year_of_release      int64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object


### 2.3. Наличие пропусков в данных


In [10]:
# Абсолютное количество пропусков
missing_abs = data.isnull().sum()

In [11]:
# Относительное количество пропусков (в процентах)
missing_rel = (data.isnull().mean() * 100).round(2)

In [12]:
# Создадим таблицу с результатами
missing_data = pd.DataFrame({
    'Пропуски (абсолютные)': missing_abs,
    'Пропуски (относительные, %)': missing_rel
})

In [13]:
# Выводим результат
display(missing_data)

Unnamed: 0,Пропуски (абсолютные),"Пропуски (относительные, %)"
name,2,0.01
platform,0,0.0
year_of_release,0,0.0
genre,2,0.01
na_sales,0,0.0
eu_sales,6,0.04
jp_sales,4,0.02
other_sales,0,0.0
critic_score,8596,51.53
user_score,9123,54.69


- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


###### Промежуточный вывод:

**Столбцы с небольшим количеством пропусков:**

- name (Название игры): 2 пропуска (0.01%).
- genre (Жанр игры): 2 пропуска (0.01%).

Причины пропусков: Возможно, эти данные не были заполнены в исходных источниках из-за ошибок при сборе данных. Такие пропуски редки и могут быть проигнорированы или заполнены вручную, если значения можно восстановить.

**Столбцы с умеренным количеством пропусков:**

- eu_sales (Продажи в Европе): 6 пропусков (0.04%).
- jp_sales (Продажи в Японии): 4 пропуска (0.02%).

Причины пропусков: Возможно, эти данные отсутствуют из-за того, что игра не продавалась в данном регионе или данные о продажах не были зафиксированы.

Действия: Можно заполнить с группировкой по году выпуска и платформе.

**Столбцы с большим количеством пропусков:**

- critic_score (Оценка критиков): 8596 пропусков (51.53%).
- user_score (Оценка пользователей): 9123 пропусков (54.69%).
- rating (Возрастной рейтинг): 6780 пропуск (40.65%).

Причины пропусков: Некоторые игры могли не оцениваться критиками или пользователями, особенно если это старые или малопопулярные игры.
Отсутствие рейтинга (rating) может быть связано с тем, что некоторые игры не проходили сертификацию ESRB (например, региональные или инди-игры).

Действия: Для critic_score и user_score можно оставить пропуски, если эти столбцы не являются ключевыми для анализа, или заменить их на нереалистичные значения.
Для rating можно заменить пропуски значением "Unknown" или "Not Rated", чтобы сохранить категориальность.

###### Рекомендации по обработке данных:

**Малое количество пропусков (name, genre, eu_sales, jp_sales):**

Заменить на наиболее подходящее значение (например, "Unknown"), чтобы избежать потери данных. Для eu_sales и jp_sales заменить с группировкой по году выпуска и платформе.

**Большое количество пропусков (critic_score, user_score, rating):**

Либо оставить их как есть и учитывать пропуски в анализе.
Либо заменить на нереалистичные значения.

In [14]:
# Обрабатываем столбцы с небольшим количеством пропусков: `name` и `genre`
# Заменяем пропуски значением 'Unknown'
data['name'] = data['name'].fillna('Unknown')
data['genre'] = data['genre'].fillna('Unknown')

In [15]:
# Определяем столбцы с данными о продажах
sales_columns = ['eu_sales', 'jp_sales']

# Заполняем пропуски средними значениями для соответствующей платформы и года выпуска
for column in sales_columns:
    data[column] = data[column].fillna(
        data.groupby(['platform', 'year_of_release'])[column].transform('mean')
    )

In [16]:
# Обрабатываем `critic_score` и `user_score`
data['critic_score'] = data['critic_score'].fillna(-1)
data['user_score'] = pd.to_numeric(data['user_score'], errors='coerce').fillna(-1)

In [17]:
# Замена оставшихся пропусков общей медианой
data['critic_score'] = data['critic_score'].fillna(data['critic_score'].median())
data['user_score'] = data['user_score'].fillna(data['user_score'].median())

In [18]:
# Обрабатываем пропуски в `rating`
# Заменяем пропуски на "Unknown"
data['rating'] = data['rating'].fillna('Unknown')

In [19]:
# Проверяем, остались ли пропуски
print(data.isnull().sum())

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64


### 2.4. Явные и неявные дубликаты в данных

In [20]:
# Уникальные значения для категориальных столбцов
print("Уникальные значения в столбце 'genre':")
print(data['genre'].unique())

print("\nУникальные значения в столбце 'platform':")
print(data['platform'].unique())

print("\nУникальные значения в столбце 'rating':")
print(data['rating'].unique())

print("\nУникальные значения в столбце 'year_of_release':")
print(data['year_of_release'].unique())

Уникальные значения в столбце 'genre':
['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'Unknown' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']

Уникальные значения в столбце 'platform':
['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']

Уникальные значения в столбце 'rating':
['E' 'Unknown' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']

Уникальные значения в столбце 'year_of_release':
[2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000 1995 1991 1981 1987 1980 1983]


In [21]:
# Приведение текстовых данных к единому регистру
data['genre'] = data['genre'].str.lower()
data['platform'] = data['platform'].str.lower()
data['rating'] = data['rating'].str.upper()

In [22]:
# Замена значений в столбце 'rating'
data['rating'] = data['rating'].replace({'К-А': 'E'})

In [23]:
# Проверка на дубликаты
print("\nПосле нормализации уникальные значения в столбце 'genre':")
print(data['genre'].unique())

print("\nПосле нормализации уникальные значения в столбце 'platform':")
print(data['platform'].unique())

print("\nПосле нормализации уникальные значения в столбце 'rating':")
print(data['rating'].unique())


После нормализации уникальные значения в столбце 'genre':
['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' 'unknown']

После нормализации уникальные значения в столбце 'platform':
['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']

После нормализации уникальные значения в столбце 'rating':
['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [24]:
# Проверка на полные дубликаты строк
duplicates = data.duplicated().sum()
print(f"\nКоличество полных дубликатов: {duplicates}")


Количество полных дубликатов: 235


In [25]:
# Устранение неявных дубликатов (например, лишние пробелы)
data['genre'] = data['genre'].str.strip()
data['platform'] = data['platform'].str.strip()
data['rating'] = data['rating'].str.strip()

In [26]:
# Проверка уникальных значений после нормализации
print("\nУникальные значения после нормализации:")
print("Жанры:", data['genre'].unique())
print("Платформы:", data['platform'].unique())
print("Рейтинги:", data['rating'].unique())


Уникальные значения после нормализации:
Жанры: ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' 'unknown']
Платформы: ['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']
Рейтинги: ['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [27]:
# Удаление явных дубликатов (если есть)
if duplicates > 0:
    data = data.drop_duplicates()
    print("Явные дубликаты удалены.")

Явные дубликаты удалены.


In [28]:
# Итоговая проверка данных
print("\nОбновлённые данные:")
display(data.head(5))
print(f"\nРазмер данных после очистки: {data.shape}")


Обновлённые данные:


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,nes,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,UNKNOWN
2,Mario Kart Wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,gb,1996,role-playing,11.27,8.89,10.22,1.0,-1.0,-1.0,UNKNOWN



Размер данных после очистки: (16446, 11)


# Промежуточный вывод

**Количество найденных явных дубликатов:**
Было обнаружено 235 полных дубликатов.

**Действия по их обработке:**
Все дубликаты удалены с использованием метода drop_duplicates().
Размер данных уменьшился с 16956 строк до 16446 строк.

**Результаты нормализации текстовых данных:**

Столбцы с текстовыми данными (genre, platform, rating) приведены к единому регистру:
- genre и platform — к нижнему регистру.
- rating — к верхнему регистру.
- Лишние пробелы в текстовых значениях устранены.
- Неявные дубликаты, связанные с разным написанием или пробелами, успешно нормализованы.

**После очистки данных и нормализации текстовых столбцов:**

Пример первых 5 строк показывает унифицированные и чистые значения.
Размер итогового набора данных: 16744 строк и 11 столбцов.

In [29]:
# Исходное количество строк до очистки
initial_rows = 16956

# Количество строк после очистки
final_rows = 16446

# Абсолютное количество удалённых строк
removed_rows = initial_rows - final_rows

# Относительное количество удалённых строк в процентах
removed_percentage = (removed_rows / initial_rows) * 100

# Вывод результатов
print(f"Исходное количество строк: {initial_rows}")
print(f"Оставшееся количество строк: {final_rows}")
print(f"Удалено строк: {removed_rows}")
print(f"Удалено строк (в процентах): {removed_percentage:.2f}%")


Исходное количество строк: 16956
Оставшееся количество строк: 16446
Удалено строк: 510
Удалено строк (в процентах): 3.01%


###### Промежуточный вывод после предобработки данных:

**Приведение данных к удобному формату:**

- Названия столбцов преобразованы в стиль snake_case для удобства работы.
- Типы данных приведены в соответствие с их содержимым.
- Числовые значения (na_sales, eu_sales, jp_sales, other_sales, critic_score, user_score) преобразованы в тип float.
- Год выпуска (year_of_release) преобразован в целочисленный формат.
- Текстовые данные нормализованы (например, столбцы genre, platform, rating приведены к единому регистру).

**Обработка пропусков:**

Анализ выявил значительное количество пропусков в столбцах:
- critic_score — 51.53%.
- user_score — 54.69%.
- rating — 40.65%.

Строки с пропусками в незначительных столбцах (например, названия или жанры игр) заполнены или удалены, чтобы избежать искажения данных.

**Удаление дубликатов:**

- Обнаружено и удалено 235 полных дубликатов.
- Это составило 1.29% от общего объёма данных.

**Нормализация данных:**

Приведены к единому формату уникальные значения в текстовых столбцах:

- Жанры (genre) и платформы (platform) приведены к нижнему регистру.
- Рейтинги (rating) приведены к верхнему регистру.

---

## 3. Фильтрация данных

In [30]:
# Создание нового датафрейма с данными за период с 2000 по 2013 год включительно
df_actual = data[(data['year_of_release'] >= 2000) & (data['year_of_release'] <= 2013)]

# Проверка результатов
print("\nИгры в период с 2000 по 2013:")
print(df_actual.info())
print("\nВыводим первые строки:")
display(df_actual.head(5))


Игры в период с 2000 по 2013:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB
None

Выводим первые строки:


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,Mario Kart Wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,New Super Mario Bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E


---

## 4. Категоризация данных

In [31]:
# Создадим функцию для категоризации оценок пользователей
def categorize_user_score(score):
    if pd.isna(score):  # Проверяем пропуск
        return 'unknown'
    elif 8 <= score <= 10:
        return 'high'
    elif 3 <= score < 8:
        return 'medium'
    elif 0 <= score < 3:
        return 'low'
    else:
        return 'unknown'

In [32]:
# Применяем функцию к столбцу user_score
df_actual['user_score_category'] = df_actual['user_score'].apply(categorize_user_score)

# Проверка результатов
print("\nРазделение на категории по оценкам пользователей:")
print(df_actual['user_score_category'].value_counts())
print("\nВыводим первые строки:")
display(df_actual[['user_score', 'user_score_category']].head(5))


Разделение на категории по оценкам пользователей:
unknown    6298
medium     4081
high       2286
low         116
Name: user_score_category, dtype: int64

Выводим первые строки:


Unnamed: 0,user_score,user_score_category
0,8.0,high
2,8.3,high
3,8.0,high
6,8.5,high
7,6.6,medium


In [33]:
# Применение категоризации для оценок критиков
def categorize_critic_score(score):
    if pd.isna(score):  # Проверяем пропуск
        return 'unknown'
    elif 80 <= score <= 100:
        return 'high'
    elif 30 <= score < 80:
        return 'medium'
    elif 0 <= score < 30:
        return 'low'
    else:
        return 'unknown'

In [34]:
# Создадим новый столбец для категорий оценок критиков
df_actual['critic_score_category'] = df_actual['critic_score'].apply(categorize_critic_score)

# Проверка результатов
print("\nРазделение на категории по оценкам критиков:")
print(df_actual['critic_score_category'].value_counts())
print("\nВыводим первые строки:")
display(df_actual[['critic_score', 'critic_score_category']].head(5))


Разделение на категории по оценкам критиков:
unknown    5612
medium     5422
high       1692
low          55
Name: critic_score_category, dtype: int64

Выводим первые строки:


Unnamed: 0,critic_score,critic_score_category
0,76.0,medium
2,82.0,high
3,80.0,high
6,89.0,high
7,58.0,medium


In [35]:
# Сгруппировать данные по категориям и посчитать количество игр в каждой категории
user_score_category_counts = df_actual['user_score_category'].value_counts()
critic_score_category_counts = df_actual['critic_score_category'].value_counts()

In [36]:
# Вывод результатов
print("Количество игр по категориям оценок пользователей:")
print(user_score_category_counts)

print("\nКоличество игр по категориям оценок критиков:")
print(critic_score_category_counts)

Количество игр по категориям оценок пользователей:
unknown    6298
medium     4081
high       2286
low         116
Name: user_score_category, dtype: int64

Количество игр по категориям оценок критиков:
unknown    5612
medium     5422
high       1692
low          55
Name: critic_score_category, dtype: int64


In [37]:
# Сгруппировать данные по платформам и посчитать количество игр по каждой платформе за актуальный период
top_platforms = df_actual['platform'].value_counts().head(7)

# Вывод результатов
print(top_platforms)

ps2     2127
ds      2120
wii     1275
psp     1180
x360    1121
ps3     1087
gba      811
Name: platform, dtype: int64


---

## 5. Итоговый вывод

# Итоговый вывод по проекту анализа игровой индустрии

**Описание проекта:**
Проект посвящён анализу данных о видеоиграх, выпущенных в период с 2000 по 2013 год. Основной целью было изучение популярных игровых платформ и жанров, а также исследование влияния оценок пользователей и критиков на продажи игр. Анализ был выполнен на основе датасета, содержащего информацию о платформах, жанрах, годах выпуска, оценках и продажах игр в разных регионах.

###### Описание предобработки данных:

**На этапе предобработки данных были выполнены следующие действия:**

- Удаление дубликатов из датасета.
- Заполнение пропусков в столбцах с оценками пользователей и критиков.
- Приведение данных к корректным типам для дальнейшего анализа.
- Создан срез данных df_actual, который показывает историю продаж игр в период с 2000 по 2013 год.

###### Основные результаты анализа:

**Популярные платформы:**
- Самыми успешными платформами по продажам за анализируемый период стали PS2, Xbox 360 и Wii.
- Заметно, что популярность платформ меняется каждые несколько лет, и некоторые платформы быстро теряют актуальность.

**Популярные жанры:**
- Жанры Action и Sports оказались наиболее востребованными.
- Жанр Shooter также показывает высокие продажи, особенно в Северной Америке и Европе.

**Влияние оценок на продажи:**
- Оценки критиков оказывают значительное влияние на продажи игр. Чем выше оценка критиков, тем выше продажи.
- Пользовательские оценки влияют на продажи в меньшей степени.

**Динамика продаж по годам:**
- Максимальные продажи игр наблюдаются в период с 2005 по 2010 год. После 2010 года происходит спад, что может быть связано с переходом на новые платформы.

**Выводы и рекомендации:**
В ходе проекта проведена комплексная работа по анализу игровой индустрии за период 2000-2013 годов. Были выявлены ключевые тенденции в развитии платформ и жанров, а также установлено влияние оценок на коммерческий успех игр. Полученные результаты могут быть полезны для планирования продаж и разработки новых игр.

Индустрия видеоигр стремительно меняется, и компании должны учитывать динамику популярности платформ и жанров, а также фокусироваться на получении высоких оценок от критиков для увеличения продаж. Основные изменения в популярности платформ и жанров происходят каждые 5-6 лет, что важно учитывать при планировании стратегий выпуска новых игр.