# Исследование игровой индустрии с 2000 по 2013 год

- Автор: Вячеслав Зайко
- Дата: 30.03.2025

### Цели и задачи проекта

Цель проекта: изучить развитие игровой индустрии с 2000 по 2013 год для подготовки статьи, направленной на привлечение новой аудитории в игру «Секреты Темнолесья»

В ходе исследование предстоит сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров с акцентом на RPG и региональные предпочтения игроков. 

### Описание данных

В проекте используются исторические данные из открытых источников. Датасет `/datasets/new_games.csv` содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:

`Name` — название игры. <br> `Platform` — название платформы.  
`Year of Release` — год выпуска игры.  
`Genre` — жанр игры.  
`NA sales` — продажи в Северной Америке (в миллионах проданных копий).  
`EU sales` — продажи в Европе (в миллионах проданных копий).  
`JP sales` — продажи в Японии (в миллионах проданных копий).  
`Other sales` — продажи в других странах (в миллионах проданных копий).  
`Critic Score` — оценка критиков (от 0 до 100).  
`User Score` — оценка пользователей (от 0 до 10).  
`Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

<font color='#777778'>Перечислите основные шаги проекта или напишите оглавление. Используйте описание проекта, чтобы зафиксировать основные шаги.</font>

---

## 1. Загрузка данных и знакомство с ними

- Загружаем необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [2]:
import pandas as pd

In [None]:
pd.read_csv(

In [None]:
# При необходимости добавьте новые ячейки для кода

- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

<font color='#777778'>Используйте ячейки типа Markdown для промежуточных выводов и расширенных комментариев к действиям с данными. </font>

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

- После проведения предобработки данных напишите общий промежуточный вывод.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.