# Обзор и анализ игры «Секреты Темнолесья».

- Автор:Дорошенко Евгений
- Дата:16.05.2025

### Цели и задачи проекта
Цель проекта — провести обзор игровых платформ, изучить объемы продаж игр различных жанров и региональные предпочтения игроков, с акцентом на RPG-игры.

# Описание данных
Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- 'Name' — название игры;
- 'Platform' — название платформы;
- 'Year of Release' — год выпуска игры;
- 'Genre' — жанр игры;
- 'NA sales' — продажи в Северной Америке (в миллионах проданных копий);
- 'EU sales' — продажи в Европе (в миллионах проданных копий);
- 'JP sales' — продажи в Японии (в миллионах проданных копий);
- 'Other sales' — продажи в других странах (в миллионах проданных копий);
- 'Critic Score' — оценка критиков (от 0 до 100);
- 'User Score' — оценка пользователей (от 0 до 10);
- 'Rating' — рейтинг организации ESRB (англ. Entertainment Software Rating Board); Эта ассоциация определяет рейтинг компьютерных - игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. [Загрузка и знакомство с данными](#загрузка-и-знакомство-с-данными)
2. [Проверка ошибок в данных и их предобработка](#проверка-ошибок-в-данных-и-их-предобработка)
3. [Фильтрация данных](#фильтрация-данных)
4. [Категоризация данных](#категоризация-данных)
5. [Итоговый вывод](#итоговый-вывод)

## Загрузка и знакомство с данными:

Загрузите необходимые библиотеки Python и данные датасета /datasets/new_games.csv.


Импортируем библиотеку pandas


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

Выгружаем данные из датасета hotel_dataset.csv в датафрейм new_games

In [2]:
# Выгружаем данные из датасета hotel_dataset.csv в датафрейм new_games
new_games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


Выводим информацию о датафрейме

In [3]:
# Выводим информацию о датафрейме
new_games.info()

<class 'pandas.core.frame.DataFrame'>
,RangeIndex: 16956 entries, 0 to 16955
,Data columns (total 11 columns):
, #   Column           Non-Null Count  Dtype  
,---  ------           --------------  -----  
, 0   Name             16954 non-null  object 
, 1   Platform         16956 non-null  object 
, 2   Year of Release  16681 non-null  float64
, 3   Genre            16954 non-null  object 
, 4   NA sales         16956 non-null  float64
, 5   EU sales         16956 non-null  object 
, 6   JP sales         16956 non-null  object 
, 7   Other sales      16956 non-null  float64
, 8   Critic Score     8242 non-null   float64
, 9   User Score       10152 non-null  object 
, 10  Rating           10085 non-null  object 
,dtypes: float64(4), object(7)
,memory usage: 1.4+ MB


Выводим первые строки датафрейма на экран

In [4]:
# Выводим первые строки датафрейма на экран
new_games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Выводим количество пропущенных строк в датафрейме

In [5]:
# Выводим количество пропущенных строк в датафрейме
new_games.isna().sum()

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

Подсчитываем процент строк с пропусками

In [6]:
# Подсчитываем процент строк с пропусками
new_games.isna().sum() / len(new_games) * 100

Name                0.011795
Platform            0.000000
Year of Release     1.621845
Genre               0.011795
NA sales            0.000000
EU sales            0.000000
JP sales            0.000000
Other sales         0.000000
Critic Score       51.391838
User Score         40.127389
Rating             40.522529
dtype: float64

- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

<font color='#777778'>Используйте ячейки типа Markdown для промежуточных выводов и расширенных комментариев к действиям с данными. </font>

Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о бронированиях гостиничных номеров.

Изучим типы данных и их корректность:
- **Строковые данные (object).** Семь столбцов представлены типом `object ` — это `Name`, `Platform` , `Genre`, `EU sales`,`JP sales`, `User Score`, ` Rating` . Выбранный тип данных является корректным, так как эти столбцы содержат инфорамцию типа `object `
- **Числовые значения с плавающей запятой (float64).** Четыре столбца, `Year of Release`,`NA sales`, `Other sales`,`Critic Score` Год релиза, продажи в Северной Америке, продажи в других странах и оценки критиков с типом данных `float64`. Это верное решение, так как такие данные могут включать дробные значения.

После анализа типов данных видно, что большинство столбцов корректно представлены. Однако для оптимизации можно использовать целочисленные типы с уменьшенной разрядностью и преобразовать строковые данные даты и времени в тип `datetime64`.

Из 11 столбцов 4 с пропусками :'Year of Release' - 275 пропусков или 1.6%, 'Critic Score' - 8714 или 51%, 'User Score' - 6804 или 40%, 'Rating' - 6871 или 40% имеют пропуски.Больше всего пропусков в столбце 'Critic Score' 8714 строки или 51% с типом данных float64.Вероятнее всего пропуски в данном столбце связаны с тем что не так часто ставится оценка.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

Выводим названия столбцов

In [7]:
# Выводим названия столбцов
print(new_games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
,       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
,      dtype='object')


Приводим названия столбцов к стилю snake case и проверяем результат

In [8]:
# Приводим названия столбцов к стилю snake case
new_games.columns = new_games.columns.str.lower().str.replace(' ', '_')

# Проверяем результат
print(new_games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
,       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
,      dtype='object')


### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

Проверяем типы данных 

In [9]:
# Проверяем типы данных 
print(new_games.dtypes)

name                object
,platform            object
,year_of_release    float64
,genre               object
,na_sales           float64
,eu_sales            object
,jp_sales            object
,other_sales        float64
,critic_score       float64
,user_score          object
,rating              object
,dtype: object


Заменяем неподходящие значения на NaN для столбцов с продажами

In [10]:
# Заменяем неподходящие значения на NaN для столбцов с продажами
replace_dict = {
    'unknown': None,
    'n/a': None,
    'None': None,
    'tbd': None
}

Применяем замену для столбцов 'eu_sales', 'jp_sales', 'user_score'

In [11]:
# Применяем замену для столбцов 'eu_sales', 'jp_sales', 'user_score'
new_games['eu_sales'].replace(replace_dict, inplace=True)
new_games['jp_sales'].replace(replace_dict, inplace=True)
new_games['user_score'].replace(replace_dict, inplace=True)

Преобразуем столбцы в числовой тип

In [12]:
# Преобразуем столбцы в числовой тип
new_games['eu_sales'] = pd.to_numeric(new_games['eu_sales'], errors='coerce')
new_games['jp_sales'] = pd.to_numeric(new_games['jp_sales'], errors='coerce')
new_games['user_score'] = pd.to_numeric(new_games['user_score'], errors='coerce')

Проверяем результат

In [13]:
# Проверяем результат
print(new_games.info())

<class 'pandas.core.frame.DataFrame'>
,RangeIndex: 16956 entries, 0 to 16955
,Data columns (total 11 columns):
, #   Column           Non-Null Count  Dtype  
,---  ------           --------------  -----  
, 0   name             16954 non-null  object 
, 1   platform         16956 non-null  object 
, 2   year_of_release  16681 non-null  float64
, 3   genre            16954 non-null  object 
, 4   na_sales         16956 non-null  float64
, 5   eu_sales         16950 non-null  float64
, 6   jp_sales         16952 non-null  float64
, 7   other_sales      16956 non-null  float64
, 8   critic_score     8242 non-null   float64
, 9   user_score       7688 non-null   float64
, 10  rating           10085 non-null  object 
,dtypes: float64(7), object(4)
,memory usage: 1.4+ MB
,None


- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

Пропуски были заменены на NAn а тип данных object переделан на числовой float64

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


Общее число строк в датафрейме

In [14]:
# Общее число строк в датафрейме
total_rows = len(new_games)

Количество пропусков в каждом столбц

In [15]:
# Количество пропусков в каждом столбце
missing_counts = new_games.isnull().sum()

Относительные пропуски (в процентах)

In [16]:
# Относительные пропуски (в процентах)
missing_percentages = (missing_counts / total_rows) * 100

Создаем таблицу с результатами

In [17]:
# Создаем таблицу с результатами
missing_summary = pd.DataFrame({
    'Количество пропусков': missing_counts,
    'Процент пропусков': missing_percentages
})

Выведим резульатат

In [18]:
# Выведим резульатат
print(missing_summary)

                 Количество пропусков  Процент пропусков
,name                                2           0.011795
,platform                            0           0.000000
,year_of_release                   275           1.621845
,genre                               2           0.011795
,na_sales                            0           0.000000
,eu_sales                            6           0.035386
,jp_sales                            4           0.023590
,other_sales                         0           0.000000
,critic_score                     8714          51.391838
,user_score                       9268          54.659118
,rating                           6871          40.522529


- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


1.Из 11 стоблоцов пропуски есть в 9 , но лишь в 3х столбцах процент просуков значитильный по этому рассмотрим их более детально.

2.Меньше всего пропусков в стобце rating 6871 или 40,5% . Думаю это может быть связано с тем что оценка по рейтингу не проставлялсь в чуть менее половины случаев.

2.На 2 месте по пропускам столбец critic_score - 8714 пропусков или 51%.  Тут возможно также оценка не проставлялась в более чем половине случаев.

3.Больше всего пропусков в столбце user_score - 9268. Или 55 % .Это много. Столбец указывает на оценку пользователейю.Можно сделать вывод что на более половину игр оценки не ставились.

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

Заменить пропуски на 'unknown', чтобы сохранить информацию о неизвестных рейтингах.

In [19]:
# Заменить пропуски на 'unknown', чтобы сохранить информацию о неизвестных рейтингах.
new_games['rating'] = new_games['rating'].fillna('unknown')

Заменим пропуски на значение -1.

In [20]:
# Заменим пропуски на значение -1.
median_year = new_games['year_of_release'].median()
new_games['year_of_release'] = new_games['year_of_release'].fillna(-1)

Вычисляем средние значения по группам и заполняем пропуски средними значениями

In [21]:
def fill_sales_with_mean(new_games, sales_column):
    # Вычисляем средние значения по группам
    mean_values = new_games.groupby(['year_of_release', 'platform'])[sales_column].transform('mean')
    # Заполняем пропуски средними значениями
    new_games[sales_column] = new_games[sales_column].fillna(mean_values)
    return new_games

# Заполняем пропуски для каждого региона
new_games = fill_sales_with_mean(new_games, 'na_sales')
new_games = fill_sales_with_mean(new_games, 'eu_sales')
new_games = fill_sales_with_mean(new_games, 'jp_sales')
new_games = fill_sales_with_mean(new_games, 'other_sales')

Заполняем пропуски в 'critic_score' и 'user_score' средним значением с групировкой по году и платформе

In [22]:
# Заполняем пропуски в critic_score средним по группам
critic_group_mean = new_games.groupby(['year_of_release', 'platform'])['critic_score'].transform('mean')
new_games['critic_score'] = new_games['critic_score'].fillna(critic_group_mean)

# Заполняем пропуски в user_score средним по группам
user_group_mean = new_games.groupby(['year_of_release', 'platform'])['user_score'].transform('mean')
new_games['user_score'] = new_games['user_score'].fillna(user_group_mean)


Проверка пропусков после обработки

In [55]:
# Вывод доли пропусков в процентах
print("Доля пропусков в каждой колонке:")
print(missing_fraction * 100)
# Проверка пропусков после обработки
print("\nПропуски после обработки:")
print(new_games.isnull().sum())


Доля пропусков в каждой колонке:
,name               0.011965
,platform           0.000000
,year_of_release    0.000000
,genre              0.011965
,na_sales           0.000000
,eu_sales           0.000000
,jp_sales           0.000000
,other_sales        0.000000
,critic_score       8.890218
,user_score         7.574035
,rating             0.000000
,dtype: float64
,
,Пропуски после обработки:
,name                  2
,platform              0
,year_of_release       0
,genre                 2
,na_sales              0
,eu_sales              0
,jp_sales              0
,other_sales           0
,critic_score       1486
,user_score         1266
,rating                0
,dtype: int64


### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

Функция для вывода уникальных значений и их нормализации

In [24]:
# Функция для вывода уникальных значений и их нормализации
def check_and_normalize(column, to_lower=True):
    unique_values = column.unique()
    print(f'Уникальные значения в столбце {column.name}: {unique_values}')
    
    # Нормализация
    if to_lower:
        column = column.str.lower()
    else:
        column = column.str.upper()
    
    return column

Нормализация жанров игр и платформ и рейтинга

In [25]:
# Нормализация жанров игр и платформ
new_games['genre'] = check_and_normalize(new_games['genre'], to_lower=True)
new_games['platform'] = check_and_normalize(new_games['platform'], to_lower=True)

# Нормализация рейтинга
new_games['rating'] = check_and_normalize(new_games['rating'], to_lower=False)

Уникальные значения в столбце genre: ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
, 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' nan 'MISC'
, 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
, 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
,Уникальные значения в столбце platform: ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
, 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
, 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
,Уникальные значения в столбце rating: ['E' 'unknown' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


Нормализация года выпуска 

In [26]:
# Нормализация года выпуска 
new_games['year_of_release'] = new_games['year_of_release'].astype(str)

Проверяем уникальные значения после нормализации

In [27]:
# Проверяем уникальные значения после нормализации
print("\nПосле нормализации:")
print(f'Уникальные значения в жанрах: {new_games["genre"].unique()}')
print(f'Уникальные значения в платформах: {new_games["platform"].unique()}')
print(f'Уникальные значения в рейтингах: {new_games["rating"].unique()}')
print(f'Уникальные значения в годах выпуска: {new_games["year_of_release"].unique()}')


,После нормализации:
,Уникальные значения в жанрах: ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
, 'simulation' 'action' 'fighting' 'adventure' 'strategy' nan]
,Уникальные значения в платформах: ['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
, 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
, 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']
,Уникальные значения в рейтингах: ['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
,Уникальные значения в годах выпуска: ['2006.0' '1985.0' '2008.0' '2009.0' '1996.0' '1989.0' '1984.0' '2005.0'
, '1999.0' '2007.0' '2010.0' '2013.0' '2004.0' '1990.0' '1988.0' '2002.0'
, '2001.0' '2011.0' '1998.0' '2015.0' '2012.0' '2014.0' '1992.0' '1997.0'
, '1993.0' '1994.0' '1982.0' '2016.0' '2003.0' '1986.0' '2000.0' '-1.0'
, '1995.0' '1991.0' '1981.0' '1987.0' '1980.0' '1983.0']


- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

Проверяем наличие явных дубликатов

In [28]:
# Проверяем наличие явных дубликатов
duplicates = new_games.duplicated()
num_duplicates = duplicates.sum()

print(f'Количество явных дубликатов: {num_duplicates}')

Количество явных дубликатов: 241


Если явные дубликаты существуют, удаляем их

In [29]:
# Если явные дубликаты существуют, удаляем их
if num_duplicates > 0:
    new_games = new_games[~duplicates]
    print('Явные дубликаты были удалены.')
else:
    print('Явных дубликатов не найдено.')

Явные дубликаты были удалены.


Проверяем количество строк после удаления дубликатов

In [30]:
# Проверяем количество строк после удаления дубликатов
print(f'Количество строк в данных после удаления явных дубликатов: {len(new_games)}')

Количество строк в данных после удаления явных дубликатов: 16715


- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

После выполнения проверки на наличие явных дубликатов в нашем DataFrame new_games, были получены следующие результаты:Количество найденных явных дубликатов:  241

Действия по обработке дубликатов:
Обнаружение дубликатов: Мы использовали метод duplicated() для определения строк, которые полностью повторяются в DataFrame. В результате было найдено 241.

Удаление дубликатов: После выявления явных дубликатов, мы применили метод drop_duplicates() для их удаления. В результате были удалены все повторяющиеся строки, и DataFrame был обновлён.

Проверка уникальности: После удаления дубликатов мы снова проверили уникальные значения в ключевых столбцах, чтобы убедиться, что данные теперь чисты и готовы для дальнейшего анализа.

Итог:
Количество строк в данных после удаления явных дубликатов: 16715.

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

Сохраняем исходное количество строк

In [31]:
# Сохраняем исходное количество строк
initial_count = len(new_games)

Проверяем наличие пропусков

In [32]:
# Проверяем наличие пропусков
missing_data = new_games.isnull().sum()
print("Количество пропусков в каждом столбце:")
print(missing_data[missing_data > 0])


Количество пропусков в каждом столбце:
,name               2
,genre              2
,critic_score    1486
,user_score      1266
,dtype: int64


Заполнение пропусков в региональных продажах средними значениями по группам

In [33]:
# Заполнение пропусков в региональных продажах средними значениями по группам
def fill_sales_with_mean(df, sales_column):
    mean_values = new_games.groupby(['year_of_release', 'platform'])[sales_column].transform('mean')
    return new_games[sales_column].fillna(mean_values)

Заполняем пропуски только в столбцах с продажами

In [34]:
# Заполняем пропуски только в столбцах с продажами
for col in ['eu_sales', 'jp_sales', 'na_sales', 'other_sales']:
    new_games[col] = fill_sales_with_mean(new_games, col)

Сравниваем количество строк после обработки

In [35]:
# Сравниваем количество строк после обработки
final_count = len(new_games)

Выводим информацию о количестве строк

In [36]:
# Выводим информацию о количестве строк
print(f'Исходное количество строк: {initial_count}')
print(f'Количество строк после обработки: {final_count}')

Исходное количество строк: 16715
,Количество строк после обработки: 16715


Удаляем явные дубликаты

In [37]:
# Удаляем явные дубликаты
new_games = new_games.drop_duplicates()
print('Явные дубликаты были удалены.')

Явные дубликаты были удалены.


Считаем текущее количество строк

In [38]:
# Считаем текущее количество строк
final_count = len(new_games)

Вычисляем количество удалённых строк

In [39]:
# Вычисляем количество удалённых строк
deleted_rows = initial_count - final_count
relative_deleted_rows = (deleted_rows / initial_count) * 100 if initial_count > 0 else 0

Выводим результаты

In [40]:
# Выводим результаты
print(f'Исходное количество строк: {initial_count}')
print(f'Количество удалённых строк: {deleted_rows} (относительно: {relative_deleted_rows:.2f}%)')
print(f'Количество строк в данных после обработки: {final_count}')

Исходное количество строк: 16715
,Количество удалённых строк: 0 (относительно: 0.00%)
,Количество строк в данных после обработки: 16715


- После проведения предобработки данных напишите общий промежуточный вывод.

После проведения предобработки данных было выполнено несколько этапов очистки и подготовки данных. В результате:

Исходное количество строк в исходном датасете составляло 16 715.
В процессе обработки не было удалено ни одной строки, что подтверждается значением 0 (относительно: 0.00%).
После всех этапов предобработки количество строк осталось неизменным — 16 715.
Это говорит о том, что все необходимые преобразования были выполнены без потери информации. В дальнейшем можно переходить к анализу и моделированию, основываясь на полностью подготовленных данных.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

Фильтрация данных по году и преобразование столбца year_of_release в числовой формат

In [41]:
# Фильтрация данных по году и преобразование столбца year_of_release в числовой формат
new_games['year_of_release'] = pd.to_numeric(new_games['year_of_release'], errors='coerce')
df_actual = new_games[(new_games['year_of_release'] >= 2000) & (new_games['year_of_release'] <= 2013)]

Проверяем результат

In [42]:
# Проверяем результат
display(df_actual)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006.0,sports,41.36,28.96,3.77,8.45,76.000000,8.000000,E
2,Mario Kart Wii,wii,2008.0,racing,15.68,12.76,3.79,3.29,82.000000,8.300000,E
3,Wii Sports Resort,wii,2009.0,sports,15.61,10.93,3.28,2.95,80.000000,8.000000,E
6,New Super Mario Bros.,ds,2006.0,platform,11.28,9.14,6.50,2.88,89.000000,8.500000,E
7,Wii Play,wii,2006.0,misc,13.96,9.18,2.93,2.84,58.000000,6.600000,E
...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,gc,2003.0,shooter,0.01,0.00,0.00,0.00,69.243478,7.691919,T
16949,Woody Woodpecker in Crazy Castle 5,gba,2002.0,platform,0.01,0.00,0.00,0.00,66.854962,7.451786,UNKNOWN
16950,SCORE International Baja 1000: The Official Game,ps2,2008.0,racing,0.00,0.00,0.00,0.00,63.666667,7.185455,UNKNOWN
16952,LMA Manager 2007,x360,2006.0,sports,0.00,0.01,0.00,0.00,69.842105,6.984211,UNKNOWN


В результате фильтрации исходного датасета по периоду с 2000 по 2013 год был сформирован новый срез данных df_actual. Этот срез включает информацию о названиях игр, платформах, жанрах, годах выпуска, региональных продажах, оценках критиков и пользователей, а также рейтингах. Такой отбор позволяет сосредоточиться на истории продаж и оценки игр в начале XXI века, что удобно для анализа тенденций рынка, популярности жанров и платформ в этот период. 

---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

Разделим игры на 4 категории 

In [43]:
# Разделим игры на 4 категории 
def categorize_user_score(score):
    if pd.isnull(score):
        return 'нет оценки'
    elif score >=8:
        return 'высокая'
    elif score >=3:
        return 'средняя'
    else:
        return 'низкая'

df_actual = df_actual.copy()
df_actual['user_score_category'] = df_actual['user_score'].apply(categorize_user_score)

Теперь можно выполнить анализ по категориям Например, подсчитаем количество игр в каждой категории

In [44]:
# Теперь можно выполнить анализ по категориям
# Например, подсчитаем количество игр в каждой категории
category_counts = df_actual['user_score_category'].value_counts()
print(category_counts)

средняя       10192
,высокая        2359
,низкая          116
,нет оценки      114
,Name: user_score_category, dtype: int64


Создаем копию DataFrame, чтобы избежать предупреждений

In [45]:
# Создаем копию DataFrame, чтобы избежать предупреждений
df_actual = df_actual.copy()

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

Категоризация критических оценок с помощью pandas.cut

In [46]:
# Категоризация критических оценок с помощью pandas.cut
bins = [0, 30, 80, 100]
labels = ['низкая', 'средняя', 'высокая']

Создаем новую колонку с категориями

In [47]:
# Создаем новую колонку с категориями
df_actual['critic_score_category'] = pd.cut(
    df_actual['critic_score'],
    bins=bins,
    labels=labels,
    right=False  # интервал включает левую границу, исключая правую
)

- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

Группируем по категориям и считаем количество игр в каждой

In [48]:
# Группируем по категориям и считаем количество игр в каждой
category_counts = df_actual.groupby('critic_score_category').size()

Дополнительно отсортируем по количеству

In [49]:
# дополнительно отсортируем по количеству
category_counts_sorted = category_counts.sort_values(ascending=False)
print(category_counts_sorted)

critic_score_category
,средняя    10724
,высокая     1760
,низкая        55
,dtype: int64


Анализ распределения игр по категориям оценок критиков показывает, что большинство игр в выбранном периоде (2000–2013 годы) получили средние оценки — 10724 игр, что свидетельствует о высокой степени объективности в оценках критиков.

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

Группируем по платформам и считаем количество игр для каждой и выводим результат

In [50]:
# Группируем по платформам и считаем количество игр для каждой
top_platforms = df_actual['platform'].value_counts().head(7)

# Выводим результат
print(top_platforms)

ps2     2127
,ds      2120
,wii     1275
,psp     1180
,x360    1121
,ps3     1087
,gba      811
,Name: platform, dtype: int64


Это показывает, что наиболее популярной платформой в выбранном периоде является PlayStation 2 (PS2) - 2127, за ней следуют Nintendo DS + 2120, Wii - 1275, PSP - 1180, Xbox 360 - 1121, PlayStation 3 - 1087 и Game Boy Advance- 811.

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

В ходе выполнения предобработки данных о видеоиграх за актуальный период были проведены комплексные мероприятия по подготовке датасета к дальнейшему анализу. В частности, выполнены следующие шаги:

Проверка и стандартизация названий столбцов: все названия приведены к стилю snake_case, что обеспечивает единообразие и удобство работы с данными.
Анализ типов данных и их корректировка: выявлены и исправлены несоответствия в типах данных заменены строковые значения в числовых столбцах на NaN для последующей обработки.
Обработка пропусков: определены причины пропусков и заполнены пропущенные значения средними или модой в зависимости от типа данных, что позволяет сохранить максимальную информацию.
Нормализация категориальных признаков: привели к нижнему регистру названия жанров, платформ, рейтингов для устранения неявных дубликатов и опечаток.
Удаление дубликатов: выявлены и удалены явные дубликаты строк, что повысило качество данных.
Фильтрация по периоду с 2000 по 2013 год включительно: создан новый срез данных df_actual, содержащий только игры, выпущенные в указанный период.

Описание среза данных:

В результате был сформирован датафрейм df_actual, содержащий информацию о видеоиграх, выпущенных с 1 января 2000 года по 31 декабря 2013 года. В этом срезе сохранена вся релевантная информация о названиях игр, платформах, жанрах, датах выхода, продажах по регионам, оценках критиков и пользователей.

Добавленные новые поля:

user_score_category — категория пользовательских оценок (высокая/средняя/низкая).
critic_score_category — категория оценок критиков (высокая/средняя/низкая).
Эти поля позволяют более удобно анализировать качество игр по различным критериям и выявлять закономерности в распределении оценок.

Данная работа подготовила данные к дальнейшему анализу, обеспечив их качество и порядок.