### Цели и задачи проекта:
Привлечь внимание новой аудитории к игре “Секреты Темнолесья” путем публикации статьи-исследования об эволюции игровой индустрии начала XXI века (2000-2013 гг.) на известном IT-ресурсе, делая акцент на жанре RPG и играх, близких по духу потенциальной аудитории игры.




### Описание данных

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
-	Name — название игры.
-	Platform — название платформы.
-	Year of Release — год выпуска игры.
-	Genre — жанр игры.
-	NA sales — продажи в Северной Америке (в миллионах проданных копий).
-   EU sales — продажи в Европе (в миллионах проданных копий).
-	JP sales — продажи в Японии (в миллионах проданных копий).
-	Other sales — продажи в других странах (в миллионах проданных копий).
-	Critic Score — оценка критиков (от 0 до 100).
-	User Score — оценка пользователей (от 0 до 10).
-	Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.



### Основные шаги проекта

- Проанализировать развитие основных игровых платформ (ПК, консоли, онлайн-платформы)
- Изучить объёмы продаж игр различных жанров за указанный период
- Выявить региональные предпочтения игроков по жанрам и платформам
- Определить ключевые тенденции развития RPG в начале XXI века
- Выделить наиболее влиятельные и популярные RPG-игры этого периода
- Проанализировать пользовательские и экспертные оценки RPG-игр
---

## Загрузка данных и знакомство с ними

Отобразим основную информацию о таблице и рассмотрим варианты исправления недостатков, при наличии.


In [4]:
# импорт бибилиотеки
import pandas as pd

In [5]:
# выгрузка таблицы
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

Посмотрим общую информацию о датафрейме и первые пять строк таблицы.

In [6]:
display("Первые 5 строк таблицы:")
display(df.head())

'Первые 5 строк таблицы:'

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [7]:
print("\nИнформация о датафрейме:")
df.info()
print("\nПервые строки датафрейма:")
display(df.head())


Информация о датафрейме:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB

Первые строки датафрейма:


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


- Объём данных предоставлен размером 16956 строк и 11 столбцов. Данные соответствуют описанию. Есть колонки с названиями игр, платформами, годами выпуска, жанрами и данными о продажах в разных регионах, а также оценки критиков и пользователей.

- В данных встречаются пропуски, причем в некоторых столбцах их довольно много:
Name: 2 пропуска,Year of Release: 275 пропусков, Genre: 2 пропуска, Critic Score: ~51% пропусков, User Score: ~40% пропусков, Rating: ~40% пропусков. Пропуски необходимо будет обработать, т.к. они могут исказить результаты анализа. Пропуски в Critic Score, User Score и Rating могут быть связаны с тем, что игра не получила оценок или рейтинг, что часто бывает с менее известными играми.

- Типы данных: float64: Year of Release, NA sales, Other sales, Critic Score. Выглядят правильно.
object: Name, Platform, Genre, EU sales, JP sales, User Score, Rating. Требуют внимания, особенно EU sales, JP sales и User Score. EU sales и JP sales должны быть числовыми, но указаны как object. User Score тоже имеет тип object, хотя должен быть числовым. 

- Необходимо исправить названия столбцов: они должны начинатьтся с прописной буквы. Некоторые названия столбцов содержат пробелы, что не очень удобно при работе с данными. Лучше вместо пробелов использовать подчеркивания.

---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

Выведем на экран названия всех столбцов датафрейма и проверим их стиль написания.


In [8]:
# Вывод названий столбцов
print("Исходные названия столбцов:")
print(df.columns)

Исходные названия столбцов:
Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


Приведем все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [9]:
# Приведение к snake case
df.columns = [col.lower().replace(' ', '_') for col in df.columns]


In [10]:
# Вывод измененных названий столбцов
print("\nНазвания столбцов после преобразования:")
print(df.columns)


Названия столбцов после преобразования:
Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### Типы данных

Столбцы eu_sales и jp_sales должны быть числовыми, но указаны как object. Это может быть связано с наличием каких-то некорректных символов или формата данных в этих столбцах. Это серьёзная проблема, которую нужно исправить.
Столбец user_score тоже имеет тип object, хотя должен быть числовым. Вероятно, в этом столбце есть нечисловые значения. Это тоже нужно исправить.

Ошибка кода показала, что в столбцах eu_sales и jp_sales есть значение 'unknown', которое не может быть преобразовано в число с плавающей точкой. Это нужно исправить, прежде чем пытаться преобразовать типы данных

In [11]:
# Анализ уникальных значений в столбцах eu_sales, jp_sales и user_score
for col in ['eu_sales', 'jp_sales', 'user_score']:
    print(f"\nУникальные значения в столбце {col}:")
    print(df[col].unique())


Уникальные значения в столбце eu_sales:
['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0

In [12]:
# Определяем столбцы, которые нужно преобразовать в числовой формат
cols_to_convert = ['eu_sales', 'jp_sales', 'user_score']

# Преобразуем каждый столбец в числовой формат, заменяя ошибки на NaN
for col in cols_to_convert:
    # Пытаемся преобразовать столбец в числовой формат, при этом ошибки заменим на NaN
    df[col] = pd.to_numeric(df[col], errors='coerce')
# Проверяем результат преобразования
print("\nТипы данных после преобразования:")
print(df[cols_to_convert].dtypes)

print("\nКоличество NaN в каждом столбце:")
print(df[cols_to_convert].isnull().sum())

# Выводим информацию о всех столбцах
print("\nТипы данных и количество NaN во всех столбцах:")
info_df = pd.DataFrame({'Тип данных': df.dtypes, 'Количество NaN': df.isnull().sum()})
print(info_df)

# Year_of_release имеет тип float64, но представляет год, можно привести к int, но сначала обработаем пропуски
print("\nКоличество пропусков в столбце year_of_release до обработки:", df['year_of_release'].isnull().sum())

# Удаляем строки с пропущенными значениями в столбце 'year_of_release'
df = df.dropna(subset=['year_of_release'])

# Преобразуем столбец 'year_of_release' в тип int64
df['year_of_release'] = df['year_of_release'].astype('int64')

print("\nКоличество пропусков в столбце year_of_release после обработки:", df['year_of_release'].isnull().sum())

# Вывод измененных типов данных
print("\nНовые типы данных:")
print(df.dtypes)


Типы данных после преобразования:
eu_sales      float64
jp_sales      float64
user_score    float64
dtype: object

Количество NaN в каждом столбце:
eu_sales         6
jp_sales         4
user_score    9268
dtype: int64

Типы данных и количество NaN во всех столбцах:
                Тип данных  Количество NaN
name                object               2
platform            object               0
year_of_release    float64             275
genre               object               2
na_sales           float64               0
eu_sales           float64               6
jp_sales           float64               4
other_sales        float64               0
critic_score       float64            8714
user_score         float64            9268
rating              object            6871

Количество пропусков в столбце year_of_release до обработки: 275

Количество пропусков в столбце year_of_release после обработки: 0

Новые типы данных:
name                object
platform            object
year_of_re

Cудя по выводу столбцы eu_sales, jp_sales и user_score теперь имеют тип float64. Это значит, что значения ‘unknown’ были успешно заменены на NaN (пропущенные значения), а сами столбцы преобразованы в числовой формат. Столбец year_of_release имеет тип int64. Это означает, что пропуски в этом столбце были удалены и столбец успешно преобразован в целочисленный формат.
Остальные столбцы имеют типы данных, которые выглядят подходящими.

### Наличие пропусков в данных

Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях:


In [13]:
#  Подсчет пропусков в абсолютных и относительных значениях с форматированием
print("\nКоличество и доля пропусков в каждом столбце:")
missing_data = pd.DataFrame({
    'Количество пропусков': df.isnull().sum(),
    'Доля пропусков': (df.isnull().sum() / len(df) * 100)
})
# Сортируем по убыванию доли пропусков
missing_data = missing_data.sort_values(by='Доля пропусков', ascending=False)

try:
    # Попытка стилизации и отображения в Jupyter
    styled_missing_data = missing_data.style.background_gradient(cmap='coolwarm').format("{:.2f}")
    display(styled_missing_data)
except:
    # Если не Jupyter, выводим в текстовом формате
    missing_data['Доля пропусков'] = missing_data['Доля пропусков'].map("{:.2f}".format)
    print(missing_data)


Количество и доля пропусков в каждом столбце:


Unnamed: 0,Количество пропусков,Доля пропусков
user_score,9123.0,54.69
critic_score,8596.0,51.53
rating,6780.0,40.65
eu_sales,6.0,0.04
jp_sales,4.0,0.02
name,2.0,0.01
genre,2.0,0.01
year_of_release,0.0,0.0
platform,0.0,0.0
na_sales,0.0,0.0


- Характер и количество пропусков:

name: 2 пропуска (0.0118%). 
platform: 0 пропусков. year_of_release: 0 пропусков. genre: 2 пропуска (0.0118%). na_sales, other_sales: 0 пропусков. eu_sales: 6 пропусков (0.0354%). Незначительное количество пропусков.
jp_sales: 4 пропуска (0.0236%). Тоже незначительное количество пропусков.
critic_score: 8714 пропусков (51.39%). Больше половины данных отсутствует. Это серьезная проблема.
user_score: 9268 пропусков (54.66%). Еще больше пропусков, чем в critic_score. Это тоже очень серьезно.
rating: 6871 пропусков (40.52%). Значительное количество пропусков.

- Возможные причины возникновения пропусков:
    
Столбцы name, genre, eu_sales, jp_sales: небольшое количество пропусков может быть связано с техническими ошибками при сборе данных (ошибка в скрипте, сбой при передаче данных).
Столбцы critic_score, user_score, rating: большое количество пропусков, скорее всего, связано с тем, что игра не получила достаточного количества оценок от критиков или пользователей.

- Действия с данными и их обоснование:

Столбцы name, genre, eu_sales, jp_sales: поскольку пропусков очень мало, можно удалить строки с пропусками, потеря этих нескольких строк не критична.
Столбцы critic_score, user_score, rating: с этими столбцами сложнее из-за большого количества пропусков. Удаление строк с пропусками не рекомендуется, так можно потерять больше половины данных. Заполнение средним/медианой может сильно исказить распределение данных и внести смещение в результаты анализа. Можно заменить пропуски на значение-индикатор.
Можно оставить пропуски как есть и учитывать их при анализе. Например, можно анализировать данные отдельно для игр с оценками и без оценок. 

Обработаем пропущенные значения в столбцах name, genre, eu_sales, jp_sales, critic_score,user_score, rating.

In [14]:
# Обработка пропусков в столбцах name и genre (удаляем строки с пропусками)
df = df.dropna(subset=['name', 'genre', 'eu_sales', 'jp_sales'])

Cоздаем новые признаки и заполняем пропуски индикатором -1 как “нет данных” или “игра не получила оценку”.

In [15]:
# Обработка пропусков в столбцах critic_score и user_score (создаем новые признаки и заполняе пропуски индикатором)
df['critic_score_missing'] = df['critic_score'].isnull().astype(int)
df['user_score_missing'] = df['user_score'].isnull().astype(int)
df[['critic_score', 'user_score']] = df[['critic_score', 'user_score']].fillna(-1)

In [16]:
# Обработка пропусков в столбце rating (заполняем значением 'unknown')
df['rating'] = df['rating'].fillna('unknown')

In [17]:
# Проверка на наличие пропусков после обработки
print("\nКоличество пропусков после обработки:")
print(df.isnull().sum())


Количество пропусков после обработки:
name                    0
platform                0
year_of_release         0
genre                   0
na_sales                0
eu_sales                0
jp_sales                0
other_sales             0
critic_score            0
user_score              0
rating                  0
critic_score_missing    0
user_score_missing      0
dtype: int64


In [18]:
# Вывод первых строк обработанного датасета
print("\nПервые строки обработанного датасета:")
print(df.head())


Первые строки обработанного датасета:
                       name platform  year_of_release         genre  na_sales  \
0                Wii Sports      Wii             2006        Sports     41.36   
1         Super Mario Bros.      NES             1985      Platform     29.08   
2            Mario Kart Wii      Wii             2008        Racing     15.68   
3         Wii Sports Resort      Wii             2009        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB             1996  Role-Playing     11.27   

   eu_sales  jp_sales  other_sales  critic_score  user_score   rating  \
0     28.96      3.77         8.45          76.0         8.0        E   
1      3.58      6.81         0.77          -1.0        -1.0  unknown   
2     12.76      3.79         3.29          82.0         8.3        E   
3     10.93      3.28         2.95          80.0         8.0        E   
4      8.89     10.22         1.00          -1.0        -1.0  unknown   

   critic_score_missing  user_score

Все пропуски успешно обработаны. Больше нет столбцов с NaN значениями.
В столбцах critic_score и user_score пропуски заменены на -1, а новые столбцы critic_score_missing и user_score_missing отражают, какие значения были пропущены изначально.
В столбце rating пропуски заменены на 'unknown'.
В столбцах name,genre eu_sales, jp_sales строки с пропусками удалены.

### Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [19]:
# Анализ уникальных значений в категориальных столбцах
for col in ['platform', 'genre', 'rating', 'year_of_release']:
    print(f"\nУникальные значения в столбце {col}:")
    print(df[col].value_counts())  # Используем value_counts() для вывода значений и их количества
    print(f"Всего уникальных значений: {df[col].nunique()}")


Уникальные значения в столбце platform:
platform
PS2     2153
DS      2144
PS3     1330
Wii     1305
X360    1246
PSP     1211
PS      1208
PC       972
GBA      825
XB       818
GC       549
3DS      522
PSV      434
PS4      395
N64      320
XOne     250
SNES     241
SAT      174
WiiU     147
2600     118
NES      100
GB        97
DC        52
GEN       27
NG        12
SCD        6
WS         6
3DO        3
TG16       2
GG         1
PCFX       1
Name: count, dtype: int64
Всего уникальных значений: 31

Уникальные значения в столбце genre:
genre
Action          3337
Sports          2325
Misc            1738
Role-Playing    1493
Shooter         1313
Adventure       1309
Racing          1244
Platform         889
Simulation       866
Fighting         843
Strategy         679
Puzzle           577
ACTION            12
SPORTS             7
RACING             6
ROLE-PLAYING       6
FIGHTING           6
SHOOTER            5
ADVENTURE          4
MISC               3
PLATFORM           3
PUZZLE

Анализ уникальных значений в категориальных столбцах выявил следующее:

platform: В столбце platform не выявлено явных проблем с неявными дубликатами или опечатками. Все значения выглядят корректно.
genre: В столбце genre наблюдается проблема с регистром. Есть значения, записанные как в верхнем регистре (например, ACTION, SPORTS), так и в нижнем (например, Action, Sports). Это нужно исправить, приведя все значения к одному регистру (обычно к нижнему).
rating: В столбце rating есть несколько устаревших или неконсистентных значений, которые нужно нормализовать:
K-A — старое обозначение рейтинга “Everyone” (E).
EC — “Early Childhood”, также можно привести к “E”.
RP — “Rating Pending”, можно заменить на “unknown” или “перевести” игру в рейтинг, когда он появится.
year_of_release: В столбце year_of_release все значения выглядят как целые числа, что является ожидаемым. Проблем с неявными дубликатами или опечатками не выявлено.
Теперь на основе этих выводов можно приступить к нормализации данных.

In [20]:
# Приведение строковых столбцов к нижнему регистру
for col in ['name', 'platform', 'genre']:
    df[col] = df[col].str.lower()

In [21]:
# Приведение столбца rating к верхнему регистру
df['rating'] = df['rating'].str.upper()

In [22]:
# Нормализация столбца rating
df['rating'] = df['rating'].replace('K-A', 'E')
df['rating'] = df['rating'].replace('EC', 'E')
df['rating'] = df['rating'].replace('RP', 'UNKNOWN')

In [23]:
# Вывод уникальных значений и их количества для категориальных столбцов
for col in ['platform', 'genre', 'rating', 'year_of_release']:
    print(f"\nУникальные значения в столбце {col}:")
    print(df[col].value_counts())  # Используем value_counts() для вывода значений и их количества
    print(f"Всего уникальных значений: {df[col].nunique()}")


Уникальные значения в столбце platform:
platform
ps2     2153
ds      2144
ps3     1330
wii     1305
x360    1246
psp     1211
ps      1208
pc       972
gba      825
xb       818
gc       549
3ds      522
psv      434
ps4      395
n64      320
xone     250
snes     241
sat      174
wiiu     147
2600     118
nes      100
gb        97
dc        52
gen       27
ng        12
scd        6
ws         6
3do        3
tg16       2
gg         1
pcfx       1
Name: count, dtype: int64
Всего уникальных значений: 31

Уникальные значения в столбце genre:
genre
action          3349
sports          2332
misc            1741
role-playing    1499
shooter         1318
adventure       1313
racing          1250
platform         892
simulation       867
fighting         849
strategy         680
puzzle           579
Name: count, dtype: int64
Всего уникальных значений: 12

Уникальные значения в столбце rating:
rating
UNKNOWN    6778
E          3976
T          2946
M          1554
E10+       1414
AO           

Найдем явные дубликаты:

In [24]:
# Поиск явных дубликатов
print(f"Количество дубликатов до обработки: {df.duplicated().sum()}")

Количество дубликатов до обработки: 235


In [25]:
# Удаление дубликатов
df = df.drop_duplicates()

print(f"Количество дубликатов после обработки: {df.duplicated().sum()}")

# Вывод информации о датафрейме после обработки дубликатов
print("\nИнформация о датафрейме после обработки дубликатов:")
df.info()

Количество дубликатов после обработки: 0

Информация о датафрейме после обработки дубликатов:
<class 'pandas.core.frame.DataFrame'>
Index: 16434 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   name                  16434 non-null  object 
 1   platform              16434 non-null  object 
 2   year_of_release       16434 non-null  int64  
 3   genre                 16434 non-null  object 
 4   na_sales              16434 non-null  float64
 5   eu_sales              16434 non-null  float64
 6   jp_sales              16434 non-null  float64
 7   other_sales           16434 non-null  float64
 8   critic_score          16434 non-null  float64
 9   user_score            16434 non-null  float64
 10  rating                16434 non-null  object 
 11  critic_score_missing  16434 non-null  int64  
 12  user_score_missing    16434 non-null  int64  
dtypes: float64(6), int64(3), object(

Количество найденных дубликатов: В исходном наборе данных было обнаружено 235 полных дубликата.
Действия по обработке: Все найденные дубликаты были удалены с использованием метода drop_duplicates().
Результат: После удаления дубликатов, в наборе данных осталось 16434 уникальных записи.

- В результате проведенной предобработки данных:

Все пропущенные значения обработаны (заполнены, удалены или созданы индикаторы).
Удалены полные дубликаты.
Типы данных приведены к соответствующим значениям.
Выполнена нормализация категориальных данных.
Набор данных готов к проведению исследовательского анализа и построению моделей.

## Фильтрация данных
Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме: df_actual.

In [26]:
# Определение периода
start_year = 2000
end_year = 2013

# Создание нового датасета
df_actual = df[(df['year_of_release'] >= start_year) & (df['year_of_release'] <= end_year)].copy()

# Вывод информации о новом датасете
print("\nИнформация о датасете за период с {} по {} год:".format(start_year, end_year))
df_actual.info()


Информация о датасете за период с 2000 по 2013 год:
<class 'pandas.core.frame.DataFrame'>
Index: 12772 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   name                  12772 non-null  object 
 1   platform              12772 non-null  object 
 2   year_of_release       12772 non-null  int64  
 3   genre                 12772 non-null  object 
 4   na_sales              12772 non-null  float64
 5   eu_sales              12772 non-null  float64
 6   jp_sales              12772 non-null  float64
 7   other_sales           12772 non-null  float64
 8   critic_score          12772 non-null  float64
 9   user_score            12772 non-null  float64
 10  rating                12772 non-null  object 
 11  critic_score_missing  12772 non-null  int64  
 12  user_score_missing    12772 non-null  int64  
dtypes: float64(6), int64(3), object(4)
memory usage: 1.4+ MB


---

## Категоризация данных
    
Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [27]:
# Категоризация по оценкам пользователей
def categorize_user_score(score):
    if 8 <= score <= 10:
        return 'высокая'
    elif 3 <= score < 8:
        return 'средняя'
    elif 0 <= score < 3:
        return 'низкая'
    else:
        return 'нет оценки'  # Для значений -1 и NaN

df_actual['user_score_category'] = df_actual['user_score'].apply(categorize_user_score)

# Подсчет количества игр в каждой категории
user_score_counts = df_actual['user_score_category'].value_counts()

# Вывод результатов
print("\nРаспределение игр по категориям оценок пользователей:")
print(user_score_counts)

# Вывод первых строк с новой категорией
print("\nПервые строки датафрейма с категорией оценок пользователей:")
print(df_actual.head())


Распределение игр по категориям оценок пользователей:
user_score_category
нет оценки    6296
средняя       4078
высокая       2282
низкая         116
Name: count, dtype: int64

Первые строки датафрейма с категорией оценок пользователей:
                    name platform  year_of_release     genre  na_sales  \
0             wii sports      wii             2006    sports     41.36   
2         mario kart wii      wii             2008    racing     15.68   
3      wii sports resort      wii             2009    sports     15.61   
6  new super mario bros.       ds             2006  platform     11.28   
7               wii play      wii             2006      misc     13.96   

   eu_sales  jp_sales  other_sales  critic_score  user_score rating  \
0     28.96      3.77         8.45          76.0         8.0      E   
2     12.76      3.79         3.29          82.0         8.3      E   
3     10.93      3.28         2.95          80.0         8.0      E   
6      9.14      6.50         2.8

Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [28]:
# Категоризация по оценкам критиков
def categorize_critic_score(score):
    if 80 <= score <= 100:
        return 'высокая'
    elif 30 <= score < 80:
        return 'средняя'
    elif 0 <= score < 30:
        return 'низкая'
    else:
        return 'нет оценки'

df_actual['critic_score_category'] = df_actual['critic_score'].apply(categorize_critic_score)

# Подсчет количества игр в каждой категории
critic_score_counts = df_actual['critic_score_category'].value_counts()

# Вывод результатов
print("\nРаспределение игр по категориям оценок критиков:")
print(critic_score_counts)


Распределение игр по категориям оценок критиков:
critic_score_category
нет оценки    5610
средняя       5421
высокая       1686
низкая          55
Name: count, dtype: int64


- Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [29]:
# Группировка данных и подсчет количества игр в каждой категории с использованием pivot_table
user_score_counts = pd.pivot_table(df_actual, index='user_score_category', values='name', aggfunc='count')
critic_score_counts = pd.pivot_table(df_actual, index='critic_score_category', values='name', aggfunc='count')

# Вывод результатов
print("\nРаспределение игр по категориям оценок пользователей:")
print(user_score_counts)

print("\nРаспределение игр по категориям оценок критиков:")
print(critic_score_counts)


Распределение игр по категориям оценок пользователей:
                     name
user_score_category      
высокая              2282
нет оценки           6296
низкая                116
средняя              4078

Распределение игр по категориям оценок критиков:
                       name
critic_score_category      
высокая                1686
нет оценки             5610
низкая                   55
средняя                5421


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [30]:
# Выделение топ-7 платформ
top_platforms = df_actual['platform'].value_counts().head(7)

# Вывод топ-7 платформ
print("\nТоп-7 платформ по количеству выпущенных игр в период с 2000 по 2013 год:")
print(top_platforms)


Топ-7 платформ по количеству выпущенных игр в период с 2000 по 2013 год:
platform
ps2     2126
ds      2117
wii     1275
psp     1179
x360    1118
ps3     1087
gba      810
Name: count, dtype: int64


---

## Итоговый вывод

В рамках данного проекта был проведен анализ данных о видеоиграх за период 2000-2013 гг. из датасета new_games.csv. Целью работы было подготовить данные для дальнейшего анализа и выявить основные закономерности, связанные с платформами, оценками критиков и пользователей.

Проделанная работа:

Датасет был загружен и изучен. Названия столбцов приведены к snake_case.
Пропущенные значения в столбцах eu_sales, jp_sales и user_score были заменены на NaN с последующим изменением типа данных на числовой (float64).
Столбец year_of_release обработан: пропуски удалены, а тип данных изменен на int64.
Строки с пропусками в столбцах name, genre, eu_sales, и jp_sales были удалены.
Для столбцов critic_score и user_score созданы индикаторы пропусков (critic_score_missing и user_score_missing), а сами пропуски заменены на значение -1.
В столбце rating пропуски заполнены значением 'unknown'.
Уникальные значения в столбцах platform, genre, rating и year_of_release проанализированы.
В столбце rating значения приведены к верхнему регистру, а также устаревшие значения ('K-A' и 'EC') заменены на 'E', а 'RP' на 'UNKNOWN'.
Созданы новые столбцы для категоризации игр на основе оценок пользователей (user_score_category) и критиков (critic_score_category). Категории: “высокая”, “средняя”, “низкая”, “нет оценки”.
Определены топ-7 платформ по количеству выпущенных игр за период 2000-2013.

Описание новых полей:

critic_score_missing: Бинарный столбец, принимающий значение 1, если в столбце critic_score было пропущено значение, и 0 в противном случае.
user_score_missing: Бинарный столбец, принимающий значение 1, если в столбце user_score было пропущено значение, и 0 в противном случае.
user_score_category: Категория оценки игры, присвоенная на основе оценки пользователей (“высокая”, “средняя”, “низкая”, “нет оценки”).
critic_score_category: Категория оценки игры, присвоенная на основе оценки критиков (“высокая”, “средняя”, “низкая”, “нет оценки”).


# Основные выводы:

Большинство игр в датасете не имеют оценок пользователей и/или критиков.
Наибольшее количество игр относится к “средней” категории оценок как по мнению пользователей, так и по мнению критиков.
Выделены топ-7 платформ по количеству выпущенных игр в период 2000-2013 (ps2, ds, wii, psp, x360, ps3, xb).
Было удалено 235 полных дубликатов. Общее количество записей после обработки составило 12772.