# Проект "Секреты Темнолесья". Предобработка, фильтрация и категоризация данных. 

- Автор: Алексей Кознов
- Дата: 24.02.25

### Цели и задачи проекта

Команда игры «Секреты Темнолесья» хотят привлечь новую аудиторию и подготовить статью о развитии индустрии игр в начале XXI века. Для статьи понадобится изучить развитие игровой индустрии с 2000 по 2013 год. Команда «Секреты Темнолесья» подготовила различные исторические данные связанные с игровой индустрией, которые были собраны из открытых источников.

Моя задача — познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных. На этот срез данных будет опираться будущая статья. 

### Описание данных

Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:

  - `Name` — название игры.
  - `Platform` — название платформы.
  - `Year of Release` — год выпуска игры.
  - `Genre` — жанр игры.
  - `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
  - `EU sales` — продажи в Европе (в миллионах проданных копий).
  - `JP sales` — продажи в Японии (в миллионах проданных копий).
  - `Other sales` — продажи в других странах (в миллионах проданных копий).
  - `Critic Score` — оценка критиков (от 0 до 100).
  - `User Score` — оценка пользователей (от 0 до 10).
  - `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

---

1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных

## 1. Загрузка данных и знакомство с ними

In [6]:
## Импортируем библиотеку pandas
import pandas as pd

In [7]:
# Выгружаем данные из датасета new_games.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [8]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [9]:
# Выводим первые строки датафрейма на экран
games.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [10]:
# Выводим последние строки датафрейма на экран
games.tail(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16946,15 Days,PC,2009.0,Adventure,0.0,0.01,0.0,0.0,63.0,5.8,
16947,Men in Black II: Alien Escape,GC,2003.0,Shooter,0.01,0.0,0.0,0.0,,tbd,T
16948,Aiyoku no Eustia,PSV,2014.0,Misc,0.0,0.0,0.01,0.0,,,
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Platform,0.01,0.0,0.0,0.0,,,
16950,SCORE International Baja 1000: The Official Game,PS2,2008.0,Racing,0.0,0.0,0.0,0.0,,,
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


Датасет `new_games.csv` содержит 11 столбцов и 16956 строк. В датасете представлена информация о продажах игр, жанрах, платформах выпуска, рейтинге, а также оценках пользователей и критиков.

Изучим данные и их корректность: 

- **Числовые значения с плавающей запятой (float64).** 4 столбца представлены типом `float64` - это `Year of Release`, `NA sales`, `Other sales` и `Critic Score`. Для `NA sales`, `Other sales` использование типа `float64` корректно, т.к. столбцы со стоимостью содержат дробные значения. Но для `Year of Release` такой тип данных не подходит, его необходимо изменить на `int16`, такой тип данных с цменьшенной разрядностью подойдет для данных с записью года выпуска игры. Также не подходит такой тип для `Critic Score`, т.к. все значения целые, без дробной части, его также приведем к типу `int16` или `int8`.
- **Строковые данные (object).** 7 столбцов имеют тип данных `object`:
    - `Name`, `Platform`, `Genre`, `Rating` - содержат строковую информцию (название игры, платформа, жанр и рейтинг ESRB), тип `object` подходит.
    - `EU sales`, `JP sales`, `User Score` - содержат стоимость и оценку пользователей в виде чисел с дробными значениями, поэтому тип `object` не корректен. Необходимо поменять тип `object` на тип `float64`, как это сделано у других столюцов с стоимостью и оценками.

После анализа типов данных видно, что 5 столбцов из 11 представлены не корректно. 

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

In [14]:
# Выведем на экран названия всех столбцов датафрейма и проверим их стиль написания
display(games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [15]:
# Приведем все столбцы к стилю snake case. Названия сделаем в нижнем регистре, а вместо пробелов — подчёркивания
games.columns = games.columns.str.replace(' ', '_').str.lower()

In [16]:
# Выведем названия столбцов датафрейма после внесенных изменений
display(games.columns)  

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

На этапе знакомства с данными было установлено, что почти половина столбцов представленны не корректно. Столбец `year_of_release` и `critic_score` представлены в формате `float64`, возможно это произошло из-за того, что данные были изначально загружены типом `float64` или возможно в данных были допущены ошибки, вместо года и оценки внесены числа с типом `float64` и pandas автоматически сделал все значения столбца типом `float64` или из-за пропущенных значений, т.к `int64` не поддерживает пропущенные значения, то pandas перевел все значения в `float64`. Судя по первым 5 строкам датафрейма, столбец `user_score` содержит значения `NaN`, а также есть пропущенные значения, из-за чего pandas мог интерпретировать весь столбец как тип `object`, столбцы с продажами `eu_sales` и `jp_sales` могут также из-за этого иметь тип `object`, а могут из-за неверно внесенных данных. Возможно вместо разделителя использовали не точку, а запятую или лишние пробелы или есть текст например `56.6 млн` 

В столбцах `year_of_release` и `critic_score` тип данных изменим после того как разберемся с пропусками.

In [19]:
# Преобразовываем тип данных с понижением разрядности
for column in ['eu_sales', 'jp_sales', 'user_score']:
    games[column] = pd.to_numeric(games[column], errors='coerce', downcast='float')
games.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales           float32
jp_sales           float32
other_sales        float64
critic_score       float64
user_score         float32
rating              object
dtype: object

### 2.3. Наличие пропусков в данных

In [21]:
# Выводим количество пропущенных строк в датафрейме
games.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [22]:
# Подсчитываем процент строк с пропусками
games.isna().sum() /len(games)

name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64

В данных наблюдаются пропуски в следующих столбцах:
 - `name` - в столбце с названием игры есть 2 пропуска, это 1 сотая процента от всего объема. Эти строки можно удалить, они не повляиют на дальнейший анализ.
 - `year_of_release` - в столбце с годом выпуска игры было 275 пропусков, 17 мы заполнили годом из названия игры, оставшиеся 258 составляют 1.5 процента. Возможно в источниках данных не было информации о дате выпуска игры.
 - `genre` - в столбце с жанром игры 2 пропуска, пропуски скорее всего связаны с пропусками в столбце `name`, где также 2 проупуска. Как и пропуски в стобце `name` их также можно удалить без существенного влияния на анализ.
 - `eu_sales` - в  столбце с продажами в Европе 6 пропусков, что составляет 3 сотых процента. Возможно эти игры не продавались в Европе или просто в источнике не было информации о продажах.
 - `jp_sales` - в  столбце с продажами в Европе 4 пропуска, что составляет 2 сотых процента. По аналогии с европейскими продажами, возможно эти игры не продавали в Японии или не было данных о продажах в источнике. 
 - `critic_score` - в столбце с оценками критиков 8714 пропусков, что составляет 51 процент. Не все выпущенные игры оцениваются критиками, скорее всего это причина отсутствия данных. Т.к. это довольно существенный процент пропусков, то мы заменим пропуски на число индикатор, чтобы в дальнейшем отнести все игры с пропусками в отдельную категорию.
 - `user_score` - в столбце с оценками игроков 9268 пропусков, что составляет почти 55 процентов. Не все выпущенные игры имеют пользовательскую оценку, но обычно чаще есть пользовательская оценка и нет оценки критиков, в данном случае доля пропусков в оценке игроков больше чем в оценке критиков, возможно в источнике или источниках не было информации об оценках. Как и в случае с `critic_score`, мы заменим все пропуски на индикатор, чтобы отнести в отдельную категорию.  
 - `rating` - в столбце с рейтингом ESRB 6871 пропуск, что составляет 40 процентов. Данный рейтинг может отсутствовать для игр, которые не прошли сертификацию, некоторые инди-игры могут не иметь рейтинга, в некоторых регионах рейтинг не нужен. Все это, а также отсутствие данных в источнике могут быть причиной большого количества пропусков. Т.к. рейтинг для дальнейшемго анализа нам не нужен, мы оставим пропуски без изменений.

In [24]:
# Извлечем год (если он есть) из названия игры и добавим его в новый столбец 
games['extracted_year'] = games['name'].str.extract(r"(20\d\d)")

# Заполним пропуски в 'year_of_release' значениями из 'extracted_year'
games['year_of_release'] = games['year_of_release'].fillna(games['extracted_year'])

# Удалим временный столбец 'extracted_year'
games = games.drop(columns=['extracted_year'])

In [25]:
# Заполним пропуски и вместо пропуска впишем 0
games['year_of_release'] = games['year_of_release'].fillna(0)

# Изменим тип данных с float на int
games['year_of_release'] = pd.to_numeric(games['year_of_release'], downcast='integer')

In [26]:
# Удалим проупски в столбце name и genre
games = games.dropna(subset=['name'])

games = games.dropna(subset=['genre'])

In [27]:
# Заменим пропуски в столбцах critic_score и user_score на индикатор -1
games['critic_score'] = games['critic_score'].fillna(-1)

games['user_score'] = games['user_score'].fillna(-1)

# Изменим тип данных с float на int
games['critic_score'] = pd.to_numeric(games['critic_score'], downcast='integer')

In [28]:
# Заменим пропуски на средние значения по группам для eu_sales и jp_sales

games['jp_sales'] = games['jp_sales'].fillna(games.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean'))

games['eu_sales'] = games['eu_sales'].fillna(games.groupby(['platform', 'year_of_release'])['eu_sales'].transform('mean'))

In [30]:
# Выводим количество пропущенных строк в датафрейме после внесенных изменений
games.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score          0
user_score            0
rating             6869
dtype: int64

In [31]:
# Выводим информацию о типе данных после внесенных изменений
games.dtypes

name                object
platform            object
year_of_release      int16
genre               object
na_sales           float64
eu_sales           float32
jp_sales           float32
other_sales        float64
critic_score          int8
user_score         float32
rating              object
dtype: object

### 2.4. Явные и неявные дубликаты в данных

In [34]:
# Применяем метод unique() к столбцам genre, platform, rating и year_of_release для выявления неявных дубликатов
display(games['genre'].unique())

display(games['platform'].unique())

display(games['rating'].unique())

display(games['year_of_release'].unique())

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983,    0], dtype=int16)

In [36]:
# Приведем названия жанров игр к нижнему регистру, чтобы избавиться от неявных дубликатов
games['genre'] = games['genre'].str.lower()

display(games['genre'].unique())

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [37]:
# Проверяем наличие явных дубликатов

games.duplicated().sum()

241

In [38]:
# Удаляем дубликаты

games = games.drop_duplicates()

In [39]:
# Проверяем результат

games.duplicated().sum()

0

In [40]:
# Дополнительно проверим наличие дубликатов по столбцам 'name', 'platform', 'year_of_release'
games.duplicated(subset=['name', 'platform', 'year_of_release']).sum()

1

In [42]:
# Найдите дублирующиеся строки по столбцам 'name', 'platform', 'year_of_release'
duplicates = games[games.duplicated(subset=['name', 'platform', 'year_of_release'], keep=False)]

# Выводим строки с дубликатами
display(duplicates)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
606,Madden NFL 13,PS3,2012,sports,2.11,0.22,0.0,0.23,83,5.5,E
16465,Madden NFL 13,PS3,2012,sports,0.0,0.01,0.0,0.0,83,5.5,E


In [43]:
# Создаем столбец с общей суммой продаж
games['total_sales'] = games[['na_sales', 'eu_sales', 'jp_sales']].sum(axis=1)

# Сортируем данные по 'total_sales' в порядке убывания
games = games.sort_values(by='total_sales', ascending=False)

# Удаляем дубликаты, оставляя строку с наибольшими продажами
games = games.drop_duplicates(subset=['name', 'platform', 'year_of_release'], keep='first')

# Проверяем результат
display(games[(games['name'] == 'Madden NFL 13') & (games['platform'] == 'PS3')])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
606,Madden NFL 13,PS3,2012,sports,2.11,0.22,0.0,0.23,83,5.5,E,2.33


В столбцах `genre` были обнаружены неявные дубликаты из-за различного написания одних и тех же жанров игр, мы провели нормализацию этого среза данных и оставили единиый метод написания жанра, тем самым избавились от дубликатов. При проверке по столбцам `name`, `platform`, `year_of_release` были также обнаружены неявные дубликаты, две строки одной и той же игры. Мы оставили ту, где была информация о продажах, другую удалили. Также были обнаружены 241 явный дубликат, мы удалили эти данные.

Посчитаем количество удалённых строк в абсолютном и относительном значениях.

Датасет new_games.csv изначально содержал 16956 строк

In [47]:
# Найдем количество строк после удаления
games.shape[0]

16712

In [48]:
# Запишем количество строк до удаления в переменную initial_row_count
initial_row_count = 16956

# Запишем количество строк после удаления в переменную final_row_count
final_row_count  = 16712

# Считаем удаленные строки
rows_removed = initial_row_count - final_row_count

# Выведем результат
display(f"Количество удаленных строк: {rows_removed}")

'Количество удаленных строк: 244'

In [49]:
# Подсчитываем процент удаленных строк
rows_removed_per = (rows_removed / initial_row_count) * 100

print(f"Процент удаленных строк: {round(rows_removed_per, 2)}%")

Процент удаленных строк: 1.44%


Для дальнейшего анализа мы провели работу по предобработке данных:
- проверили названия столбцов датафрейма и привели их к единому стилю
- проверили тип данных столбцов и привели их к нужному типу:
   - столбец `year_of_release` и `Critic Score` из типа `float64` к типу `int16` и `int8` соответственно
   - столбцы `user_score`, `eu_sales` и `jp_sales` из типа `object`к типу `float64`
- проверили наличие пропусков в столюцах и исправили их:
   - в столбце `year_of_release` часть пропусков заменили на данные, взятые из названия игры, другую часть удалили
   - в столбцах `genre` и `name` удалили пропуски
   - в столбцах `eu_sales` и `jp_sales` заменили пропуски на среднее по продажам игр с такими же платформами и годом выпуска
   - в столбцах `critic_score` и `user_score` заменили пропуски на значение индикатор `-1`
   - в столюце `rating` оставили пропуски без изменений
- проверили данные на наличие явных и неявных дубликатов и удалили их 

---

## 3. Фильтрация данных

In [53]:
# Фильтруем данные по периоду с 2000 по 2013 год включительно и сохраним новый срез данных в отдельном датафрейме
games_actual = games[(games['year_of_release'] >= 2000) & (games['year_of_release'] <= 2013)].copy()

# Проверяем результат
print("Отфильтрованные данные:")
display(games_actual.head())

Отфильтрованные данные:


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
0,Wii Sports,Wii,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E,74.089999
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,32.23
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,29.82
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,26.92
8,New Super Mario Bros. Wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,26.08


---

## 4. Категоризация данных

In [56]:
# Напишем функцию для определения категории оценок пользователей

def categorize_score_user(score):
    if score == -1:
        return 'Оценка отсутствует'
    elif 8 <= score <= 10:
        return 'Высокая оценка'
    elif 3 <= score < 8:
        return 'Средняя оценка'
    elif 0 <= score < 3:
        return 'Низкая оценка'
    else:
        'Неизвестно'

In [58]:
# Применяем функцию
games_actual['user_score_category'] = games_actual['user_score'].apply(categorize_score_user)

In [59]:
# Выводим результат
display(games_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales,user_score_category
0,Wii Sports,Wii,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E,74.089999,Высокая оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,32.23,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,29.82,Высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,26.92,Высокая оценка
8,New Super Mario Bros. Wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,26.08,Высокая оценка


In [60]:
# Напишем функцию для определения категории оценок критиков

def categorize_score_critic(score):
    if score == -1:
        return 'Оценка отсутствует'
    elif 80 <= score <= 100:
        return 'Высокая оценка'
    elif 30 <= score < 80:
        return 'Средняя оценка'
    elif 0 <= score < 30:
        return 'Низкая оценка'
    else:
        'Неизвестно'

In [61]:
# Применяем функцию
games_actual['critic_score_category'] = games_actual['critic_score'].apply(categorize_score_critic)

In [62]:
# Выводим результат
display(games_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales,user_score_category,critic_score_category
0,Wii Sports,Wii,2006,sports,41.36,28.959999,3.77,8.45,76,8.0,E,74.089999,Высокая оценка,Средняя оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,32.23,Высокая оценка,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,29.82,Высокая оценка,Высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,26.92,Высокая оценка,Высокая оценка
8,New Super Mario Bros. Wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,26.08,Высокая оценка,Высокая оценка


In [63]:
# Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории

# Сгруппируем по оценкам пользователей
grouped_counts_users = games_actual.groupby('user_score_category')['name'].count()

# Выводим результат
display(grouped_counts_users.sort_values(ascending=False))

user_score_category
Оценка отсутствует    6305
Средняя оценка        4082
Высокая оценка        2294
Низкая оценка          116
Name: name, dtype: int64

In [65]:
# Сгруппируем по оценкам критиков
grouped_counts_critics = games_actual.groupby('critic_score_category')['name'].count()

# Выводим результат
display(grouped_counts_critics.sort_values(ascending=False))

critic_score_category
Оценка отсутствует    5617
Средняя оценка        5427
Высокая оценка        1698
Низкая оценка           55
Name: name, dtype: int64

In [66]:
# Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.
top_platforms = games_actual.groupby('platform')['name'].count()

top_platforms = top_platforms.sort_values(ascending=False).head(7)

display(top_platforms)

platform
PS2     2134
DS      2121
Wii     1275
PSP     1182
X360    1123
PS3     1086
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод

Были загружены данные датасета `/datasets/new_games.csv.`, они содержат 11 столбцов и 16956 строк. В датасете представлена информация о продажах игр, жанрах, платформах выпуска, рейтинге, а также оценках пользователей и критиков. При первичном знакомстве с данными и их предобработке получили такие результаты:
- В восьми столбцах (`name`, `year_of_release`, `genre`, `eu_sales`, `jp_sales`, `critic_score`, `user_score` и `rating`) были обнаружены пропущенные значения.Самые большие пропуски в данных в столбцах `critic_score`, `user_score` и `rating` — более 50%.
- Для оптимизации работы с данными, а также для дальнейшего анализа без ошибок в датафрейме были произведены следующие изменения типов данных:
   - столбец `year_of_release` и `critic_score` из типа `float64` к типу `int16` и `int8` соответственно
   - столбцы `user_score`, `eu_sales` и `jp_sales` из типа `object`к типу `float64`
- В столбцах `genre`, `name`, `platform` и `year_of_release` были  обнаружены дубликаты и удалены
- Для дополнительной работы с данными были созданы дополнительные столбцы:
    - столбец `extracted_year` для извлечения года из названия игры для замены пропусков
    - столбец `total_sales` с общей суммой продаж для удаления дубликаты с нехватающими данными
    - столбцы `critic_score_category` и `user_score_category` для категоризации данных по оценкам критиков и пользователей
- Провели категоризацию данных по оценкам критиков и пользователей и посчитали количество игр в каждой категории. У пользователей и у критиков преобладает средняя оценка игр, если не считать категорию оценка отсутствует из-за нехватки данных
- Выделили топ-7 платформ по количеству игр, выпущенных за весь актуальный период. Больше всего выпущенных игр у Play Station 2 и Nintendo DS,  2134 и 2121 соответсвенно.