# GAME ANALYSIS

- Автор: Василькова Полина Олеговна (vslkwa@yandex.ru)
- Дата: 11.11.2025

### Цели и задачи проекта

<font color='#777778'>В проекте используется датасет <code>new_games.csv</code>, который содержит информацию о есть информация о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.

__Задача__ — познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.
</font>

### Описание данных
---
<font color="#777778">
<p>Данные <code>new_games.csv</code> содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:</p>

<ul>
  <li><code>Name</code> — название игры.</li>
  <li><code>Platform</code> — название платформы.</li>
  <li><code>Year of Release</code> — год выпуска игры.</li>
  <li><code>Genre</code> — жанр игры.</li>
  <li><code>NA sales</code> — продажи в Северной Америке (в миллионах проданных копий).</li>
  <li><code>EU sales</code> — продажи в Европе (в миллионах проданных копий).</li>
  <li><code>JP sales</code> — продажи в Японии (в миллионах проданных копий).</li>
  <li><code>Other sales</code> — продажи в других странах (в миллионах проданных копий).</li>
  <li><code>Critic Score</code> — оценка критиков (от 0 до 100).</li>
  <li><code>User Score</code> — оценка пользователей (от 0 до 10).</li>
  <li><code>Rating</code> — рейтинг организации ESRB (англ. <i>Entertainment Software Rating Board</i>), которая определяет возрастную категорию игры.</li>
</ul>
</font>


### Содержимое проекта
---
<font color='#777778'>
   <li> 1. Загрузка и знакомство с данными</li> 
   <li> 2. Проверка ошибок в данных и их предобработка</li> 
   <li>3. Фильтрация данных</li> 
   <li>4. Категоризация данных</li> 
   <li>5. Основные выводы</li> 
</font>

---

<div style="padding: 10px; border-radius: 10px; border: 1px solid #ddd;">
  <h2 style="margin: 0; color: #333;">1. Загрузка данных и знакомство с ними</h2>
</div>

In [1]:
#загрузка необходимых библиотек
import pandas as pd

#ограничение предупреждений с учетом того, что код впоследствии использоваться не будет 
import warnings
warnings.filterwarnings("ignore")

In [40]:
#выгрузка данных из датасета new_games.csv в датафрейм df
#df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
df = pd.read_csv('new_games.csv')

In [41]:
#вывод информации о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
#вывод первых 5 строк датафрейма
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ и оценки игр.  

Типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64).** Четыре столбца: `Year of Release` (год выпуска игры), `NA sales` (продажи в Северной Америке), `Other sales` (продажи в других странах), `Critic Score` (оценка критиков)- представлены типом `float64`.   
Имеет смысл привести столбцы `Critic Score` и `Year of Release` к целочисленному типу данных, поскольку они по логике не могут быть дробным числом.
Столбцы `NA sales`, `EU sales`, `JP sales`, `Other sales` необходимо привести к единому типу данных - `float64`.  
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name`, `Platform`, `Genre` и `Rating` содержат строковую информацию (название игры, платформа, жанр и рейтинг), что логично для текстовых данных. Здесь тип данных `object` подходит.
    - `EU sales`, `JP sales` и `User score` хранят информацию о количестве продаж игр и их оценках. Для таких данных логичнее использовать тип данных с плавающей запятой, что облегчит выполнение количественных вычислений и упростит анализ.
- **Булевые значения (bool) и целочисленные значения (int64).** Данные с таким типом в исходном датафрейме отсутствуют.


После анализа типов данных видно, что часть столбцов представлена некорректно. Для оптимизации необходимо будет преобразование типов данных.  

<div style="padding: 10px; border-radius: 10px; border: 1px solid #ddd;">
  <h2 style="margin: 0; color: #333;">2. Проверка ошибок в данных и их предобработка</h2>
</div>

### 2.1 Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [5]:
#вывод названия столбцов датафрейма
print(df.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [6]:
#приведение столбцов к единому стилю
renaming = []
for i in df.columns:
    i = i.replace(' ', '_').lower()
    renaming.append(i)
df.columns = renaming
print(df.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


In [7]:
#чтобы не изменять исходный датафрейм, используется новая переменная subset_df
subset_df = df
len(subset_df)

16956

### 2.2 Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

Не все столбцы содержат корректный тип данных. 
Некорректные данные встречаются в столбцах: 
 - `Critic Score` и `Year of Release` - необходимо привести к целочисленному типу данных.
 -  `EU sales`, `JP sales` и `User score` - необходимо привести к типу данных с плвающей запятой

__Предположительные причины некорректных типов данных могут быть следующие:__ 
- Локализация десятичного разделителя: числа записаны как 1,23 вместо 1.23, что автоматически считается строкой.
- Тысячные разделители или валютные символы: 1,234 / 1 234 / €1.2 / 1.2m.
- Служебные значения: N/A, na, —, пустая строка "", "tbd", "unknown".
- Случайное добавление текста: пробелы в начале или конце (" 0.5 "), невидимые символы, комментарии ("~0.5").
- Смешанные типы в одном столбце 
- Строки "tbd" вместо числа.

---

In [8]:
#вывод уникальных значений по столбцам с числовыми данными, имеющими иной тип
for column in ['eu_sales', 'jp_sales', 'user_score']:
    print(f'Уникальные значения столбца "{column}": {subset_df[column].unique()}.')
    print('-'*100)

Уникальные значения столбца "eu_sales": ['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0.

   - Возникновение некорректных типов данных в столбцах `eu_sales` и `jp_sales` связано с тем, что столбцы содержат данные смешанных типов - и там, и там встречается строковое значение `unknown`.  
   - Некорректный тип данных в столбце `user_score` возник из-за значения `tbd` (to be determined). 
   
---

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

Преобразование типа данных в столбцах `eu_sales`и `jp_sales`. 

In [9]:
#преобразование типа данных с учетом того, что в них встречается значение 'unknown'/иные, вызывающее ошибку
for column in ['eu_sales', 'jp_sales']:
    subset_df[column] = pd.to_numeric(subset_df[column], downcast='float', errors='coerce')

Столбец `year_of_release` требует по логике целочисленного типа данных

In [10]:
#преобразование столбца `year_of_release`
subset_df['year_of_release'] = pd.to_numeric(subset_df['year_of_release'], downcast='integer', errors='coerce')


Столбец `user_score` нужно привести к числовому типу данных с заменой пропусков на NaN

In [11]:
#приведение столбца 'user_score' к числовому типу данных с заменой пропущенных значений на NaN
subset_df['user_score'] = pd.to_numeric(subset_df['user_score'], errors='coerce')

Столбец `critic_score` имеет смысл привести к целочисленному типу данных, для обработки пропущенных значений можно использовать Int64

In [12]:
#приведение столбца 'critic_score' к типу данных 
subset_df['critic_score'] = subset_df['critic_score'].astype('float')

In [13]:
subset_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float32
 6   jp_sales         16952 non-null  float32
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float32(2), float64(5), object(4)
memory usage: 1.3+ MB


### 2.3 Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [14]:
#проверка абсолютного количества пропусков в датафрейме
subset_df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [15]:
#подсчет общего числа строк 
subset_df.shape[0]

16956

In [16]:
#подсчет относительного количества пропусков по столбцам (в %)
subset_df.isna().sum()/df.shape[0]*100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

In [17]:
#отображение статистики пропущенных значений в датафрейме
def show_missing_stats(tmp):
    missing_stats = pd.DataFrame({
        'Кол-во пропусков': tmp.isnull().sum(),
        'Доля пропусков': tmp.isnull().mean()
    })
    missing_stats = missing_stats[missing_stats['Кол-во пропусков'] > 0]
    
    if missing_stats.empty:
        return "Пропусков в данных нет"
    return (missing_stats.style.format({'Доля пропусков': '{:.4f}'}).background_gradient(cmap='coolwarm'))
show_missing_stats(subset_df)

Unnamed: 0,Кол-во пропусков,Доля пропусков
name,2,0.0001
year_of_release,275,0.0162
genre,2,0.0001
eu_sales,6,0.0004
jp_sales,4,0.0002
critic_score,8714,0.5139
user_score,9268,0.5466
rating,6871,0.4052


Столбцы `platform`, `na_sales` и `other_sales` пропусков не содержат.   
В остальных столбцах пропуски есть:  
 - `name`: 2 пропуска (0.01%)
 - `year_of_release`: 275 пропусков (1.62%)
 - `genre`: 2 пропуска (0.01%)
 - `eu_sales`: 6 пропусков (0.04%)
 - `jp_sales`: 4 пропуска (0.02%)
 - `critic_score`: 8714 пропусков (51.39%)
 - `user_score`: 6804 пропусков (40.13%) 
 - `rating`: 6871 пропуск (40.52%)

__Возможные причины пропусков:__  
 - некорректная работа системы, позволяющая заполнять не все поля 
 - технические неполадки, в связи с которыми некоторые данные не могли сохраниться
 - невосприимчивость сиситемы к некоторым символам с последующей заменой на нулевые значения
 - отсутствие подтвержденной даты релиза игры или переиздания
 - ошибки в подсчете количества продаж, когда 0 продаж может быть заменен NaN или же приравниваться к отсутствию продаж
 - недостаточное количество отзывов/оценок, с которого агрегаторы начинают их отображать
 - устарелость и неактуальность релизов
 - несопоставление записей

---

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.
---

Количество пропусков в столбцах `name` и `genre` составляет менее 1%, поэтому можно их просто удалить. В столбцах `eu_sales` 6 пропусков (0.04%) и `jp_sales` 4 пропуска (0.02%), что в целом можно также удалить. 

In [18]:
#удаление пропущенных значений в полях 'genre' и 'name'
subset_df = subset_df.dropna(subset=['name', 'genre'])

 В столбце `year_of_release` пропущенные значения можно просто удалить, чтобы не искажать последующие данные. 

In [19]:
#удаление пропусков в столбце 'year_of_release'
subset_df = subset_df.dropna(subset=['year_of_release'])

Пропуски в данных с количеством проданных копий игры в том или ином регионе необходимо заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [20]:
#замена пропусков в столбце eu_sales средним значением по году и платформе
subset_df['eu_sales'] = subset_df['eu_sales'].fillna(
    df.groupby(['platform', 'year_of_release'])['eu_sales'].transform('mean')
)

#замена пропусков в столбце jp_sales средним значением по году и платформе
subset_df['jp_sales'] = subset_df['jp_sales'].fillna(
    df.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean')
)

Для столбцов `user_score` и `critic_score` имеет смысл использовать значение-заглушку "-1", поскольку данные этих колонок не являются набором случайных наблюдений.

In [21]:
#заполнение пропущенных значений в столбце 'user_score' значением-заглушкой "-1"
subset_df['user_score'] = subset_df['user_score'].fillna(-1)


#замена пропущенных значений в столбце 'critic_score' значением-заглушкой "-1"
subset_df['critic_score'] = subset_df['critic_score'].fillna(-1)

Поле `rating` в контексте данной задачи не имеет особого значения, поэтому можно заменить пропущенные значения на 'unknown'

In [22]:
#замена пропущенных значенй в столбце 'rating' на 'unknown'
subset_df['rating']= subset_df['rating'].fillna('unknown')

In [23]:
#проверка отсутствия пропущенных значений в датафрейме
subset_df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

In [24]:
# подсчет оставшихся пропусков
show_missing_stats(subset_df)

'Пропусков в данных нет'

### 2.4 Явные и неявные дубликаты в данных. 
- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

 - __Поиск уникальных значений в категориальных данных:__ 

In [25]:
#поиск уникальных значений и их количества в столбцах, содержащих категориальные данные
for column in ['genre', 'platform', 'rating', 'year_of_release']:
    unique_names = subset_df[column].unique().tolist()
    unique_names.sort()
    unique_count = subset_df[column].nunique()
    print(f'Уникальных значений в столбце {column} - {unique_count}: {unique_names}.')
    print('-'*100)

Уникальных значений в столбце genre - 24: ['ACTION', 'ADVENTURE', 'Action', 'Adventure', 'FIGHTING', 'Fighting', 'MISC', 'Misc', 'PLATFORM', 'PUZZLE', 'Platform', 'Puzzle', 'RACING', 'ROLE-PLAYING', 'Racing', 'Role-Playing', 'SHOOTER', 'SIMULATION', 'SPORTS', 'STRATEGY', 'Shooter', 'Simulation', 'Sports', 'Strategy'].
----------------------------------------------------------------------------------------------------
Уникальных значений в столбце platform - 31: ['2600', '3DO', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG', 'N64', 'NES', 'NG', 'PC', 'PCFX', 'PS', 'PS2', 'PS3', 'PS4', 'PSP', 'PSV', 'SAT', 'SCD', 'SNES', 'TG16', 'WS', 'Wii', 'WiiU', 'X360', 'XB', 'XOne'].
----------------------------------------------------------------------------------------------------
Уникальных значений в столбце rating - 9: ['AO', 'E', 'E10+', 'EC', 'K-A', 'M', 'RP', 'T', 'unknown'].
----------------------------------------------------------------------------------------------------
Уникальных зн

 - __Нормализация данных:__
 
     - Столбец `genre` необходимо привести к нижнему регистру для удобства группировки и более корректного поиска среднего значения на предыдущем этапе.
     - Столбец `platform` не содержит дубликатов для исправления на данном этапе
     - Столбец `rating` требуется привести к верхнему регистру по условию задачи. Кроме того среди уникальных значений присутствует 'K-A', что не соответствует ни одной категории рейтинга ESRB.
     - Столбец `year_of_release` содержит значения года в промежутке с 1980 по 2016 включительно, нулевое значение появилось в результате избавления от отсутствующих данных на предыдущем этапе (значение-индикатор), исправлений в данном столбце не требуется.
     - столбец `name` также логично привести к нижнему регистру для удобства дальнейшего использования. 

In [26]:
#приведение столбца 'genre' к нижнему регистру для последующей группировки и подбора значений
subset_df['genre'] = subset_df['genre'].str.lower()

#приведение столбца `name` к нижнему регистру
subset_df['name'] = subset_df['name'].str.lower()

#избавление от неявных дубликатов в столбце `rating`
subset_df['rating'] = subset_df['rating'].str.upper()

#замена некорректного значения рейтинга в столбце на значение 'UNKNOWN'
subset_df['rating'] = subset_df['rating'].str.replace('K-A', 'UNKNOWN')

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

- __Поиск явных дубликатов:__

In [27]:
#проверка количества явных дубликатов по всем столбцам, где каждое значение, кроме первого, будет считаться дубликатом 
duplicates = subset_df.duplicated(keep='first').value_counts()
print(duplicates)

False    16444
True       235
Name: count, dtype: int64


In [28]:
#удаление явных дубликатов из датафрейма
subset_df = subset_df.drop_duplicates(keep='first')

#проверка количества строк и столбцов в полученном датафрейме
subset_df.shape

(16444, 11)

In [29]:
#вывод абсолютного и относительного количества удаленных строк из исходного датафрейма
print(f'''Абсолютное количество удаленных строк = {df.shape[0] - subset_df.shape[0]}.
Относительное количество удаленных строк = {(((df.shape[0] - subset_df.shape[0])/df.shape[0])*100):.2f}%''')

Абсолютное количество удаленных строк = 512.
Относительное количество удаленных строк = 3.02%


In [30]:
# подсчет количества удаленных строк
a, b = len(df), len(subset_df)
print(f'''Было строк в исходном датасете: {a}.
Осталось строк в датасете после обработки: {b}.
Удалено строк в датасете после обработки: {a-b}.
Процент потерь {round((a-b)/a*100, 2)}%''')

Было строк в исходном датасете: 16956.
Осталось строк в датасете после обработки: 16444.
Удалено строк в датасете после обработки: 512.
Процент потерь 3.02%


__Промежуточные выводы:__  
 - Столбец `name` был приведен к верхнему регистру для последующего выявления дубликатов. В данном столбце также были обнаружены пропуски (2), которые можно просто удалить.
 - В столбце `platform` дубликаты и пропуски обнаружены не были.
 - В столбце `year_of_release` были обнаружены 275 пропусков, которые были удалены, что не должно существенно исказить данные. 
 - В столбце `genre` были выявлены пропуски(2), удаленные в связи с их малым количеством, и неявные дубликаты, связанные с разным написанием. Для этого данные были приведены к нижнему регистру.
 - В столбцах `eu_sales` содержалось 6 пропусков и в `jp_sales` - 4 пропуска, что по условию необходимо заменить средним по жанру и по платформе. 
 - В столбцах `na_sales` и `other_sales` пропусков обнаружено не было.
 - Столбцы `critic_score` и `user_score` было обнаружено значительное количество пропущенных значений, которые оптимально было заменить значением-заглушкой "-1"  
 - Столбец `rating` был приведен к верхнему регистру, выпадающее значение 'K-A', как и остальные пропуски, были заменены в контексте задачи на 'UNKNOWN'.
 - Количество явных дубликатов - 219, удаленных предварительно из-за пропусков - 2
 - Количество строк в исходном датафрейме 16956, после нормализации данных, удаления и преобразования пропусков и явных дубликатов в датафрейме 16444. Абсолютное количество удаленных строк - 512. Относительное количество удаленных строк - 3.02%

<div style="padding: 10px; border-radius: 10px; border: 1px solid #ddd;">
  <h2 style="margin: 0; color: #333;">3. Фильтрация данных</h2>
</div>

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

Для решения задачи необходим период с 2000 по 2013 год включительно. Новый срез данных должен быть сохранен в отдельном датафрейме `df_actual`.

In [31]:
#создание датафрейма 'df_actual', содержащего данные с 2000 по 2013 год включительно
df_actual = subset_df[(subset_df['year_of_release'] >= 2000) & (subset_df['year_of_release'] <= 2013)]
df_actual.sort_values(by='year_of_release', ascending=True)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
2743,mega man x5,PS,2000.0,platform,0.30,0.21,0.20,0.05,76.0,8.9,E
6558,star trek: invasion,PS,2000.0,simulation,0.15,0.10,0.00,0.02,76.0,-1.0,E
11063,espn nba 2night,PS2,2000.0,sports,0.05,0.04,0.00,0.01,62.0,-1.0,E
6586,star wars episode i: battle for naboo,N64,2000.0,simulation,0.21,0.05,0.00,0.00,-1.0,-1.0,UNKNOWN
1726,mario tennis,GB,2000.0,sports,0.50,0.18,0.44,0.06,-1.0,-1.0,UNKNOWN
...,...,...,...,...,...,...,...,...,...,...,...
724,assassin's creed iv: black flag,XOne,2013.0,action,1.48,0.55,0.00,0.21,-1.0,7.4,M
16175,storm lover 2nd,PSP,2013.0,misc,0.00,0.00,0.02,0.00,-1.0,-1.0,UNKNOWN
727,madden nfl 25,X360,2013.0,sports,1.98,0.06,0.00,0.19,80.0,5.6,E
16162,white album 2: shiawase no mukougawa,PSV,2013.0,adventure,0.00,0.00,0.02,0.00,-1.0,-1.0,UNKNOWN


In [32]:
#вывод информации о df_actual и уникальных значений по столбцу 'year_of_release'
df_actual.info(), df_actual.year_of_release.sort_values().unique()

<class 'pandas.core.frame.DataFrame'>
Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  float64
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float32
 6   jp_sales         12781 non-null  float32
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float32(2), float64(5), object(4)
memory usage: 1.1+ MB


(None,
 array([2000., 2001., 2002., 2003., 2004., 2005., 2006., 2007., 2008.,
        2009., 2010., 2011., 2012., 2013.]))

<div style="padding: 10px; border-radius: 10px; border: 1px solid #ddd;">
  <h2 style="margin: 0; color: #333;">4. Категоризация данных</h2>
</div>

Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [33]:
#разделение игр по пользовательским оценкам с выделением категорий
#создание дополнительного столбца с категорией
#создание для игр без пользовательской оценки дополнительной категории "без оценки"
#выделение интервалов по условию задания с включением 0 и исключением правой границы
df_actual['user_score_category'] = pd.cut(
    df_actual['user_score']
    , bins=[-1, 0, 3, 8, 10]
    , labels=['без оценки', 'низкая оценка', 'средняя оценка', 'высокая оценка']
    , right=False
    , include_lowest=True
    , ordered=True
)

#включение правой границы верхнего интервала
df_actual.loc[df_actual['user_score'] == 10, 'user_score_category']  = 'высокая оценка'

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [34]:
#разделение игр по оценкам критиков с выделением категорий
#создание дополнительного столбца с категорией
#создание для игр без оценки критиков дополнительной категории "без оценки"
#выделение интервалов по условию задания с включением 0 и исключением правой границы
df_actual['critic_score_category'] = pd.cut(
    df_actual['critic_score']
    , bins=[-1, 0, 30, 80, 100]
    , labels=['без оценки', 'низкая оценка', 'средняя оценка', 'высокая оценка']
    , right=False
    , include_lowest=True
    , ordered=True
)

#включение правой границы верхнего интервала
df_actual.loc[df_actual['critic_score'] == 100, 'critic_score_category'] = 'высокая оценка'

In [35]:
#вывод датайфрейма 'df_actual' для проверки новых столбцов 
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,Wii,2006.0,sports,41.36,28.959999,3.77,8.45,76.0,8.0,E,высокая оценка,средняя оценка
2,mario kart wii,Wii,2008.0,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,Wii,2009.0,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка,высокая оценка
6,new super mario bros.,DS,2006.0,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,wii play,Wii,2006.0,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка,средняя оценка


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [36]:
#группировка данных по оценкам пользователей и количеству игр в каждой из категорий
grouped_df_users = df_actual.groupby(['user_score_category']).agg({'name':'count'})
grouped_df_users

Unnamed: 0_level_0,name
user_score_category,Unnamed: 1_level_1
без оценки,6298
низкая оценка,116
средняя оценка,4081
высокая оценка,2286


In [37]:
#группировка данных по оценкам критиков и количеству игр в каждой из категорий
grouped_df_critics = df_actual.groupby(['critic_score_category']).agg({'name':'count'})
grouped_df_critics

Unnamed: 0_level_0,name
critic_score_category,Unnamed: 1_level_1
без оценки,5612
низкая оценка,55
средняя оценка,5422
высокая оценка,1692


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [38]:
#подсчет общего количества выпущенных игр по платформам с сортировкой от большему к меньшему для распределения платформ по популярности
df_release = df_actual.groupby('platform').agg({'name':'count'}).sort_values(by='name', ascending=False).rename(columns={'name':'count_releases'})

#вывод первых семи платформ, являющихся наиболее популярными по количеству выпущенных игр
df_release.head(7)

Unnamed: 0_level_0,count_releases
platform,Unnamed: 1_level_1
PS2,2127
DS,2120
Wii,1275
PSP,1180
X360,1121
PS3,1087
GBA,811


- Топ-7 платформ по количеству игр, проданных за весь актуальный период.

In [39]:
#подсчет общих продаж игр по платформам с сортировкой от большему к меньшему для распределения платформ по популярности
df_actual['total_sales'] = df_actual['na_sales'] + df_actual['jp_sales'] + df_actual['eu_sales'] + df_actual['other_sales']
df_sales = df_actual.groupby('platform').agg({'total_sales':'sum'}).sort_values(by='total_sales', ascending=False)

#вывод первых семи платформ, являющихся наиболее популярными по продажам
df_sales.head(7)

Unnamed: 0_level_0,total_sales
platform,Unnamed: 1_level_1
PS2,1232.893782
X360,912.493827
Wii,886.109999
PS3,863.16
DS,801.862282
GBA,312.46045
PSP,289.17306


<div style="padding: 10px; border-radius: 10px; border: 1px solid #ddd;">
  <h2 style="margin: 0; color: #333;">5. Итоговый вывод</h2>
</div>

Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ и оценки игр.  
На основе датасета был создан датафрейм `df`. 

В исходном датафрейме `df`, копия которого - `subset_df` была создана для дальнейшего редактирования были преобразованы названия столбцов (приведение к snake case), некорректные типы данных, удалены и заменены строки с пропусками, выявлены и откорректированы неявные дубликаты и удалены явные дубликаты, способные глобально исказить статистику.   

---

__Изменены типы данных в столбцах:__  
 - `year_of_release`, `critic_score` - приведены к целочисленным.
 - `na_sales`, `eu_sales`, `jp_sales`, `other_sales`  - приведены к единому формату float64.
 - `user_score`, `eu_sales`, `jp_sales`- приведены к числовым (float64) с обработкой нечисловых значений (unknown, tbd).
Корректные типы упростят расчёты, агрегации и исключат ошибки при анализе.

---
__Проведена работа с пропусками и дубликатами:__
 - столбец `name` — приведён к верхнему регистру для поиска дублей, обнаружены 2 пропуска, удалены.
 - `year_of_release` — 275 пропусков удалены, влияние на выборку несущественно.
 - `genre` — 2 пропуска удалены, были неявные дубликаты из-за разного написания — столбец приведён к нижнему регистру.
 - `eu_sales` — 6 пропусков; `jp_sales` — 4 пропуска, заменены средними по жанру и платформе.
 - `critic_score`, `user_score` — много пропусков, заменены заглушкой «-1».
 - `rating` — приведён к верхнему регистру, значение `K-A` и прочие пропуски заменены на `UNKNOWN`.
 - Явных дубликатов: 219 (ещё 2 удалены ранее из-за пропусков).
 - Размер датасета: было 16 956 строк; стало 16 444. Удалено 512 строк (≈ 3,02%).


Из исходного датасета после необходимых преобразований был сформирован срез по годам с 2000 по 2013 включительно - `df_actual`, содержащий 12781 строку и 11 столбцов. 

В зависимости от пользовательского рейтинга был создан столбец `user_score_category`, содержащий категории низкая оценка - при пользовательской оценке от 0 до 3 (исключая верхнюю границу интервала), средняя оценка - от 3 до 8 (исключая верхнюю границу интервала), высокая оценка - от 8 до 10 (включительно)

В зависимости от пользовательского рейтинга был создан столбец `critic_score_category`, содержащий категории низкая оценка - при оценке критиков от 0 до 30 (исключая верхнюю границу интервала), средняя оценка - от 30 до 80 (исключая верхнюю границу интервала), высокая оценка - от 80 до 100 (включительно)

---
На основании полученного датафрейма были получены следующие данные.  
__Самыми популярными платформами по общему количеству выпущенных игр в период с 2000 по 2013 год включительно являются:__

<ul>
<li>PS2: 2127 выпущенных игр. </li>
<li>DS: 2120 выпущенных игр. </li>
<li>Wii: 1275 выпущенных игр. </li>
<li>PSP: 1180 выпущенных игр. </li>
<li>X360: 1121 выпущенных игр. </li>
<li>PS3: 1087 выпущенных игр. </li>
<li>GBA: 811 выпущенных игр. </li>
</ul>

---

__Самыми популярными платформами по общему количеству продаж в период с 2000 по 2013 год включительно являются:__
<ul>
<li>PS2: ~1232.89 миллионов проданных копий</li>
<li>X360: ~912.49 миллионов проданных копий</li>
<li>Wii: ~886.11 миллионов проданных копий</li>
<li>PS3: ~863.16 миллионов проданных копий</li>
<li>DS: ~801.86 миллионов проданных копий</li>
<li>GBA: ~312.46 миллионов проданных копий</li>
<li>PSP: ~289.17 миллионов проданных копий</li>  
</ul>

