# Анализ исторических данных о продажах игр

- Автор: Хасанов Ильмир
- Дата: 25.01.2025 (дата начала выполнения проекта)

### Цели и задачи проекта

Необходимо помочь коллегам из «Секретов Темнолесья» изучить развитие игровой индустрии

Задачи проекта:
1. Провести первичный анализ данных; 
2. Проверить их корректность;
3. Осуществить предобработку;
4. Сделать итоговый вывод.

### Описание данных

    
*Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:*
    
Name — название игры.
    
Platform — название платформы.
    
Year of Release — год выпуска игры.
    
Genre — жанр игры.
    
NA sales — продажи в Северной Америке (в миллионах проданных копий).
    
EU sales — продажи в Европе (в миллионах проданных копий).
    
JP sales — продажи в Японии (в миллионах проданных копий).
    
Other sales — продажи в других странах (в миллионах проданных копий).
    
Critic Score — оценка критиков (от 0 до 100).
    
User Score — оценка пользователей (от 0 до 10).
    
Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Цели-и-задачи-проекта" data-toc-modified-id="Цели-и-задачи-проекта-0.1"><span class="toc-item-num">0.1&nbsp;&nbsp;</span>Цели и задачи проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-0.2"><span class="toc-item-num">0.2&nbsp;&nbsp;</span>Описание данных</a></span></li></ul></li><li><span><a href="#Загрузка-данных-и-знакомство-с-ними" data-toc-modified-id="Загрузка-данных-и-знакомство-с-ними-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных и знакомство с ними</a></span></li><li><span><a href="#Проверка-ошибок-в-данных-и-их-предобработка" data-toc-modified-id="Проверка-ошибок-в-данных-и-их-предобработка-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Проверка ошибок в данных и их предобработка</a></span><ul class="toc-item"><li><span><a href="#Названия,-или-метки,-столбцов-датафрейма" data-toc-modified-id="Названия,-или-метки,-столбцов-датафрейма-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Названия, или метки, столбцов датафрейма</a></span></li><li><span><a href="#Типы-данных" data-toc-modified-id="Типы-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Типы данных</a></span></li><li><span><a href="#Наличие-пропусков-в-данных" data-toc-modified-id="Наличие-пропусков-в-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Наличие пропусков в данных</a></span></li><li><span><a href="#Явные-и-неявные-дубликаты-в-данных" data-toc-modified-id="Явные-и-неявные-дубликаты-в-данных-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Явные и неявные дубликаты в данных</a></span></li></ul></li><li><span><a href="#Фильтрация-данных" data-toc-modified-id="Фильтрация-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Фильтрация данных</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Категоризация данных</a></span></li><li><span><a href="#Итоговый-вывод" data-toc-modified-id="Итоговый-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Итоговый вывод</a></span></li></ul></div>

## Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas и убираем предупреждение при создании категоризации
import pandas as pd
pd.options.mode.chained_assignment = None

In [2]:
# Выгружаем CSV-файл в датафрейм
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [3]:
df.shape[0]

16956

In [4]:
#Выводим первые 5 строк при помощи head()
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [5]:
#Получаем краткую сводку о датафрейме с помощью info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

<font color='#777778'>Используйте ячейки типа Markdown для промежуточных выводов и расширенных комментариев к действиям с данными. </font>

 Вывод о полученных данных:
 1. Объём оперативной памяти, который занимает датафрейм - 1.4+ MB
 2. Всего 16956 строк, а диапазон индексов от 0 до 16955
 3. Всего в данных 11 столбцов
 4. 4 стобца с типом данных float64 и 7 столбцов с типом данных object(7)
 5. В данных встречаются пропуски и больше всего в столбце Critic Score
 6. Столбцы необходимо изменить и привести к snake_case

Особенности данных:
1. Данные прописаны в удобном для работы виде
2. Столбец с годом выпуска игры (Year of Release) и Critic Score стоит привести к целочисленному типу (int) данных.
3. Стоблцы EU sales, JP sales и User Score стоит привести к вещественному (float) типу данных.
4. столбцы EU sales, JP sales и User Score могут не восприниматься как числовые из-за наличия в данных столбцах стоковых значений.

---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [6]:
#Выводим на экран названия всех столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [7]:
#Создаем новые названия столбцов
#new_name_columns = ['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
#       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating']
#df.columns = new_name_columns
df = df.rename(columns={'Name': 'name', 'Platform': 'platform', 'Year of Release': 'year_of_release', 'Genre': 'genre', 
                        'NA sales': 'na_sales', 'EU sales': 'eu_sales', 'JP sales': 'jp_sales', 
                        'Other sales': 'other_sales', 'Critic Score': 'critic_score', 'User Score': 'user_score', 
                        'Rating': 'rating'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Столбцы в датафрейме приведены к snake_case.

### Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

Тип данных в столбцах 'year_of_release', 'eu_sales' и 'jp_sales' указан неправильно из-за технической ошибки.

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [8]:
df['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [9]:
df['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [10]:
df['na_sales'].unique()

array([4.136e+01, 2.908e+01, 1.568e+01, 1.561e+01, 1.127e+01, 2.320e+01,
       1.128e+01, 1.396e+01, 1.444e+01, 2.693e+01, 9.050e+00, 9.710e+00,
       9.000e+00, 8.920e+00, 1.500e+01, 9.010e+00, 7.020e+00, 9.430e+00,
       1.278e+01, 4.740e+00, 6.380e+00, 1.083e+01, 9.540e+00, 9.660e+00,
       8.410e+00, 6.060e+00, 3.430e+00, 5.510e+00, 6.850e+00, 9.040e+00,
       5.890e+00, 6.030e+00, 9.700e+00, 5.280e+00, 4.990e+00, 8.250e+00,
       8.520e+00, 5.540e+00, 6.990e+00, 6.620e+00, 5.030e+00, 5.990e+00,
       3.960e+00, 2.500e+00, 7.970e+00, 6.910e+00, 4.340e+00, 4.350e+00,
       3.010e+00, 6.160e+00, 6.760e+00, 4.020e+00, 4.890e+00, 2.960e+00,
       4.760e+00, 5.010e+00, 6.730e+00, 5.950e+00, 3.660e+00, 5.550e+00,
       7.040e+00, 6.650e+00, 3.880e+00, 5.800e+00, 4.100e+00, 5.930e+00,
       4.360e+00, 5.700e+00, 2.030e+00, 4.400e+00, 5.050e+00, 3.540e+00,
       1.120e+00, 6.820e+00, 1.750e+00, 3.740e+00, 1.060e+00, 2.790e+00,
       2.910e+00, 9.900e-01, 2.570e+00, 2.990e+00, 

In [11]:
df['year_of_release'].unique()

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

Обнаружены значения 'unknown', что говорит о необходимости преобразования их в пропуски, так как это числовой столбец. Лучшим решением будет применение метода to_numeric().

Для преобразования строковых значений (unknown или другие) в числовые будем использовать метод to_numeric().


In [12]:
#Применяем метод to_numeric() для обработки строковых значений в числовых столбцах.
for column in ['eu_sales', 'jp_sales', 'na_sales']:
    df[column] = pd.to_numeric(df[column], errors = 'coerce')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


При применении метода to_numeric() значение параметра errors принято равным 'coerce'(такой аргумент заменит на NaN все данные, которые не удалось преобразовать в числа).

### Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [13]:
#Количество пропущенных строк во всем датафрейме.
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

In [14]:
#Доля пропущенных значений
(df.isna().sum() / len(df)).sort_values(ascending=False)

critic_score       0.513918
rating             0.405225
user_score         0.401274
year_of_release    0.016218
eu_sales           0.000354
jp_sales           0.000236
name               0.000118
genre              0.000118
platform           0.000000
na_sales           0.000000
other_sales        0.000000
dtype: float64

- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.

**Посчитано количество пропусков в каждом столбце датафрейма. Пропуски характерны для столбцов critic_score, user_score и rating.** 

Пропуски в столбце **critic_score** могут быть связаны с недостаточной известностю игры (игра может быть инди-проектом или малобюджетной, что приводит к тому, что она не попадает в поле зрения крупных игровых изданий и критиков) или отсутствием интереса (если игра не вызывает интереса у критиков или не соответствует их ожиданиям, они могут не считать нужным её оценивать). 

Пропуски в столбце **user_score** могут быть связаны с отсутсвием платформы для отзывов или низким количеством игроков. 

Отсутсвие данных в стобце **rating** могут быть связаны с неофициальным релизом (игра может быть выпущена без официального издателя) или игра не планируется к распространению в США и разработчики могут не считать необходимым получать рейтинг ESRB.

У игры может отсутствовать указание года релиза **year_of_release** если игра не была завершена или выпущена в разных регионах (может возникнуть путаница с указанием года релиза).

Также имеется 2 пропуска в столбце с названиями игр (столбец **name**). Возможно, произошла техническая ошибка или у данных игр имеется проблема с лицензированием (возникли юридические проблемы с названием).

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

Пропуски в столбце **name** и **genre** никак не влияют на итоговый результат проводимого исследования и их можно удалить.

Пропуски в столбце **year_of_release** важны для проведения исследования, так как нас интересует период с 2000 по 2013 год включительно. Однако пропусков в данном столбце очень мало и их можно удалить.

Замена пропусков в eu_sales и jp_sales будет проводится по среднему значению с учетом платформы и года издания.


In [15]:
#Количество строк до удаления строк с пропусками в столбцах 'year_of_release', 'name'
df.shape[0]

16956

In [16]:
df_edited = df.dropna(subset=['year_of_release', 'name'])
df_edited['year_of_release'] = df_edited['year_of_release'].astype('int16')
df_edited.shape[0]

16679

In [17]:
#Замена пропусков в столбце 'eu_sales'
def mean_group(x):
    if pd.isna(x['eu_sales']):
        group = df_edited[(df_edited['platform'] == x['platform']) & 
                   (df_edited['year_of_release'] == x['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return x['eu_sales']

df_edited['eu_sales'] = df_edited.apply(mean_group, axis=1)

In [18]:
#Замена пропусков в столбце 'jp_sales'
def mean_group_2(x):
    if pd.isna(x['jp_sales']):
        group = df_edited[(df_edited['platform'] == x['platform']) & 
                   (df_edited['year_of_release'] == x['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return x['jp_sales']

df_edited['jp_sales'] = df_edited.apply(mean_group, axis=1)

In [19]:
#Количество пропусков
df_edited.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8594
user_score         6705
rating             6778
dtype: int64

Необходимо также замнеить пропуски в столбцах critic_score, user_score и rating

In [20]:
#Замена пропущенных значений на "Unknown"
df_edited['rating'] = df_edited['rating'].fillna("Unknown")
df_edited['critic_score'] = df_edited['critic_score'].fillna(-1)
df_edited['user_score'] = df_edited['user_score'].fillna(-1)

### Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [21]:
#Вывод всех значений в столбце, чтобы проверить наличие неявных дубликатов.
df_edited

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,28.96,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,3.58,0.77,-1.0,-1,Unknown
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,12.76,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,10.93,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,8.89,1.00,-1.0,-1,Unknown
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.00,0.00,-1.0,-1,Unknown
16952,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.01,0.00,-1.0,-1,Unknown
16953,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.00,0.00,-1.0,-1,Unknown
16954,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,-1.0,-1,Unknown


In [22]:
#Всего строк
for column in ['critic_score', 'user_score']:
    df_edited[column] = pd.to_numeric(df_edited[column], errors = 'coerce')

In [23]:
#Количество уникальных строк в столбце name
df_edited['name'].nunique()
df_edited['name'] = df_edited['name'].str.lower()
df_edited['name'].unique()

array(['wii sports', 'super mario bros.', 'mario kart wii', ...,
       'woody woodpecker in crazy castle 5', 'lma manager 2007',
       'haitaka no psychedelica'], dtype=object)

In [24]:
#Количество уникальных строк в столбце genre
df_edited['genre'].nunique()
df_edited['genre'] = df_edited['genre'].str.lower()
df_edited['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [25]:
#Количество уникальных строк в столбце platform
df_edited['platform'].nunique()
df_edited['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [26]:
#Количество уникальных строк в столбце year_of_release
df_edited['year_of_release'].nunique()

37

In [27]:
#Уникальные значения в столбце 'rating'
df_edited['rating'].unique()

array(['E', 'Unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [28]:
#Проводим замену устаревшего рейтинга
df_edited['rating'] = df_edited['rating'].str.replace('K-A', 'E')
df_edited['rating'].unique()

array(['E', 'Unknown', 'M', 'T', 'E10+', 'AO', 'EC', 'RP'], dtype=object)

In [29]:
#Количество дубликатов
df_edited.duplicated().sum()

235

In [30]:
#Сортировка значений и создание датафрейма без дубликатов
df_sorted = df_edited.sort_values(by=list(df.columns))
df_no_duplicates = df_sorted.drop_duplicates()

In [31]:
#Количество дубликатов в новом датафрейме
df_no_duplicates.duplicated().sum()

0

Неявные дубликаты в столбцах name и genre были устранены с помощью приведения к нижнему регистру.

Всего обнаружено и устранено 235 явных дубликатов.


In [32]:
#Количество удаленных строк.
count = df.shape[0] - df_edited.shape[0] + df_edited.duplicated().sum()
count

512

In [33]:
#процент от разницы
procent = (count/df.shape[0]) * 100
round(procent, 2)

3.02

При удалении пропусков будет потеряно всего 3.02 процента данных, что не так много.

---

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [34]:
#Создание нового датафрейма с данными за период с 2000 по 2013 включительно
df_actual = df_no_duplicates[(df_no_duplicates['year_of_release'] >= 2000) & (df_no_duplicates['year_of_release'] <= 2013)]
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 3394 to 9260
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int16  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       10507 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.1+ MB


In [35]:
df_actual.groupby('year_of_release')['name'].count()

year_of_release
2000     350
2001     482
2002     829
2003     775
2004     762
2005     939
2006    1006
2007    1197
2008    1427
2009    1426
2010    1255
2011    1136
2012     653
2013     544
Name: name, dtype: int64

С 2000 по 2008 год наблюдается устойчивый рост продаж игр. Это может указывать на растущий интерес к видеоиграм, увеличение числа игроков и расширение рынка.
В 2008 году продажи достигают максимума (1427 единиц). Это может быть связано с выходом популярных игр, улучшением технологий и увеличением доступности игровых платформ.
После 2008 года наблюдается резкое снижение продаж, особенно в 2012 и 2013 годах. Возможно, рынок достиг своего пика, и количество новых игроков стало уменьшаться.

---

## Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [36]:
#Категоризация данных и создание нового столбца
#df_actual['category_user_rating'] = pd.cut(df_actual['user_score'], bins=[0, 3, 8, 10], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)
def category_user_rating(score):
    if pd.isna(score):
        return 'без оценки'
    elif score < 3:
        return 'низкая оценка'
    elif score < 8:
        return 'средняя оценка'
    elif score < 10:
        return 'высокая оценка'
    
df_actual['category_user_rating'] = df_actual['user_score'].apply(category_user_rating)

In [37]:
df_actual['category_user_rating']

3394      низкая оценка
3906      низкая оценка
2478     средняя оценка
8460      низкая оценка
7182      низкая оценка
              ...      
7233         без оценки
6970     средняя оценка
15739     низкая оценка
13138     низкая оценка
9260      низкая оценка
Name: category_user_rating, Length: 12781, dtype: object

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [38]:
#Категоризация данных и создание нового столбца
#df_actual['category_critic_score'] = pd.cut(df_actual['critic_score'], bins=[0, 30, 80, 100], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)
def category_critic_score(score):
    if pd.isna(score):
        return 'без оценки'
    elif score < 30:
        return 'низкая оценка'
    elif score < 88:
        return 'средняя оценка'
    elif score < 100:
        return 'высокая оценка'
    
df_actual['category_critic_score'] = df_actual['critic_score'].apply(category_critic_score)

In [39]:
df_actual['category_critic_score']

3394      низкая оценка
3906      низкая оценка
2478     средняя оценка
8460      низкая оценка
7182      низкая оценка
              ...      
7233      низкая оценка
6970     средняя оценка
15739     низкая оценка
13138     низкая оценка
9260      низкая оценка
Name: category_critic_score, Length: 12781, dtype: object

- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [40]:
#Группировка по столбцу 'category_user_rating' и подсчет количества игр
df_actual.groupby('category_user_rating')['name'].count()

category_user_rating
без оценки        2274
высокая оценка    2286
низкая оценка     4140
средняя оценка    4081
Name: name, dtype: int64

In [41]:
#Группировка по столбцу 'category_critic_score' и подсчет количества игр
df_actual.groupby('category_critic_score')['name'].count()

category_critic_score
высокая оценка     460
низкая оценка     5667
средняя оценка    6654
Name: name, dtype: int64

In [42]:
#Группировка по столбцу 'genre' и подсчет количества игр
df_actual.groupby('genre')['name'].count().sort_values(ascending=False)

genre
action          2460
sports          1818
misc            1484
role-playing    1079
adventure       1009
shooter         1001
racing           966
simulation       724
platform         682
fighting         580
strategy         513
puzzle           465
Name: name, dtype: int64

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [43]:
df_actual.groupby('platform')['name'].count().sort_values(ascending=False).head(7)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

---

## Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Проведен анализ развития игровой индустрии с 2000 по 2013 год. В качестве исходных данных использована информация о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.

Выполнена проверка ошибок в данных и их предобработка. Названия столбцов приведены к snake case. Данные преобразованы к необходимому и оптимальному типу. Пропуски в столбце name и year_of_release были признаны несущетсвенными и удалены. Пропуски в стобцах по продажам eu_sales и jp_sales заполнены средним значением у учетом платформы и года релиза. Пропуски в столбцах по оценкам были заменены на значение "-1".
Неявные дубликаты в столбцах name и genre были устранены с помощью приведения к нижнему регистру. Всего обнаружено и устранено 235 явных дубликатов.

In [44]:
##Обновлённое описание полей итогового датафрейма. 
df_actual.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating',
       'category_user_rating', 'category_critic_score'],
      dtype='object')

С 2000 по 2008 год наблюдается устойчивый рост продаж игр. Это может указывать на растущий интерес к видеоиграм, увеличение числа игроков и расширение рынка.
В 2008 году продажи достигают максимума (1427 единиц). Это может быть связано с выходом популярных игр, улучшением технологий и увеличением доступности игровых платформ.
После 2008 года наблюдается резкое снижение продаж, особенно в 2012 и 2013 годах. Возможно, рынок достиг своего пика, и количество новых игроков стало уменьшаться.

Создано 2 новых столбца category_user_rating и category_critic_score с категоризацией по оценкам пользователей и оценкам критиков соответственно.
В основном игры получают средние оценки поьзователей и критиков.
Если в статье планируется делать акцент на играх жанра RPG, то стоит отметить, что игры подобного жанра занимают 4 место по количеству.

Топ-7 платформ по количеству игр за рассматриваемый период выглядит так:
1. PS2 - 2127
2. DS - 2120
3. Wii - 1275
4. PSP - 1180
5. X360 - 1121
6. PS3 - 1087
7. GBA - 811

Лидирующую позицию занимает платформа PS2. 