# Развитии индустрии игр в начале XXI века (с 2000 по 2013 год).

- Автор: coatiii
- Дата: 17.04.2025

### Цели и задачи проекта

<font color='#777778'>**Цель:** Изучение развития игровой индустрии с 2000 по 2013 год, в рамках подготовки статьи командой «Секреты Темнолесья».
    
**Задачи:** Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.</font>

### Описание данных

<font color='#777778'>Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:

- Name — название игры.
    
- Platform — название платформы.
    
- Year of Release — год выпуска игры.
    
- Genre — жанр игры.
    
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
    
- EU sales — продажи в Европе (в миллионах проданных копий).
    
- JP sales — продажи в Японии (в миллионах проданных копий).
    
- Other sales — продажи в других странах (в миллионах проданных копий).
    
- Critic Score — оценка критиков (от 0 до 100).
    
- User Score — оценка пользователей (от 0 до 10).
    
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.
</font>

### Содержимое проекта

<font color='#777778'>
 
1.Загрузка и знакомство с данными.
    
2.Проверка ошибок в данных и их предобработка.
    
3.Фильтрация данных.
    
4.Категоризация данных.
    
5.Вывод.

</font>

---

## Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Загрузим необходимые библиотеки для анализа данных и данные из датасета `datasets/new_games.csv.`.
new_game = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
new_game.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
new_game.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

Датасет /datasets/new_games.csv содержит 11 столбцов и 16956 строк, в которыз представлена информация об играх и их продажах.


Изучим типы данных и их корректность:
- **Булевые значения (bool).** Данные булевого типа в столбцах отсутствуют.
- **Целочисленные значения (int64).** Данные целочисленного типа в столбцах отсутствуют.

- **Числовые значения с плавающей запятой (float64).** Четыре столбца представлены типом float64: 'Year of Release', 'NA sales', 'Other sales', 'Critic Score'. 

Некорректен тип данных для столбца 'Year of Release', лучше применить тип 'int16' так как год должен быть представлен целым числом  и такая информация не занимает много памяти. Для остальных столбцов тип данных корректен.

- **Строковые данные (object).** Семь столбцов представлены типом object: 'Name', 'Platform', 'Genre', 'EU sales', 'JP sales', 'User Score', 'Rating'. 

Для столбцов 'EU sales', 'JP sales', 'User Score', лучшим вариантом будет выбрать тип данных 'float32' так как информация о продажах, рейтине, оценках пользователей может быть дробной. 

Для столбцов 'Platform', 'Genre' и 'Rating' стоит выбрать тип 'category', платформа, жанр игры и категория игры  - это все категориальные значения, так мы улучшим производительность и оптимизируем память.

После анализа типов данных мы видим, что часть данных представлена некорректными типами. Там, где информация может быть дробной - применим тип 'float32', для категориальной информации (жанр игры, платформа, категория) - используем тип 'category', для года релиза игры - 'int16'.

---

## Проверка ошибок в данных и их предобработка

###  Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.

In [5]:
# Выводим количсетво пропущенных строк в датафрейме
print(new_game.isna().sum())

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64


In [6]:
# Подсчитываем процент строк с пропусками

print(new_game.isna().sum() / len(new_game) * 100)

Name                0.011795
Platform            0.000000
Year of Release     1.621845
Genre               0.011795
NA sales            0.000000
EU sales            0.000000
JP sales            0.000000
Other sales         0.000000
Critic Score       51.391838
User Score         40.127389
Rating             40.522529
dtype: float64


Всего строк: 16 956.

В данных наблюдаются пропуски в следующих столбцах: 
- 'year_of_release': в 275 строках (1.62%) отсутствуют данные о годе релиза игры. Возможно, этот ряд игр так и не был выпущен, либо же данные были некорректо введены и потерялись. Таким строкам можно присвоить "Игра не выпущена" 

- 'user_score': в 6804 строках - 40.1% - такой процент игр не был оценен пользователями. 

- 'Rating': 6871 - 40.5% игр остались без рейтинга, в данном случае можно заполнить пропуски и присвоить им: "Без рейтинга" 

- 'critic_score': в 8714 строках - 51.4% - столько процентов игр осталось без оценки критиков. 

В столбцах 'user_score' и 'critic_score' пропуски можно заменить на индикатор (-1), так как отсутствие оценки в данном случае - нужная и важная инфоормация для анализа.

Большой процент пропусков в столбцах с данными об оценках и рейтингом возможен по следующим причинам: 

- игра еще не успела набрать популярность
- у игры маленькая целевая аудитория игроков
-  потеря данных

### Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [7]:
# Выведем названия всех столбцов:
print(new_game.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [8]:
# Преобразуем названия столбцов к snake_case:
new_game.columns = new_game.columns.str.lower().str.replace(' ', '_')

In [9]:
print(new_game.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.
- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.


In [10]:
new_game['year_of_release'] = pd.to_numeric(new_game['year_of_release'], downcast = 'integer', errors='coerce')
#Заменим пропуски столбца'year_of_release' на -1, чтобы в дальнейшем не возникло проблем с изменением типа данных:
new_game['year_of_release'] = new_game['year_of_release'].fillna(-1)
#Поменяем тип данных столбца'year_of_release' на integer:
new_game['year_of_release'] = new_game['year_of_release'].astype('int16')

In [11]:
#Поменяем тип данных столбца 'eu_sales' на float:
new_game['eu_sales'] = pd.to_numeric(new_game['eu_sales'], downcast = 'float', errors='coerce')
print(new_game['eu_sales'].unique())

[2.896e+01 3.580e+00 1.276e+01 1.093e+01 8.890e+00 2.260e+00 9.140e+00
 9.180e+00 6.940e+00 6.300e-01 1.095e+01 7.470e+00 6.180e+00 8.030e+00
 4.890e+00 8.490e+00 9.090e+00 4.000e-01 3.750e+00 9.200e+00 4.460e+00
 2.710e+00 3.440e+00 5.140e+00 5.490e+00 3.900e+00 5.350e+00 3.170e+00
 5.090e+00 4.240e+00 5.040e+00 5.860e+00 3.680e+00 4.190e+00 5.730e+00
 3.590e+00 4.510e+00 2.550e+00 4.020e+00 4.370e+00 6.310e+00 3.450e+00
 2.810e+00 2.850e+00 3.490e+00 1.000e-02 3.350e+00 2.040e+00 3.070e+00
 3.870e+00 3.000e+00 4.820e+00 3.640e+00 2.150e+00 3.690e+00 2.650e+00
 2.560e+00 3.110e+00 3.140e+00 1.940e+00 1.950e+00 2.470e+00 2.280e+00
 3.420e+00 3.630e+00 2.360e+00 1.710e+00 1.850e+00 2.790e+00 1.240e+00
 6.120e+00 1.530e+00 3.470e+00 2.240e+00 5.010e+00 2.010e+00 1.720e+00
 2.070e+00 6.420e+00 3.860e+00 4.500e-01 3.480e+00 1.890e+00 5.750e+00
 2.170e+00 1.370e+00 2.350e+00 1.180e+00 2.110e+00 1.880e+00 2.830e+00
 2.990e+00 2.890e+00 3.270e+00 2.220e+00 2.140e+00 1.450e+00 1.750e+00
 1.040

In [49]:
#Выведем уникальные значения столбца 'na_sales':
print(new_game['na_sales'].unique())

[4.136e+01 2.908e+01 1.568e+01 1.561e+01 1.127e+01 2.320e+01 1.128e+01
 1.396e+01 1.444e+01 2.693e+01 9.050e+00 9.710e+00 9.000e+00 8.920e+00
 1.500e+01 9.010e+00 7.020e+00 9.430e+00 1.278e+01 4.740e+00 6.380e+00
 1.083e+01 9.540e+00 9.660e+00 8.410e+00 6.060e+00 3.430e+00 5.510e+00
 6.850e+00 9.040e+00 5.890e+00 6.030e+00 9.700e+00 5.280e+00 4.990e+00
 8.250e+00 8.520e+00 5.540e+00 6.990e+00 6.620e+00 5.030e+00 5.990e+00
 3.960e+00 2.500e+00 7.970e+00 6.910e+00 4.340e+00 4.350e+00 3.010e+00
 6.160e+00 6.760e+00 4.020e+00 4.890e+00 2.960e+00 4.760e+00 5.010e+00
 6.730e+00 5.950e+00 3.660e+00 5.550e+00 7.040e+00 6.650e+00 3.880e+00
 5.800e+00 4.100e+00 5.930e+00 4.360e+00 5.700e+00 2.030e+00 4.400e+00
 5.050e+00 3.540e+00 1.120e+00 6.820e+00 1.750e+00 3.740e+00 1.060e+00
 2.790e+00 2.910e+00 9.900e-01 2.570e+00 2.990e+00 2.280e+00 7.280e+00
 2.760e+00 2.900e+00 2.810e+00 6.600e-01 3.780e+00 3.270e+00 3.560e+00
 5.390e+00 4.590e+00 4.810e+00 4.460e+00 3.480e+00 2.850e+00 2.530e+00
 2.980

In [12]:
#Поменяем тип данных столбца 'jp_sales' на float:
new_game['jp_sales'] = pd.to_numeric(new_game['jp_sales'], downcast = 'float', errors='coerce')
print(new_game['jp_sales'].unique())

[3.770e+00 6.810e+00 3.790e+00 3.280e+00 1.022e+01 4.220e+00 6.500e+00
 2.930e+00 4.700e+00 2.800e-01 1.930e+00 4.130e+00 7.200e+00 3.600e+00
 2.400e-01 2.530e+00 9.800e-01 4.100e-01 3.540e+00 4.160e+00 6.040e+00
 4.180e+00 3.840e+00 6.000e-02 4.700e-01 5.380e+00 5.320e+00 5.650e+00
 1.870e+00 1.300e-01 3.120e+00 3.600e-01 1.100e-01 4.350e+00 6.500e-01
 7.000e-02 8.000e-02 4.900e-01 3.000e-01 2.660e+00 2.690e+00 4.800e-01
 3.800e-01 5.330e+00 1.910e+00 3.960e+00 3.100e+00 1.100e+00 1.200e+00
 1.400e-01 2.540e+00 2.140e+00 8.100e-01 2.120e+00 4.400e-01 3.150e+00
 1.250e+00 4.000e-02 0.000e+00 2.470e+00 2.230e+00 1.690e+00 1.000e-02
 3.000e+00 2.000e-02 4.390e+00 1.980e+00 1.000e-01 3.810e+00 5.000e-02
 2.490e+00 1.580e+00 3.140e+00 2.730e+00 6.600e-01 2.200e-01 3.630e+00
 1.450e+00 1.310e+00 2.430e+00 7.000e-01 3.500e-01 1.400e+00 6.000e-01
 2.260e+00 1.420e+00 1.280e+00 1.390e+00 8.700e-01 1.700e-01 9.400e-01
 1.900e-01 2.100e-01 1.600e+00 1.600e-01 1.030e+00 2.500e-01 2.060e+00
 1.490

In [48]:
#Выведем уникальные значения столбца 'other_sales':
print(new_game['other_sales'].unique())

[8.450e+00 7.700e-01 3.290e+00 2.950e+00 1.000e+00 5.800e-01 2.880e+00
 2.840e+00 2.240e+00 4.700e-01 2.740e+00 1.900e+00 7.100e-01 2.150e+00
 1.690e+00 1.770e+00 3.960e+00 1.057e+01 5.500e-01 2.040e+00 1.360e+00
 4.200e-01 4.600e-01 1.410e+00 1.780e+00 5.000e-01 1.180e+00 8.000e-01
 1.160e+00 1.320e+00 5.900e-01 2.380e+00 1.130e+00 7.800e-01 2.420e+00
 1.120e+00 1.280e+00 1.570e+00 1.300e+00 1.010e+00 9.100e-01 1.790e+00
 1.970e+00 8.600e-01 1.210e+00 2.300e-01 7.600e-01 7.400e-01 7.530e+00
 2.900e-01 1.030e+00 5.200e-01 2.110e+00 1.600e+00 1.610e+00 3.500e-01
 9.700e-01 1.060e+00 6.300e-01 1.500e-01 7.900e-01 9.600e-01 1.250e+00
 9.000e-01 8.100e-01 3.900e-01 6.800e-01 8.500e-01 1.800e-01 8.000e-02
 6.700e-01 7.000e-01 4.100e-01 3.300e-01 6.000e-01 5.400e-01 1.730e+00
 1.230e+00 1.600e-01 1.110e+00 3.100e-01 4.800e-01 6.200e-01 1.900e-01
 6.900e-01 1.020e+00 7.300e-01 1.080e+00 4.500e-01 2.800e-01 5.100e-01
 2.200e-01 1.090e+00 9.900e-01 3.000e-01 6.400e-01 6.600e-01 9.800e-01
 1.390

In [44]:
#Поменяем тип данных столбца 'user_score' на float:
new_game['user_score'] = pd.to_numeric(new_game['user_score'], downcast = 'float', errors='coerce')
print(new_game['user_score'].unique())

[ 8.  -1.   8.3  8.5  6.6  8.4  8.6  7.7  6.3  7.4  8.2  9.   7.9  8.1
  8.7  7.1  3.4  5.3  4.8  3.2  8.9  6.4  7.8  7.5  2.6  7.2  9.2  7.
  7.3  4.3  7.6  5.7  5.   9.1  6.5  8.8  6.9  9.4  6.8  6.1  6.7  5.4
  4.   4.9  4.5  9.3  6.2  4.2  6.   3.7  4.1  5.8  5.6  5.5  4.4  4.6
  5.9  3.9  3.1  2.9  5.2  3.3  4.7  5.1  3.5  2.5  1.9  3.   2.7  2.2
  2.   9.5  2.1  3.6  2.8  1.8  3.8  0.   1.6  9.6  2.4  1.7  1.1  0.3
  1.5  0.7  1.2  2.3  0.5  1.3  0.2  0.6  1.4  0.9  1.   9.7]


In [14]:
#Поменяем тип данных столбца 'platform' на category:
new_game['platform'] = new_game['platform'].astype('category')

In [15]:
#Поменяем тип данных столбца 'genre' на category:
new_game['genre'] = new_game['genre'].astype('category')

In [18]:
#Заменим пропуски в 'rating' на индикаторы (-1):
new_game['rating'] = new_game['rating'].fillna(-1) 
#Поменяем тип данных столбца 'rating' на category:
new_game['rating'] = new_game['rating'].astype('category')

In [50]:
print(new_game.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16956 non-null  category
 2   year_of_release  16956 non-null  int16   
 3   genre            16954 non-null  object  
 4   na_sales         16956 non-null  float32 
 5   eu_sales         16950 non-null  float32 
 6   jp_sales         16952 non-null  float32 
 7   other_sales      16956 non-null  float32 
 8   critic_score     16956 non-null  float64 
 9   user_score       16956 non-null  float32 
 10  rating           16956 non-null  category
dtypes: category(2), float32(5), float64(1), int16(1), object(2)
memory usage: 796.6+ KB
None


- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [20]:
#Заменим индикаторами пропуски в столбцах с оценками  'critic score' и 'user score':
new_game['critic_score'] = new_game['critic_score'].fillna(-1) 
new_game['user_score'] = new_game['user_score'].fillna(-1) 

###  Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

Пройдемся по всем столбцам с типами данных 'category' и 'object'(это столбцы: 'name', 'platform', 'genre', 'rating') в целях поиска дубликатов.

In [21]:
#Посмотрим уникальные значения и их количество по столбцу 'name':
uniq_name = new_game['name'].unique()
cnt_uniq_name = new_game['name'].nunique()
all_length = len(new_game)
print(f'Уникальные названия игр: {uniq_name}, их количество: {cnt_uniq_name} Всего строк: {all_length}')

Уникальные названия игр: ['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica'], их количество: 11559 Всего строк: 16956


In [22]:
#Посмотрим уникальные значения и их количество по столбцу 'platform':
uniq_platf = new_game['platform'].unique()
cnt_uniq_platf = new_game['platform'].nunique()
print(new_game['platform'].value_counts())
print(f'Уникальные названия платформ: {uniq_platf}, их количество: {cnt_uniq_platf}')


PS2     2189
DS      2177
PS3     1355
Wii     1340
X360    1281
PSP     1229
PS      1215
PC       990
XB       839
GBA      837
GC       563
3DS      530
PSV      435
PS4      395
N64      323
XOne     251
SNES     241
SAT      174
WiiU     147
2600     135
NES      100
GB        98
DC        52
GEN       29
NG        12
SCD        6
WS         6
3DO        3
TG16       2
PCFX       1
GG         1
Name: platform, dtype: int64
Уникальные названия платформ: ['Wii', 'NES', 'GB', 'DS', 'X360', ..., 'NG', 'TG16', '3DO', 'GG', 'PCFX']
Length: 31
Categories (31, object): ['Wii', 'NES', 'GB', 'DS', ..., 'TG16', '3DO', 'GG', 'PCFX'], их количество: 31


In [23]:
#Посмотрим уникальные значения и их количество по столбцу  'genre':
uniq_genr = new_game['genre'].unique()
cnt_uniq_genr = new_game['genre'].nunique()
print(new_game['genre'].value_counts())
print(f'Уникальные названия жанров: {uniq_genr}, их количество: {cnt_uniq_genr}')

Action          3405
Sports          2367
Misc            1769
Role-Playing    1510
Shooter         1341
Adventure       1319
Racing          1267
Platform         901
Simulation       882
Fighting         856
Strategy         690
Puzzle           588
ACTION            13
SPORTS             8
ROLE-PLAYING       6
FIGHTING           6
RACING             6
SHOOTER            5
ADVENTURE          4
PLATFORM           3
MISC               3
PUZZLE             2
SIMULATION         2
STRATEGY           1
Name: genre, dtype: int64
Уникальные названия жанров: ['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', ..., 'PLATFORM', 'ADVENTURE', 'SIMULATION', 'PUZZLE', 'STRATEGY']
Length: 25
Categories (24, object): ['Sports', 'Platform', 'Racing', 'Role-Playing', ..., 'ADVENTURE', 'SIMULATION', 'PUZZLE', 'STRATEGY'], их количество: 24


В столбце 'genre' наблюдаются скрытые дубликаты: 12 дубликатов названия жанров в верхнем регистре, позже мы от них избавимся путем приведения стобца к нижнему регистру.

In [24]:
#Посмотрим уникальные значения и их количество по столбцу  'rating':
uniq_rating = new_game['rating'].unique()
cnt_uniq_rating = new_game['rating'].nunique()
print(new_game['rating'].value_counts())
print(f'Уникальные названия рейтингов: {uniq_rating}, их количество: {cnt_uniq_rating}')

-1      6871
E       4037
T       3005
M       1587
E10+    1441
EC         8
K-A        3
RP         3
AO         1
Name: rating, dtype: int64
Уникальные названия рейтингов: ['E', -1, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']
Categories (9, object): ['E', -1, 'M', 'T', ..., 'K-A', 'AO', 'EC', 'RP'], их количество: 9


По результатам обработки столбца по рейтингу было обнаружено некорректное в нашем срезе времени имя столбца: 'K-A' со значением 3.
Рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию:

- RP (Rating Pending)
- EC (Early Childhood)— игры, ориентированные на дошкольную аудиторию. Принят в 1994 году и действовал до 2018 года.
- E (Everyone) — игры для всех возрастов. До 1998 года рейтинг был известен как Kids to Adults (K-A). 
- E10+ (Everyone 10 and older) — игры для людей от 10 лет и старше. 
- T (Teen) — игры для людей от 13 лет и старше. 
- M (Mature) — игры для лиц от 17 лет и старше.
- AO (Adults Only)— игры для людей от 18 лет и старше.

In [25]:
#Приведем все значения столбца 'genre' к нижнему регистру:
new_game['genre'] = new_game['genre'].str.lower()

In [26]:
#Проверим информацию об уникальных значениях в столбце 'genre':
uniq_genr = new_game['genre'].unique()
cnt_uniq_genr = new_game['genre'].nunique()
print(new_game['genre'].value_counts())
print(f'Уникальные названия жанров: {uniq_genr}, их количество: {cnt_uniq_genr}')

action          3418
sports          2375
misc            1772
role-playing    1516
shooter         1346
adventure       1323
racing          1273
platform         904
simulation       884
fighting         862
strategy         691
puzzle           590
Name: genre, dtype: int64
Уникальные названия жанров: ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' nan], их количество: 12


Теперь в столбце 'genre' 12 уникальных названий жанров вместо 24. Мы избавились от неявных дубликатов.

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [27]:
#Проверим наличие явных дубликатов в столбце 'name', посчитаем их количество. Также найдем уникальное количество строк:
print(new_game.duplicated(subset = ['name']).sum())
print(new_game['name'].nunique())

5396
11559


In [28]:
#В столбце с названиями игр имеются явные дубликаты, удалим их:
display(new_game.drop_duplicates(subset = ['name']))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,sports,41.36,28.959999,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,platform,29.08,3.580000,6.81,0.77,-1.0,-1.0,-1
2,Mario Kart Wii,Wii,2008,racing,15.68,12.760000,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,sports,15.61,10.930000,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.890000,10.22,1.00,-1.0,-1.0,-1
...,...,...,...,...,...,...,...,...,...,...,...
16946,15 Days,PC,2009,adventure,0.00,0.010000,0.00,0.00,63.0,5.8,-1
16948,Aiyoku no Eustia,PSV,2014,misc,0.00,0.000000,0.01,0.00,-1.0,-1.0,-1
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.000000,0.00,0.00,-1.0,-1.0,-1
16952,LMA Manager 2007,X360,2006,sports,0.00,0.010000,0.00,0.00,-1.0,-1.0,-1


- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

Дубликаты:
- В столбце 'name' - 5396 явных дубликатов, от них мы избавились путем удаления
- В столбце 'genre' - 12 неявных дубликатов, от этих дубликатов мы избавились приведя к нижнему регистру содержимое столбца


- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

In [29]:
dubl_name = (new_game.duplicated(subset = ['name']).sum())
dubl_genr = (cnt_uniq_genr)

share_dubl_name = (dubl_name/all_length)*100
share_dubl_genr = (dubl_genr/all_length)*100

print(f'Количество удаленных строк в столбце \'name\': абсолютное значение:{dubl_name}, относительное значение: {share_dubl_name}')
print(f'Количество удаленных строк в столбце \'genre\': абсолютное значение:{dubl_genr}, относительное значение: {share_dubl_genr}')

Количество удаленных строк в столбце 'name': абсолютное значение:5396, относительное значение: 31.82354328851144
Количество удаленных строк в столбце 'genre': абсолютное значение:12, относительное значение: 0.07077140835102619


- После проведения предобработки данных напишите общий промежуточный вывод.

В результате предобработки данных:
- Преобразовали названия столбцов к snake_case, привели к нижнему регистру
- Посчитали абсолютные и относительные значения пропущенных значений в столбцах
- Избавились от пропусков в стобцах: 'year_of_release', 'critic score' и 'user score', 'rating'
   - В столбце 'rating' без категории(0) - 6871 игры: 40% игр не имеют рейтинга от организации ESRB.
   - В столбце 'year_of_release' - 275 игр не имеют информации о годе релиза -  возможно еще не вышли.
   - Около 50% игр не были оценены критиками.
   - Около 40% игр не были оценены пользователями.
- Поменяли тип данных на более корректный в столбцах: 
    - 'year_of_release' на integer,
    - 'eu_sales', 'jp_sales', 'user_score' на float,
    - 'platform', 'rating', 'genre' на category.
    
- Обнаружили и посчитали неявные и явные дубликаты в столбцах:
   - В столбце 'name' - 5396 явных дубликатов, от них мы избавились путем удаления, процент удаленных строк составил 31,8%
   - В столбце 'genre' - 12 неявных дубликатов, от этих дубликатов мы избавились приведя к нижнему регистру содержимое столбца, процент удаленных строк составил 0,07%


   

---

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [31]:
df_actual = new_game[(new_game['year_of_release']>= 2000) & (new_game['year_of_release']<= 2013)]

---

## Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [40]:
df_actual.loc[:,'score_group_users'] = pd.cut(df_actual['user_score'], right=False, bins = [0, 3, 8, 10.01], labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'])

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [41]:
df_actual.loc[:,'score_group_crit'] = pd.cut(df_actual['critic_score'], right=False, bins = [0, 30, 80, 100.01], labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'])

- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [42]:
print(df_actual.groupby('score_group_users')['name'].count())
print(df_actual.groupby('score_group_crit')['name'].count())

score_group_users
низкая оценка      117
средняя оценка    4148
высокая оценка    2307
Name: name, dtype: int64
score_group_crit
низкая оценка       55
средняя оценка    5500
высокая оценка    1712
Name: name, dtype: int64


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [43]:
top_7_platf = (df_actual.groupby('platform', as_index=False)['name'].count().sort_values(by = 'name', ascending=False).head(7))
print(top_7_platf)


#df_actual.loc[:,'cnt_games_by_platf'] = (df_actual.groupby('platform')['name'].count())
#top = df_actual.sort_values(by = 'cnt_games_by_platf', ascending = False)

   platform  name
16      PS2  2154
4        DS  2146
26      Wii  1294
19      PSP  1199
28     X360  1138
17      PS3  1107
6       GBA   826


---

## Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Были загружены данные datasets/new_games.csv, содержащие информацию о продажах игр разных жанров, также пользовательские и экспертные оценки игр. Всего 16956 строк и 11 столбцов.
В результате первичной обработки данных было получено:

Пропуски в следующих столбцах:

- 'year_of_release': в 275 строках (1.62%)
- 'user_score': в 6804 строках (40.1% )
- 'Rating': 6871 (40.5% )
- 'critic_score': 8714 строках (51.4%)
Самый большой процент пропусков в столбце с оценкой критиков - 51,4%.

Для оптимизации работы с данными в датафрейме были выполнены изменения типов данных:
- 'year_of_release': тип данных изменён с float64 на int16
- 'eu_sales', 'jp_sales', 'user_score': тип данных изменён с object на float
- 'platform', 'genre', 'rating': тип данных изменён с object на category
Таким образом мы снизили memory usage с 1.4+ MB до 813,5 KB.

Для дополнительной работы с данными были созданы дополнительные столбцы:
Количество всех строк датафрейма:
- 'all_length' 
Уникальные значения столбца и их количество соответственно: 
- 'uniq_name и 'cnt_uniq_name'
- 'uniq_platf и 'cnt_uniq_platf'
- 'uniq_rating' и 'cnt_uniq_rating'
- 'uniq_years' и 'cnt_uniq_years'
- 'uniq_genr' и 'cnt_uniq_genr'
Категории по оценкам критиков и зрителей соответственно: 
- 'score_group_crit' 
- 'score_group_users'
Топ 7 платформ по количеству игр, выпущенных за весь актуальный период:
- top_7_platf