# Проект 7. Анализ данных игровой индустрии 

- Автор: Марков Максим
- Дата: 01.07.2025

### Цели и задачи проекта

- Цель: изучить развитие игровой индустрии, на основе собранных данных из открытых источников в врменном интервале 2000-2013 гг.
- Задачи: 1) проверить данные на корректность, 2) провести их предобраюотку, 3) получить необходимый срез данных, 4) произвести категоризацию данных по оценкам пользовтелей и критиков,  5) выявить платформы с наибольшими продажами

### Описание данных

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). 


### Оглавление

<div class="toc"><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Цели-и-задачи-проекта" data-toc-modified-id="Цели-и-задачи-проекта-0.1"><span class="toc-item-num">0.1&nbsp;&nbsp;</span>Цели и задачи проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-0.2"><span class="toc-item-num">0.2&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#Оглавление" data-toc-modified-id="Оглавление-0.3"><span class="toc-item-num">0.3&nbsp;&nbsp;</span>Оглавление</a></span></li></ul></li><li><span><a href="#Загрузка-данных-и-знакомство-с-ними" data-toc-modified-id="Загрузка-данных-и-знакомство-с-ними-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных и знакомство с ними</a></span></li><li><span><a href="#Проверка-ошибок-в-данных-и-их-предобработка" data-toc-modified-id="Проверка-ошибок-в-данных-и-их-предобработка-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Проверка ошибок в данных и их предобработка</a></span><ul class="toc-item"><li><span><a href="#Названия,-или-метки,-столбцов-датафрейма" data-toc-modified-id="Названия,-или-метки,-столбцов-датафрейма-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Названия, или метки, столбцов датафрейма</a></span></li><li><span><a href="#Типы-данных" data-toc-modified-id="Типы-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Типы данных</a></span></li><li><span><a href="#Наличие-пропусков-в-данных" data-toc-modified-id="Наличие-пропусков-в-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Наличие пропусков в данных</a></span></li><li><span><a href="#Явные-и-неявные-дубликаты-в-данных" data-toc-modified-id="Явные-и-неявные-дубликаты-в-данных-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Явные и неявные дубликаты в данных</a></span></li></ul></li><li><span><a href="#Фильтрация-данных" data-toc-modified-id="Фильтрация-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Фильтрация данных</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Категоризация данных</a></span></li><li><span><a href="#Итоговый-вывод" data-toc-modified-id="Итоговый-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Итоговый вывод</a></span></li></ul></div>

## Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [1]:
# загружаем нужную библиотеку
import pandas as pd

In [2]:
# загружаем данные из файла
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# выводим таблицу с данными
df

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.0,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.0,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.0,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.00,,,


In [4]:
# получаем информацию по данным
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Данные представлены в таблице, состоящей из 16 956 строк и 11 столбцов. В предоставленных данных в ряде столбцов присутсвуют пропуски. В таблице представленно два вида типа данных -- float64 и object. Треть столбцов представлена в неверном типе данных. Названия столбцов нужно привести к стилю snake case.

---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма


In [5]:
# выводим названия столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# переименовываем столбцы к общепринятому стилю
df = df.rename(columns={'Name': 'name', 'Platform': 'platform', 'Year of Release': 'year_of_release', 'Genre': 'genre', 'NA sales': 'na_sales',
                       'EU sales': 'eu_sales', 'JP sales': 'jp_sales', 'Other sales': 'other_sales', 'Critic Score': 'critic_score',
                       'User Score': 'user_score', 'Rating': 'rating'})
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### Типы данных


В столбце year_of_release представленны данные типа float, и так как нам нужен лишь номер года, то лучше привести к типу int. В столбцах eu_sales и jp_sales представлены данные типа object, из-за наличия строковых значений, которые представляют собой неизвестные значения. Столбец critic_score представлен с типом данных object, и также содержит строковые значения, подразумевающие пропуск данных. 

In [7]:
# выводим общюю информацию по данным с новыми названиями
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [8]:
# Приводим столбец к числовому формату, заменяя строковые значения на NaN
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce')

In [9]:
# Приводим столбец к числовому формату, заменяя строковые значения на NaN
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce')

In [10]:
# Приводим столбец к числовому формату, заменяя строковые значения на NaN
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce')

In [11]:
# после проведенной замены типов данных, оценим статистические показатели числовых столбцов
df.describe()

Unnamed: 0,year_of_release,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score
count,16681.0,16956.0,16950.0,16952.0,16956.0,8242.0,7688.0
mean,2006.485522,0.262023,0.144114,0.07717,0.047087,68.926717,7.122607
std,5.873102,0.808654,0.500305,0.307148,0.185577,13.944565,1.499804
min,1980.0,0.0,0.0,0.0,0.0,13.0,0.0
25%,2003.0,0.0,0.0,0.0,0.0,60.0,6.4
50%,2007.0,0.08,0.02,0.0,0.01,71.0,7.5
75%,2010.0,0.24,0.11,0.04,0.03,79.0,8.2
max,2016.0,41.36,28.96,10.22,10.57,98.0,9.7


### Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [12]:
# выводим общую информацию о данных с измененными типами данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


In [13]:
# считаем количество пропусков в каждом столбце 
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [14]:
# считаем процент пропусков по каждому столбцу
df.isna().sum()/len(df) * 100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

Наибольшее количество пропусков характерно для последних трех столбцов с оценками и рейтингами (critic_score, user_score, rating). В каждом из них отсутствует примерно половина значений. Это может быть связано с тем, что при сборе данных не нашлось информации по оценкам данных игр, а лишь общие характеристики (все зависит от источника). Также, игры могут быьт слишком старые, либо слишком свежие.
В столбцах name и genre по 2 пропуска, относящихся к одним и тем же строкам. Это скорее всего относится к ошибке при заполнении данных.
В столбце year_of_release 275 пропусков, которые явно связаны с ошибкой при заполнении данных, так как в существенной части названия игр в конце пишется год выпуска (Как пример - Madden NFL 2004). 
В столбцах eu_sales и jp_sales 6 и 4 пропуска соответственно. Исходя из малого количества, можно предоположить, что это так же является ошибкой при заполнении данных. Возможен случай, что данные игры не продавались в этих регионах, что крайне мало вероятно. Так же возможен случай, что либо статистика по продажам в этих регионах по данным играм отсутствует, либо продажи ничтожно малы.


In [15]:
# выводим строки с отсутствующими оценками и рейтингами
df[(df['critic_score'].isnull()) | (df['user_score'].isnull()) | (df['rating'].isnull())]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989.0,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005.0,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


In [16]:
# выводим строки с отсутствующими значениями названия игр и жанра
df[df['name'].isnull()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


In [17]:
# выводим строки с отсутствующим годом издания игр
df[df['year_of_release'].isnull()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,,Sports,4.26,0.26,0.01,0.71,94.0,8.5,E
379,FIFA Soccer 2004,PS2,,Sports,0.59,2.36,0.04,0.51,84.0,6.4,E
458,LEGO Batman: The Videogame,Wii,,Action,1.80,0.97,0.00,0.29,74.0,7.9,E10+
477,wwe Smackdown vs. Raw 2006,PS2,,Fighting,1.57,1.02,0.00,0.41,,,
611,Space Invaders,2600,,Shooter,2.36,0.14,0.00,0.03,,,
...,...,...,...,...,...,...,...,...,...,...,...
16609,PDC World Championship Darts 2008,PSP,,Sports,0.01,0.00,0.00,0.00,43.0,,E10+
16641,Freaky Flyers,GC,,Racing,0.01,0.00,0.00,0.00,69.0,6.5,T
16685,Inversion,PC,,Shooter,0.01,0.00,0.00,0.00,59.0,6.7,M
16695,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,0.01,0.00,0.00,0.00,,,


In [18]:
# выводим строки с отсутствующими значениями продаж в Европе и Японии 
df[(df['eu_sales'].isnull()) | (df['jp_sales'].isnull())]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
446,Rhythm Heaven,DS,2008.0,Misc,0.55,,1.93,0.13,83.0,9.0,E
467,Saints Row 2,X360,2008.0,Action,1.94,0.79,,0.28,81.0,8.1,M
802,Dead Rising,X360,2006.0,Action,1.16,,0.08,0.2,85.0,7.6,M
819,UFC 2009 Undisputed,X360,2009.0,Fighting,1.48,0.39,,0.19,83.0,7.9,T
1131,Prince of Persia: Warrior Within,PS2,2004.0,Action,0.54,,0.0,0.22,83.0,8.5,M
1132,Far Cry 4,XOne,2014.0,Shooter,0.8,,0.01,0.14,82.0,7.5,M
1379,Hello Kitty Party,DS,2007.0,Misc,0.78,0.51,,0.12,,,E
1394,Sonic Advance 3,GBA,2004.0,Platform,0.74,,0.08,0.06,79.0,8.4,E
1612,Ratatouille,DS,2007.0,Action,0.49,,0.0,0.14,,,
4732,Castlevania: The Dracula X Chronicles,PSP,2007.0,Platform,0.22,0.09,,0.07,80.0,7.8,T


In [19]:
# дропаем 2 строки с неизвестными названием и жанром игр и убедимся, что строк стало на 2 меньше
df = df.dropna(subset = ['name'])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16948 non-null  float64
 6   jp_sales         16950 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.6+ MB


In [20]:
# заменим отсутствующие оценки на значение-индикатор -1, так как отсутствующие данные составляют почти половину 
# от всех -- их удаление сильно исказит статистику
df['critic_score'] = df['critic_score'].fillna(-1)

In [21]:
# заменим отсутствующие оценки на значение-индикатор -1, так как отсутствующие данные составляют почти половину 
# от всех -- их удаление сильно исказит статистику
df['user_score'] = df['user_score'].fillna(-1)

In [22]:
# заменяем пропуски в столбце eu_sales на медианное значение по группе "платформа-год выпуска". Выбрал медиану, а не среднее
# значение, так как 75% процентиль равен 0.11, а максимальное 28.96
def median_group_eu(x):
    if pd.isna(x['eu_sales']):
        group = df[(df['platform'] == x['platform']) & (df['year_of_release'] == x['year_of_release'])]
        return group['eu_sales'].median
    else:
        return x['eu_sales']
df['eu_sales'] = df.apply(median_group_eu, axis =1)

In [23]:
# делаем то же самое для jp_sales
def median_group_jp(x):
    if pd.isna(x['jp_sales']):
        group = df[(df['platform'] == x['platform']) & (df['year_of_release'] == x['year_of_release'])]
        return group['jp_sales'].median
    else:
        return x['jp_sales']
df['jp_sales'] = df.apply(median_group_jp, axis =1)

In [24]:
# вынуждено заменяю на 0 пропуски в году выпуска и меняю тип данных на int
df['year_of_release'] = df['year_of_release'].fillna(0)
df['year_of_release'] = df['year_of_release'].astype('int64')

### Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [25]:
# выводим уникальные названия жанра
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [26]:
# приводим названия к нижнему регистру, тем самым избавляясь от дубликатов
df['genre']=df['genre'].str.lower()
df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [27]:
# выводим уникальные названия платформ - дубликатов нет
df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [28]:
# выводим число уникальных названий игр
df['name'].nunique()

11559

In [29]:
# приводим названия к одному стилю - дубликатов нет
df['name']=df['name'].str.lower()
df['name'].nunique()

11559

In [30]:
# выводим число уникальных названий рейтинга ESRB
df['rating'].unique()

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

In [31]:
# рейтинг K-A использовался до 1998 года, затем его заменили на E, так что произведем его замену
df[df['rating']== 'K-A']

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
658,theme hospital,PC,1997,strategy,2.3,0.1,0.0,0.0,-1.0,9.0,K-A
908,parappa the rapper,PS,1996,misc,0.26,0.16,1.46,0.03,92.0,7.4,K-A
16921,worms 2,PC,1997,strategy,0.0,0.01,0.0,0.0,-1.0,8.1,K-A


In [32]:
# меняем K-A на рейтинг E, и выводим уникальные значения столбца
df['rating'] = df['rating'].replace({'K-A': 'E'})
df['rating'].unique()

array(['E', nan, 'M', 'T', 'E10+', 'AO', 'EC', 'RP'], dtype=object)

In [33]:
# выводим число явных дубликатов
df.duplicated().sum()

241

In [34]:
# удаляем явные дубликаты
df = df.drop_duplicates()
df

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,super mario bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,pokemon red/pokemon blue,GB,1996,role-playing,11.27,8.89,10.22,1.00,-1.0,-1.0,
...,...,...,...,...,...,...,...,...,...,...,...
16951,samurai warriors: sanada maru,PS3,2016,action,0.00,0.0,0.01,0.00,-1.0,-1.0,
16952,lma manager 2007,X360,2006,sports,0.00,0.01,0.0,0.00,-1.0,-1.0,
16953,haitaka no psychedelica,PSV,2016,adventure,0.00,0.0,0.01,0.00,-1.0,-1.0,
16954,spirits & spells,GBA,2003,platform,0.01,0.0,0.0,0.00,-1.0,-1.0,


В столбце с жанром игры были найдены неявные дубликаты каждого из жанров, после чего столбец был приведен к единому стилю написания. В столбце с рейтингом ESRB были найдены 3 строки с устаревшим обозначением 'K-A', которое было заменено на соврменное название 'E'. Явных дубликатов оказалось 241 строка, после чего они были удалены. 

In [35]:
# считаем долю удаленных строк относительно первоначального числа строк
del_rows = (16956-df.shape[0])/16956
del_rows

0.014331210191082803

In [36]:
# считаем процент удаленных строк
del_rows_share = del_rows*100
del_rows_share

1.4331210191082804

После выявления пропусков и наличия явных и неявных дубликатов в итоговом датафрейме осталось 16713 строк. Процент удаленных строк составил 1.4% (или 243 строки). В столбце рейтинга ESRB пропуски ничем не заменял, так как они не нужны для последующего анализа.

---

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [37]:
# фильтруем год выпуска по данному условию и выводим общую информацию и уникальные значения столбца нового датафрейма
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()
df_actual.info()
df_actual['year_of_release'].unique()

<class 'pandas.core.frame.DataFrame'>
Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  object 
 6   jp_sales         12781 non-null  object 
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           8723 non-null   object 
dtypes: float64(4), int64(1), object(6)
memory usage: 1.2+ MB


array([2006, 2008, 2009, 2005, 2007, 2010, 2013, 2004, 2002, 2001, 2011,
       2012, 2003, 2000], dtype=int64)

В отфильтрованном датафрейме осталось 12781 строка.

---

## Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [38]:
# отфильтруем еще раз, и уберем строки со значениями-индикаторами (-1) в столбцах critic_score и user_score для категоризации 
df_actual= df_actual[(df_actual['user_score'] >= 0) & (df_actual['critic_score'] >= 0)]
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E
...,...,...,...,...,...,...,...,...,...,...,...
16902,e.t. the extra-terrestrial,GBA,2001,action,0.01,0.0,0.0,0.00,46.0,2.4,E
16913,mortal kombat: deadly alliance,GBA,2002,fighting,0.01,0.0,0.0,0.00,81.0,8.8,M
16936,breach,PC,2011,shooter,0.01,0.0,0.0,0.00,61.0,5.8,T
16943,storm: frontline nation,PC,2011,strategy,0.00,0.01,0.0,0.00,60.0,7.2,E10+


In [39]:
# разделяем на категории по значениям в столбце user_score
bins1 = [0, 3, 8, 10]
labels1 = ['Низкая оценка', 'Средняя оценка', 'Высокая оценка']
df_actual['user_score_category'] = pd.cut(df_actual['user_score'], bins = bins1, labels = labels1, right = False)
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...
16902,e.t. the extra-terrestrial,GBA,2001,action,0.01,0.0,0.0,0.00,46.0,2.4,E,Низкая оценка
16913,mortal kombat: deadly alliance,GBA,2002,fighting,0.01,0.0,0.0,0.00,81.0,8.8,M,Высокая оценка
16936,breach,PC,2011,shooter,0.01,0.0,0.0,0.00,61.0,5.8,T,Средняя оценка
16943,storm: frontline nation,PC,2011,strategy,0.00,0.01,0.0,0.00,60.0,7.2,E10+,Средняя оценка


- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [40]:
# разделяем на категории по значениям в столбце critic_score 
bins2 = [0, 30, 80, 100]
labels2 = ['Низкая оценка', 'Средняя оценка', 'Высокая оценка']
df_actual['critic_score_category'] = pd.cut(df_actual['critic_score'], bins = bins2, labels = labels2, right = False)
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка,Высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка,Средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16902,e.t. the extra-terrestrial,GBA,2001,action,0.01,0.0,0.0,0.00,46.0,2.4,E,Низкая оценка,Средняя оценка
16913,mortal kombat: deadly alliance,GBA,2002,fighting,0.01,0.0,0.0,0.00,81.0,8.8,M,Высокая оценка,Высокая оценка
16936,breach,PC,2011,shooter,0.01,0.0,0.0,0.00,61.0,5.8,T,Средняя оценка,Средняя оценка
16943,storm: frontline nation,PC,2011,strategy,0.00,0.01,0.0,0.00,60.0,7.2,E10+,Средняя оценка,Средняя оценка


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [47]:
# считаем количество игр в каждой категории по столбцу с оценками пользователей
grouped_user = df_actual.groupby('user_score_category', observed=False)['name'].count()
grouped_user

user_score_category
Низкая оценка       95
Средняя оценка    3828
Высокая оценка    2185
Name: name, dtype: int64

In [48]:
# считаем количество игр в каждой категории по столбцу с оценками критиков
grouped_critic = df_actual.groupby('critic_score_category',observed=False)['name'].count()
grouped_critic

critic_score_category
Низкая оценка       48
Средняя оценка    4401
Высокая оценка    1659
Name: name, dtype: int64

In [49]:
# считаем количество игр в каждой категории по обоим столбцам с оценками
grouped_both = df_actual.groupby(['user_score_category','critic_score_category'], observed=False)['name'].count()
grouped_both

user_score_category  critic_score_category
Низкая оценка        Низкая оценка              17
                     Средняя оценка             77
                     Высокая оценка              1
Средняя оценка       Низкая оценка              30
                     Средняя оценка           3157
                     Высокая оценка            641
Высокая оценка       Низкая оценка               1
                     Средняя оценка           1167
                     Высокая оценка           1017
Name: name, dtype: int64

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [46]:
# выводим топ-7 платформ по выпущенным играм в интервал времени с 2000 по 2013 год
group_platforms = df_actual.groupby(['platform'])['name'].count()
group_platforms = group_platforms.sort_values(ascending=False)
group_platforms.head(7)

platform
PS2     1140
X360     835
PS3      739
XB       566
PC       562
Wii      480
DS       465
Name: name, dtype: int64

---

## Итоговый вывод


В результате проделанной работы были отфильтрованы данные в интересующем нас временном интервале, а также получен список из семи платформ, которые выпустили наибольшее количество игр за этот интервал. Было проделано: 
- 1. обработка ошибок в данных и их предобработка (было удалено 243 строки с дубликатами, а также были заменены пропущенные значения)
- 2. фильрация обработанного датафрейма по интересующим параметрам (датафрейм был отфильтрован в нужном временном интервале 2000-2013 гг)
- 3. категоризация данных для подразделения игр по их оценкам (игры были разделены на 3 группы в разрезе оценок критиков и пользователей, а также был получен топ платформ по продажам игр)