 <h1 align="center"> Проект. Исследование развития игровой индустрии с 2000 по 2013 год</h1> 

Автор: Стукалов Артем Витальевич  
Дата: 24.11.2025

## <a id="content">Содержание:</a>

[Введение в проект](#introduction)  
[Часть 1. Загрузке и знакомство с данными](#part1)  
[Часть 2. Проверка ошибок в данных и их предобработка](#part2)  
&nbsp;&nbsp;&nbsp;&nbsp;[2.1. Предобработка названий столбцов датасета](#part2.1)  
&nbsp;&nbsp;&nbsp;&nbsp;[2.2. Преобразование пропусков в датасете](#part2.2)  
&nbsp;&nbsp;&nbsp;&nbsp;[2.3. Преобразование типов данных](#part2.3)  
&nbsp;&nbsp;&nbsp;&nbsp;[2.4. Явные и неявные дубликаты в данных](#part2.4)  
&nbsp;&nbsp;&nbsp;&nbsp;[Вывод по проверке ошибок в данных и их предобработке](#conslusion2)  
[Часть 3. Фильтрация данных](#part3)  
[Часть 4. Категоризация данных](#part4)  
[Заключение по проекту](#common_conclusion)

## <a id='introduction'>Введение в проект</a>

#### Цели и задачи проекта
**Цель проекта** -  познакомиться с данными датасета `new_games.csv`, который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. На примере датасета проверить корректность данных и провести их предобработку, получив необходимый срез данных. 

**Задачи проекта:**
- Знакомство с данными;
- Проверка данных на предмет ошибок и их предобработка (предобработка пропусков и дикбликатов данных);
- Фильтрация данных;
- Категоризация данных.

#### Описание данных
Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

## <a id='part1'>Часть 1. Загрузка и знакомство с данными</a>

[Вернуться к содержанию](#content)

Импортируем pandas для дальнейшего анализа данных

In [1]:
import pandas as pd # Импортируем библиотеку pandas

Выгружаем данные из датасета new_games.csv

In [2]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv') # Выгружаем данные из датасета new_games.csv

Выводим общую информацию о датасете с помощью info(), head(), tail()

In [3]:
df.info() # Выводим общую информацию о датасете

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
df.head() # Выводим первые строки датасета на экран

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [5]:
df.tail() # Выводим последние строки датасета на экран

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


Посчитаем общее количество строк в датасете df.

In [6]:
initial_rows_count = len(df) #считаем общее количество строк
print(f'Общее количество строк в датасете: {initial_rows_count}')

Общее количество строк в датасете: 16956


Как видно из данных, в них присутствуют пропуски. Узнаем количество рядов, в которых есть пропуски.

In [7]:
df.isna().any(axis=1).sum() #суммируем строки, в которых встречаются пропуски

np.int64(8976)

Посчитаем общее количество пропусков

In [8]:
df.isna().sum().sum() # суммируем общее количество пропусков

np.int64(22668)

### Промежуточный вывод:
- Общее количество строк и столбцов в датафрейме. Датасет new_games.csv содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.
- Названия столбцов следует переименовать переименовать к стилю snake case для улучшения читаемости и дальнейшей обработки данных.
- Столбцы NA sales', 'EU sales', 'JP sales', 'Other sales' не содержат указания на единицу измерения, представленных в них значений.
- Датафрейм new_games.csv содержит следующие типы данных для каждого столбца:
    - 4 числовых столбца (float64): Year of Release, NA sales, Other sales, Critic Score;
    - 7 строковых столбцов (object): Name, Platform, Genre, EU sales, JP sales, User Score, Rating.
- Столбцы EU sales и JP sales имеют тип object, хотя должны быть числовыми (аналогично NA sales и Other sales).
- В датасете есть пропущенные значения. Такие значения могут потребовать обработки на этапе очистки данных.
    - Общее количество строк, в кототрых есть хотя бы один пропуск: 8976.
    - Общее количество пропусков: 22668.  

**Вывод:** Данные требуют значительной очистки, особенно в части обработки пропусков и приведения типов. После предобработки данные могут быть пригодны для анализа рыночных трендов и влияния оценок на продажи.

## <a id='part2'>Часть 2. Проверка ошибок в данных и их предобработка</a>

### <a id='part2.1'>2.1. Предобработка названий столбцов  датасета</a>

[Вернуться к содержанию](#content)

Выведем название столбцов датасета

In [9]:
df.columns #выводим название столбцов

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Можно увидеть, что в названии столбцов присутствует верхний регистр и пробелы между словами.

Кроме того, в столбцах 'NA sales', 'EU sales', 'JP sales', 'Other sales'не указана единица измерения продаж копий игр, т.е. то, что продажи указаны в миллионах проданных копий.

Из открытых источников Интернета следует, что в анализе данных, особенно в контексте финансов и бухгалтерского учёта, для обозначения миллионов часто используют MM (или строчную букву «мм»). В таком случае для более верного наименования столбцов также добавим к 'NA sales', 'EU sales',
       'JP sales', 'Other sales' строку 'mm' для обозначения количества проданных копий игр (что продажи указаны в миллионах). 

Приводим все столбцы к единому стилю snake case и добваляем строку 'mm' к столбцам с количеством продаж игр.

In [10]:
# Переименовываем столбцы
df = df.rename(columns={
    'Name': 'name', 'Platform': 'platform', 'Year of Release': 'year_of_release', 
    'Genre': 'genre', 'NA sales': 'na_sales_mm', 'EU sales': 'eu_sales_mm',
    'JP sales': 'jp_sales_mm', 'Other sales': 'other_sales_mm', 'Critic Score': 'critic_score', 
    'User Score': 'user_score', 'Rating': 'rating'})

In [11]:
# Проверяем измнения наименований столбцов в датафрейме df
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales_mm',
       'eu_sales_mm', 'jp_sales_mm', 'other_sales_mm', 'critic_score',
       'user_score', 'rating'],
      dtype='object')

### <a id='part2.2'>2.2. Преобразование пропусков в датасете</a>

[Вернуться к содержанию](#content)

Для удобства выведем общее количество столбцов с пропусками и их название

In [12]:
count = 0
columns_with_missing = []

for column in df.columns:
    if df[column].isna().any():
        count += 1
        columns_with_missing.append(column)
        
print(f'Общее количество столбцов с пропусками {count}')
print(f'Названия столбцов с пропусками: {columns_with_missing}')

Общее количество столбцов с пропусками 6
Названия столбцов с пропусками: ['name', 'year_of_release', 'genre', 'critic_score', 'user_score', 'rating']


Узнаем о распределении количества пропусков между столбцами в абсолютных значениях

In [13]:
df.isna().sum() # Выводим количество пропущенных строк по столбцам

name                  2
platform              0
year_of_release     275
genre                 2
na_sales_mm           0
eu_sales_mm           0
jp_sales_mm           0
other_sales_mm        0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

Теперь узнаем о распределении количества пропусков между столбцами в относительных значениях

In [14]:
df.isna().sum()/len(df) * 100 # Подсчитываем процент строк с пропусками по столбцам

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales_mm         0.000000
eu_sales_mm         0.000000
jp_sales_mm         0.000000
other_sales_mm      0.000000
critic_score       51.391838
user_score         40.127389
rating             40.522529
dtype: float64

В столбцах 'name' и 'genre' по 2 пропуска. 

В начале, выясним, с чем могут быть связаны пропуски в столбце 'name'

In [15]:
df[df['name'].isna()] # Выводим значения по столбцам игр, наименовании которых пропущено в текущем датасете

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


In [16]:
 # Узнаем платформы и годы выпуска игр, в которых пропущено наименование
df[df['name'].isna()][['platform', 'year_of_release']].value_counts()

platform  year_of_release
GEN       1993.0             2
Name: count, dtype: int64

Как видно из результатов, пропуски в столбце 'name' совпадает со столбцом 'genre'.

Можно сказать, что указанные пропуски в столбцах 'name' и 'genre' связаны и носят систематическую причину, а не случайный характер, поскольку по другим столбцам данного ряда есть совпадения в платформе (GEN) и годе выпуска игры (1993), т.е. возможно проблема с источником данных (ошибка при парсинге данных). 

В столбце 'year_of_release' обнаружено 275 пропусков

Выведем 10 случайных строк из датасета, где в столбце 'year_of_release' отсутствуют значения

In [17]:
df[df['year_of_release'].isna()].sample(10) # Узнаем платформы и годы выпуска игр, в которых пропущен год выпуска

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
6263,"The Chronicles of Narnia: The Lion, The Witch ...",GC,,Action,0.22,0.06,0.0,0.01,71.0,tbd,T
12117,Dead Island: Riptide,PC,,Action,0.0,0.07,0.0,0.01,61.0,6,M
12121,Yoostar on MTV,X360,,Misc,0.07,0.0,0.0,0.01,49.0,tbd,T
8326,Teen Titans,GBA,,Action,0.13,0.05,0.0,0.0,61.0,tbd,E10+
2383,Rhythm Heaven,Wii,,Misc,0.11,0.0,0.77,0.01,,,
8667,Alone in the Dark: The New Nightmare,PS,,Adventure,0.09,0.06,0.0,0.01,77.0,8.1,M
16523,Shorts,DS,,Platform,0.01,0.0,0.0,0.0,,tbd,E10+
10626,Atsumare! Power Pro Kun no DS Koushien,DS,,Sports,0.0,0.0,0.1,0.0,,,
8863,Home Run,2600,,Sports,0.14,0.01,0.0,0.0,,,
659,Frogger's Adventures: Temple of the Frog,GBA,,Adventure,2.15,0.18,0.0,0.07,73.0,tbd,E


Как видно из результатов, пропуски в столбце 'year_of_release' скорее возникли из-за проблем сбора данных и носят случайный характер.

### Промежуточный вывод:  
- Общее количество пропущенных значений в датафрейме: 22668;
- Общее количество столбцов с пропусками 6;
- Пропуски встречаются в следующих столбцах: 'name', 'year_of_release', 'genre', 'critic_score', 'user_score', 'rating';
- Наибольшее количество пропусков встречаются в столбцах 'critic_score' (8714 пропусков в столбце, 51.3% пропусков в столбце), 'rating' (6871 пропусков в столбце, 40.5% пропусков в столбце), 'user_score' (6804 пропусков в столбце, 40.1% пропусков в столбце);
- Наименьшее количество пропусков встречаются в столбцах 'year_of_release' (275 пропусков в столбце, 1.6% пропусков в столбце), 'name' (2 пропуска в столбце, 0.01% пропусков в столбце), 'genre' (2 пропуска в столбце, 0.01% пропусков в столбце);
- Можно говорить о том, что пропуск в столбце 'name' и 'genre' носит систематическую причину, а не случайный характер, поскольку по другим столбцам данного ряда есть совпадения в платформе (GEN) и годе выпуска игры (1993), т.е. возможно проблема с источником данных (ошибка при парсинге данных). Для дальнейшего анализа вышеуказанные строки следует удалить, поскольку они относятся к 1993г.(требуется провести анализ игр с 2000 по 2013 годы), к тому же количество пропусков в столбцах 'name' (0.01% пропусков в столбце) и 'genre' (0.01% пропусков в столбце) незначительно и их удаление не повлияет на дальнейший анализ данных;
- В отношении пропусков в столбце 'year_of_release' это скорее проблема сбора данных. Для дальнейщего анализа эти строки следует удалить поскольку значения в 'year_of_release' относятся к категориальным величинам и их приведение к среднему значению исказит анализ, тому же их количество незначительно (1.6% от значений всего столбца 'year_of_release') и их удаление не повляет на верность всего анализа данных;
- Отсутствие значений в столбцах 'critic_score', 'user_score' может означать, что не всем играм была дана оценка критиков и пользовательская оценка, возможно из-за совокупности разных факторов, в том числе и из-за малой популярности данных игр и временного фактора (старые игры скорее не будут иметь оценок). Столбцы 'critic_score', 'user_score' имеют числовые значения, поэтому в том числе и из-за большого количества пропусков в столбцах 'critic_score' (51.3% пропусков в столбце 'critic_score'), 'user_score' (40.1% пропусков в столбце 'user_score') пропуски в указанных столбцах следует заменить на среднее значение в зависимости от названия платформы и года выхода игры.
- Отсутствие значений в столбце  'rating' может означать, что игра не была оценена в ESRB. Возможно, это связано с временным фактором (старые игры) и малой популярностью данных игр. Значения в столбце 'rating' имеют категориальным признак, поэтому в том числе и из-за большого количества пропусков (40.5% пропусков в столбце 'rating') пропущенные значения следует заменить на значения-индикатор.

Удалим пропуски в столбцах 'name', 'genre' и 'year_of_release', поскольку количество пропусков незначительно и их удаление не повлияет на верность анализа датасета.

Для начала выведем долю пропусков в столбцах 'name', 'genre', 'year_of_release'

In [18]:
df[['year_of_release', 'name', 'genre']].isna().mean() * 100 # выводим долю пропусков в столбцах 'name', 'genre', 'year_of_release'

year_of_release    1.621845
name               0.011795
genre              0.011795
dtype: float64

Создаем новую переменную 'df_clean', в которой удаляем пропуски в столбцах 'name', 'genre', 'year_of_release'

In [19]:
#удаляем пропуски в столбцах 'name', 'genre', 'year_of_release'
df_clean = df.dropna(subset=['name', 'genre', 'year_of_release']).copy()

In [20]:
# проверяем данные
df_clean[['year_of_release', 'name', 'genre']].isna().mean() * 100

year_of_release    0.0
name               0.0
genre              0.0
dtype: float64

Поскольку в дальнейшем игра может получить оценку ESRB, в таком случае следует пропущенным значениям в столбце rating стоит присвоить значение-индикатор.

Для начала выведем долю пропусков в столбце 'rating'

In [21]:
df['rating'].isna().mean() * 100 # выводим долю пропусков в столбце 'rating'

np.float64(40.52252889832508)

Проверим есть ли неожиданные значения в столбце 'rating'

In [22]:
df.rating.value_counts() # выводим значения в столбце 'rating' без пропусков

rating
E       4037
T       3005
M       1587
E10+    1441
EC         8
K-A        3
RP         3
AO         1
Name: count, dtype: int64

Данные соответствуют значениям о категориях рейтинга ESRB. В таком случае осуществим замену пропущенных значений в столбце 'rating' на значение-индикатор, в нашем случае это будет -1.

Используем переменную df_clean для очищенных данных датасета.

In [23]:
df_clean['rating'] = df_clean['rating'].fillna(-1) # заменяем пропущенные значения на значение-индикатор -1

In [24]:
# Проверим измнения в данных
df_clean['rating'].isna().mean() * 100

np.float64(0.0)

Выведем текущие данные в копии датасета в переменной df_clean

In [25]:
df_clean.isna().mean() #Выведем текущие данные в копии датасета в переменной df_clean

name               0.000000
platform           0.000000
year_of_release    0.000000
genre              0.000000
na_sales_mm        0.000000
eu_sales_mm        0.000000
jp_sales_mm        0.000000
other_sales_mm     0.000000
critic_score       0.515259
user_score         0.402003
rating             0.000000
dtype: float64

Таким же образом поступим и со столбцами 'critic_score' и 'user_score' осуществим замену пропущенных значений в столбце указанных столбцах на значение-индикатор, в нашем случае это будет -1, поскольку заполняя медианными значениями мы можем исказить анализ. В тоже время пропусков в указанных столбцах много, поэтому мы не можем их удалить.

In [26]:
# заменяем пропущенные значения на значение-индикатор -1
df_clean[['critic_score', 'user_score']] = df_clean[['critic_score', 'user_score']].fillna(-1)

In [27]:
# проверяем изменения
df_clean.isna().mean()

name               0.0
platform           0.0
year_of_release    0.0
genre              0.0
na_sales_mm        0.0
eu_sales_mm        0.0
jp_sales_mm        0.0
other_sales_mm     0.0
critic_score       0.0
user_score         0.0
rating             0.0
dtype: float64

### <a id='part2.3'>2.3. Преобразование типов данных</a>

[Вернуться к содержанию](#content)

Выведем тип значений у столбцов текущего датасета.

In [28]:
print(df_clean.dtypes) 

name                object
platform            object
year_of_release    float64
genre               object
na_sales_mm        float64
eu_sales_mm         object
jp_sales_mm         object
other_sales_mm     float64
critic_score       float64
user_score          object
rating              object
dtype: object


В результате видим столбец 'year_of_release' содержит число-год и имеет ошибку в типе данных float64, хотя в данном столбце хранится не вещественный тип данных (float), а целочисленный, т.е. integer.

Такую же ошибку имеет столбец 'critic_score'

Отсортируем столбцы 'year_of_release' и 'critic_score' и выведем их уникальные значения.

In [29]:
df_clean['year_of_release'].sort_values().unique() # сортиируем и выводим уникальные значения

array([1980., 1981., 1982., 1983., 1984., 1985., 1986., 1987., 1988.,
       1989., 1990., 1991., 1992., 1993., 1994., 1995., 1996., 1997.,
       1998., 1999., 2000., 2001., 2002., 2003., 2004., 2005., 2006.,
       2007., 2008., 2009., 2010., 2011., 2012., 2013., 2014., 2015.,
       2016.])

In [30]:
df_clean['critic_score'].sort_values().unique() # сортируем и выводим уникальные значения

array([-1., 13., 17., 19., 20., 21., 23., 24., 25., 26., 27., 28., 29.,
       30., 31., 32., 33., 34., 35., 36., 37., 38., 39., 40., 41., 42.,
       43., 44., 45., 46., 47., 48., 49., 50., 51., 52., 53., 54., 55.,
       56., 57., 58., 59., 60., 61., 62., 63., 64., 65., 66., 67., 68.,
       69., 70., 71., 72., 73., 74., 75., 76., 77., 78., 79., 80., 81.,
       82., 83., 84., 85., 86., 87., 88., 89., 90., 91., 92., 93., 94.,
       95., 96., 97., 98.])

Как видно из результата запроса столбец 'year_of_release' содержит число-год, а столбец 'critic_score' имеет шкалу оценки от 0 до 100.

В таком случае, верным будет привести столбцы 'year_of_release' и 'critic_score' к типу данных к integer, при этом понизив размерность.

In [31]:
#создаем цикл для изменения типа данных в столбцах 'year_of_release', 'critic_score'
for column in ['year_of_release', 'critic_score']:
    df_clean[column] = pd.to_numeric(df_clean[column], downcast='integer', errors='coerce')

Проверим изменения в датасете

In [32]:
df_clean.head() # выводим первые строки датасета на экран

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1,-1.0,-1
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1,-1.0,-1


In [33]:
print(df_clean.dtypes) # выводим название типов у столбцов

name                object
platform            object
year_of_release      int16
genre               object
na_sales_mm        float64
eu_sales_mm         object
jp_sales_mm         object
other_sales_mm     float64
critic_score          int8
user_score          object
rating              object
dtype: object


В текущем датасете можно увидеть, что столбцы 'eu_sales_mm', 'jp_sales_mm' имеют тип данных object, хотя должны иметь вещественный тип данных float (аналогично NA sales и Other sales).

Такую же ошибку имеет и столбец 'user_score'.

Возможно данная ошибка в  столбцах 'eu_sales_mm', 'jp_sales_mm', 'user_score'связана с тем, что в данных столбцах есть текстовая информация.

С целью это проверить, выведем уникальные значения указанных столбцов 'eu_sales_mm', 'jp_sales_mm', 'user_score' .

In [34]:
df_clean['eu_sales_mm'].unique() # выводим уникальные значения 'eu_sales_mm'

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [35]:
df_clean['jp_sales_mm'].unique() # выводим уникальные значения 'jp_sales_mm'

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [36]:
df['user_score'].unique() # выводим уникальные значения 'user_score'

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

В результате мы видим, что действительно в столбцах 'eu_sales_mm', 'jp_sales_mm', 'user_score' присутствует текстовая информация. В столбцах 'eu_sales_mm', 'jp_sales_mm' встречается 'unknown', а в 'user_score' присутствует значение 'tbd' 

Как следует из Интернета, TBD (To Be Determined) — аббревиатура, которая означает «будет определено» или «подлежит определению». Используется, когда конкретное решение или информация ещё не установлены или неизвестны.

Для полноты информации узнаем сколько раз встречается 'unknown' в столбцах 'eu_sales_mm', 'jp_sales_mm'.

In [37]:
#считаем сколько раз встречается 'unknown' в столбцах 'eu_sales_mm', 'jp_sales_mm' 
for column in ['eu_sales_mm', 'jp_sales_mm']:
    unknown_count = (df_clean[column] == 'unknown').sum()
    print(f"Столбец {column}: 'unknown' встречается {unknown_count} раз")

Столбец eu_sales_mm: 'unknown' встречается 6 раз
Столбец jp_sales_mm: 'unknown' встречается 4 раз


Как результат, мы видим, что в отношении 'unknown' в столбцах 'eu_sales_mm', 'jp_sales_mm' имеет место замена пропуском на текст 'unknown', что говорит о том, что в данном случае применимо преобразование типа данных с помощью  pd.to_numeric().

Напишем цикл, в котором с помощью pd.to_numeric() преобразуем тип данных в столбцах 'eu_sales_mm', 'jp_sales_mm' в вещественный тип данных, при этом используя errors='coerce' для преобразования таких строковых знаений как 'uknown' в nan. В данному случае не следует понижать размерность с float64 до float32, поскольку в таком случае теряется точность данных.

In [38]:
# цикл на преобразование типа данных в столбцах 'eu_sales_mm', 'jp_sales_mm' во float и замену 'unknown' на nan
for column in ['eu_sales_mm', 'jp_sales_mm']:
    df_clean[column] = pd.to_numeric(df_clean[column], errors = 'coerce')

In [39]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales_mm      16679 non-null  float64
 5   eu_sales_mm      16673 non-null  float64
 6   jp_sales_mm      16675 non-null  float64
 7   other_sales_mm   16679 non-null  float64
 8   critic_score     16679 non-null  int8   
 9   user_score       16679 non-null  object 
 10  rating           16679 non-null  object 
dtypes: float64(4), int16(1), int8(1), object(5)
memory usage: 1.3+ MB


Теперь посчитаем количество 'tbd' в столбце 'user_score', чтобы понять их влияние на данные в датасете.

In [40]:
df_clean[df_clean['user_score']=='tbd']

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
119,Zumba Fitness,Wii,2010,Sports,3.45,2.59,0.0,0.66,-1,tbd,E
302,Namco Museum: 50th Anniversary,PS2,2005,Misc,2.08,1.35,0.0,0.54,61,tbd,E10+
522,Zumba Fitness 2,Wii,2011,Sports,1.51,1.03,0.0,0.27,-1,tbd,T
647,uDraw Studio,Wii,2010,Misc,1.65,0.57,0.0,0.20,71,tbd,E
721,Just Dance Kids,Wii,2010,Misc,1.52,0.54,0.0,0.18,-1,tbd,E
...,...,...,...,...,...,...,...,...,...,...,...
16935,Planet Monsters,GBA,2001,Action,0.01,0.00,0.0,0.00,67,tbd,E
16937,Bust-A-Move 3000,GC,2003,Puzzle,0.01,0.00,0.0,0.00,53,tbd,E
16938,Mega Brain Boost,DS,2008,Puzzle,0.01,0.00,0.0,0.00,48,tbd,E
16945,Plushees,DS,2008,Simulation,0.01,0.00,0.0,0.00,-1,tbd,E


Как можно увидеть, в столбце 'user_score' присутствует значение 'tbd' в количестве 2464.

В столбце 'user_score' приведена оценка пользователей (от 0 до 10), применим к нему pd.to_numeric для того чтобы преобразовать тип данных с object на float, а также заменим'tbd' на nan, используя errors = 'coerce', при этом понизив размерность с float64 до float32.

In [41]:
df_clean['user_score'] = pd.to_numeric(df_clean['user_score'], downcast = 'float', errors = 'coerce')

Проверим результат.

In [42]:
#Проверяем изменение в типе данных
print(df_clean.dtypes)

name                object
platform            object
year_of_release      int16
genre               object
na_sales_mm        float64
eu_sales_mm        float64
jp_sales_mm        float64
other_sales_mm     float64
critic_score          int8
user_score         float32
rating              object
dtype: object


In [43]:
# Смотрим изменения в таблице
df_clean.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1,-1.0,-1
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1,-1.0,-1


### <a id='part2.4'>2.4. Явные и неявные дубликаты в данных</a>

[Вернуться к содержанию](#content)

Изучим уникальные значения в категориальных данных для поиска неявных дубликатов, а именно в следующих столбцах: 'genre', 'platform', 'rating' и 'year_of_release'.

Выведем уникальные значения в столбцах: 'genre', 'platform', 'rating' и 'year_of_release', предварительно  отсортировав данные в них порядке возрастания — так будет удобнее находить дубликаты.

In [44]:
df_clean['genre'].sort_values().unique() # выводим количество уникальных значений в столбце 'genre'

array(['ACTION', 'ADVENTURE', 'Action', 'Adventure', 'FIGHTING',
       'Fighting', 'MISC', 'Misc', 'PLATFORM', 'PUZZLE', 'Platform',
       'Puzzle', 'RACING', 'ROLE-PLAYING', 'Racing', 'Role-Playing',
       'SHOOTER', 'SIMULATION', 'SPORTS', 'STRATEGY', 'Shooter',
       'Simulation', 'Sports', 'Strategy'], dtype=object)

В столбце 'genre' есть неявные дубликаты, которые связаны с тем, что разные жанры игр записаны в разном регистре. 

In [45]:
df_clean['platform'].sort_values().unique() # выводим количество уникальных значений в столбце 'platform'

array(['2600', '3DO', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG',
       'N64', 'NES', 'NG', 'PC', 'PCFX', 'PS', 'PS2', 'PS3', 'PS4', 'PSP',
       'PSV', 'SAT', 'SCD', 'SNES', 'TG16', 'WS', 'Wii', 'WiiU', 'X360',
       'XB', 'XOne'], dtype=object)

Здесь мы видим, что в столбце 'platform' отсутствуют неявные дубликаты.

In [46]:
df_clean['rating'].unique() # выводим количество уникальных значений в столбце 'rating'

array(['E', -1, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

В столбце 'rating' есть случай неявных дубликатов, а именно: 'E' и 'K-A' - это один и тот же рейтинг.

Т.е. E (Everyone) — игры для всех возрастов. Могут содержать незначительное количество насилия и сленга. До 1998 года рейтинг был известен как Kids to Adults (K-A). Принят в 1994 году и действует до сих пор.

In [47]:
df_clean['year_of_release'].sort_values().unique() # выводим количество уникальных значений в столбце 'year_of_release'

array([1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990,
       1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001,
       2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012,
       2013, 2014, 2015, 2016], dtype=int16)

Как мы видим, в столбце 'year_of_release' отсутствуют неявные дубликаты

Таким образом, неявные дубликаты присутствуют в столбцах 'genre' и 'rating'. 

##### Чтобы избавиться от неявных дубликатов нужно сделать следующее:
- значения в столбце 'genre' следует привести к нижнему регистру;
- в столбце 'rating' следует заменить старый формат 'K-A' на современный 'E'.

 С целью нормализации данных с текстовыми значениями приведем названия и жанры игр к нижнему регистру, а названия рейтинга — к верхнему

In [48]:
df_clean['genre'] = df_clean['genre'].str.lower()  # приводим столбец 'genre' к нижнему регистру

In [49]:
df_clean['genre'].unique() # проверяем изменения в столбце 'genre'

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [50]:
df_clean['name'] = df_clean['name'].str.lower() # приводим столбец 'name' к нижнему регистру

In [51]:
df_clean['name'].unique() # проверяем изменения в столбце 'name'

array(['wii sports', 'super mario bros.', 'mario kart wii', ...,
       'woody woodpecker in crazy castle 5', 'lma manager 2007',
       'haitaka no psychedelica'], shape=(11426,), dtype=object)

In [52]:
df_clean['rating'] = df_clean['rating'].str.upper() # приводим столбец 'rating' к верхнему регистру

In [53]:
df_clean['rating'] = df_clean['rating'].replace('K-A', 'E') # производим замену значения 'K-A' на 'E' в столбце 'rating'

In [54]:
df_clean['rating'].unique() # проверяем изменения в столбце 'rating'

array(['E', nan, 'M', 'T', 'E10+', 'AO', 'EC', 'RP'], dtype=object)

Посчитаем количество явных дубликатов.

In [55]:
duplicate_count = df_clean.duplicated().sum() # считаем количество явных дубликатов
duplicate_count 

np.int64(235)

In [56]:
df_clean[df_clean.duplicated(keep=False)] # выводим строки с дубликатами

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating
267,batman: arkham asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91,8.9,T
268,batman: arkham asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91,8.9,T
367,james bond 007: agent under fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72,7.9,T
368,james bond 007: agent under fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72,7.9,T
716,god of war: ascension,PS3,2013,action,1.23,0.63,0.04,0.35,80,7.5,M
...,...,...,...,...,...,...,...,...,...,...,...
16799,transformers: prime,Wii,2012,action,0.00,0.01,0.00,0.00,-1,-1.0,
16911,metal gear solid v: the definitive experience,XOne,2016,action,0.01,0.00,0.00,0.00,-1,,M
16912,metal gear solid v: the definitive experience,XOne,2016,action,0.01,0.00,0.00,0.00,-1,,M
16939,the longest 5 minutes,PSV,2016,action,0.00,0.00,0.01,0.00,-1,-1.0,


В результаты мы имеем 235 полностью одинаковых строк (дубликатов). Удалим эти дубликаты.

In [57]:
df_clean = df_clean.drop_duplicates() # Удаляем дублирующиеся строки

In [58]:
df_clean.duplicated().sum() # проверяем удаление явных дубликатов

np.int64(0)

##### Посчитаем общее количество строк, после очистки датасета от пропусков

In [59]:
# начальное количество строк
initial_rows = len(df)
initial_rows

16956

In [60]:
# количество строк после удаления пробелов и дубликатов
clean_rows = len(df_clean)
clean_rows

16444

In [61]:
# абсолютное значение удаленных строк после удаления строк с пропусками и дубликатами
deleted_absolute = initial_rows - clean_rows 
deleted_absolute

512

In [62]:
# относительное значение удаленных строк после удаления строк с пропусками и дубликатами
deleted_relative = (initial_rows - clean_rows) / initial_rows * 100
deleted_relative

3.019580089643784

#### Промежуточный вывод:
- Были обнаружены и обработаны неявные дубликаты:
  - в столбце 'genre' приведены все значения к нижнему регистру (до этого дубликаты были из-за разного регистра написания)
  - в столбце 'rating' приведены все значения к верхнему регистру, заменен устаревший рейтинг 'K-A' на современный 'E'
  - В столбце name приведены значения к нижнему регистру для нормализации данных
- После обработки пропусков и дубликатов было удалено 512 строк (3.02% данных), т.е. в с исходном размере датасета 16956 строк, после обработки пропусков и дубликатов 16444 строки

### <a id='conslusion2'>Вывод по проверке ошибок в данных и их предобработке</a>

[Вернуться к содержанию](#content)

##### При проверки ошибок в данных и их предобработке было сделано следующее:
- Исправлена структура данных:
  - Переименованы столбцы  в snake_case для единообразия
  - Уточнены единицы измерения в названиях столбцов с продажами (добавлено '_mm')
- Обработаны пропуски в данных:
  - Удалены строки с пропусками в ключевых полях: 'name', 'genre', 'year_of_release'
  - Заполнены индикатором -1 пропуски в столбцах: 'critic_score', 'user_score', 'rating'
  - Обработаны текстовые значения 'unknown' в столбцах продаж и 'tbd' в столбцах оценок
- Преобразованы типы данных:
  - Исправлены типы данных: 'year_of_release' с float64 на int16, 'critic_score' с float64 на int8
  - Преобразованы в числовые типы: 'eu_sales_mm', 'jp_sales_mm' с object на float64, 'user_score'с object на float32
  - Оптимизирован объем занимаемой памяти
- Обработаны дубликаты:
  - Удалены явные дубликаты: 235 полностью одинаковых строк
  - Устранены неявные дубликаты:
    - В столбце'genre' - значения приведены к нижнему регистру
    - В столбце 'rating' - замена устаревшего 'K-A' на 'E' и приведение значений к верхнему регистру
    - В столбце 'name' - нормализация регистра, т.е. значения приведены к нижнему регистру
- После итоговой очистки данных было удалено 512 строк (3.02% данных).

## <a id='part3'>Часть 3. Фильтрация данных</a>

[Вернуться к содержанию](#content)

Отфильтруем данные за период с 2000 по 2013 год включительно, сохранив новый срез данных в отдельном датафрейме df_actual.

In [63]:
# применим фильтрацию
df_actual = df_clean[(df_clean['year_of_release'] >= 2000) & (df_clean['year_of_release'] <= 2013)].copy()

In [64]:
# проверим фильтрацию в датафрейме df_actual
df_actual['year_of_release'].sort_values().unique()

array([2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
       2011, 2012, 2013], dtype=int16)

## <a id='part4'>Часть 4. Категоризация данных</a>

[Вернуться к содержанию](#content)

Разделим все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

Создадим категорию 'user_score_category', в которой разделим все игры по оценкам пользователей.

In [65]:
# создаем столбец 'user_score_category' с разделением оценок пользователей по категориям
df_actual['user_score_category'] = pd.cut(
    df_actual['user_score'], 
    bins = [0, 3, 8, 10], 
    labels = ['низкая оценка', 'средняя оценка','высокая оценка'],
    right = False
)

Разделим все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

Создадим категорию 'critic_score_category', в которой разделим все игры по оценкам пользователей.

In [66]:
# создаем столбец 'critic_score_category' с разделением оценок критиков по категориям
df_actual['critic_score_category'] = pd.cut(
    df_actual['critic_score'], 
    bins = [0, 30, 80, 100], 
    labels = ['низкая оценка', 'средняя оценка','высокая оценка'],
    right = False
)

Проверим изменения в датасете

In [67]:
df_actual.info() # выводим общую информацию датасета df_actual

<class 'pandas.core.frame.DataFrame'>
Index: 12781 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   name                   12781 non-null  object  
 1   platform               12781 non-null  object  
 2   year_of_release        12781 non-null  int16   
 3   genre                  12781 non-null  object  
 4   na_sales_mm            12781 non-null  float64 
 5   eu_sales_mm            12776 non-null  float64 
 6   jp_sales_mm            12777 non-null  float64 
 7   other_sales_mm         12781 non-null  float64 
 8   critic_score           12781 non-null  int8    
 9   user_score             10507 non-null  float32 
 10  rating                 8723 non-null   object  
 11  user_score_category    6483 non-null   category
 12  critic_score_category  7169 non-null   category
dtypes: category(2), float32(1), float64(4), int16(1), int8(1), object(4)
memory usage: 1011.3+ KB


In [68]:
df_actual.head(10) # выводим первые 10 строк датасета df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка,средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка,высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,высокая оценка,высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка,средняя оценка
8,new super mario bros. wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,высокая оценка,высокая оценка
10,nintendogs,DS,2005,simulation,9.05,10.95,1.93,2.74,-1,-1.0,,,
11,mario kart ds,DS,2005,racing,9.71,7.47,4.13,1.9,91,8.6,E,высокая оценка,высокая оценка
13,wii fit,Wii,2007,sports,8.92,8.03,3.6,2.15,80,7.7,E,средняя оценка,высокая оценка
14,kinect adventures!,X360,2010,misc,15.0,4.89,0.24,1.69,61,6.3,E,средняя оценка,средняя оценка


Можно увидеть, что в столбцах user_score_category и critic_score_category присутствует значение NaN.

Заменим NaN в столбцах user_score_category и critic_score_category на 'неизвестная категория'.

In [69]:
# Добавляем категорию 'неизвестное значение' в оба категориальных столбца
df_actual['user_score_category'] = df_actual['user_score_category'].cat.add_categories('неизвестное значение')
df_actual['critic_score_category'] = df_actual['critic_score_category'].cat.add_categories('неизвестное значение')

In [70]:
# Заменяем NaN на 'неизвестное значение'
df_actual['user_score_category'] = df_actual['user_score_category'].fillna('неизвестное значение')
df_actual['critic_score_category'] = df_actual['critic_score_category'].fillna('неизвестное значение')

Посмотрим изменения в датасете.

In [71]:
df_actual.head(10) # выводим первые 10 строк датасета df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales_mm,eu_sales_mm,jp_sales_mm,other_sales_mm,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка,средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка,высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,высокая оценка,высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка,средняя оценка
8,new super mario bros. wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87,8.4,E,высокая оценка,высокая оценка
10,nintendogs,DS,2005,simulation,9.05,10.95,1.93,2.74,-1,-1.0,,неизвестное значение,неизвестное значение
11,mario kart ds,DS,2005,racing,9.71,7.47,4.13,1.9,91,8.6,E,высокая оценка,высокая оценка
13,wii fit,Wii,2007,sports,8.92,8.03,3.6,2.15,80,7.7,E,средняя оценка,высокая оценка
14,kinect adventures!,X360,2010,misc,15.0,4.89,0.24,1.69,61,6.3,E,средняя оценка,средняя оценка


Выделим топ-7 платформ по количеству игр, выпущенных за весь требуемый период.

In [72]:
# считаем количество игр в зависимости от платформы
top_platform = df_actual.groupby('platform')['name'].count()

In [73]:
# сортируем результат и выводим первые топ-7 платформ по количеству игр
top_platform_sorted = top_platform.sort_values(ascending = False).head(7)
top_platform_sorted

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

## <a id='common_conclusion'>Заключение по проекту</a>

[Вернуться к содержанию](#content)

**После тщательной обработки данных о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр был подготовлен набор данных для анализа. Главные результаты, которого стали:**
- Определены самые популярные платформы - PS2, DS и Wii лидируют по числу выпущенных игр с 2000 по 2013 год включительно
- Обнаружены проблемы с полнотой данных - многие оценки пользователей и критиков отсутствуют, что нужно учитывать при дальнейшем анализе
- Данные приведены в порядок - устранены пропуски, дубликаты, исправлены типы данных, был уменьшен объем занимаемой памяти и добавлены новые категории по оценкам пользователей и критиков.

#### Что было сделано:
- **Подготовка и очистка данных:**
  - Названия столбцов были приведены к единому формату snake_case 
  - Уточнены единицы измерения в названиях столбцов с продажами: 'na_sales', 'eu_sales', 'jp_sales', 'other_sales' (добавлено '_mm')
  - Была проведена работа с пропущенными значениями столбцов:
    - Удалены записи с пустыми значениями в столбцах 'name', 'genre', 'year_of_release'
    - Отмечены специальным значением (-1) отсутствующие оценки в столбцах 'critic_score', 'user_score', 'rating'
  - Исправлены типы данных для оптимизации хранения:
    - Исправлены типы данных: 'year_of_release' с float64 на int16, 'critic_score' с float64 на int8
    - Преобразованы в числовые типы: 'eu_sales_mm', 'jp_sales_mm' с object на float64, 'user_score'с object на float32
    - Оптимизирован объем занимаемой памяти
  - Убраны явные и неявные дубликаты:
    - Удалены явные дубликаты: 235 полностью одинаковых строк
    - Устранены неявные дубликаты:
      - В столбце'genre' - значения приведены к нижнему регистру
      - В столбце 'rating' - замена устаревшего 'K-A' на 'E' и приведение значений к верхнему регистру
      - В столбце 'name' - нормализация регистра, т.е. значения приведены к нижнему регистру
    - После итоговой очистки данных было удалено 512 строк (3.02% данных)
- **Формирование актуального набора данных:**
  - Был создан новый датафрейм df_actual, в котором были отфильтрованы игры, выпущенные с 2000 по 2013 год включительно
- **Создание новых категорий данных:**
  - user_score_category - разделили оценки пользователей на:
    - низкие (0-3)
    - средние (3-8)
    - высокие (8-10)
  - critic_score_category - разделили оценки критиков на:
    - низкие (0-30)
    - средние (30-80)
    - высокие (80-100)
- Первые аналитические находки:
  - Выявили 7 самых популярных игровых платформ
  - Подготовили базу для изучения связи между оценками и продажами