# "Предообработка данных игры "Секреты темнолесья"

- Автор:Яфаров Ринат 
- Дата:09.12.2024

### Цели и задачи проекта

<font color='#777778'>Цель проекта: Провести глубокое исследование и анализ развития игровой индустрии в период с 2000 по 2013 год, с акцентом на жанр RPG, для подготовки статьи, которая привлечет внимание новой аудитории к игре «Секреты Темнолесья».</font>

### Описание данных

<font color='#777778'>Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
* `Name` — название игры.
* `Platform` — название платформы.
* `Year of Release` — год выпуска игры.
* `Genre` — жанр игры.
* `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
* `EU sales` — продажи в Европе (в миллионах проданных копий).
* `JP sales` — продажи в Японии (в миллионах проданных копий).
* `Other sales` — продажи в других странах (в миллионах проданных копий).
* `Critic Score` — оценка критиков (от 0 до 100).
* `User Score` — оценка пользователей (от 0 до 10).
*`Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг *компьютерных игр и присваивает им подходящую возрастную категорию.</font>

### Содержимое проекта

Примерный план работы над данными: 

Загрузка и знакомство с данными
- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv.`
- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.
- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

Проверка ошибок в данных и их предобработка
Это самая объёмная и важная часть проекта. Теперь вам нужно внимательно изучить данные и провести их предобработку. Что нужно проверить:

Названия, или метки, столбцов датафрейма:
- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания _.

Типы данных:
- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.
- В числовых столбцах могут встретиться строковые значения, например,unknown или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

Наличие пропусков в данных:
- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их.
- Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.
- Обработайтепропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

Явные и неявные дубликаты в данных:
- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска.
- Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.
- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.
- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.
- В процессе подготовки данных вы могли удалять данные, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях. После проведения предобработки данных напишите общий промежуточный вывод.

Фильтрация данных
- Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например df_actual.

Категоризация данных
- Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

---

##  Загрузка данных и знакомство с ними <a id='part1'></a>



In [1]:
#загружаем библиотеку pandas для работы с данными в датафрейме
import pandas as pd
import numpy as np

In [2]:
#выгружаем данные датасета
df = pd.read_csv('https://code.s3.yandex.net//datasets/new_games.csv')

In [3]:
#выводим основную информацию о данных в датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
df.sample(5)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
15876,Motto NUGA-CEL!,PSP,2010.0,Adventure,0.0,0.0,0.02,0.0,,,
13057,Olympic Soccer: Atlanta 1996,PS,1996.0,Sports,0.03,0.02,0.0,0.0,,,
5738,Marvel Nemesis: Rise of the Imperfects,PSP,2005.0,Fighting,0.29,0.0,0.0,0.02,58.0,8.7,T
9189,.hack//Link,PSP,2010.0,Role-Playing,0.0,0.0,0.14,0.0,,,
4741,Football Manager Handheld 2011,PSP,2010.0,Sports,0.0,0.27,0.0,0.14,77.0,7.7,E


Можно увидеть, что данные соответствуют описанию. Также стоит отметить, что имеются пропуски, значительное количество пропусков находится в столбцах с оценками. Для некоторых столбцов тип данных подобран не совсем корректно,например в столбце `EU sales` находятся числовые значения, а тип данных `object`, тоже самое в столбце `JP sales`.Однако в столбце `rating` логично предположить, что тип данных должен быть `int64`, но из вывода данных видно, что в этом столбце значения представлены буквами. В столбце `year of release` также некорректно выбран тип данных, ведь тип данных `float64` немного не правильно представляет информацию о годах выпуска игр
Названия столбцов имеют корректные названия, однако для удобства работы с ними нужно будет привести их к виду `snake case`

---

##   Проверка ошибок в данных и их предобработка


###  Названия, или метки, столбцов датафрейма


In [5]:
#выводим на экран названия столбцов датафрейма
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Из вывода названий столбцов мы видим, что названия выполнены в стиле написания как в предложениях, кроме того, названия столбцов написаны через пробел.

Приведем названия столбцов к стилю snake case:

In [6]:
df = df.rename(columns={'Name': 'name',
                        'Platform': 'platform',
                        'Year of Release': 'year_of_release',
                        'Genre': 'genre',
                        'NA sales': 'na_sales',
                        'EU sales': 'eu_sales',
                        'JP sales': 'jp_sales',
                        'Other sales': 'other_sales',
                        'Critic Score': 'critic_store',
                        'User Score': 'user_score',
                        'Rating': 'rating'})
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_store', 'user_score', 'rating'],
      dtype='object')

###  Типы данных



In [7]:
df['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [8]:
df['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [9]:
df['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

Из уникальных значений столбцов `eu_sales`,`jp_sales`,`user_score` можно увидеть, что тип данных `object` для этих столбцов выбран не случайно. Видно, что есть строковые значения `unknown` и `tbd`, поэтому тип данных `object` достаточно логичен, однако для дальнейшего анализа будет удобнее работать с этими столбцами типа данных `float64`. Текстовые значения будут заменены на пропуски

- Столбец `year_of_release` , в котором находятся значения года выпуска имеет тип данных `float64`. Лучше использовать тип данных `int64` или `datetime64`
- Столбцы `eu_sales` и `jp_sales` имеют тип данных `object`,будем использовать `float64`
- Столбец `user_score` имеет числовые значения, поэтому будем использовать тип данных `float64` для данного столбца


In [18]:
df[['eu_sales', 'jp_sales', 'user_score']].apply(pd.to_numeric, errors='coerce') 

Unnamed: 0,eu_sales,jp_sales,user_score
0,28.96,3.77,8.0
1,3.58,6.81,
2,12.76,3.79,8.3
3,10.93,3.28,8.0
4,8.89,10.22,
...,...,...,...
16951,0.00,0.01,
16952,0.01,0.00,
16953,0.00,0.01,
16954,0.00,0.00,


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_store     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [17]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_store,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Я не понимаю почему все равно не преобразовался тип данных, используя твое предложение кода, поэтому попробую написать код по раздельности, сохраняя смысл твоего предложения)

In [22]:
df['eu_sales'] = pd.to_numeric(df['eu_sales'],errors = 'coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'],errors = 'coerce')
df['user_score'] = pd.to_numeric(df['user_score'],errors = 'coerce')

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_store     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


In [24]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_store,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


###  Наличие пропусков в данных

Для начала подсчитаем количество пропусков в каждом столбце в абсолютном и относительном значениях:


In [25]:
#подсчет количества пропусков в абсолютном значении
df.isna().sum().sort_values(ascending = False)

user_score         9268
critic_store       8714
rating             6871
year_of_release     275
eu_sales              6
jp_sales              4
name                  2
genre                 2
platform              0
na_sales              0
other_sales           0
dtype: int64

In [26]:
#подсчет доли пропусков от общего числа значений в столбце
count_pr = df.isna().sum().sort_values(ascending = False)
count_val = df.shape[0]
display(count_pr/count_val)

user_score         0.546591
critic_store       0.513918
rating             0.405225
year_of_release    0.016218
eu_sales           0.000354
jp_sales           0.000236
name               0.000118
genre              0.000118
platform           0.000000
na_sales           0.000000
other_sales        0.000000
dtype: float64

Из результатов мы видим, что в данных достаточно большое количество пропусков.
В столбцах `user_score`, `critic_store` и `rating` процент пропусков находится около 50%. Эти пропуски для некоторых игр могут быть вызваны несколькими причинами:
- Для новых игр может просто не быть достаточного количества отзывов от пользователей или экспертов, чтобы сформировать оценку.
- Игры, которые не получили широкого распространения или известности, могут не иметь достаточного количества оценок, чтобы их можно было учесть.
- Также стоит учитывать, что на некоторых платформах, таких как Steam или Metacritic, может отсутствовать система оценки, или игра могла быть выпущена на платформе, где такие оценки не ведутся.
- Некоторые игры могут быть исключены из системы оценки по различным причинам, включая политику платформы или отсутствие достаточной информации о игре.

В столбце `year_of_release` также присутствуют пропуски (1.6%), это может быть связано с тем, что:

- Для некоторых игр, особенно инди-проектов или менее известных, может не быть доступной информации о дате релиза, что связано с тем, что игра была выпущена ограниченным тиражом или в рамках локального события.
- Технические ошибки в базе данных или API, из которого собираются данные, могут привести к отсутствию информации о годе релиза.

Также есть небольшое количество пропусков в столбцах `name`,`genre`. Эти пропуски могут быть связаны с какими-либо ошибками в заполнении данных.

В заключении отметим наличие пропусков в столбцах `eu_sales`,`jp_sales`. Это может быть связано с тем, что игра не была выпущенна в этих странах



Далее следует решить, что делать с пропусками и нужно ли их обрабатывать:

Так как мы будем составлять срез данных и нам потребуется работать с данными столбца `year_of_release` нам потребуется обработать пропуски. Пропуски составляют 1.6 % от всего количества строк в таблице, поэтому будет целесообразно удалить все строки с пропусками в этом столбце, что впоследствии не должно повлиять на значения, которые мы получим при анализе.

In [27]:
#удаляем пропуски в столбце year_of_release
df = df.dropna(subset = ['year_of_release'])

In [28]:
#меняем тип данных для столбца year_of_release
df['year_of_release'] = pd.to_numeric(df['year_of_release'])
df['year_of_release'] = df['year_of_release'].astype('int64')

Для столбцов с оценками пропуски оставим и не будем удалять, так как процент пропусков достаточно высок. Однако в дальнейших аналитических подсчетах будем учитывать наличие пропусков в данных этих столбцов.

Для столбцов с количество проданных копий игр в том или ином регионе, мы заменим пропущенное значение на среднее значение 
в зависимости от названия платформы и года выходы игры.

In [29]:
# заменяем пропуски в столбце eu_sales на средние значения в разрезе платформы и годы выхода игры
def eu_sales_mean(row):
    if pd.isna(row['eu_sales']):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

df['eu_sales'] = df.apply(eu_sales_mean, axis=1)

In [30]:
# заменяем пропуски в столбце jp_sales на средние значения в разрезе платформы и годы выхода игры
def jp_sales_mean(row):
    if pd.isna(row['jp_sales']):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

df['jp_sales'] = df.apply(eu_sales_mean, axis=1)

Пропуски в столбцах с именем и жанром стоит удалить, так как их очень мало и они совершенно незначительны и не будут вляить на результаты анализа

In [32]:
#удаляем пропуски в столбцах name и genre
df = df.dropna(subset = ['name','genre'])

In [33]:
df.isna().sum().sort_values(ascending = False)

user_score         9121
critic_store       8594
rating             6778
name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
dtype: int64

###  Явные и неявные дубликаты в данных


Проверка неявных дубликатов:

In [34]:
df['genre'].value_counts()

Action          3341
Sports          2325
Misc            1740
Role-Playing    1493
Shooter         1314
Adventure       1309
Racing          1244
Platform         891
Simulation       866
Fighting         844
Strategy         679
Puzzle           577
ACTION            12
SPORTS             7
ROLE-PLAYING       6
RACING             6
FIGHTING           6
SHOOTER            5
ADVENTURE          4
PLATFORM           3
MISC               3
PUZZLE             2
SIMULATION         1
STRATEGY           1
Name: genre, dtype: int64

Из распределения значений в столбце `genre` можно увидеть, что одинаковые названия написаны по разному, что приводит к дубликатам.

In [35]:
#приведем все значения столбца genre к нижнему регистру
df['genre']= df['genre'].str.lower()

In [36]:
df['genre'].value_counts()

action          3353
sports          2332
misc            1743
role-playing    1499
shooter         1319
adventure       1313
racing          1250
platform         894
simulation       867
fighting         850
strategy         680
puzzle           579
Name: genre, dtype: int64

Мы привели значения столбца `genre` к нижнему регистру, тем самым убрали дублирующие значения

Далее рассмотрим столбец `platform` на наличие дублирующих значений:

In [37]:
df['platform'].value_counts()

PS2     2154
DS      2147
PS3     1330
Wii     1305
X360    1249
PSP     1212
PS      1208
PC       972
GBA      826
XB       818
GC       549
3DS      522
PSV      434
PS4      395
N64      320
XOne     251
SNES     241
SAT      174
WiiU     147
2600     118
NES      100
GB        97
DC        52
GEN       27
NG        12
SCD        6
WS         6
3DO        3
TG16       2
GG         1
PCFX       1
Name: platform, dtype: int64

Дублирующих значений в этом столбце не обнаружено

Проведем нормализацию данных. Для этого столбец `name` приведем к нижнему регистру, а столбец`rating` к верхнему.

In [38]:
#приводим столбец rating к верхнему регистру
df['rating'].str.upper()

0          E
1        NaN
2          E
3          E
4        NaN
        ... 
16951    NaN
16952    NaN
16953    NaN
16954    NaN
16955    NaN
Name: rating, Length: 16679, dtype: object

In [39]:
#приводим столбец name к нижнему регистру
df['name'].str.lower()

0                           wii sports
1                    super mario bros.
2                       mario kart wii
3                    wii sports resort
4             pokemon red/pokemon blue
                     ...              
16951    samurai warriors: sanada maru
16952                 lma manager 2007
16953          haitaka no psychedelica
16954                 spirits & spells
16955              winning post 8 2016
Name: name, Length: 16679, dtype: object

Далее проверим наличие явных дубликатов

In [40]:
#проверяем количество явных дубликатов
count_duplicated = df.duplicated().sum()
display(f"Количество явных дубликатов составляет:{count_duplicated}")

'Количество явных дубликатов составляет:235'

Проведем очистку данных от явных дубликатов:

In [41]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = df.shape[0]

# Сортируем датафрейм по всем столбцам
df_sorted = df.sort_values(by=list(df.columns))

# Удаляем дубликаты
df_no_duplicates = df_sorted.drop_duplicates()

# Сохраняем количество строк после удаления дубликатов
final_row_count = df_no_duplicates.shape[0]

# Выводим результаты
display(f"Количество строк до удаления дубликатов: {initial_row_count}")
display(f"Количество строк после удаления дубликатов: {final_row_count}")

'Количество строк до удаления дубликатов: 16679'

'Количество строк после удаления дубликатов: 16444'

В результате предобработки данных было удалено 514 строк, что составляет примерно 3.03% от общего числа строк в изначальном наборе данных. Это включает 275 пропусков в столбце `year_of_release`, 4 пропуска в столбцах `name` и `genre`, а также 235 явных дубликатов. После этих преобразований размер датафрейма уменьшился с 16956 до 16444 строк.

---

##  Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [42]:
#создаем срез на основе предпочтений коллег
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()
display(df_actual.info())
display(df_actual.head())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12980 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12980 non-null  object 
 1   platform         12980 non-null  object 
 2   year_of_release  12980 non-null  int64  
 3   genre            12980 non-null  object 
 4   na_sales         12980 non-null  float64
 5   eu_sales         12980 non-null  float64
 6   jp_sales         12980 non-null  float64
 7   other_sales      12980 non-null  float64
 8   critic_store     7267 non-null   float64
 9   user_score       6572 non-null   float64
 10  rating           8847 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


None

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_store,user_score,rating
0,Wii Sports,Wii,2006,sports,41.36,28.96,28.96,8.45,76.0,8.0,E
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,12.76,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,10.93,2.95,80.0,8.0,E
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,9.14,2.88,89.0,8.5,E
7,Wii Play,Wii,2006,misc,13.96,9.18,9.18,2.84,58.0,6.6,E


---

##  Категоризация данных
    


Разделим все игры по оценкам пользователей на категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [43]:
# с помощью функции разделяем оценки пользователей  по категориям
def category_of_user_rat(row):
    if row['user_score'] >= 8 and row['user_score'] <= 10:
        return "высокая оценка"
    elif row['user_score'] >= 3 and row['user_score'] < 8:
        return "средняя оценка"
    elif row['user_score'] >= 0 and row['user_score'] < 3:
        return "низкая оценка"
    else:
        return "нет оценки"
df_actual['user_score_category'] =df_actual.apply(category_of_user_rat,axis = 1)
display(df_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_store,user_score,rating,user_score_category
0,Wii Sports,Wii,2006,sports,41.36,28.96,28.96,8.45,76.0,8.0,E,высокая оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,12.76,3.29,82.0,8.3,E,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,10.93,2.95,80.0,8.0,E,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,9.14,2.88,89.0,8.5,E,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,9.18,2.84,58.0,6.6,E,средняя оценка


Разделим все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [44]:
# с помощью функции разделяем оценки критиков по категориям
def category_of_critic_rat(row):
    if row['critic_store'] >= 80 and row['critic_store'] <= 100:
        return "высокая оценка"
    elif row['critic_store'] >= 30 and row['critic_store'] < 80:
        return "средняя оценка"
    elif row['critic_store'] >= 0 and row['critic_store'] < 30:
        return "низкая оценка"
    else:
        return "нет оценки"
df_actual['critic_store_category'] =df_actual.apply(category_of_critic_rat,axis = 1)
display(df_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_store,user_score,rating,user_score_category,critic_store_category
0,Wii Sports,Wii,2006,sports,41.36,28.96,28.96,8.45,76.0,8.0,E,высокая оценка,средняя оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,12.76,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,10.93,2.95,80.0,8.0,E,высокая оценка,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,9.14,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,9.18,2.84,58.0,6.6,E,средняя оценка,средняя оценка


После категоризации данных проверяем результат, сгруппировав данные по выделенным категориям и посчитав количество игр в каждой категории.

In [45]:
# с помощью метода groupby() проводим группировку категорий оценок пользователей,
# используя агрегирующую функцию на подсчет количество игр
df_actual.groupby(('user_score_category'),as_index=False)['name'].count()

Unnamed: 0,user_score_category,name
0,высокая оценка,2307
1,нет оценки,6408
2,низкая оценка,117
3,средняя оценка,4148


In [46]:
# с помощью метода groupby() проводим группировку категорий оценок критиков,
# используя агрегирующую функцию на подсчет количество игр
df_actual.groupby(('critic_store_category'),as_index=False)['name'].count()

Unnamed: 0,critic_store_category,name
0,высокая оценка,1712
1,нет оценки,5713
2,низкая оценка,55
3,средняя оценка,5500


Далее выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [47]:
# выделяем топ платформ по количеству игр и выводим первый
df_groupbed = df_actual.groupby(('platform'),as_index=False)['name'].count()
df_groupbed_sorted = df_groupbed.sort_values(by = ['name'], ascending = False)
display(df_groupbed_sorted.head(7))

Unnamed: 0,platform,name
9,PS2,2154
2,DS,2146
15,Wii,1294
12,PSP,1199
17,X360,1138
10,PS3,1107
4,GBA,826


---

##  Итоговый вывод


В заключении работы над проектом необходимо сделать выводы:
- Был проведен подробный анализ данных,формирующий основные тенденции на рынке игр за последние десятилетий. Отчет полностью основан на предпочтениях заказчиков

Теперь стоит разобрать основные решения, которые были приняты во время работы над проектом:
- Для удобства работы с данными названия столбцов были приведены к виду `snake case`
- Проанализировав данные, было принято решение преобразовать тип данных у некоторых столбцов для удобства работы с ними. Столбцы `user_score`,`eu_sales`,`jp_sales` были преобразованы к типу данных `float64`, так как содержат числовую информацию, с которой легче работать именно когла они имееют тип данных `float64`. Так столбец `year_of_release` был преобразован к типу `int64`, так как содержит в себе года.
- Для всего датафрейма были проанализировано наличие пропусков в строках. В некоторых столбцах таких, как `critic_store`,`user_score`,`rating` было выявлено большое количество пропусков, которых составляли примерно 50% от всего объема данных, эти пропуски мы оставим, но в дальнейшем будем учитывать при категоризации данных. В столбце `year_of_release` мы обнаружили 275 пропусков, которые для корректности составления среза по предпочтениям заказчиков мы удалили. В столбцах `eu_sales` и `jp_sales` было обнаружено несколько пропусков, поэтому для корректности работы с данными мы заполнили пропуски средними значениями продаж в разрезе платформы и года выпуска. Пропуски столбцов `name` и `genre` мы удалили, так как их было совсем немного и предположить какое название пропущенно невозможно
- В `genre` были обнаружены дубликаты в названиях жанров, поэтому было принято решение привести все названия к нижнему регистру, вследствии чего были убраны дублирующие значения этого столбца. Для потенциального предотвращения наличия повторяющихся значений в столбце `name` и `rating` мы привели эти столбцы к нижнему и верхнему регистру соответственно.
- Было выявленно 235 явных дубликатов, впоследствии было принято удалить все эти строки. Количество строк до удаления дубликатов составляло 16679, а после удаления количество строк составляло 16444.В результате предобработки данных было удалено 514 строк, что составляет примерно 3.03% от общего числа строк в изначальном наборе данных.
- Далее по запросу заказчиков мы составили срез данных с 2000 по 2013 год и сохранили эти данные в новый датафрейм
- После этого, провели категоризацию новых срезанных данных. Разделили все игры по оценкам пользователей и критиков на категории: высокая оценка, средняя оценка  и низкая оценка. Оценки пользователей распределились следующим образом: высокая оценка - 2307, нет оценки - 6408, низкая оценка - 117, средняя оценка - 4148. А оценки критиков: высокая оценка - 1712, нет оценки - 5713, низкая оценка - 55, средняя оценка - 5500. Были добавлены новые столбцы `user_score_category` и `critic_store_category`
- Также был составлен топ платформ по количеству выпущенных игр: 1. "PS2"- 2154 2."D" - 146 3."Wii" - 1294 4."PSP" - 1199 5."X360" - 1138 6."PS3" - 1107 7."GBA" - 826
