# Анализ и обработка данных о развитии индустрии игр в начале XXI века для команды  "Секреты Темнолесья"

- Автор: Горлов Георгий
- Дата:23.02.2025

### Цели и задачи проекта

В этой тетрадке проведём анализ и обработку данных из файла `new_games.csv`для команды "Секреты Темнолесья". Данные содержат информацию о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.

### Содержимое проекта

1. [Загрузка и знакомство с данными](#1)
2. [Проверка ошибок в данных и их предобработка](#2)
3. [Фильтрация данных](#3)
4. [Категоризация данных](#4)

---

<a id='1'></a>
## 1. Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.  


- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [4]:
# Импортируем библиотеку pandas
import pandas as pd

In [5]:
# Импортируем библиотеку numpy
import numpy as np

In [6]:
# Выгружаем данные из датасета hotel_dataset.csv в датафрейм hotels
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [7]:
# Выводим общую информацию о датасете
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


- Выведем первые 5 и последние 5 строк датасета

In [8]:
# Выведем первые 5 строк датафрейма
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [9]:
## Выведем последние 5 строк датафрейма
df.tail()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


- Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
- Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

**Промежуточные вывода:** 
    Всего в датафрейме 16956 строк и 11 столбцов. Из 11 столбцов 4 имеют тип данных `float64` и 7 столбцов типа `object`. При этом для столбцов `EU sales, JP sales, User Score` стоит изменить тип данных с `object` на `float64`.А столбец `Year of Release` стоит преобразовать к типу данных `datetime64`. Столбцы `Critic Score, User Score, Rating` отличаются по количеству пропусков от остальных столбцов. Самое большое количество пропусков в столбце `Critic Score`. Названия всех столбцов начинаются с заглавной буквы и имеют пробелы между словами в названии.
    

---
<a id='2'></a>
## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

Проведём предобработку стобцов датафрейма. Выведем все названия столбцов.

In [10]:
#Выведем названия столбцов
df.columns.tolist()

['Name',
 'Platform',
 'Year of Release',
 'Genre',
 'NA sales',
 'EU sales',
 'JP sales',
 'Other sales',
 'Critic Score',
 'User Score',
 'Rating']

In [11]:
#Приведём все названия к стилю snake_case
df.columns = df.columns.str.lower().str.replace(' ','_')
df.columns.tolist()

['name',
 'platform',
 'year_of_release',
 'genre',
 'na_sales',
 'eu_sales',
 'jp_sales',
 'other_sales',
 'critic_score',
 'user_score',
 'rating']

In [12]:
#Проверим названия в датафрейме
display(df)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.0,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.0,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.0,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.00,,,


### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

In [14]:
# Проведем контролько размера датасета перед обработкой
tmp = df.copy() # создаем копию датасета до преобразования
len(tmp)

16956

Возможно, что в столбцах `eu_sales, jp_sales, user_score` находятся не подходящие строковые значения. Из-за этого стобец имеет тип данных `object`. Также столбец `year_of_release`имеет тип данных `float64`.  Попробуем изменить некорректный тип данных для столбца года выпуска видеоигр, а также найти некорректные данные,заменить их  и изменить тип данных стобцов `eu_sales, jp_sales, user_score`.

- В числовых столбцах могут встретиться строковые значения, например `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [15]:
#Проведем анализ и выясним почему столбцы числовых данных не имеют числовой тип данных
# Значения таблицы year_of_releasew
tmp['year_of_release'].unique()

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

In [16]:
# Проверим и подсчитаем типы данных значений в столбце 
tmp['year_of_release'].apply(type).value_counts()

<class 'float'>    16956
Name: year_of_release, dtype: int64

In [17]:
# Значения таблицы eu_sales
tmp['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [18]:
# Проверим и подсчитаем типы данных значений в столбце
tmp['eu_sales'].apply(type).value_counts()

<class 'str'>    16956
Name: eu_sales, dtype: int64

In [19]:
# Значения таблицы jp_sales
tmp['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [20]:
# Проверим и подсчитаем типы данных значений в столбце
tmp['jp_sales'].apply(type).value_counts()

<class 'str'>    16956
Name: jp_sales, dtype: int64

In [21]:
# Значения таблицы user_score
tmp['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

In [22]:
# Проверим и подсчитаем типы данных значений в столбце
tmp['user_score'].apply(type).value_counts()

<class 'str'>      10152
<class 'float'>     6804
Name: user_score, dtype: int64

**Промежуточный выовод:** можем заметить, что в столбце `year_of_release` присутствуют пустые значения, что не даёт возможности сразу изменить тип данных столбцы на `datetime64`. Также отметим, что в столбцах `eu_sales` и `jp_sales`присутствует значение  *unknown*, а также то, что все значения в этих столбцах имеют тип данных `str`. В столбце `user_score` 10152 значений типа `str` и 6804 типа `float` - это может быть связано с пустыми значениям в столбце.

In [23]:
# Возьмем срез датафрейма для отслеживания заменяемых значений 
df[118:120]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
118,Uncharted 3: Drake's Deception,PS3,2011.0,Action,2.77,2.75,0.19,1.03,92.0,8.3,T
119,Zumba Fitness,Wii,2010.0,Sports,3.45,2.59,0.0,0.66,,tbd,E


In [24]:
# Заменим некорректные значения в датафрейме на None
df = df.replace('unknown', np.nan) # Изменено f = df.replace(['unknown','tbd'], None)
df = df.replace('tbd',np.nan)

In [25]:
# Проверим результат замены значений
df[118:120]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
118,Uncharted 3: Drake's Deception,PS3,2011.0,Action,2.77,2.75,0.19,1.03,92.0,8.3,T
119,Zumba Fitness,Wii,2010.0,Sports,3.45,2.59,0.0,0.66,,,E


In [28]:
#Изменим тип данных столбцов
df[['eu_sales','jp_sales','user_score']]=df[['eu_sales','jp_sales','user_score']].astype('float64')
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


None

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [29]:
# Количество пропусков в каждом столлбце в абсолютном значении
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [30]:
# Количество пропусков в каждом столлбце в относительном значении
round(df.isna().sum()/df.shape[0] * 100,2)

name                0.01
platform            0.00
year_of_release     1.62
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.39
user_score         54.66
rating             40.52
dtype: float64

- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


**Промежуточный выовод:** большое количество пропусков относится к столбцам с оценкой игр критиков, игроков, а также к рейтингу самих игр. Возможно это связано с тем, что большое количество игр выпускается инди-разработчиками. Подобные игры малы в маштабе и неизвестны для большинства игроков, не говоря уже и о критиках. Поэтому объяснить то, что количество отстствующих оценок критиков больше, чем у игроков можно тем, что внушающее количество игр из датафрейма могла пройти мимо самих критиков.

При всём этом, количество пропущенных значений в столбце оценок игроков всё равно остаётся большим. Это можно объяснить тем, что определённый процент игроков не ставит оценки играм. Возможно такие игры не засветились в инфополе, а возможно этим играм не хватило достаточного количество оценок для определения значения стобца `user_score`.

Количество пропусков в столбце `rating` примерно схоже со столбцом `user_score`. В данном случае рейтинг выставляется специальной организацией **ESRB**. Поэтому возможно, что какое то количество игр также прошло мимо организации.

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

Возможно внесение изменений или удаление строк без оценок игроков, критиков, а также без рейтинга может быть не лучшим вариатом. Проставить среднее значение -  не лучший варинт для пропущенных значений. Тоже самое с медианным значением. Рейтинг также не может быть заполнен данными значениями.

In [32]:
# Сохраним копию датасета перед началом обработки пустых значений, чтобы сохранить возможность обратиться 
# к первоначальному датасету
tmp = df.copy()
len(tmp)

16956

In [33]:
# Удалим строки из столбцов name и genre с пропусками
df = df.dropna(subset=['name','genre'])

In [34]:
# Проверим пропущенные значения в датафрейме 
df.isna().sum()

name                  0
platform              0
year_of_release     275
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8712
user_score         9266
rating             6869
dtype: int64

In [35]:
# Удалим строки из столбцa year_of_release с пропусками
df = df.dropna(subset=['year_of_release'])

In [36]:
# Проверим пропущенные значения в датафрейме 
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8594
user_score         9121
rating             6778
dtype: int64

In [37]:
# Заменим пропущенные значения в столбце rating заглушками
df['rating'] = df['rating'].fillna('unknown')

In [38]:
# Проверим уникуальные значения
df['rating'].unique()

array(['E', 'unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [39]:
# Проверим количество пропусков в датафрейме
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8594
user_score         9121
rating                0
dtype: int64

In [40]:
# Проверим количество строк после удаления строк с пустыми значениями
len(df)

16679

In [41]:
# Заменим пропущенные значения в столбце critic_score цифровыми заглушками
df['critic_score'] = df['critic_score'].fillna(-1)

In [42]:
# Проверим уникальные значения
df['critic_score'].unique()

array([76., -1., 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 41., 36., 31., 27., 35., 26., 19., 28., 23.,
       24., 21., 17., 13.])

In [43]:
# Меняем тип данных столбца critic_score
df['critic_score'] = df['critic_score'].astype('int64') 

In [44]:
# Меняем тип данных столбца year_of_release
df['year_of_release'] = df['year_of_release'].astype('int64') 

In [45]:
# Проверяем тип данных
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16673 non-null  float64
 6   jp_sales         16675 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  int64  
 9   user_score       7558 non-null   float64
 10  rating           16679 non-null  object 
dtypes: float64(5), int64(2), object(4)
memory usage: 1.5+ MB


### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [46]:
# Находим уникальные количество уникальных значений для столбцов датафрейма
unique_values = {col : df[col].nunique() for col in df.columns}
for col, values in unique_values.items():
    print(col,':',values)

name : 11426
platform : 31
year_of_release : 37
genre : 24
na_sales : 401
eu_sales : 307
jp_sales : 244
other_sales : 155
critic_score : 82
user_score : 95
rating : 9


In [47]:
# # Находим уникальные значения для столбцов датафрейма
unique_values = {col : df[col].unique() for col in df.columns}
for col, values in unique_values.items():
    print(col,':',values)

name : ['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']
platform : ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
year_of_release : [2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000 1995 1991 1981 1987 1980 1983]
genre : ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
na_sales : [4.136e+01 2.908e+01 1.568e+01 1.561e+01 1.127e+01 2.320e+01 1.128e+01
 1.396e+01 1.444e+01 2.693e+01 9.050e+00 9.710e+00 9.000e+00 8.920e+00
 1.500e+01 9.010e+00 7.020e+00

In [48]:
# Проводим нормализацию данных в столбцах name, genre, rating
df['name'] = df['name'].str.lower()
df['genre'] = df['genre'].str.lower()
df['rating'] = df['rating'].str.upper() 

In [49]:
# Заново проверим на количество уникальных значений
unique_values = {col : df[col].nunique() for col in df.columns}
for col, values in unique_values.items():
    print(col,':',values)

name : 11426
platform : 31
year_of_release : 37
genre : 12
na_sales : 401
eu_sales : 307
jp_sales : 244
other_sales : 155
critic_score : 82
user_score : 95
rating : 9


Как видим, количество жанров сократилось в 2 раза. При этом количество уникальных наименований и уникальных рейтингов не изменилось 

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [50]:
#Находим число явных дубликатов
df.duplicated().sum()


235

In [51]:
# Находим строки-дубликаты
df= df.sort_values(by=df.columns.tolist())
duplicates = df[df.duplicated()]
duplicates

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
15192,beyblade burst,3DS,2016,role-playing,0.00,0.00,0.03,0.00,-1,,UNKNOWN
15302,11eyes: crossover,X360,2009,adventure,0.00,0.00,0.02,0.00,-1,,UNKNOWN
4861,18 wheeler: american pro trucker,PS2,2001,racing,0.20,0.15,0.00,0.05,61,5.7,E
13099,4 elements,PC,2009,puzzle,0.00,0.04,0.00,0.01,-1,7.4,E
5236,"999: nine hours, nine persons, nine doors",DS,2009,adventure,0.31,0.00,0.03,0.02,-1,,UNKNOWN
...,...,...,...,...,...,...,...,...,...,...,...
16104,yoake yori ruriiro na portable,PSP,2010,adventure,0.00,0.00,0.02,0.00,-1,,UNKNOWN
10662,yu-gi-oh! 5d's wheelie breakers,Wii,2009,racing,0.09,0.01,0.00,0.01,-1,,UNKNOWN
2909,yu-gi-oh! the falsebound kingdom,GC,2002,strategy,0.49,0.13,0.07,0.02,-1,,UNKNOWN
6696,zoo resort 3d,3DS,2011,simulation,0.11,0.09,0.03,0.02,-1,,E


In [52]:
# Удаляем строки дубликаты
df_no_duplicates = df.drop_duplicates()
df_no_duplicates.shape[0]

16444

In [53]:
# Проверяем общую информацию о новом датафрейме
df_no_duplicates.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16444 entries, 15191 to 9260
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16444 non-null  object 
 1   platform         16444 non-null  object 
 2   year_of_release  16444 non-null  int64  
 3   genre            16444 non-null  object 
 4   na_sales         16444 non-null  float64
 5   eu_sales         16438 non-null  float64
 6   jp_sales         16440 non-null  float64
 7   other_sales      16444 non-null  float64
 8   critic_score     16444 non-null  int64  
 9   user_score       7463 non-null   float64
 10  rating           16444 non-null  object 
dtypes: float64(5), int64(2), object(4)
memory usage: 1.5+ MB


- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

**Промежуточный выовод:** количество дубликатов было равно 235. При обработке мы отсортировали датафрейм,вывели новый датафрейм с дубликатами и создали новый датафрейм, где сохранили "оригинал" и удалили его дубликат. 

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

In [54]:
# Находим число дубликатов из изначального датафрейма и находим абсолютное и относительно значение

abs_deleted_rows= tmp.shape[0] - df_no_duplicates.shape[0] # Ипсправлено df.duplicated().sum()
rel_deleted_rows = round(abs_deleted_rows/tmp.shape[0]*100,2) #rel_deleted_rows = round(abs_deleted_rows/df.shape[0],2)
print(f'Изначальное количество строк:{tmp.shape[0]}\nКоличство строк после обработки:{df_no_duplicates.shape[0]}\nАбсолютное значение удаленных строк:{abs_deleted_rows}\nОтносительно значение удаленных строк :{rel_deleted_rows}')

Изначальное количество строк:16956
Количство строк после обработки:16444
Абсолютное значение удаленных строк:512
Относительно значение удаленных строк :3.02


- После проведения предобработки данных напишите общий промежуточный вывод.

**Промежуточный выовод:** по результатам предобработки смогли сократить число уникальных жанров в с толбце `genre` с 24 до 12.Также узнали количество уникальных значений для каждого столбца. Из 16679 строк очищенного датафрейма только 11426 имеют уникальное значение. Также были изменены типы данных столбцов `user_score, eu_sales, jp_sales,year_of_release`

---
<a id='3'></a>
## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [68]:
# Фильтруем датафрейм по году выхода игр
df_actual = df_no_duplicates[(df_no_duplicates['year_of_release'] >=2000) & (df_no_duplicates['year_of_release'] <=2013)]
df_actual.sort_values(by='year_of_release')

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
4188,gauntlet legends,PS,2000,action,0.26,0.18,0.00,0.03,-1,,UNKNOWN
7298,mega man 64,N64,2000,action,0.14,0.03,0.05,0.00,-1,,UNKNOWN
15685,rat attack!,N64,2000,puzzle,0.02,0.00,0.00,0.00,-1,,UNKNOWN
16863,crossroad crisis,PS,2000,puzzle,0.01,0.00,0.00,0.00,-1,,UNKNOWN
7499,cruis'n exotica,N64,2000,racing,0.17,0.04,0.00,0.00,-1,,UNKNOWN
...,...,...,...,...,...,...,...,...,...,...,...
7069,the legend of heroes: trails of cold steel,PSV,2013,role-playing,0.05,0.02,0.14,0.02,77,7.5,T
1022,wii party u,WiiU,2013,misc,0.30,0.56,0.84,0.05,65,6.8,E
7717,the legend of heroes: trails of cold steel,PS3,2013,role-playing,0.05,0.02,0.12,0.01,86,7.7,T
14041,painkiller: hell & damnation,PS3,2013,shooter,0.02,0.01,0.00,0.01,-1,,UNKNOWN


---
<a id='4'></a>
## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [58]:
# Создаём функцию, которая категоризирует игры по оценкам пользователй

def user_catigorize_game(row):
    if row['user_score'] >= 8 and row['user_score'] <= 10:
        return "высокая оценка"
    elif row['user_score'] >= 3 and row['user_score'] < 8: # Исправлено условие elif row['user_score'] > 3 and row['user_score'] < 8 :
        return "средняя оценка"
    elif row['user_score'] < 3:
        return "низкая оценка"
    else:
        return "нет оценки"

In [59]:
# Добавляем столбец с категориями
import warnings
warnings.filterwarnings("ignore")
df_actual['user_category'] = df_actual.apply(user_catigorize_game, axis = 1)

In [60]:
# Смотрим на результат
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_category
3394,frozen: olaf's quest,3DS,2013,platform,0.27,0.27,0.00,0.05,-1,,UNKNOWN,нет оценки
3906,frozen: olaf's quest,DS,2013,platform,0.21,0.26,0.00,0.04,-1,,UNKNOWN,нет оценки
2478,tales of xillia 2,PS3,2012,role-playing,0.20,0.12,0.45,0.07,71,7.9,T,средняя оценка
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.00,0.00,0.17,0.00,-1,,UNKNOWN,нет оценки
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.00,0.03,-1,,UNKNOWN,нет оценки
...,...,...,...,...,...,...,...,...,...,...,...,...
7233,zumba fitness: world party,Wii,2013,misc,0.11,0.10,0.00,0.02,-1,,E,нет оценки
6970,zumba fitness: world party,XOne,2013,misc,0.17,0.05,0.00,0.02,73,6.2,E,средняя оценка
15739,zwei!!,PSP,2008,role-playing,0.00,0.00,0.02,0.00,-1,,UNKNOWN,нет оценки
13138,zyuden sentai kyoryuger: game de gaburincho!!,3DS,2013,action,0.00,0.00,0.05,0.00,-1,,UNKNOWN,нет оценки


- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [61]:
# Создаём функцию, которая категоризирует игры по оценкам критиков

def critic_catigorize_game(row):
    if  row['critic_score'] >= 80 and row['critic_score'] <= 100: 
        return "высокая оценка"
    elif row['critic_score'] >= 30 and row['critic_score'] < 80:
        return "средняя оценка"
    elif row['critic_score'] < 30 and row['critic_score'] >= 0: # Исправлено условие elif row['critic_score'] < 30:
        return "низкая оценка"
    else:
        return "нет оценки"

In [62]:
# Добавляем столбец с категориями
df_actual['critic_category'] = df_actual.apply(critic_catigorize_game, axis = 1)

In [63]:
# Проверяем границы категорий по заданию брифа и созданные в проекте
tmp0, u_s, c_s = df_actual.copy(), 'user_score', 'critic_score'
cat_u, cat_c = 'user_category', 'critic_category'
print("Оценка 8 должна относиться категории 'высокая оценка'", "здесь это",
      tmp0[tmp0[u_s] == 8][cat_u].unique())
print("Оценка 3 должна относиться категории 'средняя оценка'", "здесь это",
      tmp0[tmp0[u_s] == 3][cat_u].unique())
print("Оценка 0 должна относиться категории 'низкая оценка'", "здесь это",
      tmp0[tmp0[u_s] == 0][cat_u].unique())
print("=================================")
print("Оценка 80 должна относиться категории 'высокая оценка'", "здесь это",
      tmp0[tmp0[c_s] == 80][cat_c].unique())
print("Оценка 30 должна относиться категории 'средняя оценка'", "здесь это",
      tmp0[tmp0[c_s] == 30][cat_c].unique())
print("Оценка 0 должна относиться категории 'низкая оценка'", "здесь это",
      tmp0[tmp0[c_s] == 0][cat_c].unique())

Оценка 8 должна относиться категории 'высокая оценка' здесь это ['высокая оценка']
Оценка 3 должна относиться категории 'средняя оценка' здесь это ['средняя оценка']
Оценка 0 должна относиться категории 'низкая оценка' здесь это ['низкая оценка']
Оценка 80 должна относиться категории 'высокая оценка' здесь это ['высокая оценка']
Оценка 30 должна относиться категории 'средняя оценка' здесь это ['средняя оценка']
Оценка 0 должна относиться категории 'низкая оценка' здесь это []


In [64]:
# Смотрим на результат
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_category,critic_category
3394,frozen: olaf's quest,3DS,2013,platform,0.27,0.27,0.00,0.05,-1,,UNKNOWN,нет оценки,нет оценки
3906,frozen: olaf's quest,DS,2013,platform,0.21,0.26,0.00,0.04,-1,,UNKNOWN,нет оценки,нет оценки
2478,tales of xillia 2,PS3,2012,role-playing,0.20,0.12,0.45,0.07,71,7.9,T,средняя оценка,средняя оценка
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.00,0.00,0.17,0.00,-1,,UNKNOWN,нет оценки,нет оценки
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.00,0.03,-1,,UNKNOWN,нет оценки,нет оценки
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7233,zumba fitness: world party,Wii,2013,misc,0.11,0.10,0.00,0.02,-1,,E,нет оценки,нет оценки
6970,zumba fitness: world party,XOne,2013,misc,0.17,0.05,0.00,0.02,73,6.2,E,средняя оценка,средняя оценка
15739,zwei!!,PSP,2008,role-playing,0.00,0.00,0.02,0.00,-1,,UNKNOWN,нет оценки,нет оценки
13138,zyuden sentai kyoryuger: game de gaburincho!!,3DS,2013,action,0.00,0.00,0.05,0.00,-1,,UNKNOWN,нет оценки,нет оценки


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [65]:
# Создаем сгруппированный датафрейм 
grouped_data_user_score = df_actual.groupby(['user_category'], as_index = False)['name'].count()
grouped_data_critic_score = df_actual.groupby(['critic_category'], as_index = False)['name'].count()
# Выводим на экран
display(grouped_data_user_score,grouped_data_critic_score)

Unnamed: 0,user_category,name
0,высокая оценка,2286
1,нет оценки,6298
2,низкая оценка,116
3,средняя оценка,4081


Unnamed: 0,critic_category,name
0,высокая оценка,1692
1,нет оценки,5612
2,низкая оценка,55
3,средняя оценка,5422


In [66]:
# Создаем сгруппированный по двум столбцам датафрейм 
grouped_data = df_actual.groupby(['user_category','critic_category'], as_index = False)['name'].count()
# Выводим на экран
display(grouped_data)

Unnamed: 0,user_category,critic_category,name
0,высокая оценка,высокая оценка,1017
1,высокая оценка,нет оценки,101
2,высокая оценка,низкая оценка,1
3,высокая оценка,средняя оценка,1167
4,нет оценки,высокая оценка,33
5,нет оценки,нет оценки,5237
6,нет оценки,низкая оценка,7
7,нет оценки,средняя оценка,1021
8,низкая оценка,высокая оценка,1
9,низкая оценка,нет оценки,21


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [67]:
# Создаем новый сгруппированный датафрейм по платформам
new_grouped_data = df_actual.groupby(['platform'])['name'].count()
# Выводим на экран
display(new_grouped_data.sort_values(ascending = False).head(7))

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

В проекте перед нами стояли задачи: познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных. Познакомившись с данными, было отмечено несоответствие у некоторых значений в столбцах датасета с их логическим, или корректным для них, типом данных.

Были проведены поиски ошибок в данных и их предобработка. Проведена нормализация названий игр и жанров. Каждое значение в этих столбцах было приведенок формату *snake_case* в рамках нормализации. Датасет был очищен от строк с пропущенными значениями в столбцах `name` и `genre`, а также из столбца `year_of_release`. Столбцы `year_of_release` и `critic_score` были приведены к корректному типу данных - `int64` или к целым числам, а столбцы `eu_sales','jp_sales','user_score` - к `float64` или целым числам с плавающей точкой.  Помимо этого были удалены строки-дубликаты. Всего датасет был очищен от 512 строк. Пустые значения в столбце `rating` были заменены на значение *unknown* для удобного анализа датасета. Проведён срез данных с 2000 по 2013 год. Проведена категоризация оценок и добавление в датафрейм новых столбцов: `user_category` и `critic_category`. По этим данным сгруппированна и подсчитана инфомация о самой популярной игровой платформе, категории оценок " оценки пользователь-критик", " оценки пользователей" и "оценки критиков".

По завершению работы над датасетом можно сделать вывод, что большинство игр осталось без оценки пользователей или критиков.
Большинство игр за период с 2000 по 2013 не имели оценок в датасете. Самой многочисленной группой игр, у которых есть оценки пользователей и критиков, является группа игр со "средней оценкой" и пользователей и критиков. Самой популярной платформой за период 2000-2013 гг. является PlayStation 2. За ней с небольшим отстованием следует Nintendo DS. Отсутствие рейтинга от ESRB у некоторых игр, а таких в датасете ~ 40%,  может говорить о том, что данные игры не были выпущены для США и Канады или нацелены на игроков, проживающих в них. Примером таких игр могут быть игры жанра JRPG - японская ролевая игра, пользующееся популярностью преимущественно в Японии.

По данным сгруппированых оценок можно увидеть, что критики чаще ставят высокие оценки играм,чем обычные пользователи. При этом обычные пользователи чаще критиков ставят играм "среднюю" оценку. Несмотря на различия, чаще всего и критики и пользователи сходятся во мнении насчёт игр "средней" категории - 3157 игр,которые критики и пользователи отметили как "средние". 