# Предобработка датасета для анализа продаж игр

- Автор: Бушмина Ольга
- Дата: 28.12.2024

### Цели и задачи проекта

Основная цель — подготовить данные для статьи, анализирующей информацию об оценках и продаж игр разных жанров на разных платформах.

### Описание данных

В проекте будут использованы данные датасета `new_games.csv` с таким описанием:
- `client id` — идентификатор клиента;
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка
     *  Названия, или метки, столбцов датафрейма
     *  Типы данных
     *  Наличие пропусков в данных
     *  Явные и неявные дубликаты в данных     
2. Фильтрация данных
4. Категоризация данных


---

##  Загрузка данных и знакомство с ними


Загрузим необходимые библиотеки Python и данные датасета /datasets/new_games.csv

In [1]:
# Импортируем библиотеки
import pandas as pd
import numpy as np

In [2]:
#Выгружаем данные из датасета new_games.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
games.head() 

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [5]:
# Выводим количество строк и столбцов в датафрейме
count_str = games.shape[0]
count_col = games.shape[1]
print('Число строк в датафрейме =', count_str)
print('Число столбцов в датафрейме =', count_col)

Число строк в датафрейме = 16956
Число столбцов в датафрейме = 11


Датафрейм содержит 11 столбцов и 16956 строк, в которых представлена инфомация  о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.

**4 столбца представлены типом `float64`:**  
`Year of Release`, `NA sales`, `Other sales`, `Critic Score`.  Данный тип подходит трем столбцам т.к. данные продаж и рейтинга могут иметь дробные значения. 
Однако столбец `Year of Release` хранит год выпуска игры, это всегда целое значения. Тип данного столбца следует изменить на int64.

**7 столбцов имеют тип данных `object`:**   
    -`Name`, `Platform`, `Genre` - хранят название игры и название платформы, жанр соответственно. Это строковая информация, использование типа `object`оправдано   
    -`EU sales`, `EU sales` - хранят данные о продажах в регионах, это дробные числовые значения. Тип столбцов стоит изменить на `float64`   
    -`User Score` - содержит информацию об оценке пользователей, это числовое значение, тип столбцов стоит изменить на `float64`   
    -`Rating` - поле хранит рейтинг организации ESRB. Это аббревиатуры, строковые значения. Тип `object` оптимален.

6 столбцов из 11 содержат пропуски в данных. Названия столбцов содержат пробелы, написание не соответствует стилю `snake case`.

---

##   Проверка ошибок в данных и их предобработка


###  Названия, или метки, столбцов датафрейма


In [6]:
# Выводим названия столбцов датафрейма
print(games.columns) 

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


Приведем все названия столбцов датафрейма к стилю snake case: наименования в нижнем регистре, в качестве пробелов '_'

In [7]:
# Передаём методу rename() словарь с названиями столбцов
games = games.rename(columns={'Name': 'name',
                        'Platform': 'platform',
                        'Year of Release': 'year_of_release',
                        'Genre': 'genre',
                        'NA sales': 'na_sales',
                        'EU sales': 'eu_sales',
                        'JP sales': 'jp_sales',
                        'Other sales': 'other_sales', 
                        'Critic Score': 'critic_score',
                        'User Score': 'user_score',
                        'Rating': 'rating'})
print(games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


Как видно, названия столбцов успешно заменены.

---

###  Типы данных


**Рассмотрим уникальные значения** в столбцах `'eu_sales'`, `'jp_sales'`, `'user_score'`. 
Эти столбцы по характеру хранящихся данных оптимально преобразовать к типу float64.
Однако автоматически тип определился как object. Возможно среди числовых значений попадаются строковые. 
Проверим уникальные значения.

In [8]:
# Выведем уникальные значения в столбце 'eu_sales'
print(games['eu_sales'].unique()) 

['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0.55' '2.19' '1.11' '2.29' '2.5' '0.96'
 '

In [9]:
# Выведем уникальные значения в столбце 'jp_sales'
print(games['jp_sales'].unique()) 

['3.77' '6.81' '3.79' '3.28' '10.22' '4.22' '6.5' '2.93' '4.7' '0.28'
 '1.93' '4.13' '7.2' '3.6' '0.24' '2.53' '0.98' '0.41' '3.54' '4.16'
 '6.04' '4.18' '3.84' '0.06' '0.47' '5.38' '5.32' '5.65' '1.87' '0.13'
 '3.12' '0.36' '0.11' '4.35' '0.65' '0.07' '0.08' '0.49' '0.3' '2.66'
 '2.69' '0.48' '0.38' '5.33' '1.91' '3.96' '3.1' '1.1' '1.2' '0.14' '2.54'
 '2.14' '0.81' '2.12' '0.44' '3.15' '1.25' '0.04' '0.0' '2.47' '2.23'
 '1.69' '0.01' '3.0' '0.02' '4.39' '1.98' '0.1' '3.81' '0.05' '2.49'
 '1.58' '3.14' '2.73' '0.66' '0.22' '3.63' '1.45' '1.31' '2.43' '0.7'
 '0.35' '1.4' '0.6' '2.26' '1.42' '1.28' '1.39' '0.87' '0.17' '0.94'
 '0.19' '0.21' '1.6' '0.16' '1.03' '0.25' '2.06' '1.49' '1.29' '0.09'
 '2.87' '0.03' '0.78' '0.83' '2.33' '2.02' '1.36' '1.81' '1.97' '0.91'
 '0.99' '0.95' '2.0' '1.01' '2.78' '2.11' '1.09' '0.2' '1.9' '1.27' '3.61'
 '1.57' '2.2' '1.7' '1.08' '0.15' '1.11' '0.29' '1.54' '0.12' '0.89'
 '4.87' '1.52' '1.32' '1.15' '4.1' '1.46' '0.46' '1.05' '1.61' '0.26'
 '1.38' '0.6

In [10]:
# Выведем уникальные значения в столбце 'user_score'
print(games['user_score'].unique()) 

['8' nan '8.3' '8.5' '6.6' '8.4' '8.6' '7.7' '6.3' '7.4' '8.2' '9' '7.9'
 '8.1' '8.7' '7.1' '3.4' '5.3' '4.8' '3.2' '8.9' '6.4' '7.8' '7.5' '2.6'
 '7.2' '9.2' '7' '7.3' '4.3' '7.6' '5.7' '5' '9.1' '6.5' 'tbd' '8.8' '6.9'
 '9.4' '6.8' '6.1' '6.7' '5.4' '4' '4.9' '4.5' '9.3' '6.2' '4.2' '6' '3.7'
 '4.1' '5.8' '5.6' '5.5' '4.4' '4.6' '5.9' '3.9' '3.1' '2.9' '5.2' '3.3'
 '4.7' '5.1' '3.5' '2.5' '1.9' '3' '2.7' '2.2' '2' '9.5' '2.1' '3.6' '2.8'
 '1.8' '3.8' '0' '1.6' '9.6' '2.4' '1.7' '1.1' '0.3' '1.5' '0.7' '1.2'
 '2.3' '0.5' '1.3' '0.2' '0.6' '1.4' '0.9' '1' '9.7']


In [11]:
# Выведем уникальные значения в столбце 'critic_score'
print(games['critic_score'].unique()) 

[76. nan 82. 80. 89. 58. 87. 91. 61. 97. 95. 77. 88. 83. 94. 93. 85. 86.
 98. 96. 90. 84. 73. 74. 78. 92. 71. 72. 68. 62. 49. 67. 81. 66. 56. 79.
 70. 59. 64. 75. 60. 63. 69. 50. 25. 42. 44. 55. 48. 57. 29. 47. 65. 54.
 20. 53. 37. 38. 33. 52. 30. 32. 43. 45. 51. 40. 46. 39. 34. 35. 41. 36.
 28. 31. 27. 26. 19. 23. 24. 21. 17. 22. 13.]


**Анализ значений столбцов показывает** наличие строковых значений `'unknown'` в столбцах `'eu_sales'` и `'jp_sales'`,  `'tbd'` в столбце `'user_score'`. Чтобы выполнить преобразование типов необходимо заменить эти строковые значения на пропуски, которые сможем обработать далее.

In [12]:
# Заменим значения 'unknown' и 'tbd' на пропуски
games.loc[:, ['eu_sales', 'jp_sales']] = games[['eu_sales', 'jp_sales']].replace('unknown', np.nan)
games.loc[:, 'user_score'] = games['user_score'].replace('tbd', np.nan)

In [13]:
# Преобразовываем типы данных с понижением разрядности
for column in ['eu_sales', 'jp_sales', 'user_score']:
    games[column] = pd.to_numeric(games[column], downcast='float') 

Столбцы `'na_sales'`, `'other_sales'`, `'critic_score'` уже имеют правильный тип `float`, но попробуем понизить разрядность типа для оптимизации объема хранимых данных.

In [14]:
# Преобразовываем типы данных с понижением разрядности
for column in ['na_sales', 'other_sales', 'critic_score']:
    games[column] = pd.to_numeric(games[column], downcast='float') 

In [15]:
# Проверяем результат преобразования
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float32
 5   eu_sales         16950 non-null  float32
 6   jp_sales         16952 non-null  float32
 7   other_sales      16956 non-null  float32
 8   critic_score     8242 non-null   float32
 9   user_score       7688 non-null   float32
 10  rating           10085 non-null  object 
dtypes: float32(6), float64(1), object(4)
memory usage: 1.0+ MB


Теперь 6 столбцов имеют тип данных `float32`.

Столбец `'year_of_release'` хранит целочисленные данные, но имеет пропуски, что мешает изменить тип данных. Определим абсолютное и относительное количество пропусков в этом столбце.

In [16]:
# Выводим абсолютное и относительное количество пропущенных строк в столбце 'year_of_release'
print(games['year_of_release'].isna().sum())
print(games['year_of_release'].isna().sum() / len(games) * 100 )

275
1.6218447747110165


Расчет показал, что столбце `'year_of_release'` пропущено **1.62% данных**. Это менее 5%, кроме того восстановить данные средним значением будет некорректно. Поэтому можно принять решение  **удалить пропуски в этом столбце**.

In [17]:
# Удаляем пропуски в столбце 'year_of_release'
games = games.dropna(subset=['year_of_release'])

In [18]:
# Проверяем результат преобразования
print(games['year_of_release'].isna().sum())

0


Пропуски в столбце успешно удалены. Теперь можно преобразовать столбец к типу int:

In [19]:
# Применяем функцию преобразования типа с понижением разрядности
games['year_of_release'] = pd.to_numeric(games['year_of_release'], downcast='integer') 

In [20]:
# Проверяем результат преобразования
games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float32
 5   eu_sales         16675 non-null  float32
 6   jp_sales         16677 non-null  float32
 7   other_sales      16681 non-null  float32
 8   critic_score     8085 non-null   float32
 9   user_score       7558 non-null   float32
 10  rating           9901 non-null   object 
dtypes: float32(6), int16(1), object(4)
memory usage: 1.0+ MB


В окончательном варианте датафрейм имеет 6 столбцов типа `float32`, один столбец типа `int16` и 4 столбца типа `object`.
Объем занимаемой памяти удалось сократить с **1.4+ MB** до **1.0+ MB**.

---

### Наличие пропусков в данных



Определим абсолютное и относительное количество пропусков в каждом столбце датафрейма.

In [21]:
# Выводим количество пропущенных строк в датафрейме
games.isna().sum() 

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

In [22]:
# Подсчитываем процент строк с пропусками
games.isna().sum() / len(games) * 100 

name                0.011990
platform            0.000000
year_of_release     0.000000
genre               0.011990
na_sales            0.000000
eu_sales            0.035969
jp_sales            0.023979
other_sales         0.000000
critic_score       51.531683
user_score         54.690966
rating             40.645045
dtype: float64

**Рассмотрим каждый столбец с пропусками подробнее**

**<u>Столбцы `'name'` и `'genre'`</u>**

In [23]:
# Выведем строки с пропусками в столбце 'name'
games_without_name=games[games['name'].isna()]
display(games_without_name)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993,,0.0,0.0,0.03,0.0,,,


Мы видим, что в этих двух строках также содержатся пропуски в 4 других столбцах, в том числе 2 единственных пропуска по столбцу 'genre'. Эти две строки можно удалить т.к. они не окажут влияния на дальнейшие расчеты ввиду своей малой доли - 0.01% 

In [24]:
# Удаляем пропуски в столбце 'name'
games = games.dropna(subset=['name'])

In [25]:
# Проверяем результат удаления
print(games['name'].isna().sum())

0


Результат: по данным столбцам осталось **0 пропусков**.

**<u>Столбцы `'eu_sales'` и `'jp_sales'`</u>**

Пропусков в этих столбцах мало - 6 и 4 соответственно. Можно заменить их на среднее значение в зависимости от названия платформы и года выхода игры.

In [26]:
# Функция mean_sales вычисляет среднее значение по тем же платформе и году выхода
def mean_sales(row, column):
    if pd.isna(row[column]):
        group = games[(games['platform'] == row['platform']) & 
                   (games['year_of_release'] == row['year_of_release'])]
        return group[column].mean()
    else:
        return row[column]

games['eu_sales'] = games.apply(mean_sales, axis=1, column = 'eu_sales')
games['jp_sales'] = games.apply(mean_sales, axis=1, column = 'jp_sales')

In [27]:
# Проверим результат замены значений
games[['eu_sales','jp_sales']].isna().sum()

eu_sales    0
jp_sales    0
dtype: int64

Результат: по данным столбцам осталось **0 пропусков**.

**<u>Столбцы `'critic_score'` и `'user_score'`</u>**

В данных столбцах большое количество пропусков  - более 51% и 54% соответственно.

Есть предположение, что такое большое число пропусков именно в этих столбцах связано с тем, что рейтинги начали выставлять значительно позже года выхода игр. Поэтому часть игр в датафрейме не получили эти оценки.

Проверим эту гипотезу, выполнив сортировку датафрейма по году выпуска игр и оценим значения рейтингов у наиболее старых игр.

In [28]:
# Сортируем датафрейм по году выхода игр и выводим 20 наиболее старых игр
games_sorted_by_year = games.sort_values(by = 'year_of_release')
games_sorted_by_year.head(20) 

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
548,Missile Command,2600,1980,Shooter,2.56,0.17,0.0,0.03,,,
1987,Defender,2600,1980,Misc,0.99,0.05,0.0,0.01,,,
6967,Checkers,2600,1980,Misc,0.22,0.01,0.0,0.0,,,
6383,Bridge,2600,1980,Misc,0.25,0.02,0.0,0.0,,,
5426,Freeway,2600,1980,Action,0.32,0.02,0.0,0.0,,,
4063,Ice Hockey,2600,1980,Sports,0.46,0.03,0.0,0.01,,,
1780,Kaboom!,2600,1980,Misc,1.07,0.07,0.0,0.01,,,
262,Asteroids,2600,1980,Shooter,4.0,0.26,0.0,0.05,,,
2677,Boxing,2600,1980,Fighting,0.72,0.04,0.0,0.01,,,
2605,Alien,2600,1981,Action,0.74,0.04,0.0,0.01,,,


Как видно из таблицы ранние игры действительно не имеют оценок критиков, пользователей, а так же рейтинга.

Восстановить эти значения не представляется возможным. Удалять такое большое количество строк также нельзя. 
Заменим пропуски на значения-индикаторы, убедившись, что выбранные знчения не совпадают с данными.

Согласно описанию данных в этих столбцах хранятся значения: 
* `'sritic_score'` — от 0 до 100
* `'user_score'` — от 0 до 10

Выше, в пункте 2.2, мы изучили уникальные значения в этих столбцах и убедились, что данные соответствуют описанию.
Поэтому мы можем безопасно заменить пропуски на отрицательное значение.

In [29]:
# Заменим пропуски на значение -10
for column in ['critic_score', 'user_score']:
    games[column] = games[column].fillna(-10)

In [30]:
# Проверим результат замены значений
games[['critic_score','user_score']].isna().sum()

critic_score    0
user_score      0
dtype: int64

Результат: по данным столбцам осталось **0 пропусков**.

**<u>Столбец `'rating'`</u>**

Столбец `'rating'` содержит большое количество пропусков - более 40%. 
Как мы показали выше вероятно это связано с отсутвием рейтинга и оценок у ранних игр. 
Удалять значения нельзя, адекватно восстановить их нет возможности.


Рассмотрим вариант замены пропусков на индикатор. Определим уникальные значения столбца:

In [31]:
# Выведем уникальные значения в столбце 'rating'
print(games['rating'].unique()) 

['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


Пропуски nan можно заменить на строковый индикатор, например 'Нет данных'.

In [32]:
# Заменим пропуски на значение 'Нет данных'
games['rating'] = games['rating'].fillna('Нет данных')

In [33]:
# Проверим результат замены значений
games['rating'].isna().sum()

0

Результат: по данному столбцу осталось **0 пропусков**.

**Итоговый обзор пропусков в датафрейме**

Выполним поиск пропусков по всему датафрейму и убедимся в их отсутствии:

In [34]:
# Выведем число пропусков по каждому столбцу датафрейма
games.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

Все пропуски успешно обработаны.

---

### Явные и неявные дубликаты в данных


Изучим уникальные значения в категориальных данных: с названиями жанра игры, платформы, рейтинга и года выпуска.


**Определим уникальные значения столбца `'platform'`**

In [35]:
# Выведем уникальные значения в столбце 'platform'
unique_platforms = games['platform'].unique()
print(unique_platforms)

['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']


Неявных дубликатов, связанных регистром или разным способом написания не выявлено.

**Определим уникальные значения столбца `'genre'`**

In [36]:
# Выведем уникальные значения в столбце 'genre'
unique_genres = games['genre'].unique()
print(unique_genres)

['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']


Явно видны значения, у которых различаются только регистры букв. Это неявные дубликаты. Нормализуем данные столбца `'genre'`. Кроме того приведем к верхнему регистру названия игр, можно предположить, что разночтения встречаются.

In [37]:
# Приведем все значения столбца 'genre' к нижнему регистру:
games['genre'] = games['genre'].str.lower()
games['name'] = games['name'].str.upper()

Значения столбцов нормализованы. Далее мы сможем найти явные дубликаты строк.

**Определим уникальные значения столбца `'rating'`**

In [38]:
# Выведем уникальные значения в столбце 'rating'
unique_ratings = games['rating'].unique()
print(unique_ratings)

['E' 'Нет данных' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


Неявных дубликатов не выявлено. Все значения соответствуют описанию данных: рейтинг 'K-A' позже стал называться 'E', вероятно считать это дубликатом и исправлять не стоит.

**Определим уникальные значения столбца `'year_of_release'`**

In [39]:
# Выведем уникальные значения в столбце 'year_of_release'
unique_years = games['year_of_release'].unique()
print(unique_years)

[2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000 1995 1991 1981 1987 1980 1983]


Неявных дубликатов не выявлено. Все значения соответствуют описанию данных.

**Теперь можно проверить наличие явных дубликатов в данных**

In [40]:
# Выполняем поиск явных дубликатов
games.duplicated().sum()

235

Явных дубликатов обнаружено 235 строк. Эти строки можно удалить.

In [41]:
# Удаляем дублирующиеся строки
games = games.drop_duplicates()

In [42]:
# Определяем количество строк в датафрейме после удаления дубликатов
games_row_final =  games.shape[0]
print(games_row_final)

16444


В результате обработки данных были удалены строки с пропусками, дубликаты. Рассчитаем количество удалённых строк в абсолютном и относительном значениях

In [43]:
# Изначально в датасете было строк:
count_str

16956

In [44]:
# Всего было удалено строк:
count_rows_del = count_str - games_row_final
prop_rows_del = count_rows_del*100 / count_str 
print(count_rows_del, 'строк')
print(prop_rows_del, '%')

512 строк
3.019580089643784 %


**После обработки данных было удалено 512 строк, что составляет 3% от их первоначального числа.**

---
**Посмотрим на то, как изменился датасет после обработки.**

In [45]:
# Выводим информацию о датафрейме
games.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 16444 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16444 non-null  object 
 1   platform         16444 non-null  object 
 2   year_of_release  16444 non-null  int16  
 3   genre            16444 non-null  object 
 4   na_sales         16444 non-null  float32
 5   eu_sales         16444 non-null  float64
 6   jp_sales         16444 non-null  float64
 7   other_sales      16444 non-null  float32
 8   critic_score     16444 non-null  float32
 9   user_score       16444 non-null  float32
 10  rating           16444 non-null  object 
dtypes: float32(4), float64(2), int16(1), object(4)
memory usage: 1.2+ MB


**В результате проведенной работы было:**
* удалено 512 дублирующих и пустых строк
* изменены на оптимальные типы данных 5 столбцов, другие типы были оптимизированы по размерности
* ни один столбец больше не содержит пропусков
* объем занимаемой памяти сократился

---

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. 

In [46]:
# Отфильтруем данные с 2000 по 2013 год включительно
games_actual = games[(games['year_of_release'] >= 2000) & (games['year_of_release'] <= 2013)].copy()

In [47]:
# Выведем результат, отсортировав его по году выпуска
display(games_actual.sort_values(by='year_of_release'))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
2743,MEGA MAN X5,PS,2000,platform,0.30,0.21,0.20,0.05,76.0,8.9,E
6558,STAR TREK: INVASION,PS,2000,simulation,0.15,0.10,0.00,0.02,76.0,-10.0,E
11063,ESPN NBA 2NIGHT,PS2,2000,sports,0.05,0.04,0.00,0.01,62.0,-10.0,E
6586,STAR WARS EPISODE I: BATTLE FOR NABOO,N64,2000,simulation,0.21,0.05,0.00,0.00,-10.0,-10.0,Нет данных
1726,MARIO TENNIS,GB,2000,sports,0.50,0.18,0.44,0.06,-10.0,-10.0,Нет данных
...,...,...,...,...,...,...,...,...,...,...,...
724,ASSASSIN'S CREED IV: BLACK FLAG,XOne,2013,action,1.48,0.55,0.00,0.21,-10.0,7.4,M
16175,STORM LOVER 2ND,PSP,2013,misc,0.00,0.00,0.02,0.00,-10.0,-10.0,Нет данных
727,MADDEN NFL 25,X360,2013,sports,1.98,0.06,0.00,0.19,80.0,5.6,E
16162,WHITE ALBUM 2: SHIAWASE NO MUKOUGAWA,PSV,2013,adventure,0.00,0.00,0.02,0.00,-10.0,-10.0,Нет данных


Как видим, указанному условию соответствует 12781 строка. 

---

## Категоризация данных
    
Проведем категоризацию данных:
- **Разделим все игры по оценкам пользователей и выделим такие категории:**
  * высокая оценка (от 8 до 10 включительно) 
  * средняя оценка (от 3 до 8, не включая правую границу интервала) 
  * низкая оценка (от 0 до 3, не включая правую границу интервала).

In [48]:
# Функция cat_score делит значения на категории, учитывая индикатор -10 
def cat_score(score):
    if score == -10:
        return 'Нет оценки'
    elif score >= 8:
        return 'Высокая'
    elif score >= 3:
        return 'Средняя'
    else:
        return 'Низкая'

games_act_us_score = games_actual.copy()
games_act_us_score['users_score_group'] = games_actual['user_score'].apply(cat_score)

In [49]:
# Проверяем создание дополнительного столбца
display(games_act_us_score.head(5))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,users_score_group
0,WII SPORTS,Wii,2006,sports,41.360001,28.959999,3.77,8.45,76.0,8.0,E,Высокая
2,MARIO KART WII,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая
3,WII SPORTS RESORT,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая
6,NEW SUPER MARIO BROS.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая
7,WII PLAY,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя


Видим, что данные успешно разделились на группы, добавился столбец `'users_score_group'`

---
- **Разделим все игры по оценкам критиков и выделим такие категории:** 
  * высокая оценка (от 80 до 100 включительно) 
  * средняя оценка (от 30 до 80, не включая правую границу интервала)
  * низкая оценка (от 0 до 30, не включая правую границу интервала)

In [50]:
# Функция cat_score делит значения на категории, учитывая индикатор -10 

def cat_score(score):
    if score == -10:
        return 'Нет оценки'
    elif score >= 80:
        return 'Высокая'
    elif score >= 30:
        return 'Средняя'
    else:
        return 'Низкая'

# Применяем функцию
games_act_us_cr_score = games_act_us_score.copy()
games_act_us_cr_score['critics_score_group'] = games_act_us_score['critic_score'].apply(cat_score)

In [51]:
# Проверяем создание дополнительного столбца
display(games_act_us_cr_score.head(5))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,users_score_group,critics_score_group
0,WII SPORTS,Wii,2006,sports,41.360001,28.959999,3.77,8.45,76.0,8.0,E,Высокая,Средняя
2,MARIO KART WII,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая,Высокая
3,WII SPORTS RESORT,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая,Высокая
6,NEW SUPER MARIO BROS.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая,Высокая
7,WII PLAY,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя,Средняя


Видим, что данные успешно разделились на группы, добавился столбец `'critics_score_group'`

---
- **Проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.**

In [52]:
# Группируем данные по столбцу с категориями оценки пользователей и посчитаем количество игр в каждой категории
users_group_count = games_act_us_cr_score.groupby('users_score_group')['name'].count() 
display(users_group_count)

users_score_group
Высокая       2286
Нет оценки    6298
Низкая         116
Средняя       4081
Name: name, dtype: int64

In [53]:
# Группируем данные по столбцу с категориями оценки критиков и посчитаем количество игр в каждой категории
critics_group_count = games_act_us_cr_score.groupby('critics_score_group')['name'].count() 
display(critics_group_count)

critics_score_group
Высокая       1692
Нет оценки    5612
Низкая          55
Средняя       5422
Name: name, dtype: int64

---
- **Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.**

In [54]:
# Считаем количество игр для каждой платформы
platform_cnt = games_actual['platform'].value_counts()

# Выводим 7 первых платформ
display(platform_cnt.head(7))

PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: platform, dtype: int64

Платформы, выпустившие больше всего игр, за актуальный период успешно выделены.

---

##  Итоговый вывод


В результате работы над проектом удалось успешно подготовить данные для дальнейшего анализа индустрии продаж игр разных жанров на разных платформах.

В ходе выполнения работы исходный датасет был изучен и значительно преобразован.

Среди выполненных преобразований отметим:
+ названия столбцов приведены к стилю snake case
+ оптимизированы типы данных столбцов
+ все пропуски успешно обработаны
+ удалено 512 дублирующих и пустых срок
+ объем занимаемой памяти сократился

По заданию коллег были решены следующие задачи:
+ сформирован срез актуальных данных за 2000 - 2013 гг
+ добавлен столбец `'users_score_group'`  с разделением данных на категории относительно оценок пользователей
+ добавлен столбец `'critics_score_group'`  с разделением данных на категории относительно оценок критиков
+ выделен ТОП-7 платформ по количеству выпущенных игр.