# Проект "Секреты темнолесья"

Дата: 13.03.2025

### Цели и задачи проекта

<font color='#777778'>Предобработка данных для дальнейшего обзора игровой индустрии с 2000 по 2013 год включительно, изучения объема продаж игр разных жанров и региональных предпочтений игроков. Особый акцент сделан на ролевых играх (жанр PRG)</font>

### Описание данных

<font color='#777778'>
    Используем датасет <b>new_games.csv</b>, который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

* Name — название игры.
* Platform — название платформы.
* Year of Release — год выпуска игры.
* Genre — жанр игры.
* NA sales — продажи в Северной Америке (в миллионах проданных копий).
* EU sales — продажи в Европе (в миллионах проданных копий).
* JP sales — продажи в Японии (в миллионах проданных копий).
* Other sales — продажи в других странах (в миллионах проданных копий).
* Critic Score — оценка критиков (от 0 до 100).
* User Score — оценка пользователей (от 0 до 10).
* Rating — рейтинг организации ESRB.    
</font>

### Содержимое проекта

<font color='#777778'>
<ol>
    <li>Загрузка и знакомство с данными</li>
    <li>Проверка ошибок в данных и их предобработка
        <ol>
            <li> 2.1. Названия, или метки, столбцов датафрейма </li>
            <li> 2.2. Типы данных </li>
            <li> 2.3. Наличие пропусков в данных </li>
            <li> 2.4. Явные и неявные дубликаты в данных </li>
        </ol>    
    <li>Фильтрация данных¶</li>
    <li>Категоризация данных</li>
    <li>Итоговый вывод</li>
</ol>
</font>

## Загрузка и знакомство с данными 

Загрузим библиотеку **pandas** для анализа данных и данные из датасета `/datasets/new_games.csv`. Затем выведем основную информацию о данных с помощью метода `info()` и первые строки датафрейма.

In [1]:
# Загружаем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv в датафрейм games
try:
    #пробуем загрузить 
    games = pd.read_csv('datasets/games.csv')
    display('Файл загружен в датафрейм games')    
except:
    # если не получилось
    display('Ошибка при загрузке файла')    

'Файл загружен в датафрейм games'

In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Датасет <b>new_games.csv</b> содержит <b>11</b> столбцов и <b>16956</b> строк. В данных присутствуют пропуски.

In [4]:
# Продолжаем изучать данные - выводим первые 10 строк датафрейма на экран
games.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Данные соответствуют описанию - представлена информация о компьютерных играх разных жанров, объемах из продаж, рейтинги критиков и пользователей.


Изучим типы данных и их корректность:

<b>Строковые данные (object).</b> 7 столбцов имеют тип данных object:
* Name - название игры.
* Platform - название платформы.
* Genre  - жанр игры.
* EU sales - продажи в Европе (в миллионах проданных копий).
* JP sales - продажи в Японии (в миллионах проданных копий).
* User Score - оценка пользователей (от 0 до 10).
* Rating - рейтинг организации ESRB.

Для столбцов Name, Platform, Genre, Rating - использование типа данных object - корректно.
    
Столбцы EU sales, JP sales , User Score - для выполенения вычислений и анализа необходимо преобразовать в тип float64.

<b>Числа с плавающей точкой (float64).</b> 4 столбца:
* Year of Release - год выпуска игры.
* NA sales - продажи в Северной Америке (в миллионах проданных копий).
* Other sales - продажи в других странах (в миллионах проданных копий).
* Critic Score -  оценка критиков (от 0 до 100).

Для столбцов  NA sales, Other sales, Critic Score - использование типа данных float64 - корректно.
    
Year of Release - корректнее преобразовать в целочисленный тип.

Вывод: названия столбцов отражают содержимое данных, но часть столбцов необходимо преобразовать к корректному типу. Кроме того, в данных встречаются пропуски.

---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

In [5]:
#Выводим на экран названия всех столбцов датафрейма и проверяем их стиль написания.
games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
#Приводим все столбцы к стилю snake case. Названия - в нижнем регистре, вместо пробелов — подчёркивания.
games.columns = games.columns.str.lower().str.replace(" ","_")

In [7]:
#Переименуем столбец 'rating' в 'rating_esrb' для удобства
games = games.rename(columns={'rating':'rating_esrb'})

In [8]:
#проверяем корректность переименования
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating_esrb'],
      dtype='object')

### Типы данных

Как указывали выше, присутствуют несколько столбцов с некорректными типами. Преобразуем их.

In [9]:
#Проверяем на уникальность значения в столбце "year_of_release"
display(f'Количество уникальных значений "year_of_release": {games["year_of_release"].nunique()}')
display(f'Минимум: {games["year_of_release"].min()} Максимум: {games["year_of_release"].max()}')
display(games['year_of_release'].unique())

'Количество уникальных значений "year_of_release": 37'

'Минимум: 1980.0 Максимум: 2016.0'

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

В столбце "year_of_release" представлены тектовые данные в виде положительного числа с точкой без дробной части. Данные отражают год, их можно преобразовать к целочисленному типу.
Для заполнения пустых значений выберем индикатор = 0 

In [10]:
#Сначала заполним значением-индикатором = 0  пропуски в поле "Год релиза", т.к. столбцы с числовыми данными и пропусками 
#нельзя преобразовать к типу `int64`. Сначала понадобится обработать пропуски, а затем преобразовать типы данных.
#В дальнейшем такие значения не будут использованы в анализе, т.к. выборка по годам будет 2000-2013.
games['year_of_release'] = games['year_of_release'].fillna(0)

In [11]:
#Преобразуем год релиза в целое число
games['year_of_release'] = games['year_of_release'].astype('int64')

In [12]:
# проверяем корректность преобразований
display(f'Количество уникальных значений "year_of_release": {games["year_of_release"].nunique()}')
display(f'Минимум: {games["year_of_release"].min()} Максимум: {games["year_of_release"].max()}')
display(games['year_of_release'].unique())

'Количество уникальных значений "year_of_release": 38'

'Минимум: 0 Максимум: 2016'

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000,    0, 1995,
       1991, 1981, 1987, 1980, 1983])

In [13]:
#Проверяем на уникальность значения в столбце "eu_sales"
display(f'Количество уникальных значений "eu_sales": {games["eu_sales"].nunique()}')
display(games['eu_sales'].unique())

'Количество уникальных значений "eu_sales": 308'

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [14]:
#v1. Проверяем на уникальность значения в столбце "jp_sales"
display(f'Количество уникальных значений "jp_sales": {games["jp_sales"].nunique()}')
display(games['jp_sales'].unique())

'Количество уникальных значений "jp_sales": 245'

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

В столбцах "eu_sales", "jp_sales" находятся текстовые данные, содержащие положительные вещественные числа c дробной частью, а также текстовые значения "unknown".

In [15]:
#Проверяем на уникальность значения в столбце "user_score"
display(f'Количество уникальных значений "user_score": {games["user_score"].nunique()}')
display(games['user_score'].unique())

'Количество уникальных значений "user_score": 96'

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

В столбце "user_score" - текстовые данные, отражающие положительное вещественное число с дробной частью, а также текст "tbd" и пропуски.

In [16]:
#Преобразуем текстовые поля eu_sales, jp_sales, user_score в число с плавающей точкой.
#Заменяем текcтовые данные ('tbd','unknown'), которые не удалось преобразовать, на пропуски. Пропуски отработаем ниже.
for column in ['eu_sales', 'jp_sales','user_score']:
    games[column] = pd.to_numeric(games[column], errors = 'coerce')

In [17]:
#Проверяем на уникальность значения в столбце "critic_score"
display(f'Количество уникальных значений "critic_score": {games["critic_score"].nunique()}')
display(games['critic_score'].unique())

'Количество уникальных значений "critic_score": 82'

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

В столбце "critic_score" представлены вещественные положительные числа без дробной части и пропуски. Данные отражают предметную область (0-100). Можно преобразовать столбец к целочисленному типу, заменив предварительно пропуски на 0.


In [18]:
#заполняем пропуски нулями. Ниже заменим нулевые значения на среднее
games['critic_score'] = games['critic_score'].fillna(0)

In [19]:
# преобразовываем
games['critic_score'] = games['critic_score'].astype('int64')

In [20]:
#Проверяем корректность выполненных преобразований
games.dtypes

name                object
platform            object
year_of_release      int64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score         int64
user_score         float64
rating_esrb         object
dtype: object

Теперь типы данных корректны. Часть пропусков обработана.

### Наличие пропусков в данных

In [21]:
# Выводим количество пропущенных данных в столбцах в датафрейме
games.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score          0
user_score         9268
rating_esrb        6871
dtype: int64

In [22]:
# Подсчитываем процент строк с пропусками по каждому столбцу
games.isna().sum() / len(games) * 100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score        0.000000
user_score         54.659118
rating_esrb        40.522529
dtype: float64

<b>Вывод</b>: В 6 столбцах обнаружено отсутствие данных. Значительное отсутствие отмечается в данных, касающихся оценок игры. Оценка критиков - 51%, Пользовательская оценка и Рейтинг - 40%. Эти пропуски значимы, если в анализе будут использоваться эти столбцы.

Год выпуска игры - помним, что отсутствующие значения (1,6%) мы заменили нулями. Это не такие значимые пропуски, как в оценке. Возможно, после дальнейшей обработки их станет меньше.
Название игры и жанр - пропуски составляют менее 1%.

Изучим пропуски подробнее.

In [23]:
# подсветим пропуски цветом
pd.DataFrame(round(games.isna().mean()*100,)).style.background_gradient('coolwarm')

Unnamed: 0,0
name,0.0
platform,0.0
year_of_release,0.0
genre,0.0
na_sales,0.0
eu_sales,0.0
jp_sales,0.0
other_sales,0.0
critic_score,0.0
user_score,55.0


In [24]:
#Изучим строки с пустым наименованием игры
display(games.loc[games['name'].isna()])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating_esrb
661,,GEN,1993,,1.78,0.53,0.0,0.08,0,,
14439,,GEN,1993,,0.0,0.0,0.03,0.0,0,,


Таких 2 строки. Возможно, это одна игра, т.к. год выпуска один и тот же, одна и та же платформа, и если строки объединить, то получится полный объем продаж по всем континентам. Если оценивать в дальнейшем объем продаж за этот период, то такие строки удалять нельзя, т.к. объем продаж значительный и в сумме по континентам больше 2 млн.копий. В этих же строчках отсутствует наименование жанра.
Если нас интересует в дальнейшем период с 2000 по 2013 год, то эти строки спокойно можно удалить.

In [25]:
#Удаляем строки с пустым наименованием
games=games.dropna(subset = ['name'])

In [26]:
#Изучим строки с пустыми продажами в Европе
display(games.loc[games['eu_sales'].isna()])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating_esrb
446,Rhythm Heaven,DS,2008,Misc,0.55,,1.93,0.13,83,9.0,E
802,Dead Rising,X360,2006,Action,1.16,,0.08,0.2,85,7.6,M
1131,Prince of Persia: Warrior Within,PS2,2004,Action,0.54,,0.0,0.22,83,8.5,M
1132,Far Cry 4,XOne,2014,Shooter,0.8,,0.01,0.14,82,7.5,M
1394,Sonic Advance 3,GBA,2004,Platform,0.74,,0.08,0.06,79,8.4,E
1612,Ratatouille,DS,2007,Action,0.49,,0.0,0.14,0,,


Таких 6 строк. Строки входят в интересующий нас период. Заменим на среднее значение в зависимости от платформы и года выхода игры.

In [27]:
#Находим среднее в зависимости от платформы и года релиза
avg_eu_sales=games.groupby(['platform','year_of_release'])['eu_sales'].transform('mean')

In [28]:
#Заменяем на среднее в зависимости от платформы и года выхода игры в Европе
games['eu_sales'] = games['eu_sales'].fillna(avg_eu_sales)

In [29]:
#Изучим строки с пустыми продажами в Японии
display(games.loc[games['jp_sales'].isna()])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating_esrb
467,Saints Row 2,X360,2008,Action,1.94,0.79,,0.28,81,8.1,M
819,UFC 2009 Undisputed,X360,2009,Fighting,1.48,0.39,,0.19,83,7.9,T
1379,Hello Kitty Party,DS,2007,Misc,0.78,0.51,,0.12,0,,E
4732,Castlevania: The Dracula X Chronicles,PSP,2007,Platform,0.22,0.09,,0.07,80,7.8,T


4 строки с пустыми продажами в Японии. Заполняем также средним значением в зависимости от платформы и года выхода игры.

In [30]:
#Находим среднее в зависимости от платформы и года релиза
avg_jp_sales=games.groupby(['platform','year_of_release'])['jp_sales'].transform('mean')

In [31]:
#Заменяем на среднее в зависимости от платформы и года выхода игры в Японии
games['jp_sales'] = games['jp_sales'].fillna(avg_eu_sales)

In [32]:
#заменяем пустые значения медианой по столбцу user_score
games['user_score']=games['user_score'].fillna(games['user_score'].median())

In [33]:
#ранее мы заменили пустые значения в оценке критиков на 0. Таких строк было много.
#Оценим на что лучше заменить
display(f'Медиана: {games["critic_score"].median()},  Среднее: {games["critic_score"].mean()}')

'Медиана: 0.0,  Среднее: 33.50796272266132'

In [34]:
# заменим на среднее
avg_score=int(games["critic_score"].mean())
games.loc[games["critic_score"] == 0] = avg_score

In [35]:
#проверяем
display(f'Количество уникальных значений "critic_score": {games["critic_score"].nunique()}')
display(games['critic_score'].unique())

'Количество уникальных значений "critic_score": 82'

array([76, 33, 82, 80, 89, 58, 87, 91, 61, 97, 95, 77, 88, 83, 94, 93, 85,
       86, 98, 96, 90, 84, 73, 74, 78, 92, 71, 72, 68, 62, 49, 67, 81, 66,
       56, 79, 70, 59, 64, 75, 60, 63, 69, 50, 25, 42, 44, 55, 48, 57, 29,
       47, 65, 54, 20, 53, 37, 38, 52, 30, 32, 43, 45, 51, 40, 46, 39, 34,
       35, 41, 36, 28, 31, 27, 26, 19, 23, 24, 21, 17, 22, 13])

Т.к. рейтинг ESRB - текст, то заполнить пропущенные значения средним не получится. Поэтому можно оставить как есть или заменить на текст "нет данных".

In [36]:
games['rating_esrb']=games['rating_esrb'].fillna('НЕТ ДАННЫХ')

In [37]:
# проверяем, что все пропуски заполнены
games.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating_esrb        0
dtype: int64

Теперь пропусков нет.

### Явные и неявные дубликаты в данных

In [38]:
# Приводим столбец с названием игры к нижнему регистру 
games['name'] = games['name'].str.lower()

In [39]:
display(f'Количество уникальных названий игр: {games["name"].nunique()} на {games.shape[0]} строк')

'Количество уникальных названий игр: 5085 на 16954 строк'

Возможно, какие-то игры выходили на разных платформах, в разные годы. Это не может считаться дублями. Это проверим в дальнейшем.

<b> genre (жанр) </b>- Изучаем уникальные значения 

In [40]:
display(f'Количество уникальных жанров: {games["genre"].nunique()}')
display(games['genre'].unique())

'Количество уникальных жанров: 23'

array(['Sports', 33, 'Racing', 'Platform', 'Misc', 'Action', 'Puzzle',
       'Shooter', 'Fighting', 'Simulation', 'Role-Playing', 'Adventure',
       'Strategy', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'SPORTS', 'MISC', 'PLATFORM', 'FIGHTING', 'SIMULATION', 'PUZZLE'],
      dtype=object)

Количество жанров - 24. Имеютя явные дубликаты за счет того, что часть названий написана капслоком.

In [41]:
#Приведем написание жанра игры к нижнему регистру
games['genre'] = games['genre'].str.lower()

In [42]:
#Проверяем устранение дубликатов в genre
display(f'Количество уникальных жанров: {games["genre"].nunique()}')
display(games['genre'].unique())

'Количество уникальных жанров: 12'

array(['sports', nan, 'racing', 'platform', 'misc', 'action', 'puzzle',
       'shooter', 'fighting', 'simulation', 'role-playing', 'adventure',
       'strategy'], dtype=object)

Результат обработки: количество уникальных жанров сократилось вдвое и = 12

<b>platform</b> - изучаем уникальные значения

In [43]:
display(f'Количество игровых платформ: {games["platform"].nunique()}')
display(games['platform'].unique())

'Количество игровых платформ: 18'

array(['Wii', 33, 'DS', 'X360', 'PS3', 'PS2', '3DS', 'PS4', 'PS', 'XB',
       'PC', 'PSP', 'WiiU', 'GC', 'GBA', 'XOne', 'PSV', 'DC'],
      dtype=object)

На первый взгляд 'Wii' и 'WiiU' могут быть дублями, но нет, это разные платформы. Возможно, 'GC' и 'GG' являются дублями из-за опечаток, но лучше спросить у заказчика. (Я вообще не в игровой теме, а гуглинг дал мало информации). Оставляем как есть.

<b>year_of_release</b> - изучаем значения, минимум и максимум

In [44]:
display(f'Количество уникальных годов релиза: {games["year_of_release"].nunique()}')
display(games["year_of_release"].value_counts())

'Количество уникальных годов релиза: 27'

year_of_release
33      8712
2008     725
2007     707
2005     662
2009     659
2002     634
2006     626
2003     595
2004     567
2010     509
2011     503
2001     333
2012     325
2013     278
2014     262
2016     232
2015     227
0        157
2000     144
1999      40
1998      28
1997      17
1996       8
1994       1
1985       1
1992       1
1988       1
Name: count, dtype: int64

Видим, что в данных есть интересующий нас период, а также данные за XX век. 0 - значение-индикатор (отсутствие значения)

<b>rating_esrb</b> - изучаем уникальные значения

In [45]:
display(f'Количество уникальных значений рейтинга ESRB: {games["rating_esrb"].nunique()}')
display(games['rating_esrb'].unique())

'Количество уникальных значений рейтинга ESRB: 9'

array(['E', 33, 'M', 'T', 'E10+', 'НЕТ ДАННЫХ', 'AO', 'K-A', 'RP'],
      dtype=object)

Явных дубликатов нет, но значение 'K-A' не должно присутствовать, такого рейтинга нет. Выведем такие значения.

In [46]:
display(games.loc[games['rating_esrb'] == 'K-A'])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating_esrb
908,parappa the rapper,PS,1996,misc,0.26,0.16,1.46,0.03,92,7.4,K-A


3 строчки. Данные не входят в нужный период 2000-2013. Их можно пока оставить.

<b>critic_score </b>- изучаем значения

In [47]:
display(f'Оценка критиков: минимум: {games["critic_score"].min()}, максимум: {games["critic_score"].max()}')

'Оценка критиков: минимум: 13, максимум: 98'

Столбец - critic_score - ОК

<b> user_score </b> - изучаем значения

In [48]:
display(f'Оценка пользователей: минимум: {games["user_score"].min()}, максимум: {games["user_score"].max()}')

'Оценка пользователей: минимум: 0.5, максимум: 33.0'

Столбец - user_score - ОК

In [49]:
#Проверим на наличие явных дубликатов в данных по всем столбцам
display(f'Явных дубликатов по всем столбцам: {games.duplicated().sum()}. Это {games.duplicated().sum()/games.shape[0]} %')

'Явных дубликатов по всем столбцам: 8816. Это 0.519995281349534 %'

In [50]:
#Удаляем полные дубликаты
games.drop_duplicates(keep='first', inplace=True)

In [51]:
#Проверим на наличие явных дубликатов в данных по названию игры, жанру, году выпуска и платформе
display(f'Явных дубликатов: {games.duplicated(subset=["name","year_of_release","genre","platform"]).sum()}.\
        Это {round(games.duplicated(subset=["name","year_of_release","genre","platform"]).sum()/games.shape[0],4)} %')

'Явных дубликатов: 1.        Это 0.0001 %'

In [52]:
#Удалим такие дубликаты
games.drop_duplicates(subset=["name","year_of_release","genre","platform"], keep='first', inplace=True)

In [53]:
display(f'После удаления дубликатов осталось: {games.shape[0]} строк')

'После удаления дубликатов осталось: 8137 строк'

Вывод: после предобработки данные в столбцах имеют корректный тип, пропуски заполнены значениями-индикаторами (год релиза=0),средними значениями по столбцу (оценки критиков и пользователей), и средними значениями в зависимости от названия платформы и года выхода игры (продажи в Европе и Японии). Проведена работа с неявными дубликаткми, явные дубликаты отсутствуют.

## Фильтрация данных

Отбираем данные с 2000 по 2013 год включительно. Сохраняем новый срез данных в отдельном датафрейме <b>df_actual</b> 

In [54]:
df_actual=games.loc[(games['year_of_release'] >=2000) & (games['year_of_release'] <=2013)].copy()
display(f'Отобрано {df_actual.shape[0]} строк')

'Отобрано 7168 строк'

## Категоризация данных

Разделим все игры <b>по оценкам пользователей</b> на следущие категории:

* высокая оценка (от 8 до 10 включительно), 
* средняя оценка (от 3 до 8, не включая правую границу интервала), 
* низкая оценка (от 0 до 3, не включая правую границу интервала).

In [55]:
df_actual['user_score_group'] = pd.cut(df_actual['user_score'],\
    bins=[0, 3, 8, 11], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)

Разделим все игры <b>по оценкам критиков</b> и выделим такие категории:
* высокая оценка (от 80 до 100 включительно),
* cредняя оценка (от 30 до 80, не включая правую границу интервала)
* низкая оценка (от 0 до 30, не включая правую границу интервала).

In [56]:
# Для корректного разбиения по интервалам необходима пользовательская функция
def cut_critic_score(score):
    '''Функция разделит датафрейм по столбцу оценка критиков ('critic_score') на следующие категории:
    * высокая оценка (от 80 до 100 включительно),
    * cредняя оценка (от 30 до 80, не включая правую границу интервала)
    * низкая оценка (от 0 до 30, не включая правую границу интервала).
    Функция возвращает серию с текстовой оценкой'''
    if score >= 0 and score < 30:
        return 'низкая оценка'
    if score >=30 and score < 80:
        return 'средняя оценка'
    if score >= 80 and score <= 100:
        return "высокая оценка"

In [57]:
# Применим функцию категоризации оценки критиков к данным
df_actual['critic_score_group']= pd.Series(df_actual['critic_score']).apply(cut_critic_score)

In [58]:
#Смотрим на результаты категоризаций
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating_esrb,user_score_group,critic_score_group
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка,средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка,высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89,8.5,E,высокая оценка,высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка,средняя оценка


Проверяем результат: группируем данные по выделенным категориям и считаем количество игр в каждой категории

In [59]:
#Группируем по пользовательской оценке, observed=False показывает все категории, создавая строки с NaN или 0 для неактивных категорий
df_actual.groupby('user_score_group', observed=False)['name'].count()

user_score_group
низкая оценка       95
средняя оценка    4888
высокая оценка    2185
Name: name, dtype: int64

In [60]:
#Группируем по оценке критиков
df_actual.groupby('critic_score_group', observed=False)['name'].count()

critic_score_group
высокая оценка    1691
низкая оценка       55
средняя оценка    5422
Name: name, dtype: int64

Видим, что как в оценке критиков и пользователей преобладает средняя оценка. (Возможно, это из-за замен пустых значений на средние)

Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [61]:
df_actual.groupby('platform')['name'].count().sort_values(ascending = False).head(7)

platform
PS2     1275
X360     868
PS3      767
DS       708
XB       706
PC       571
Wii      568
Name: name, dtype: int64

## Итоговый вывод

В проекте <b>"Секреты темнолесья" </b> проделана следующая работа:
- Выгружены данные из файла <b>'new_games.csv' </b> в датафрейм <b>games</b>. Данные проанализированы. На начальном этапе в датафрейме было <b> 11 столбцов и 16956 строк </b>. В данных присутствовали <b>пропуски</b>.
- Наименования стобцов приведены к стилю <i>snake case</i>, столбец 'rating' преименован в 'rating_esrb', столбцы приведены к нужным типам: 'year_of_release', 'critic_score' - к int64, 'eu_sales', 'jp_sales', 'user_score' - к float64.
- Пропуски в данных заменили:
    * Год релиза - на 0
    * Продажи - на среднее значение в зависимости от платформы и года выхода игры
    * Оценку пользователей - медианой по столбцу
    * Оценку критиков - на среднее по столбцу
    * Рейтинг ESRB - на "нет данных"
- Привели название игры к нижнему регистру. Приведение к нижнему регистру жанра игры сократило количество уникальных значений в 2 раза. Проверили корректность значений в полях с оценками и продажами. Удалили явные дубликаты. После удаления дубликатов осталось: 16712 строк.
- В соотвествии  сзаданием получен срез данных <b>df_actual</b>. Выбраны строки с годом релиза игры от 2000 до 2013 включительно. Отобрано 12780 строк.
- В соответствии с заданием, данные разделены по категориям. Добавлены два новых поля <b>"user_score_group" и "critic_score_group"</b>.
- Получен список ТОП-7 игровых платформ.