# Изучение развития игровой индустрии для "Секретов Темнолесья"

## Задача
Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Содержание проекта
1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных

## Загрузка и знакомство с данными

In [1]:
import pandas as pd

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


### Вывод о полученных данных
Объем данного датасета 16956 строк и 11 столбцов. Данные соответствуют описанию.
Пропуски присудствуют в следующих столбцах:
 - `Name` 
 - `Year of Release` 
 - `Genre` 
 - `Critic Score` 
 - `User Score` 
 - `Rating` \
Также в некоторых столбцах имеются неверные типы данных, а именно в `Year of Release` стоит заменить тип float на int, так как номер года - целое число, в `EU sales`, `JP sales`, `User Score` следует заменить тип object на float 

In [4]:
# Изменим названия столбцов на более удобные для работы
df = df.rename(columns={
    'Name': 'name',
    'Platform': 'platform',
    'Year of Release': 'year_of_release',
    'Genre': 'genre',
    'NA sales': 'NA_sales',
    'EU sales': 'EU_sales',
    'JP sales': 'JP_sales',
    'Other sales': 'other_sales',
    'Critic Score': 'critic_score',
    'User Score': 'user_score', 
    'Rating': 'rating'
})

## Проверка ошибок в данных и их предобработка

### Названий стобцов

In [6]:
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'NA_sales', 'EU_sales',
       'JP_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### Типы данных

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   NA_sales         16956 non-null  float64
 5   EU_sales         16956 non-null  object 
 6   JP_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


В столбце year_of_release имеются пропуски, поэтому нельзя сразу привести его к типу int, сначало следует поработать с пропусками. В столбцах year_of_release, EU_sales, JP_sales, user_score имеются неправильные типы данных, узнаем причину почему числовые данные имеют не числовой тип

In [8]:
for col in ['EU_sales', 'JP_sales', 'user_score']:
    display(df[col].unique())

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

####  Промежуточный вывод
В столбцах EU_sales, JP_sales имеется строковое значение 'unknown' из-за этого тип столбца object. В столбце же user_score имеется строкое значение 'tbd' - это означает что пользовательский рейтинг еще не определен, возможно игра еще не вышла на рынок. Чтобы избежать ошибок при замене типов импользуем значение параметра errors='coerce', таким образом строковые значения будут заменены на пропуски

In [9]:
# преобразуем данные к типам которые упомянуты выше
for column in ['EU_sales', 'JP_sales', 'user_score']:
    df[column] = pd.to_numeric(df[column], downcast='float', errors='coerce')

In [10]:
# Проверка преобразования типов
df.dtypes

name                object
platform            object
year_of_release    float64
genre               object
NA_sales           float64
EU_sales           float32
JP_sales           float32
other_sales        float64
critic_score       float64
user_score         float32
rating              object
dtype: object

####  Промежуточный вывод
Все столбцы преобразованы к подходящему типу данных, кроме year_of_release, он будет преобразован к типу int после обработки пропусков

### Наличия пропусков в данных

In [11]:
display(df.isna().sum(), df.isna().sum() / df.shape[0] * 100)

name                  2
platform              0
year_of_release     275
genre                 2
NA_sales              0
EU_sales              6
JP_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
NA_sales            0.000000
EU_sales            0.035386
JP_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

####  Промежуточный вывод
Пропуски присудствуют в следующих столбцах:
 - `name` (0.01%)
 - `year_of_release` (1.62%)
 - `genre` (0.01%)
 - `EU_sales` (0.04%)
 - `JP_sales` (0.024%)
 - `critic_score` (более 50%)
 - `user_score` (54%)
 - `rating` (41%) \
Пропуски в столбцах JP_sales и EU_sales объясняются тем, что при замене типов мы заменили строковы значения на пропуски, их заполним средним значением по году и платформе \
Столбцы name и genre имеют одинаковое количество пропусков, возможно эти пропуски содержатся в одних и тех же строках

In [13]:
# Проверим предположение вышем
df[df['name'].isna()]
missed_name = df[df['name'].isna()].shape[0]

Дела обстоят так, как и предполагалось. И так как и жанр, и имя игры отсудствуют мы не можем их однозначно идентифицировать, следовательно такие строки следует удалить

In [14]:
#Проверим столбец year_of_release
df[df['year_of_release'].isna()].head(20)
missed_year = df[df['year_of_release'].isna()].shape[0]

Как видно выше в большенстве игр год содержится в названии, пропуски в столбце могут объясняться этим. Поскольку данных столбец имеет лишь 1.62% пропусков, удалим пропущенные значения

В столбцах critic_score, user_score пропуски возможно вызваны тем, что в источниках просто не было оценок критиков и игроков и возрастного рейтинга. В столбцах critic_score, user_score на индикаторное значение -1. 

В столбце rating представлены значения рейтинга организации ESRB, эта система  действует с 1994 года и используется в США, Канаде и Мексике, соотвественно для игр из других стран в этом столбце будет пропуск. Заполним его заглушкой 'absent'

In [15]:
# удалим строки с играми без названия и жанра
df = df[~(df['name'].isna())]

In [16]:
# удалим строки с играми без года и приведем столбец к типу int
df = df[~(df['year_of_release'].isna())]
df['year_of_release'] = pd.to_numeric(df['year_of_release'], downcast='integer')

In [17]:
# Заполним пропуски в столбцах critic_score, user_score индикаторным значением -1
for column in ['critic_score', 'user_score']:
    df[column] = df[column].fillna(-1)

In [18]:
# Заполним пропуски в столбцe EU_sales средним значением продаж по году и платформе 
def mean_group_EU(row):
    if pd.isna(row['EU_sales']):
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        return group['EU_sales'].mean()
    else: 
        return row['EU_sales']
df['EU_sales'] = df.apply(mean_group_EU, axis=1)

In [19]:
# Заполним пропуски в столбцe JP_sales средним значением продаж по году и платформе 
def mean_group_JP(row):
    if pd.isna(row['JP_sales']):
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        return group['JP_sales'].mean()
    else:
        return row['JP_sales']
df['JP_sales'] = df.apply(mean_group_JP, axis=1)

In [20]:
# Заполним пропуски в столбце rating заглушкой 'absent'
df['rating'] = df['rating'].fillna('absent')

In [21]:
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
NA_sales           0
EU_sales           0
JP_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

In [22]:
# Подсчитаем поличество удаленных строк в относительном значении
round((missed_name + missed_year) / lenght * 100, 2)

1.63

####  Промежуточный вывод
Все пропуски обработаны. Удалено 1.63% строк. На данный момент количество пропусков в каждом столбце 0

### Явные и неявные дубликаты в данных

In [23]:
## Проверим категориальные данные на наличие неявных дубликатов
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [24]:
df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [25]:
df['year_of_release'].unique()

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983], dtype=int16)

In [26]:
df['rating'].unique()

array(['E', 'absent', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

Как видно выше только в столбце genre есть неявные повторы из-за написания названий жанров в разном регистре

In [27]:
df['genre'] = df['genre'].str.lower()

In [28]:
# Проверим датафрем на наличие явных дупликатов
dupl = df.duplicated(keep='first').sum()
dupl

235

Явных дубликатов 235 строк, удалим из с помощью метода drop_duplicates(), будем сохранять первую встреченную запись дубликат

In [29]:
# Удаляем дубоикаты
df.drop_duplicates(subset=None, keep='first', inplace=True)

In [30]:
# Расчет удаленных строк в абсолютном значении
deleted = dupl + missed_name + missed_year
deleted

512

In [31]:
# Расчет удаленных строк в относительном значении
deleted / lenght

0.03019580089643784

In [32]:
# Комментарий ревьюера 2
# Проверим сколько удалено строк датасета
a, b = len(tmp), len(df)
print(" Было строк в исходном датасете", a,
      '\n', "Осталось строк в датасете после обработки", b,
      '\n', "Удалено строк в датасете после обработки", a-b,
      '\n', "Процент потерь", round((a-b)/a*100, 2))

 Было строк в исходном датасете 16956 
 Осталось строк в датасете после обработки 16444 
 Удалено строк в датасете после обработки 512 
 Процент потерь 3.02


###  Промежуточный вывод
Значения в столбцах year_of_release, EU_sales, JP_sales, user_score приведены к правильным типам, пропуски обработаны: удалено 1.63% строк из-за пропусков в столбцах name, genre, year_of_release, в столбцах critic_score, user_score поставлена заглушка -1, в столбце rating - 'absent', в столбцах EU_sales и JP_sales средним значением продаж по году и платформе. Неявные дубликаты в столбце genre приведены к общем виду, тем самым удалены. Было найдено 235 явных дубликатов, все они были удалены, так как могли бы исказить анализ. Всего было удалено 3% строк от первоначального размера датасета

## Фильтрация данных

Отфильтруем данные за период с 2000 по 2013 год включительно

In [33]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()

In [34]:
df_actual['year_of_release'].unique()

array([2006, 2008, 2009, 2005, 2007, 2010, 2013, 2004, 2002, 2001, 2011,
       2012, 2003, 2000], dtype=int16)

## Категоризация данных

In [35]:
# Категории по рейтингу игроков
df_actual['user_score_group'] = pd.cut(df_actual['user_score'], bins=[-1, 0, 3, 8, 10], right=False, labels=['без оценки', 'низкая оценка', 'средняя оценка', 'высокая оценка'])

In [36]:
# Категории по рейтингу критиков
df_actual['critic_score_group'] = pd.cut(df_actual['critic_score'], bins=[-1, 0, 30, 80, 100], right=False, labels=['без оценки','низкая оценка', 'средняя оценка', 'высокая оценка'])

In [37]:
df_actual.groupby('user_score_group').agg({'name': 'count'})

Unnamed: 0_level_0,name
user_score_group,Unnamed: 1_level_1
без оценки,6298
низкая оценка,116
средняя оценка,4081
высокая оценка,2286


In [38]:
df_actual.groupby('critic_score_group').agg({'name': 'count'})

Unnamed: 0_level_0,name
critic_score_group,Unnamed: 1_level_1
без оценки,5612
низкая оценка,55
средняя оценка,5422
высокая оценка,1692


In [39]:
# Подсчитаем количество игр для каждой платформы
grouped_platforms = df_actual.groupby('platform')['name'].count()

In [40]:
# Топ-7 платформ по количеству игр, выпущенных за весь актуальный период
grouped_platforms.sort_values(ascending=False)[:7]

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

## Итоговый вывод
- Целью проекта Было помочь "Секретам темнолестья" подготорить статью о развитии игровой индустрии. Для этого нужно было познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных. 
- Было проведено знакомство с данным, а далее их предобработка: названия столбцов приведены к snake_case, что сделало датасет более удобным для работы \
Значения в столбцах приведены к нужным типам данных, таким образом к числовым столбца после обработки можно применять числовые функции.\
Была проведена работа с пропусками и дубликатами, теперь они не могу исказить анализ \
Далее данные были отфильтрованы по году выпуска игр: с 2003 до 2016 включительно, в соотвествии с требованиями. \
После этого была проведена категоризация, выделены категории по оценкам игроков и критиков, а также топ-7 платформ по количеству выпущенных для них игр, это можно использовать в статьи
- На основе полученных после обработки данных можно сделать детальный анализ развития игровой индустрии в XXI веке, выделить тенденции и сделать прогноз дальнейшей судьбы индустрии