# Анализ развития игровой индустрии с 2000 по 2013 год

- Автор: Тюлюпов Глеб Игоревич
- Дата: 28.03.2024

### Цели и задачи проекта

<font color='#777778'> Основной целью проекта является изучение развития игровой индустрии на основе датасета /datasets/new_games.csv, содержащего информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. Результаты исследования послужат основой для статьи-исследования о развитии индустрии игр в начале XXI века, при этом акцент в статье будет сделан на играх жанра RPG. 
    
    В качестве задач проекта выступают:
   * Ознакомление с данными;
   * Проверка корреткности данных;
   * Проведение предобработки данных;
   * Получение необходимого среза данных, в том числе категоризация данных.
      </font>

### Содержимое проекта

<font color='#777778'>Проект содержит следующие основные шаги:
1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных </font>

---

## 1. Загрузка данных и знакомство с ними

**Проведём загрузку и знакомоство с данными**

Загружаем необходимые библиотеки Python и данные датасета.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv в датафрейм games
games=pd.read_csv('/datasets/new_games.csv')

Проведём знакомство с данными: выведем первые строки и результат метода `info()`.


In [3]:
# Выведем информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
#Выведем первые 5 строк датафрейма games
games.head() 

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Проверим, содержит ли столбец Critic Score значения с дробной частью, для определения возможности перевода формата столбца к int64:

In [5]:
games['Critic Score'].sum().astype('int64')-games['Critic Score'].sum()

0.0

Выведем количество пропусков в датасете в каждом столбце с помощью метода isna():

In [6]:
#Выведем количество пропусков в каждом столбце
games.isna().sum()

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

Датасет new_games.csv содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.
Изучим типы данных и их корректность:
* Числовые значения с плавающей запятой (float64). Четыре столбца имеют тип данных float64. Среди них: Year of Release, NA sales, Other sales, Critic Score.
Для столбцов NA sales, Other sales данный формат является корректным, т.к. данные о продажах представлены в миллионах копий и, следовательно, могут содержать дробные значения. Столбец Critic Score можно перевести в тип int64, т.к. значения в столбцах не содержат дробную часть. Столбец Year of Release лучше привести к формату int64, т.к. значения в столбце также не содержат дробной части. 
* Строковые данные (object). Семь столбцов имеют тип данных object:
    - Name, Platform и Genre содержат строковую информацию (название игры, название платформы, жанр игры), что логично для текстовых данных. Здесь тип данных object подходит.
    - EU sales, JP sales и User Score хранят о продаже игр в Европе и Японии, а также оценки пользователей. Для таких данных рекомендуется использовать тип float64, поскольку данные в этих столбцах содержат дробную часть. Замена формата позволит проводить агрегацию с данными, упростит категоризацию и фильтрацию данных. Также для данных столбцов можно уменьшить разрядность до float32.
    - Rating содержит сведения о возрастной категории игры в соответствии с рейтингом организации ESRB. Столбец также хранит текстовые данные, но их можно рассматривать как категориальные признаки. В этом случае можно использовать тип category, чтобы улучшить производительность и оптимизировать память, если набор значений ограничен и заведомо известен.
    
Всего в датасете содержится 16956 строк. Пропуски не содержатся в столбцах:
   - Platform;
   - NA sales;
   - EU sales;
   - JP sales;
   - Other sales.
    
   Название игры Name и название жанра не указано в двух записях. Год выпуска игры не указан в 275 записях, оценки критиков отсутствуют почти в половине всех строк. Оценки пользователей не указаны в 6804 случаях, возрастной рейтинг - в 6871.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

**Провёдм анализ и коректировку формата названий столбцов датафрейма**

Выведем на экран названия всех столбцов: 

In [7]:
#Выведем названия столбцов датафрейма
games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Приведём все столбцы к стилю snake case:

In [8]:
#Приведём названия столбцов к нижнему регистру
games.columns=games.columns.str.lower()
#Заменим пробелы в названиях на '_'
games.columns=games.columns.str.replace(' ', '_')

Выведем результат выполненных преобразований:

In [9]:
#Выведем скорректированные названия столбцов
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

**Проведём анализ и преобразование типов данных**

Столбцы eu_sales, jp_sales и user_score в данный момент имеют тип данных object, что может быть связано с тем, что часть строк содержит строковые значения 'unknown' и 'tbd'. Имеет смысл привести данные столбцы к формату float64 с дальнейшим уменьшением разрядности до float32, т.к. данные столбцы содержат числовые значения с дробной частью. Перед этим необходимо заменить строки, содержащие строковые значения, (такие как 'unknown') на пропуски.

In [10]:
#Выведем типы данных для столбцов датасета
games.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

In [11]:
#Заменим значение 'unknown' на пропуски для столбцов eu_sales и jp_sales
games[['eu_sales','jp_sales']]=games[['eu_sales','jp_sales']].replace('unknown', 'Nan')

In [12]:
#Скорректируем тип данных на float 64 для столбцов eu_sales и jp_sales
games[['eu_sales','jp_sales']]=games[['eu_sales','jp_sales']].astype('float64')

In [13]:
#Выведем уникальные значения для столбца user_score для поиска строковых значений
games['user_score'].value_counts()

tbd    2464
7.8     329
8       292
8.2     282
8.3     257
       ... 
1.5       2
9.6       2
1         2
0         1
9.7       1
Name: user_score, Length: 96, dtype: int64

In [14]:
#Заменим строковое значение 'tbd' на пропуски
games['user_score']=games['user_score'].replace('tbd', 'Nan')

In [15]:
#Преобразуем данные столбца user_score к формату 'float64'
games['user_score']=games['user_score'].astype('float64')

In [16]:
#Понизим разрядноть для столбцов eu_sales, jp_sales и user_score
games['eu_sales'] = pd.to_numeric(games['eu_sales'], downcast='float')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], downcast='float')
games['user_score'] = pd.to_numeric(games['user_score'], downcast='float')

Столбец year_of_release лучше привести к формату int64, т.к. значения в столбце также не содержат дробной части. Кроме этого можно уменьшить разрядность для данного столбца. Поскольку столбец содержит пустые значения, для изменения формата на int64 необходимо заменить пустые значения. В данном случае заменим пустые значения на 0. Данный индикатор является подходящим т.к. в дальнейшем предстоит анализ игр, код выпуска которых находится в интервале с 2000 по 2013 год, в свяи с чем индикатор 0 не повлияет выгрузку данных.

In [17]:
#Заменим пропуски в столбце year_of_release на 0
games['year_of_release']=games['year_of_release'].fillna(0)

In [18]:
#Преобразуем данные столбца year_of_release к формату 'int64'
games['year_of_release']=games['year_of_release'].astype('int64')

In [19]:
#Понизим разрядноть для столбца year_of_release
games['year_of_release'] = pd.to_numeric(games['year_of_release'], downcast='integer')

Столбец critic_score можно перевести в тип int64, т.к. значения в столбцах не содержат дробную часть. Также для данного столбца можно уменьшить разрядность. Заменим пустые значения на -1. Данный индикатор является оптимальным т.к. в дальнейшем предстоит категоризация игр в зависимости от оценок, значение которых не может быть отрицательным.

In [20]:
#Заменим пропуски в столбце critic_score на -1
games['critic_score']=games['critic_score'].fillna(-1)

In [21]:
#Преобразуем данные столбца critic_score к формату 'int64'
games['critic_score']=games['critic_score'].astype('int64')

In [22]:
#Понизим разрядноть для столбца year_of_release
games['critic_score'] = pd.to_numeric(games['critic_score'], downcast='integer')

Столбец rating хранит текстовые данные, но их можно рассматривать как категориальные признаки. Для этого  можно использовать тип category, чтобы улучшить производительность и оптимизировать память:

In [23]:
#Преобразуем данные столбца rating к формату 'category'
games['rating']=games['rating'].astype('category')

Для столбцов na_sales, other_sales можно понизить разрядность для экономии памяти и повышения скорости работы:

In [24]:
#Понизим разрядность для столбцов na_sales и other_sales
games['na_sales'] = pd.to_numeric(games['na_sales'], downcast='float')
games['other_sales'] = pd.to_numeric(games['other_sales'], downcast='float')

Выведем информацию о датасете с учётом изменений:

In [25]:
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16956 non-null  object  
 2   year_of_release  16956 non-null  int16   
 3   genre            16954 non-null  object  
 4   na_sales         16956 non-null  float32 
 5   eu_sales         16950 non-null  float32 
 6   jp_sales         16952 non-null  float32 
 7   other_sales      16956 non-null  float32 
 8   critic_score     16956 non-null  int8    
 9   user_score       7688 non-null   float32 
 10  rating           10085 non-null  category
dtypes: category(1), float32(5), int16(1), int8(1), object(3)
memory usage: 795.3+ KB


В результате изменений в обновлённой версии датасета 5 столбцов имеют формат float32, в том числе:
 * na_sales;
 * eu_sales;
 * jp_sales;
 * other_sales;
 * user_score.
 
Данные столбцы содержит дробную часть, поэтому формат float32 является для них оптимальным.

Столбец year_of_release имеет формат int16, что является оптимальным, т.к. значения в столбце не выходят за границы диапазона -32 768...32 767.

Столбец critic_score имеет формат int8, что также является оптимальным, т.к. значения оценок находятся в диапазоне от 0 до 100.

Для столбцов name, platform, genre формат остался неизменным.

Столбец rating стал содержать информацию в формате category, т.к. в данном столбце хранится ограниченный список значений-категорий.


### 2.3. Наличие пропусков в данных

**Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.**


Для столбцов year_of_release и critic_score пропуски были заменены на индикаторы в предыдущем подразделе.

Рассчитаем количество пропусков абсолютном значении:

In [26]:
#Выведем количество пропусков
games.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score          0
user_score         9268
rating             6871
dtype: int64

Рассчитаем количество пропусков относительном значении:

In [27]:
#Выведем количество пропусков в относительном значении
games.isna().sum() / len(games) * 100 

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score        0.000000
user_score         54.659118
rating             40.522529
dtype: float64

Пропуски отсутствуют для столбцов:
* platform;
* na_sales;
* other_sales.

Для столбца name выявлено два пропуска. Отсутствие названия игры может быть связано с технической ошибкой. Поскольку в столбце содержится строковая информация, пропуски можно заменить пустой строкой.

Для столбца genre также выявлено два пропуска, что также может быть связано с технической ошибкой или невозможностью определить жанр игры. Поскольку в столбце  также содержится строковая информация, пропуски можно заменить пустой строкой.

Для столбцов eu_sales и jp_sales выявлено 6 и 4 пропуска, что может быть связано с отсутствием информации о продажах в данных регионах. Пропуски в данных столбцах можно заменить с помощью функции apply исходя из платформы и года выпуска игры.

Для столбца user_score выявлено 54,66% пропусков, что может быть связано с отсутствием подсчёта пользовательского рейтинга до определённого года или низкой популярности игры. Пропуски можно заменить с помощью функции apply исходя из платформы и объёма продаж в  разных регионах.

Высокий процент пропусков в столбце rating с высокой долей вероятности связан с тем, что рейтинг организации ESRB быд принят только в 1994 году. Для данного столбца будет оптимальным заменить пропуски на пустые строки.

Выявленные в предыдущем разделе пропуски для столбца year_of_release могут быть связаны с отсутствием информации о годе выпуска игры. Для данного столбца в предыдущем подразделе был выбран индикатор 0.

Пропуски в столбце critic_score, как и в случае с оценками пользователей, могут быть связаны с отсутствием подсчёта  рейтинга критиков до определённого года или низкой популярностью игры. Пропуски можно заменить с помощью функции apply исходя из платформы и объёма продаж в  разных регионах.

Заменим пропуски в столбцах с помощью метода fillna().

In [28]:
#Для столбцов name и genre заменим пропуски на пустую строку
games['name'] = games['name'].fillna('')
games['genre'] = games['genre'].fillna('')

Для столбцов eu_sales и jp_sales заменим пропуски с помощью метода apply() исходя из средних значений в зависимости от названия платформы и года выхода игры.

In [29]:
#Для столбца eu_sales заменим пропуски исходя из средних значений в зависимости от названия платформы и года выхода игры
def mean_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = games[(games['platform'] == row['platform']) & 
                   (games['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

games['eu_sales'] = games.apply(mean_eu_sales, axis=1)

In [30]:
#Аналогично заполним пропуски в столбце jp_sales:
def mean_jp_sales(row):
    if pd.isna(row['jp_sales']):
        group = games[(games['platform'] == row['platform']) & 
                   (games['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

games['jp_sales'] = games.apply(mean_jp_sales, axis=1)

Заменим пропуски в столбцах critic_score и user_score с помощью метода apply(), исходя из платформы, а также средних значений продаж в различных регионах.

In [31]:
#Заменим пропуски в столбце user_score с помощью метода apply исходя из значений в столбцах platform, na_sales, eu_sales, jp_sales, other_sales
def mean_user_score(row):
    if pd.isna(row['user_score']):
        group = games[(games['platform'] == row['platform']) & 
                   (games['na_sales'] == row['na_sales']) & 
                   (games['eu_sales'] == row['eu_sales']) &
                   (games['jp_sales'] == row['jp_sales']) &
                   (games['other_sales'] == row['other_sales'])]
        return group['user_score'].mean()
    else:
        return row['user_score']

games['user_score'] = games.apply(mean_user_score, axis=1)

Заменим пропуски в столбце critic_score с помощью метода apply(), исходя из средних значений значений

In [32]:
#Заменим пропуски в столбце critic_score с помощью метода apply() исходя из значений в столбцах platform, na_sales, eu_sales, jp_sales, other_sales
#Замена осуществляется для строк со значением -1.
def mean_critic_score(row):
    if row['critic_score']==-1:
        group = games[(games['platform'] == row['platform']) & 
                   (games['na_sales'] == row['na_sales']) & 
                   (games['eu_sales'] == row['eu_sales']) &
                   (games['jp_sales'] == row['jp_sales']) &
                   (games['other_sales'] == row['other_sales'])]
        return group['critic_score'].mean()
    else:
        return row['critic_score']

games['critic_score'] = games.apply(mean_critic_score, axis=1)

Чтобы оценить замену пропусков по столбцы critic_score, выведем уникальные значения по столбцу. Пустые строки будут иметь значение -1:

In [33]:
#Выведем уникальные значения для столбца critic_score
games['critic_score'].value_counts()

-1.000000     4731
 70.000000     257
 71.000000     256
 75.000000     248
 73.000000     245
              ... 
 47.333333       1
 54.250000       1
 65.500000       1
 50.333333       1
 53.250000       1
Name: critic_score, Length: 498, dtype: int64

Таким образом количество пропусков снизилось с 8714 до 4731.

Заменим пропуски в столбце rating на пустые строки.

In [34]:
def rating_blank(row):
    if pd.isna(row['rating']):
        return ''
    else:
        return row['rating']

games['rating'] = games.apply(rating_blank, axis=1)

Выведем обновлённое количество пропусков по столбцам:

In [35]:
games.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score          0
user_score         4758
rating                0
dtype: int64

In [36]:
games.isna().sum() / len(games) * 100 

name                0.000000
platform            0.000000
year_of_release     0.000000
genre               0.000000
na_sales            0.000000
eu_sales            0.000000
jp_sales            0.000000
other_sales         0.000000
critic_score        0.000000
user_score         28.060863
rating              0.000000
dtype: float64

Таким образом, процент пропущенных значений для столбца user_score снизился с отметки 54,7% до 28,1%.

Количество пропусков в столбце critic_score снизилось с 8714 до 4731. 

### 2.4. Явные и неявные дубликаты в данных

**Изучим уникальные значения данных, а также проверим, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания**

In [37]:
#Выведим общее количество уникальных значений для всех столбцов:
games.nunique()

name               11560
platform              31
year_of_release       38
genre                 25
na_sales             402
eu_sales             313
jp_sales             248
other_sales          155
critic_score         498
user_score           342
rating                 9
dtype: int64

In [38]:
#Выведем уникальные значения для столбца platform
platform_unique=games['platform'].unique()
print(sorted(platform_unique))

['2600', '3DO', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG', 'N64', 'NES', 'NG', 'PC', 'PCFX', 'PS', 'PS2', 'PS3', 'PS4', 'PSP', 'PSV', 'SAT', 'SCD', 'SNES', 'TG16', 'WS', 'Wii', 'WiiU', 'X360', 'XB', 'XOne']


In [39]:
#Выведем уникальные значения для столбца year_of_release
year_of_release_unique=games['year_of_release'].unique()
print(sorted(year_of_release_unique))

[0, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016]


In [40]:
#Выведем уникальные значения для столбца genre
genre_unique=games['genre'].unique()
print(sorted(genre_unique))

['', 'ACTION', 'ADVENTURE', 'Action', 'Adventure', 'FIGHTING', 'Fighting', 'MISC', 'Misc', 'PLATFORM', 'PUZZLE', 'Platform', 'Puzzle', 'RACING', 'ROLE-PLAYING', 'Racing', 'Role-Playing', 'SHOOTER', 'SIMULATION', 'SPORTS', 'STRATEGY', 'Shooter', 'Simulation', 'Sports', 'Strategy']


In [41]:
#Выведем уникальные значения для столбца rating
rating_unique=games['rating'].unique()
print(sorted(rating_unique))

['', 'AO', 'E', 'E10+', 'EC', 'K-A', 'M', 'RP', 'T']


In [42]:
#Приведём название игр, название платформы и жанра к нижнему регистру, наименование рейтинга к верхнему:
games['name']=games['name'].str.lower()
games['platform']=games['platform'].str.lower()
games['genre']=games['genre'].str.lower()
games['rating']=games['rating'].str.upper()

Выведим общее количество уникальных значений для всех столбцов после проведённых изменений.

In [43]:
#Выведим общее количество уникальных значений для всех столбцов после проведённых изменений:
print(games.nunique())
print(len(games))

name               11560
platform              31
year_of_release       38
genre                 13
na_sales             402
eu_sales             313
jp_sales             248
other_sales          155
critic_score         498
user_score           342
rating                 9
dtype: int64
16956


В результате приведения к нижнему регистру количество уникальных значений для столбца genre сократилось с 25 до 13. Дубликатов, связанных с опечатками не выявлено

**Проверим наличие явных дубликатов в данных**:

In [44]:
#Выведем дублирующиеся строки
duplicates = games[games.duplicated()]
print(duplicates)

                                                name platform  \
268                            batman: arkham asylum      ps3   
368                 james bond 007: agent under fire      ps2   
717                            god of war: ascension      ps3   
823                                wipeout: the game      wii   
848                  rayman raving rabbids: tv party      wii   
...                                              ...      ...   
16671        fullmetal alchemist: prince of the dawn      wii   
16753                                      routes pe      ps2   
16799                            transformers: prime      wii   
16912  metal gear solid v: the definitive experience     xone   
16940                          the longest 5 minutes      psv   

       year_of_release      genre  na_sales  eu_sales  jp_sales  other_sales  \
268               2009     action      2.24      1.31      0.07         0.61   
368               2001    shooter      1.90      1.13      

In [45]:
#Удалим дублирующееся строки
games_cleaned = games.drop_duplicates()

Всего с помощью метода duplicated() было обнаржужено 241 дубликат.

Дублирующиеся строки были удалены с помощью метода drop_duplicates().

**Посчитаем общее количество удалённых строк в абсолютном и относительном значении:**

In [46]:
print(f'Количество удалённых строк: {len(duplicates)}')
print(f'Процент удалённых строк: {len(duplicates)/len(games)*100}')
print(f'Объём изначального датафрейма:{len(games)}')
print(f'Объём скорректированного датафрейма: {len(games_cleaned)}')

Количество удалённых строк: 241
Процент удалённых строк: 1.421325784383109
Объём изначального датафрейма:16956
Объём скорректированного датафрейма: 16715


Таким образом, изначальный датафрейм содержал 16956 строк. Всего было удалено 241 дубликатов или 1,42% данных от первоначального датасета. После удаления дубликатов датафрейм стал содержать 16715 записей.

**Общий вывод по разделу**

Таким образом, в ходе проверки ошибок в данных и их предобработки на первом этапе названия столбцов датафрейма были приведены к формату snake case.

На следующем этапе был проведён анализ типов данных датафрейма, в том числе были изменены форматы для столбцов eu_sales,jp_sales и user_score с формата object на формат float32. Столбец year_of_release c формата object был приведён к формату int 16. Столбец critic_score с формата object был приведён к формату int8. Столбцу rating был присвоен формат category.

На следующем этапе была проведена работа с пропусками. Пропуски столбце year_of_release были заменены на индикатор 0. Пропущенные значения в столбцах name, genre и rating были заменены на пустые строки. Пропуски в столбцах eu_sales и eu_sales были заполнены с помощью метода apply, исходя из средних значений в зависимости от названия платформы и года выхода игры. Пропуски в столбцах user_score и critic_score были заполнены с помощью метода apply исходя из значений в столбцах platform, na_sales, eu_sales, jp_sales, other_sales.

В результате процент пропущенных значений для столбца user_score снизился с отметки 54,7% до 28,1%. Количество пропусков в столбце critic_score снизилось с 8714 до 4731. В остальных столбцах все пропуски были заменены.

В дальнейшем была осуществлена работа с явными и неявными дубликатами. В результате приведения значений столбцов  к нижнему регистру, количество уникальных значений в столбце genre сократилось с отметки с 25 до 13. Неявных дубликатов, образовавшихся вследствие опечаток, не выявлено. С помощью метода duplicated() было выявлено 241 явных дубликатов, что составило 1,42% от первоначальных данных. Дублирующеися строки были удалены с помощью метода drop_duplicates().


---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберём данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме `games_actual`.

In [47]:
#Проведём фильтрацию по столбцу year_of_release
games_actual=games[(games['year_of_release']>=2000) & (games['year_of_release']<=2013)]

In [48]:
#Выведем полученный датафрейм
games_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,wii,2006,sports,41.360001,28.959999,3.77,8.45,76.0,8.0,E
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E


In [49]:
#Выведем информацию о полученном датафрейме
games_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12980 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12980 non-null  object 
 1   platform         12980 non-null  object 
 2   year_of_release  12980 non-null  int16  
 3   genre            12980 non-null  object 
 4   na_sales         12980 non-null  float32
 5   eu_sales         12980 non-null  float64
 6   jp_sales         12980 non-null  float64
 7   other_sales      12980 non-null  float32
 8   critic_score     12980 non-null  float64
 9   user_score       10186 non-null  float64
 10  rating           12980 non-null  object 
dtypes: float32(2), float64(4), int16(1), object(4)
memory usage: 1.0+ MB


Таким образом, в срезе данных по играм за 2000 и 2013 год содержится 12 980 записей, что свидетельствует о том, что значительный объём игр рассматриваемого датасета был выпущен в данном периоде.

---

## 4. Категоризация данных
    
**Проведём категоризацию данных**

Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [50]:
def categorize_user_score(row):
    if row['user_score'] <= 10 and row['user_score'] >= 8:
        return "высокая_оценка"
    elif row['user_score'] < 8 and row['user_score'] >= 3:
        return "средняя_оценка"
    elif row['user_score'] < 3 and row['user_score'] > 0:
        return "низкая_оценка"


# Применение функции для категоризации
games_actual['user_score_category']=games_actual.apply(categorize_user_score, axis=1)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  games_actual['user_score_category']=games_actual.apply(categorize_user_score, axis=1)


In [51]:
#Выведем обновлённый датафрейм
games_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category
0,wii sports,wii,2006,sports,41.360001,28.959999,3.77,8.45,76.0,8.0,E,высокая_оценка
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая_оценка
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая_оценка
6,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая_оценка
7,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя_оценка


Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [52]:
def categorize_critic_score(row):
    if row['critic_score'] <= 100 and row['critic_score'] >= 80:
        return "высокая_оценка"
    elif row['critic_score'] < 80 and row['critic_score'] >= 30:
        return "средняя_оценка"
    elif row['critic_score'] < 30 and row['critic_score'] > 0:
        return "низкая_оценка"


# Применение функции для категоризации
games_actual['critic_score_category']=games_actual.apply(categorize_critic_score, axis=1)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  games_actual['critic_score_category']=games_actual.apply(categorize_critic_score, axis=1)


In [53]:
#Выведем обновлённый датафрейм
games_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,wii,2006,sports,41.360001,28.959999,3.77,8.45,76.0,8.0,E,высокая_оценка,средняя_оценка
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая_оценка,высокая_оценка
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая_оценка,высокая_оценка
6,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая_оценка,высокая_оценка
7,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя_оценка,средняя_оценка


Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [54]:
#Проведём группировку по категориям оценок пользователей
grouped_games_by_user_score = games_actual.groupby('user_score_category')['user_score_category'].count()

#Выведём полученный результат на экран
print(grouped_games_by_user_score)

user_score_category
высокая_оценка    2857
низкая_оценка      133
средняя_оценка    7195
Name: user_score_category, dtype: int64


In [55]:
#Проведём группировку по категориям оценок критиков
grouped_games_by_critic_score = games_actual.groupby('critic_score_category')['critic_score_category'].count()

#Выведём полученный результат на экран
print(grouped_games_by_critic_score)

critic_score_category
высокая_оценка    1712
низкая_оценка     1826
средняя_оценка    6462
Name: critic_score_category, dtype: int64


Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период:

In [56]:
#Проведём группировку игр по платформам
games_by_platform = games_actual.groupby('platform')['platform'].count()

#Преобразуем полученную серию в датафрейм с новым именем столбца count
games_by_platform = games_by_platform.to_frame(name="count")

#Отсротируем данные по количеству игр по убыванию
sorted_games_by_platform = games_by_platform.sort_values(by='count',ascending=False)

#Выведем топ-7 игровых платформ по количеству игр
sorted_games_by_platform[0:7]

Unnamed: 0_level_0,count
platform,Unnamed: 1_level_1
ps2,2154
ds,2146
wii,1294
psp,1199
x360,1138
ps3,1107
gba,826


Таким образом, с помощью categorize_user_score и categorize_critic_score каждой игре были присвоены соответствующие категории в зависимости от оценок пользователей и критиков.

В соответствии с оценками пользователей, количество игр с высокой оценкой составило 2857, со средней - 7195, с низкой - 133.

В соответствии с оценками критиков, количество игр с высокой оценкой составило 1712, со средней - 6462, с низкой - 1826.

Как видно из проведённой категоризации, количество игр с высокими оценками от пользователей значительно выше, чем количество игр с высокими оценками от критиков. При этом число игр с низкой оценкой от критиков значительно выше количества игр с низкой оценкой от пользователей.

В топ-7 платформ по количеству игр вошли такие платформы как 'ps2', 'ds', 'wii', 'psp', 'x360', 'ps3', 'gba'.

---

## 5. Итоговый вывод


В ходе проекта была проведена работа с данными датасета /datasets/new_games.csv, была проведена проверка данных, их предобработка, получен необходимый срез данных по году выхода игры, была проведена категоризация игр в соответствии с оценками критиков и пользователей, были выделены ведущие игровые платформы по количеству игр.

На первом этапе анализа было проведено знакомство с данными, выявлено количество записей в исходном датасете, определено количество пропусков для каждтого столбца, рассмотрены типы данных для каждого столбца. В результате была выявлена необходимость в изменении типа данных для столбцов:

 * Critic Score;
 * Year of Release;
 * EU sales;
 * JP sales;
 * User Score;
 * Rating.
 
На следующем этапе была проведена проверка ошибок в данных и их предобработка. Были изменены названия столбцов датасета /datasets/new_games.csv были приведены к формату snake case. Для столбцов eu_sales,jp_sales и user_score были изменены форматы с формата object на формат float32. Столбец year_of_release c формата object был приведён к формату int 16. Столбец critic_score с формата object был приведён к формату int8. Столбцу rating был присвоен формат category. Пропуски столбце year_of_release были заменены на индикатор 0. Пропущенные значения в столбцах name, genre и rating были заменены на пустые строки. Пропуски в столбцах eu_sales и eu_sales были заполнены исходя из средних значений в зависимости от названия платформы и года выхода игры. Пропуски в столбцах user_score и critic_score были заполнены исходя из значений в столбцах platform, na_sales, eu_sales, jp_sales, other_sales. Неявных дубликатов, образовавшихся вследствие опечаток, не выявлено. С помощью метода duplicated() было выявлено 241 явных дубликатов, что составило 1,42% от первоначальных данных. Дублирующеися строки были удалены с помощью метода drop_duplicates().

После была проведена фильтрация данных по году выпуска игр. Был отобраны игры в период с 2000 по 2013 год включительно. Новый срез данных был сохранён в отдельном датафрейме games_actual, количество записей составило 12 980.

На заключительном этапе была проведена категоризация игр в зависимости от оценок пользователей и оценок критиков. В результате было выявлено, что количество игр с высокими оценками от пользователей значительно выше, чем количество игр с высокими оценками от критиков. При этом число игр с низкой оценкой от критиков значительно выше количества игр с низкой оценкой от пользователей.
Также на данным этапе было выделено топ-7 платформ по количеству игр, в который вошли такие платформы как 'ps2', 'ds', 'wii', 'psp', 'x360', 'ps3', 'gba'.
