### Цели и задачи проекта


**Цель проекта** заключается в предобработке данных игровой индустрии для последующего анализа и исследования развития индустрии игр в начале XXI века. В проекты мы решим такие **задачи** как первичное знакомство с данными, проверка ошибок (внешний вид данных, типы данных, пропуски, дубликаты), фильтрация и категоризация данных, а также подведем общий итог проведенной работы.

### Описание данных



Ниже представлены данные из датасета `datasets/new_games.csv`, которые будут задействованы в проекте:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта



1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод

---

## 1. Загрузка и знакомство с данными

1. Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.
2. Познакомьтесь с данными: выведите первые строки и результат метода `.info()`.
3. Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
4. Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
df.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Из визуального анализа данных можно сделать следующие выводы:
- в таблице представлены 16 956 строк и 11 столбцов
- 4 столбца представлены в типе `float64`, 7 столбцов в типе `object`
- в 6 столбцах из 11 присутствуют пропуски данных, это столбцы: `Name`, `Year of Release`, `Genre`, `Critic Score`, `User Score`, `Rating`
- Для более качественного анализа возможно потребуется перевести некоторые столбцы в более подходящие типы данных:
  - `Year of Release` из float64 в **int64**
  - `EU sales` из object в **float64**
  - `JP sales` из object в **float64**
  - `User Score` из object в **float64**
  - `Rating` из object в **float64**

Стоит отметить, что стобцы `EU sales` и `JP sales` представлены в типе `object`, поскольку в них содержатся текстовые значения.
    
В последующих шагах приведем названия столбцов к виду `snake_case` для однородности.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма: 


In [5]:
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# Переведем названия столбцов к стилю snake_case
df.columns = df.columns.str.replace(' ', '_').str.lower()
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

Теперь названия столбцов представлены в едином стиле

### 2.2. Типы данных: 


Проверим уникальные значения в столбце `year_of_release`


In [7]:
uni_year = df['year_of_release'].unique()
display(uni_year)

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

In [8]:
#Переведем значения 'year_of_release' в тип float64
df['year_of_release'] = pd.to_numeric(df['year_of_release'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [9]:
for i in ['eu_sales', 'jp_sales']:
    uni_sales = df[i].unique()
    display(uni_sales)

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

Видим, что в столбцах `eu_sales` и `jp_sales` присутствует значение `unknown` из-за которого эти столбцы и представлены в типе `object`


In [10]:
# Переведем столбцы eu_sales, jp_sales, user_score в тип float64, в случае наличия текстовых значений, заменим их на NaN
for i in ['eu_sales', 'jp_sales', 'user_score']:
    df[i] = pd.to_numeric(df[i], errors = 'coerce')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


После перевода данных в нужный тип появились пропуски в столбцах `eu_sales` и `jp_sales`

### 2.3. Наличие пропусков в данных: 


Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях и отсортируем в порядке убывания


In [11]:
# Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях
display(df.isna().sum().sort_values(ascending = False))
nan_percent = round(df.isna().sum() / df.shape[0] * 100,2)
display(nan_percent.sort_values(ascending = False))

user_score         9268
critic_score       8714
rating             6871
year_of_release     275
eu_sales              6
jp_sales              4
name                  2
genre                 2
platform              0
na_sales              0
other_sales           0
dtype: int64

user_score         54.66
critic_score       51.39
rating             40.52
year_of_release     1.62
eu_sales            0.04
jp_sales            0.02
name                0.01
genre               0.01
platform            0.00
na_sales            0.00
other_sales         0.00
dtype: float64

В столбцах `critic_score`, `user_score` и `rating` пропуски присутствуют в около 50% наблюдений, что значительно скажется на результатах анализа данных. Можно предположить, что пропуски связаны с годом выхода игры. Чем раньше была выпцщена игра, тем вероятнее, что у нее не будет оценки критиков, оценки пользователей и рейтинга.

Незначительное количество пропусков присутствует в столбцах `name`, `genre` и `year_of_release`. Скорее всего это может быть связано с ошибкой в заполнении данных.

Кроме этого, после замены типа данных пропуски появились в столбцах `eu_sales` и `jp_sales`

In [12]:
# Выведем налбюдения с пропускми в столбцах name и genre
display(df[df['name'].isna()])
display(df[df['genre'].isna()])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


В 2 строках присутствуют одновременно по 2 пропуска в столбцах `name` и `genre`. Строки будет сложно восстановить, так как совсем не понятно, что это были за игры, данные наблюдения можно удалить из датафрейма, что не сильно повлияет на качество данных.

In [13]:
# Удаляем строки с пропусками в столбцах name и genre
df = df.dropna(subset=['name'])
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16948 non-null  float64
 6   jp_sales         16950 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.6+ MB


In [14]:
# Выведем налбюдения с пропускми в столбце year_of_release
display(df[df['year_of_release'].isna()].head(30))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,,Sports,4.26,0.26,0.01,0.71,94.0,8.5,E
379,FIFA Soccer 2004,PS2,,Sports,0.59,2.36,0.04,0.51,84.0,6.4,E
458,LEGO Batman: The Videogame,Wii,,Action,1.8,0.97,0.0,0.29,74.0,7.9,E10+
477,wwe Smackdown vs. Raw 2006,PS2,,Fighting,1.57,1.02,0.0,0.41,,,
611,Space Invaders,2600,,Shooter,2.36,0.14,0.0,0.03,,,
629,Rock Band,X360,,Misc,1.93,0.33,0.0,0.21,92.0,8.2,T
659,Frogger's Adventures: Temple of the Frog,GBA,,Adventure,2.15,0.18,0.0,0.07,73.0,,E
680,LEGO Indiana Jones: The Original Adventures,Wii,,Action,1.51,0.61,0.0,0.21,78.0,6.6,E10+
722,Call of Duty 3,Wii,,Shooter,1.17,0.84,0.0,0.23,69.0,6.7,T
808,Rock Band,Wii,,Misc,1.33,0.56,0.0,0.2,80.0,6.3,T


В строках с пропусками в столбце year_of_release можно заметить, что некоторые названия игр в конце содержат год выпуска, поэтому для таких случаев, можно перенести этот год в столбец year_of_release. В остальных случаях идеальным вариантом было бы найти эти игры в открытых источниках и вручную указать для них год выпуска, но поскольку данных достаточно много, заменим оставшиеся пропуски на ноль.

In [15]:
# Проверяем является ли последние четыре значения в столбце name цифрами, если да, то возвращаем их, если нет, то возвращаем ноль
def game_year(x):
    if x[-4:].isdigit():
        return int(x[-4:])
    return 0

# Заменяем данные функции в столбце 
df['year_of_release'] = df['year_of_release'].fillna(df['name'].apply(game_year))

# Проверяем не попало ли в датафрейм аномальных значений year_of_release
display(df['year_of_release'].min())
display(df['year_of_release'].max())

count = 0
for i in df['year_of_release']:
    if i > 0 and i < 1900:
        count = count + 1
display(count) # показатель отражает, что в данных нет четырех-значных значений, непохожих на год (кроме нуля)
        

df.info()

0.0

2016.0

0

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16948 non-null  float64
 6   jp_sales         16950 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.6+ MB


Также проверим не попали ли в датафрейм года из названий игр, где последние четыре значения указаны в виде будующих годов (например, 2045):



In [16]:
count = 0
for i in df['year_of_release']:
    if i > 2016:
        count = count + 1
display(count) # показатель отражает, что в данных нет четырех-значных значений, выходящих за максимальное значение года в датафрейме

0

In [17]:
# Переведем значения year_of_release в более удобный тип int64
df['year_of_release'] = df['year_of_release'].astype('int64')

display(df['year_of_release'].dtypes)

dtype('int64')

In [18]:
# Заполняем пропуски в столбцах critic_score, user_score и rating индексом "-1"
for i in ['critic_score', 'user_score']:
    df[i] = df[i].fillna(-1)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16948 non-null  float64
 6   jp_sales         16950 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     16954 non-null  float64
 9   user_score       16954 non-null  float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.6+ MB


Заполняем пропуски в столбце `rating` индексом "no rating":

In [19]:
df['rating'] = df['rating'].fillna("no rating")

# Кроме этого переведем столбец rating в тип данных category
df['rating'] = df['rating'].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16954 non-null  object  
 2   year_of_release  16954 non-null  int64   
 3   genre            16954 non-null  object  
 4   na_sales         16954 non-null  float64 
 5   eu_sales         16948 non-null  float64 
 6   jp_sales         16950 non-null  float64 
 7   other_sales      16954 non-null  float64 
 8   critic_score     16954 non-null  float64 
 9   user_score       16954 non-null  float64 
 10  rating           16954 non-null  category
dtypes: category(1), float64(6), int64(1), object(3)
memory usage: 1.4+ MB


Последним этапом работы с пропусками будет исправление появившихся NaN в столбцах `eu_sales` и `jp_sales`. Исправим их с помощью метода `apply` и присвоим средние значения аналогичных данных в зависимости от названия платформы и года выхода игры.

In [20]:
def mean_group(x):
    if pd.isna(x['eu_sales']):
        group = df[(df['year_of_release'] == x['year_of_release']) &
                  (df['platform'] == x['platform'])]
        return group['eu_sales'].mean()
    else:
        return x['eu_sales']
df['eu_sales'] = df.apply(mean_group, axis = 1)

In [21]:
# То же самое для столбца jp_sales
def mean_group(x):
    if pd.isna(x['jp_sales']):
        group = df[(df['year_of_release'] == x['year_of_release']) &
                  (df['platform'] == x['platform'])]
        return group['jp_sales'].mean()
    else:
        return x['jp_sales']
df['jp_sales'] = df.apply(mean_group, axis = 1)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16954 non-null  object  
 2   year_of_release  16954 non-null  int64   
 3   genre            16954 non-null  object  
 4   na_sales         16954 non-null  float64 
 5   eu_sales         16954 non-null  float64 
 6   jp_sales         16954 non-null  float64 
 7   other_sales      16954 non-null  float64 
 8   critic_score     16954 non-null  float64 
 9   user_score       16954 non-null  float64 
 10  rating           16954 non-null  category
dtypes: category(1), float64(6), int64(1), object(3)
memory usage: 1.4+ MB


Таким образом мы избавились от всех пропусков в данных, в итоге из 16 956 наблюдений было удалено 2 наблюдения

### 2.4. Явные и неявные дубликаты в данных: 


In [22]:
for i in ['genre', 'platform', 'rating', 'year_of_release']:
    unique_v = df[i].unique()
    display(unique_v)

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

['E', 'no rating', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']
Categories (9, object): ['E', 'no rating', 'M', 'T', ..., 'K-A', 'AO', 'EC', 'RP']

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983,    0])

В столбце `genre` присутствуют неявные дубликаты по формату записи;

Можно также заметить, что в столбце `rating` присутствует неявное дублирование в виде синонимов **E** и **K-A**.

Проведем нормализацию данных с текстовыми значениями:

In [23]:
# Переведем значения столбцов genre и name к нижнему регистру
df['genre'] = df['genre'].str.lower()
df['name'] = df['name'].str.lower()

In [24]:
# Переведем значения столбца rating к верхнему регистру и исключаем синоноимы
df['rating'] = df['rating'].str.upper()
df['rating'] = df['rating'].str.replace('K-A', 'E')

In [25]:
# Посчитаем количество явных дубликатов после нормализации данных
duplicates = df.duplicated().sum()
display(duplicates)

241

In [26]:
# Создадим датафрейм, очищенный от дупликатов и посчитаем его длину
df_clean = df.drop_duplicates(keep='first', inplace=False)
len(df_clean)

16713

In [27]:
# Процент дубликатов d исходном датафрейме
display((duplicates / df.shape[0]) * 100)

1.4214934528724785

In [28]:
# Проверим наличие явных дубликатов в новом датафрейме
df_clean.duplicated().sum()

0

In [29]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16713 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16713 non-null  object 
 1   platform         16713 non-null  object 
 2   year_of_release  16713 non-null  int64  
 3   genre            16713 non-null  object 
 4   na_sales         16713 non-null  float64
 5   eu_sales         16713 non-null  float64
 6   jp_sales         16713 non-null  float64
 7   other_sales      16713 non-null  float64
 8   critic_score     16713 non-null  float64
 9   user_score       16713 non-null  float64
 10  rating           16713 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


В итоге из изначального датафрейма было удалено: 
- **2** наблюдения в связи с пропусками
- **241** или **1.4%** наблюдений в связи с наличеем дубликатов

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме `df_actual`.

In [30]:
# Создаем новый датафрейм на основе данных за период 2000 - 2013

df_actual = df_clean.loc[(df_clean['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)] 

df_actual.info()
df_actual.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12796 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12796 non-null  object 
 1   platform         12796 non-null  object 
 2   year_of_release  12796 non-null  int64  
 3   genre            12796 non-null  object 
 4   na_sales         12796 non-null  float64
 5   eu_sales         12796 non-null  float64
 6   jp_sales         12796 non-null  float64
 7   other_sales      12796 non-null  float64
 8   critic_score     12796 non-null  float64
 9   user_score       12796 non-null  float64
 10  rating           12796 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E


Дополнительно подсчитаем количество игр по годам, чтобы посмотреть тенденцию в объеме выпускаемых игр


In [31]:
df_group_year = df_actual.groupby('year_of_release')['name'].count().sort_values(ascending = False)
display(df_group_year)

year_of_release
2008    1429
2009    1426
2010    1255
2007    1198
2011    1137
2006    1008
2005     941
2002     830
2003     779
2004     764
2012     653
2013     544
2001     482
2000     350
Name: name, dtype: int64

---

## 4. Категоризация данных
    

Создадим копию исходного датафрейма и совершим категоризацию данных на основе столбцов `user_score` и `critic_score`, не включая правые границы игтервалов:


In [32]:
df_copy = df_actual.copy()

In [33]:
# Создадим категоризацию на основе данных user_score
df_copy['category_user_score'] = pd.cut(df_copy['user_score'], bins = [-2, 0, 3, 8, 10.1], labels = ["Нет оценки", "Низкая оценка", "Средняя оценка", "Высокая оценка"], right = False)

In [34]:
# Создадим категоризацию на основе данных critic_score
df_copy['category_critic_score'] = pd.cut(df_copy['critic_score'], bins = [-2, 0, 30, 80, 100.1], labels = ["Нет оценки", "Низкая оценка", "Средняя оценка", "Высокая оценка"], right = False)
df_copy.info()
df_copy.head(20)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12796 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   name                   12796 non-null  object  
 1   platform               12796 non-null  object  
 2   year_of_release        12796 non-null  int64   
 3   genre                  12796 non-null  object  
 4   na_sales               12796 non-null  float64 
 5   eu_sales               12796 non-null  float64 
 6   jp_sales               12796 non-null  float64 
 7   other_sales            12796 non-null  float64 
 8   critic_score           12796 non-null  float64 
 9   user_score             12796 non-null  float64 
 10  rating                 12796 non-null  object  
 11  category_user_score    12796 non-null  category
 12  category_critic_score  12796 non-null  category
dtypes: category(2), float64(6), int64(1), object(4)
memory usage: 1.2+ MB


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,category_user_score,category_critic_score
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка,Высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка,Средняя оценка
8,new super mario bros. wii,Wii,2009,platform,14.44,6.94,4.7,2.24,87.0,8.4,E,Высокая оценка,Высокая оценка
10,nintendogs,DS,2005,simulation,9.05,10.95,1.93,2.74,-1.0,-1.0,NO RATING,Нет оценки,Нет оценки
11,mario kart ds,DS,2005,racing,9.71,7.47,4.13,1.9,91.0,8.6,E,Высокая оценка,Высокая оценка
13,wii fit,Wii,2007,sports,8.92,8.03,3.6,2.15,80.0,7.7,E,Средняя оценка,Высокая оценка
14,kinect adventures!,X360,2010,misc,15.0,4.89,0.24,1.69,61.0,6.3,E,Средняя оценка,Средняя оценка


In [35]:
# Выделим Топ-7 платформ по количеству игр
df_group = df_copy.groupby('platform')['name'].count().sort_values(ascending = False).head(7)
display(df_group)

platform
PS2     2134
DS      2121
Wii     1275
PSP     1181
X360    1123
PS3     1087
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод


In [36]:
df_copy.info()
df_copy.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12796 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   name                   12796 non-null  object  
 1   platform               12796 non-null  object  
 2   year_of_release        12796 non-null  int64   
 3   genre                  12796 non-null  object  
 4   na_sales               12796 non-null  float64 
 5   eu_sales               12796 non-null  float64 
 6   jp_sales               12796 non-null  float64 
 7   other_sales            12796 non-null  float64 
 8   critic_score           12796 non-null  float64 
 9   user_score             12796 non-null  float64 
 10  rating                 12796 non-null  object  
 11  category_user_score    12796 non-null  category
 12  category_critic_score  12796 non-null  category
dtypes: category(2), float64(6), int64(1), object(4)
memory usage: 1.2+ MB


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,category_user_score,category_critic_score
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка,Высокая оценка
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка,Средняя оценка


Итоговый срез включает в себя данные за период 2000 - 2013 гг. В нем находится **12 796 наблюдений** и **13 столбцов**.

Были добавлены два новых столбца с категориями оценок отдельно для оценок пользователей и оценок критиков:
- `Нет оценки`, `Низкая оценка`, `Средняя оценка` и `Высокая оценка`

Данные итогового среза составили **75,5%** от изначального датафрейма. Кроме среза по годам, были удалены явные дубликаты в количестве **241 наблюдения**, кроме этого были удалены **2 наблюдения** в связи с наличием в них невостанавливаемых пропусков.

Для оптимизации работы с данными в датафрейме были произведены следующие изменения: 
 
- Изменения визуального формата:
 - Названия столбцов переведены к виду `snake_case`;
 - Данные столбцов `name` и `genre` приведены к нижнему регистру;
 - Данные столбца `rating` приведены к верхнему регистру;
 - Также в столбце `rating` синонимы `K-A` и `E` были приведены к единой записи `E`.
 
- Изменения типов данных:
 - `year_of_release`: из `object` в `int64`;
 - `eu_sales`: из `object` в `float64`;
 - `jp_sales`: из `object` в `float64`;
 - `user_score`: из `object` в `float64`.
 
В заключение был составлен Топ-7 платформ по количеству размещенных игр в период 2000 - 2013 гг. Лидером ТОПа стала платформа `PS2`, которая наряду с платформой `DS`, находящейся на втором месте, отрывается от остальных платформ примерно на **1 000** размещенных игр. На каждой из двух лидирующих платформ размещено **более 2 100 игр**. Последнее место списка заняла платформа `GBA` с **841** размещенной игрой.