# Подготовка данных  о продажах игр для дальнейшего изучения развития игровой индустрии с 2000 по 2013 год. 

### Цели и задачи проекта
__Цель:__ Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.</font>

__Задачи:__
- Отобрать данные по времени выхода игры за  период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов, выделив три категории.
- Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.

### Описание данных
Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

- 1  Загрузка данных и знакомство с ними
- 2  Проверка ошибок в данных и их предобработка
- 2.1 Названия, или метки, столбцов датафрейма
- 2.2 Типы данных
- 2.3 Наличие пропусков в данных
- 2.4 Явные и неявные дубликаты в данных
- 3 Фильтрация данных
- 4 Категоризация данных
- 5 Итоговый вывод


## Знакомство с данными

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм df
# df0 сохраним как исходный df будем преобразовывать
df0=pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
df=pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим первые 5 строк датафрейма на экран
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [4]:
# Выводим информацию о датафрейме
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None


Данные состоят из 16956 строк и 11 столбцов. Названия столбцов корректно отражают смысл значений в этих столбцах. В 6 из 11 столбцов встречаются пропуски. Данные содержат два типа float64(4) и object(7). Типы данных не во всех столбцах указаны верно, требуютя преобразования столбцов 'eu_sales', 'jp_sales', 'user_score', 'year_of_release'.

---

##  Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

In [5]:
# Выведим на экран названия всех столбцов.
print(df.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [6]:
# Приведем все столбцы к стилю snake case (преобразуем все знаки в нижний регистр и заменим пробел на нижнее подчеркивание)
df.columns=df.columns.str.lower().str.replace(' ','_')

In [7]:
# Проверим название столбцов после внесенных изменений.
print(df.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


In [8]:
# Проверим данные на вбросы или несоответствие.
df.describe()
#Не обнаружено.

Unnamed: 0,year_of_release,na_sales,other_sales,critic_score
count,16681.0,16956.0,16956.0,8242.0
mean,2006.485522,0.262023,0.047087,68.926717
std,5.873102,0.808654,0.185577,13.944565
min,1980.0,0.0,0.0,13.0
25%,2003.0,0.0,0.0,60.0
50%,2007.0,0.08,0.01,71.0
75%,2010.0,0.24,0.03,79.0
max,2016.0,41.36,10.57,98.0


### Типы данных


In [9]:
# посмотрим еще раз на типы данных перед преобразованием
print(df.dtypes)

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object


In [10]:
# заменяем NaN в столбце 'year_of_release' на идикатор 1 и приводим значения  к типу int.
df['year_of_release']=df['year_of_release'].fillna(1).round(0).astype(int)

In [11]:
# меняем тип в столбцах  'eu_sales', 'jp_sales', 'user_score' на float
df['eu_sales']=pd.to_numeric(df['eu_sales'], errors='coerce', downcast='float')
df['jp_sales']=pd.to_numeric(df['jp_sales'], errors='coerce', downcast='float')
df['user_score']=pd.to_numeric(df['user_score'], errors='coerce', downcast='float' )

In [12]:
# Проверим изменения формата года на трех родндомных строках
df.sample(3, random_state = 123)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
14858,Resident Evil 4,PC,2007,Action,0.0,0.02,0.0,0.0,76.0,7.4,M
14064,Dead Rising,PS4,2016,Action,0.02,0.0,0.01,0.01,78.0,6.6,M
6974,Juiced 2: Hot Import Nights,DS,2007,Racing,0.22,0.0,0.0,0.02,72.0,,T


In [13]:
# типы данных после преобразований
print(df.dtypes)

name                object
platform            object
year_of_release      int64
genre               object
na_sales           float64
eu_sales           float32
jp_sales           float32
other_sales        float64
critic_score       float64
user_score         float32
rating              object
dtype: object


### 2.3. Наличие пропусков в данных


In [14]:
# количество пропусков в каждом столбце в абсолютных значениях по убыванию. 
# Т.к. год выпуска мы уже преобразовали, посмотрим пропуски на основании исходного датафрейма
df0.isna().sum().sort_values(ascending=False)

Critic Score       8714
Rating             6871
User Score         6804
Year of Release     275
Name                  2
Genre                 2
Platform              0
JP sales              0
EU sales              0
NA sales              0
Other sales           0
dtype: int64

In [15]:
# количество пропусков в каждом столбце в относительных значениях по убыванию
df0.isna().mean().sort_values(ascending=False)

Critic Score       0.513918
Rating             0.405225
User Score         0.401274
Year of Release    0.016218
Name               0.000118
Genre              0.000118
Platform           0.000000
JP sales           0.000000
EU sales           0.000000
NA sales           0.000000
Other sales        0.000000
dtype: float64

- user_score - 55% пропусков. Т.е ,более чем для половины игр отсутствует оценка пользователей. Для удаления это слишком большой объем данных, заменить на среднее будет неправильно, т.к. такой большой объем данных может исказить результаты, даже если заполнять среднее значение с учетом жанра и платформы, оставлю без изменений.
- critic_score - 51%, ситуация аналогична.
- rating - 40%, ситуация аналогична.
- eu_sales - 0,04% или 6 строк. Незначительно можно удалить из анализа или заменить на среднее.
- jp_sales - 0,02% или 4 строки. Незначительно можно удалить из анализа или заменить на среднее.
- name - 1% или 2 строки. Незначительно можно удалить из анализа, т.к. в дальнейшем этот столбец будет использоваться в анализе.
- genre - 1% или  2 строки. Незначительно можно удалить из анализа, т.к. в дальнейшем этот столбец будет использоваться в анализе.
- year_of_release - 1,6% или 275 строк. Год выпуска по некоторым играм можно попробовать взять из названия.

   В столбцах, содержащих оценку пользователей, критиков и рейтинг, пропуски могут быть связаны с тем, что игры просто не оценивали, поэтому данные не найдены. В целом данные собраны коллегами из открытых источников, поэтому имеет место быть отсутствие информации, т.к. источники, в которых были найдены игры вероятнее всего разные и содержат разную информацию, не везде могут быть указаны  оценки, рейтинг, год выпуска, продажи. Пропуски в названии могут быть связаны с ошибкой, т.к. всего 2 пропуска.

In [16]:
# Проверим есть ли очевидная взаимосвязь или тенденция между пропусками в столбце 'user_score' 
# и столбцами 'platform','year_of_release', 'genre'
# с помощью группировки и сортировки

filtered_df_us = df[pd.isna(df['user_score'])]
group_for_user_score=filtered_df_us.groupby(['platform','year_of_release', 'genre'])['name'].agg(['count']).sort_values(by='count',ascending=False)
group_for_user_score.head(15)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count
platform,year_of_release,genre,Unnamed: 3_level_1
DS,2008,Misc,77
DS,2009,Simulation,69
DS,2010,Misc,68
DS,2008,Simulation,68
PSP,2010,Adventure,64
DS,2008,Adventure,62
DS,2007,Misc,59
DS,2009,Misc,56
PSP,2012,Action,52
Wii,2010,Misc,50


In [17]:
# Проверим есть ли очевидная взаимосвязь или тенденция между пропусками в столбце 'critic_score' 
# и столбцами 'platform','year_of_release', 'genre'
# с помощью группировки и сортировки

filtered_df_cr = df[pd.isna(df['critic_score'])]
group_for_critic_score=filtered_df_cr.groupby(['platform','year_of_release', 'genre'])['name'].agg(['count']).sort_values(by='count',ascending=False)
group_for_critic_score.head(15)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count
platform,year_of_release,genre,Unnamed: 3_level_1
DS,2008,Misc,74
DS,2010,Misc,67
DS,2009,Simulation,67
DS,2008,Simulation,66
PSP,2010,Adventure,64
DS,2008,Adventure,60
DS,2007,Misc,56
PSP,2012,Action,53
DS,2009,Misc,51
Wii,2010,Misc,51


In [18]:
# Проверим есть ли очевидная взаимосвязь или тенденция между пропусками в столбце 'rating' 
# и столбцами 'platform','year_of_release', 'genre'
# с помощью группировки и сортировки

filtered_df_rating = df[pd.isna(df['rating'])]
group_for_rating=filtered_df_rating.groupby(['platform','year_of_release', 'genre'])['name'].agg(['count']).sort_values(by='count',ascending=False)
group_for_rating=group_for_rating
group_for_rating.head(15)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count
platform,year_of_release,genre,Unnamed: 3_level_1
PSP,2010,Adventure,63
PSP,2012,Action,52
DS,2008,Misc,48
PSP,2011,Adventure,47
PSV,2015,Action,41
DS,2008,Adventure,41
DS,2007,Misc,40
PS,1998,Sports,40
PS,1996,Sports,38
PS2,2008,Adventure,37


In [19]:
# Количество уникальных платформ, лет и жанров без оценки пользователей
unic_platf_us=len(group_for_user_score.reset_index()['platform'].unique())
unic_year_us=len(group_for_user_score.reset_index()['year_of_release'].unique())
unic_genre_us=len(group_for_user_score.reset_index()['genre'].unique())

In [20]:
# Количество уникальных платформ, лет и жанров без оценки критиков
unic_platf_cr=len(group_for_critic_score.reset_index()['platform'].unique())
unic_year_cr=len(group_for_critic_score.reset_index()['year_of_release'].unique())
unic_genre_cr=len(group_for_critic_score.reset_index()['genre'].unique())

In [21]:
# Количество уникальных платформ, лет и жанров без рейтинга
unic_platf_rt=len(group_for_rating.reset_index()['platform'].unique())
unic_year_rt=len(group_for_rating.reset_index()['year_of_release'].unique())
unic_genre_rt=len(group_for_rating.reset_index()['genre'].unique())

In [22]:
# Количество уникальных платформ, лет и жанров всего
unic_platf=len(df['platform'].unique())
unic_year=len(df['year_of_release'].unique())
unic_genre=len(df['genre'].unique())

In [23]:
print(f'Количество уникальных платформ всего: {unic_platf}, встречаются без оценки пользователей:{unic_platf_us}, без оценки критиков:{unic_platf_cr}, без рейтинга:{unic_platf_rt}')
print(f'Количество уникальных лет всего:      {unic_year}, встречаются без оценки пользователей:{unic_year_us}, без оценки критиков:{unic_year_cr}, без рейтинга:{unic_year_rt}')
print(f'Количество уникальных жанров всего:   {unic_year}, встречаются без оценки пользователей:{unic_genre_us}, без оценки критиков:{unic_genre_cr}, без рейтинга:{unic_genre_rt}')

Количество уникальных платформ всего: 31, встречаются без оценки пользователей:31, без оценки критиков:31, без рейтинга:31
Количество уникальных лет всего:      38, встречаются без оценки пользователей:38, без оценки критиков:38, без рейтинга:38
Количество уникальных жанров всего:   38, встречаются без оценки пользователей:23, без оценки критиков:24, без рейтинга:22


Выше рассмотрены взаимосвязи для столбцов с наибольшей долей пропусков (более 41%). Отсутствие оценки пользователей, оценки критиков и рейтинга не связано с платформой или годом выпуска, т.к. количество уникальных значений не изменилось. Уникальные значения в разрезе жанров не все встречаются в отсутствующих данных, но их число не менее 22 из 38. Поэтому нельзя сделать вывод, о том, что данные отсутствуют у игр в конкретных жанрах, платформах или годах.

In [24]:
# Посмотрим названия без указания года, например, в строке с индексом 183 указан год в названии
filtered_df_year = df[df['year_of_release']==1]
print(filtered_df_year.shape[0]) ## количество строк без года
filtered_df_year.head(5)

275


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,1,Sports,4.26,0.26,0.01,0.71,94.0,8.5,E
379,FIFA Soccer 2004,PS2,1,Sports,0.59,2.36,0.04,0.51,84.0,6.4,E
458,LEGO Batman: The Videogame,Wii,1,Action,1.8,0.97,0.0,0.29,74.0,7.9,E10+
477,wwe Smackdown vs. Raw 2006,PS2,1,Fighting,1.57,1.02,0.0,0.41,,,
611,Space Invaders,2600,1,Shooter,2.36,0.14,0.0,0.03,,,


In [25]:
# Заменим 1 на год в тех местах, где возможно год извлечь из названий
mask = df['year_of_release'] == 1


df.loc[mask, 'year_of_release'] = df.loc[mask, 'name'].str.extract(r'(?<=\s)(19|20\d{2})(?=\s|$)')[0].astype(float)
df['year_of_release']=df['year_of_release'].fillna(1).round(0).astype(int)
g=df[df['year_of_release']>1]

print(df[df['year_of_release']==1].shape[0]) ## количество строк без года после извлечения года из названия игр


260


In [26]:
# Проверим изменения на примере строки с индексом 183. Должен появиться год.
g.loc[183:183]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,2004,Sports,4.26,0.26,0.01,0.71,94.0,8.5,E


In [27]:
# Посмотрим пропуски в столбце eu_sales 
filtered_df_eu_sales = df[pd.isna(df['eu_sales'])]
filtered_df_eu_sales

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
446,Rhythm Heaven,DS,2008,Misc,0.55,,1.93,0.13,83.0,9.0,E
802,Dead Rising,X360,2006,Action,1.16,,0.08,0.2,85.0,7.6,M
1131,Prince of Persia: Warrior Within,PS2,2004,Action,0.54,,0.0,0.22,83.0,8.5,M
1132,Far Cry 4,XOne,2014,Shooter,0.8,,0.01,0.14,82.0,7.5,M
1394,Sonic Advance 3,GBA,2004,Platform,0.74,,0.08,0.06,79.0,8.4,E
1612,Ratatouille,DS,2007,Action,0.49,,0.0,0.14,,,


In [28]:
# заменим пропуски в  столбце eu_sales на среднее значение в зависимости от названия платформы и года выхода игры.
def mean_sales_eu(row):
    if pd.isna(row['eu_sales']):
        group = df[(df['platform']==row['platform']) &
                  (df['year_of_release']==row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']
    
df['eu_sales']=df.apply(mean_sales_eu, axis=1)

In [29]:
# Посмотрим пропуски в столбце jp_sales
filtered_df_jp_sales = df[pd.isna(df['jp_sales'])]
filtered_df_jp_sales

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
467,Saints Row 2,X360,2008,Action,1.94,0.79,,0.28,81.0,8.1,M
819,UFC 2009 Undisputed,X360,2009,Fighting,1.48,0.39,,0.19,83.0,7.9,T
1379,Hello Kitty Party,DS,2007,Misc,0.78,0.51,,0.12,,,E
4732,Castlevania: The Dracula X Chronicles,PSP,2007,Platform,0.22,0.09,,0.07,80.0,7.8,T


In [30]:
# заменим пропуски в  столбце jp_sales на среднее значение в зависимости от названия платформы и года выхода игры.
def mean_sales_jp(row):
    if pd.isna(row['jp_sales']):
        group = df[(df['platform']==row['platform']) &
                  (df['year_of_release']==row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']
    
df['jp_sales']=df.apply(mean_sales_jp, axis=1)

In [31]:
# Посмотрим пропуски в столбце name. 
# Их всего 2 и они совпадают с пропусками genre
filtered_df_jp_sales = df[pd.isna(df['name'])]
filtered_df_jp_sales

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993,,0.0,0.0,0.03,0.0,,,


In [32]:
#Удалим строки с пропусками в столбце name
df = df.dropna(subset=['name'])

In [33]:
# количество пропусков в каждом столбце в относительных значениях по убыванию после изменений
df.isna().mean().sort_values(ascending=False)

user_score         0.546538
critic_score       0.513861
rating             0.405155
year_of_release    0.000000
platform           0.000000
name               0.000000
genre              0.000000
jp_sales           0.000000
eu_sales           0.000000
na_sales           0.000000
other_sales        0.000000
dtype: float64

После преобразований пропуски остались в столбцах user_score, critic_score, rating, т.к. было решено оставить их без изменений

### 2.4. Явные и неявные дубликаты в данных


In [34]:
#Проверим столбцы на дубликаты:
for column in ['platform','year_of_release','genre','rating']:
    print(f'Уникальные значения в столбце {column}:')
    print(df[column].sort_values().unique())
    print()

Уникальные значения в столбце platform:
['2600' '3DO' '3DS' 'DC' 'DS' 'GB' 'GBA' 'GC' 'GEN' 'GG' 'N64' 'NES' 'NG'
 'PC' 'PCFX' 'PS' 'PS2' 'PS3' 'PS4' 'PSP' 'PSV' 'SAT' 'SCD' 'SNES' 'TG16'
 'WS' 'Wii' 'WiiU' 'X360' 'XB' 'XOne']

Уникальные значения в столбце year_of_release:
[   1 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016]

Уникальные значения в столбце genre:
['ACTION' 'ADVENTURE' 'Action' 'Adventure' 'FIGHTING' 'Fighting' 'MISC'
 'Misc' 'PLATFORM' 'PUZZLE' 'Platform' 'Puzzle' 'RACING' 'ROLE-PLAYING'
 'Racing' 'Role-Playing' 'SHOOTER' 'SIMULATION' 'SPORTS' 'STRATEGY'
 'Shooter' 'Simulation' 'Sports' 'Strategy']

Уникальные значения в столбце rating:
['AO' 'E' 'E10+' 'EC' 'K-A' 'M' 'RP' 'T' nan]



In [35]:
#приведем к нижнему регистру названия жанров, чтобы не было дупликатов
df['genre']=df['genre'].str.lower()
print(df['genre'].value_counts())
df['genre'].value_counts().count()

genre
action          3418
sports          2375
misc            1772
role-playing    1516
shooter         1346
adventure       1323
racing          1273
platform         904
simulation       884
fighting         862
strategy         691
puzzle           590
Name: count, dtype: int64


np.int64(12)

In [36]:
# заменим рейтига К-А на NaN, т.к. его не существует
df['rating']=df['rating'].str.replace('K-A','E')

In [37]:
# посмотри результат после измений
print(df['rating'].value_counts())
df['rating'].value_counts().count()

rating
E       4040
T       3005
M       1587
E10+    1441
EC         8
RP         3
AO         1
Name: count, dtype: int64


np.int64(7)

In [38]:
#количество строк с явными дубликатами
df.duplicated().sum() 

np.int64(241)

In [39]:
#удалим явные дупликаты
df=df.drop_duplicates()

In [40]:
# дубликаты с одинаковым названием и платформой
dubl=df[df.duplicated(subset=['name','platform'], keep=False)].sort_values(by='name')
dubl

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
606,Madden NFL 13,PS3,2012,sports,2.11,0.22,0.0,0.23,83.0,5.5,E
16465,Madden NFL 13,PS3,2012,sports,0.0,0.01,0.0,0.0,83.0,5.5,E
1197,Need for Speed: Most Wanted,X360,2012,racing,0.62,0.78,0.01,0.15,83.0,8.5,T
1605,Need for Speed: Most Wanted,X360,2005,racing,1.0,0.13,0.02,0.1,83.0,8.5,T
6051,Need for Speed: Most Wanted,PC,2005,racing,0.02,0.23,0.0,0.04,82.0,8.5,T
11873,Need for Speed: Most Wanted,PC,2012,racing,0.0,0.06,0.0,0.02,82.0,8.5,T
1760,Sonic the Hedgehog,PS3,2006,platform,0.41,0.06,0.04,0.66,43.0,4.1,E10+
4173,Sonic the Hedgehog,PS3,1,platform,0.0,0.48,0.0,0.0,43.0,4.1,E10+


In [41]:
#Удалим из датафрейма дублирующие строки, оставив первые
df=df.drop_duplicates(subset=['name','platform'], keep=False).sort_values(by='name')

Итоги по дубликатам:
- жанры - 12 дубликатов. Удалены, путем приведения названий жанров к нижнему регистру. 
- рейтинг - рейтинг К-А заменен на E, такого рейтинга не существует (3 строки)
- явные дубликаты 241 строка, оставлены первые строки, дубли удалены
- дубликаты по названию и платформе 8 строк, оставлены первые строки, дубли удалены

In [42]:
print(f'''Количество строк исходного датафрейма: {df0.shape[0]}
Количество строк после предобработки данных: {df.shape[0]}
Количество удалённых строк: {df0.shape[0] - df.shape[0]}
Доля удалённых строк в процентах: {round((df0.shape[0] - df.shape[0])/df0.shape[0]*100,2)}%''')

Количество строк исходного датафрейма: 16956
Количество строк после предобработки данных: 16705
Количество удалённых строк: 251
Доля удалённых строк в процентах: 1.48%


Итоги предобработки данных:
- Названия всех столбцов приведено к стилю snake case.
- Заменены типы данных в столбцах:
  - 'year_of_release' на int, При этом NaN заменили на индикатор 1;
  - 'eu_sales', 'jp_sales', 'user_score' заменены на float64, т.к. это численные значения.
- Обработаны пропуски: 
  - столбцы с долей пропусков более 41% оставлены без изменений (user_score, critic_score, rating);
  - в столбце year_of_release извлекли год из названия игры там, где это было возможно (22 строки);
  - в столбцах eu_sales,  jp_sales пропуски заменили на среднее значение в зависимости от названия платформы и года выхода; игры.
  - Пропуски в столбцах name и  genre совпадают и состоят из 2 строк, были удалены.
- Обработаны явные и неявные дупликаты. Удалена 251 строка.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно.

In [43]:
# Создадим новый срез на основе df за период 2000-2013 года.
df_actual=df[df['year_of_release'].between(2000, 2013)].copy()
df_actual.sort_values(by='year_of_release')
min1=df_actual['year_of_release'].min()
max1=df_actual['year_of_release'].max()
#проверим изменения
print(f'Приод в новом срезе с {min1} по {max1}')

Приод в новом срезе с 2000 по 2013


---

## 4. Категоризация данных
Необходимо разделить все игры по оценкам пользователей и выделить такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [44]:
# создадим новый столбец marker_user и разделим оценки пользователей на группы.
def user_score_group(x):
    if x>=8:
        return 'высокая оценка'
    elif x>=3:
        return 'средняя оценка'
    elif x>=0:
        return 'низкая оценка'
    else:
        return 'оценка отсутствует'

df_actual['marker_user']=df_actual['user_score'].apply(user_score_group)

In [45]:
# создадим новый столбец marker_critic и разделим оценки критиков на группы.
def critic_score_group(x):
    if x>=80:
        return 'высокая оценка'
    elif x>=30:
        return 'средняя оценка'
    elif x>=0:
        return 'низкая оценка'
    else:
        return 'оценка отсутствует'

df_actual['marker_critic']=df_actual['critic_score'].apply(critic_score_group)
# проверим результат
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,marker_user,marker_critic
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.0,0.04,,,,оценка отсутствует,оценка отсутствует
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.0,0.05,,,,оценка отсутствует,оценка отсутствует
2478,Tales of Xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T,средняя оценка,средняя оценка
8460,.hack//G.U. Vol.1//Rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,,,,оценка отсутствует,оценка отсутствует
7182,.hack//G.U. Vol.2//Reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,,,,оценка отсутствует,оценка отсутствует


In [46]:
# сгруппируем данные по оценке пользователей
group_user=df_actual.groupby('marker_user')['name'].agg(['count']).sort_values(by='count', ascending=False)
group_user

Unnamed: 0_level_0,count
marker_user,Unnamed: 1_level_1
оценка отсутствует,6304
средняя оценка,4080
высокая оценка,2289
низкая оценка,116


In [47]:
# сгруппируем данные по оценке критиков
group_critic=df_actual.groupby('marker_critic')['name'].agg(['count']).sort_values(by='count', ascending=False)
group_critic

Unnamed: 0_level_0,count
marker_critic,Unnamed: 1_level_1
оценка отсутствует,5616
средняя оценка,5426
высокая оценка,1692
низкая оценка,55


- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [48]:
top_7=df_actual.groupby('platform')['name'].agg(['count']).sort_values(by='count', ascending=False)
top_7.head(7)

Unnamed: 0_level_0,count
platform,Unnamed: 1_level_1
PS2,2134
DS,2121
Wii,1275
PSP,1181
X360,1121
PS3,1084
GBA,811


---

## 5. Итоговый вывод


- Проведена предобработка данных:
  - названия столбцов приведены к единому стилю;
  - скорректированы типы данных;
  - обработаны пропуски;
  - удалены явные и неявные дубликаты.
- Прведена фильтрация данных. На основании исходного датафрейма df cоздан новый срез df_actual за период выпуска игр за 2000-2013 года. 
- Проведена категоризация данных:
  - Оценки пользователей и критиков разделили на следующие категории: высокая оценка, средняя оценка, низкая оценка, оценка отсутствует. Данные поместили в новые столбцы marker_user, marker_critic.
  - Сгруппировали данные по выделенным категориям и посчитали количество игр в каждой категории.
  - Выделили топ-7 платформ по количеству игр, выпущенных за весь актуальный период.
