# Проект 7 спринта. Предобработка данных игровой индустрии в начале XXI века.
<h2><i><span style="color: blue"> Автор: Луганская Дарья Андреевна </span></i></h2>


<i>Дата: 23.01.2025</i>

### 0.1 Цели и задачи проекта
<u><b>Наша цель</u></b> - обзор игровых платформ, изучение объёмов продаж игр разных жанров и региональных предпочтений игроков. 

<u><b>Задачи проекта</u></b>: \
--определить представленные типы данных, и при необходимости их скорректировать.\
--определить пропущенные значения в данных и при необходимости предобработать их.\
--получить необходимый срез данных с помощью агрегации и фильтрации.

<u><b>Схема работы:</u></b> \
Познакомиться с данными ===> Проверить их корректность ===> Провести предобработку ===> Получить необходимый срез данных.

### 0.2 Описание данных

Мы используем датасет /datasets/new_games.csv , который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

<i>`Name`</i> — название игры.\
<i>`Platform`</i> — название платформы.\
<i>`Year of Release`</i> — год выпуска игры.\
<i>`Genre`</i> — жанр игры.\
<i>`NA sales`</i> — продажи в Северной Америке (в миллионах проданных копий).\
<i>`EU sales`</i> — продажи в Европе (в миллионах проданных копий).\
<i>`JP sales`</i> — продажи в Японии (в миллионах проданных копий).\
<i>`Other sales`</i> — продажи в других странах (в миллионах проданных копий).\
<i>`Critic Score`</i> — оценка критиков (от 0 до 100).\
<i>`User Score`</i> — оценка пользователей (от 0 до 10).\
<i>`Rating`</i> — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### 0.3 Содержимое проекта

1. Проверка ошибок в данных и их предобработка
2. Фильтрация данных
3. Категоризация данных

## 1. Загрузка данных и знакомство с ними

In [7]:
import pandas as pd
import numpy as np #Подгружаем библиотеки

In [12]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv') #Сохраняем датафрейм

In [16]:
df.info() #Выводим инфо о датафрейме (количество строк, столбцов, их наимаенование и количество не пустых значений в каждом из них, а также тип данных)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [17]:
df.isna().sum() #Количество пустых ячеек в каждом столбце

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

In [211]:
df.head() #Выводим первые 5 строк датасета

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,year_group
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,00e
1,Super Mario Bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,,80e
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,00e
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,00e
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.89,10.22,1.0,-1.0,-1.0,,90e


In [213]:
df.tail() #Выводим последние 5 строк датасета

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,year_group
16951,Samurai Warriors: Sanada Maru,PS3,2016,action,0.0,0.0,0.01,0.0,-1.0,-1.0,,10e
16952,LMA Manager 2007,X360,2006,sports,0.0,0.01,0.0,0.0,-1.0,-1.0,,00e
16953,Haitaka no Psychedelica,PSV,2016,adventure,0.0,0.0,0.01,0.0,-1.0,-1.0,,10e
16954,Spirits & Spells,GBA,2003,platform,0.01,0.0,0.0,0.0,-1.0,-1.0,,00e
16955,Winning Post 8 2016,PSV,2016,simulation,0.0,0.0,0.01,0.0,-1.0,-1.0,,10e


In [20]:
df.shape #выводим размер датасета(первый элемент кортежа представляет количество строк, а второй - столбцов)

(16956, 11)

Датасет представлен 16956 строками и 11 столбцами. Представленные данные соответствуют заявленному описанию столбцов. Полные данные представлены лишь в 5 столбцах - платформа и сумма продаж на разных территориях. Пропуски присутствуют в 6 столбцах. Типы данных в EU sales,	JP sales,  User Score,	Rating приведены неверно: вместо float представлен тип object, который хранит и строковые и числовые значения. Наименования столбцов корректно отражают содержимое, однако для комфортной работы следует привести названия в питонический стиль с _ вместо пробелов.

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

In [26]:
rename_map = {
    'Name': 'name',
    'Platform': 'platform',
    'Year of Release': 'year_of_release',
    'Genre': 'genre',
    'NA sales': 'na_sales',
    'EU sales': 'eu_sales',
    'JP sales': 'jp_sales',
    'Other sales': 'other_sales',
    'Critic Score': 'critic_score',
    'User Score': 'user_score',
    'Rating': 'rating'
}

df.rename(columns=rename_map, inplace=True) 
#Переводим названия столбцов в питонический стиль написания, присвоив каждому столбцу новые названия

In [30]:
df.columns #Проверяем, что новые наименования столбцов отобразились в исходных данных

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

In [36]:
df.dtypes #Выводим типы данных в столбцах. 
#Следует заметить ошибочный тип данных в столбцах eu_sales,jp_sales,user_score - вместо числового типа данных присвоен тип object

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

In [39]:
for column in df[['eu_sales','jp_sales', 'user_score','critic_score']]:
    unique_values = list(df[column].unique())
    print(f"Уникальные значения в столбце '{column}': {unique_values}")
    #Выводим уникальные значения в интересующих нас столбцах для оценки содержимого. Видим строковый тип данных

Уникальные значения в столбце 'eu_sales': ['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18', '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49', '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14', '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86', '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37', '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04', '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65', '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42', '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53', '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86', '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18', '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14', '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9', '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6', '1.58', '1.2', '1.56', '1.34', '1.26', '0.83', '6.21', '2.

<div class="alert" style="background-color:#ead7f7;color:#8737bf">
    <font size="3"><b>На основе выгруженных данных по уникальным значениям в столбцах следует отметить наличие дубликатов в  столбце genre ввиду наличия данных в верхнем регистре. Замечаем также ошибочный тип данных в eu_sales и jp_sales, user_score - строковый вместо необходимого числового.</b></font></div>

In [45]:
#Ввиду наличия пропусков или строковых данных в столбцах типы данных не соответствуют предполагаемым.
for column in ['eu_sales', 'jp_sales', 'user_score']:
    df[column] = pd.to_numeric(df[column],errors = 'coerce')
#С помощью цикла перебираем список из столбцов, требующих перевода типа данных во float

In [50]:
unique_value = df['year_of_release'].unique() 
print(list(unique_value))
#Проверяем значения столбца год релиза фильма.
#Видим что среди значений отсутствует 0, значит можем использовать 0 в качестве заглушки

[2006.0, 1985.0, 2008.0, 2009.0, 1996.0, 1989.0, 1984.0, 2005.0, 1999.0, 2007.0, 2010.0, 2013.0, 2004.0, 1990.0, 1988.0, 2002.0, 2001.0, 2011.0, 1998.0, 2015.0, 2012.0, 2014.0, 1992.0, 1997.0, 1993.0, 1994.0, 1982.0, 2016.0, 2003.0, 1986.0, 2000.0, nan, 1995.0, 1991.0, 1981.0, 1987.0, 1980.0, 1983.0]


In [52]:
df['year_of_release'] = df['year_of_release'].fillna(0).astype('int') 
#Переводим год в целочисленный тип, предварительно заполнив пропущенные значения на 0
df[['genre','platform','rating','year_of_release']] = df[['genre','platform','rating','year_of_release']].astype('category') 
#Переводим столбцы в категоральный тип


In [58]:
df.dtypes #Проверяем, что тип успешно изменен

name                 object
platform           category
year_of_release    category
genre              category
na_sales            float64
eu_sales            float64
jp_sales            float64
other_sales         float64
critic_score        float64
user_score          float64
rating             category
dtype: object

В данном разделе была произведена выгрузка первых строк датафрейма, также мы вывели уникальные значения столбцов, чтобы убедиться в корректности представленных данных и правильности типов данных. Далее мы преобразовали данные к требуемому типу данных для удоства работы с ними.

### 2.3. Наличие пропусков в данных

In [65]:
df.isna().sum() #Количество пропусков в каждом столбце.


name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [66]:
df.isna().mean() #Доля пропусков в каждом столбце. 

name               0.000118
platform           0.000000
year_of_release    0.000000
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64

Единичные пропуски отмечены в столбцах name, genre. Количество до 6 шт, что фактически является не значимым для исследования. Можно удалить строки без названия фильмов, так как они неинформативны\
Единичные пропуски отмечены в столбцах eu_sales, jp_sales. Следует заполнить их средним значением с учетом года и платформы \
Большое количество пропусков (более 50%) отмечено в столбцах critic_Score и user_score, предполагаем, что фильм не был оценен ни пользователями, ни критиками, заполним индикатором -1, предварительно убедившись в отсутствии значения в столбце\
Столбец rating также содержит большое количество пропусков - 40%, данным фильмам не присвоили возрастную категорию. пропущенные заполним индикатором "Без рейтинга", предварительно убедившись в отсутствии данного значения в датасете\
Столбец year_of_release полностью заполнен значениями (пропусков нет) в предыдущем шаге, если год не был указан, мы присвоили ячейке значение 0. 

In [74]:
unique_value = df['rating'].unique()
print(list(unique_value))
#Проверяем значения столбца 'rating'.
#Видим что среди значений отсутствует no-rating, значит можем использовать его в качестве заглушки

['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']


In [75]:
df['rating'] = df['rating'].astype('str').fillna('no-rating').astype('category') 
#Заполняем пропущенные значения на значение с отсутствием рейтинга

In [76]:
df = df.dropna(subset=['name','genre'], how='all') #Удаляем строки с пропусками

In [82]:
unique_value = sorted(df['critic_score'].unique())
print(list(unique_value))
#Проверяем значения столбца critic_score.
#Видим что среди значений отсутствует -1, значит можем использовать -1 в качестве заглушки

[76.0, nan, 13.0, 17.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0, 43.0, 44.0, 45.0, 46.0, 47.0, 48.0, 49.0, 50.0, 51.0, 52.0, 53.0, 54.0, 55.0, 56.0, 57.0, 58.0, 59.0, 60.0, 61.0, 62.0, 63.0, 64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0, 71.0, 72.0, 73.0, 74.0, 75.0, 77.0, 78.0, 79.0, 80.0, 81.0, 82.0, 83.0, 84.0, 85.0, 86.0, 87.0, 88.0, 89.0, 90.0, 91.0, 92.0, 93.0, 94.0, 95.0, 96.0, 97.0, 98.0]


In [83]:
unique_value = sorted(df['user_score'].unique())
print(list(unique_value))
#Проверяем значения столбца user_score.
#Видим что среди значений отсутствует -1, значит можем использовать -1 в качестве заглушки

[8.0, nan, 0.0, 0.2, 0.3, 0.5, 0.6, 0.7, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0, 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7.0, 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9.0, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7]


In [84]:
df['user_score'] = df['user_score'].fillna(-1) #Заполняем пропущенные значечнием -1

In [85]:
df['critic_score'] = df['critic_score'].fillna(-1) #Заполняем пропущенные значечнием -1

In [86]:
unique_value = sorted(df['critic_score'].unique())
print(list(unique_value)) #Проверяем как заполнилось
unique_value = sorted(df['user_score'].unique())
print(list(unique_value))

[-1.0, 13.0, 17.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0, 43.0, 44.0, 45.0, 46.0, 47.0, 48.0, 49.0, 50.0, 51.0, 52.0, 53.0, 54.0, 55.0, 56.0, 57.0, 58.0, 59.0, 60.0, 61.0, 62.0, 63.0, 64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0, 71.0, 72.0, 73.0, 74.0, 75.0, 76.0, 77.0, 78.0, 79.0, 80.0, 81.0, 82.0, 83.0, 84.0, 85.0, 86.0, 87.0, 88.0, 89.0, 90.0, 91.0, 92.0, 93.0, 94.0, 95.0, 96.0, 97.0, 98.0]
[-1.0, 0.0, 0.2, 0.3, 0.5, 0.6, 0.7, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0, 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7.0, 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8.0, 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9.0, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7]


In [87]:
df['year_group']=pd.cut(df['year_of_release'],bins=[0,1900,1980,1990,2000,2010,2016],labels=["Нет данных","Вне диапазона","80e","90e","00e","10e"]) #Создадим столбец с категоризацией года выпуска фильма для удобства работы и фильтрации

In [88]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16954 non-null  category
 2   year_of_release  16954 non-null  category
 3   genre            16954 non-null  category
 4   na_sales         16954 non-null  float64 
 5   eu_sales         16948 non-null  float64 
 6   jp_sales         16950 non-null  float64 
 7   other_sales      16954 non-null  float64 
 8   critic_score     16954 non-null  float64 
 9   user_score       16954 non-null  float64 
 10  rating           16954 non-null  category
 11  year_group       16679 non-null  category
dtypes: category(5), float64(6), object(1)
memory usage: 1.1+ MB


In [92]:
def mean_group_sales(row): #Создадим функцию для заполнения пропущенных ячеек eu,jp продаж средним значением в зависимости от названия платформы и группы года выхода игры
    if pd.isna(row['eu_sales']) or pd.isna(row['jp_sales']):#Если ячейка eu/jp_sales пуста
        group = df[(df['platform'] == row['platform']) & (df['year_group'] == row['year_group'])]#создаем дс, куда  сохраним соответствие плаформы и группы года релиза
        eu_sales = group['eu_sales'].mean() if pd.isna(row['eu_sales']) else row['eu_sales'] #сохраняем средние значения 
        jp_sales = group['jp_sales'].mean() if pd.isna(row['jp_sales']) else row['jp_sales']
        return pd.Series([eu_sales, jp_sales]) #заполняем серию средними значениями
    else:
        return pd.Series([row['eu_sales'], row['jp_sales']]) #или оставляем как есть
df[['eu_sales', 'jp_sales']] = df.apply(mean_group_sales, axis=1)#применяем функцию к строкам дф

In [93]:
df['year_group'] = df['year_group'].astype('str').fillna('no_data').astype('category')

In [94]:
df.isna().sum() #Пустые ячейки отсутствуют

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
year_group         0
dtype: int64

В данном разделе проверили наличие пропусков в столбцах. Заполнили их фиксированными значениями где это возможно, или рассчитали среднее значение по категориям для заполнения пропусков, а также создали доп столбец с категориями временных групп по году выхода фильма.

### 2.4. Явные и неявные дубликаты в данных

In [100]:
df.dtypes #Выведем типы данных. Нам необходимо исследовать категориальные данные

name                 object
platform           category
year_of_release    category
genre              category
na_sales            float64
eu_sales            float64
jp_sales            float64
other_sales         float64
critic_score        float64
user_score          float64
rating             category
year_group         category
dtype: object

In [101]:
unique_values = list(df['platform'].unique())
print(unique_values)

['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA', 'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne', 'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16', '3DO', 'GG', 'PCFX']


In [102]:
unique_values = list(df['year_of_release'].unique())
print(unique_values)

[2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010, 2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014, 1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 0, 1995, 1991, 1981, 1987, 1980, 1983]


In [103]:
unique_values = list(df['genre'].unique())
print(unique_values)

['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc', 'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure', 'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER', 'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION', 'PUZZLE', 'STRATEGY']


In [104]:
unique_values = list(df['rating'].unique())
print(unique_values)

['E', 'nan', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']


В результате рассмотрения значений представленного датасета мы выявили неявные дубликаты в столбце жанр, связанные с разностью регистра, например sports и SPORTS. 
Исправим это, приведем значения в нижний регистр. А также отмечено значение рейтинга, которое было переименовано (не используется), исправим на актуальное.

In [106]:
df['genre'] = df['genre'].str.lower().astype('category') #Переведем все значения столбца жанр в нижний регистр для исключения дубликатов

In [107]:
list(df['genre'].unique()) #Проверяем, что остались уникальные наименования жанров

['sports',
 'platform',
 'racing',
 'role-playing',
 'puzzle',
 'misc',
 'shooter',
 'simulation',
 'action',
 'fighting',
 'adventure',
 'strategy']

In [112]:
list(df['rating'].unique()) #Выводим уникальные значения столбца рейтинг. Видим элемент, который был переименован. Ранее- "К-А", а сейчас именуется "Е10+".

['E', 'nan', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']

In [113]:
df['rating'] = df['rating'].str.replace('K-A', 'E10+').astype('category') #Меняем значение на актуальное

In [114]:
list(df['rating'].unique()) #Проверяем уникальные значения столбца рейтинг

['E', 'nan', 'M', 'T', 'E10+', 'AO', 'EC', 'RP']

In [115]:
df.duplicated().sum() # выводим количество явных дубликатов

241

In [116]:
#Удаляем явные дубликаты во всем дф
#т.к один фильм может быть размещен на разных платформах и иметь отличные показатели продаж
df_cleaned=df.drop_duplicates(subset=None, keep = 'first',inplace=False) 

In [120]:
df_cleaned.sort_values(by ='name').head(20) #Сортируем по названию и убеждаемся в отсутствии явных дубликатов

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,year_group
15191,Beyblade Burst,3DS,2016,role-playing,0.0,0.0,0.03,0.0,-1.0,-1.0,,10e
1086,Fire Emblem Fates,3DS,2015,role-playing,0.81,0.23,0.52,0.11,-1.0,-1.0,,10e
3394,Frozen: Olaf's Quest,3DS,2013,platform,0.27,0.27,0.0,0.05,-1.0,-1.0,,10e
3906,Frozen: Olaf's Quest,DS,2013,platform,0.21,0.26,0.0,0.04,-1.0,-1.0,,10e
13983,Haikyu!! Cross Team Match!,3DS,2016,adventure,0.0,0.0,0.04,0.0,-1.0,-1.0,,10e
2478,Tales of Xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T,10e
4782,'98 Koshien,PS,1998,sports,0.15,0.1,0.12,0.03,-1.0,-1.0,,90e
8460,.hack//G.U. Vol.1//Rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1.0,-1.0,,00e
7182,.hack//G.U. Vol.2//Reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1.0,-1.0,,00e
8719,.hack//G.U. Vol.2//Reminisce (jp sales),PS2,2006,role-playing,0.0,0.0,0.16,0.0,-1.0,-1.0,,00e


В столбце жанр были выявлены дубликаты из-за влияния регистра. => Перевели все значения столбца жанр в нижний регистр для исключения дубликатов.\
В столбце рейтинг встречается значение, которое уже не используется => Переименовываем его на актуальное.\
Во всем датафрейме выявлено 241 явный дубликат => Удаляем явные дубликаты во всем дф, т.к один фильм может быть размещен на разных платформах и иметь отличные показатели продаж, которые мы сохраним, если возьмем весь дата-фрейм\
Проверка => Сортируем по названию и убеждаемся в отсутствии явных дубликатов

In [122]:
round(1-(len(df_cleaned)/len(df)),5)*100 #Процент удаленных строк 

1.421

In [123]:
len(df)-len(df_cleaned) #Количество удаленных строк. Удалили мы только явные дубликаты, а это 241 строка

241

В результате проведенной предобработки данные приведены в соответствие, а именно: \
*наименования столбцом и типы данных в них скорректированы для удобства работы с ними; \
*исключены дубликаты, связанные с особенностями регистра; \
*исправлены некорректные значения в столбце рейтинга; \
*удалена 241 строка с явными дубликатами данных, что составляет 1,42% от общего количества строк в дф. \
Кроме того, для удобства работы с данными был создан категориальный столбец, иллюстрирующий группу по дате выхода фильма year_group.

## 3. Фильтрация данных


In [127]:
df_actual = df_cleaned[(df_cleaned['year_of_release'].astype('float')>=2000) &(df_cleaned['year_of_release'].astype('float')<=2013)].copy() #Фильтруем необходимый срез по годам

In [129]:
len(df_actual) # В конечном срезе получилось 12781 строка

12781

## 4. Категоризация данных


In [131]:
df_actual['user_rating_category']=pd.cut(df_actual['user_score'],bins=[0,3,8,10],right=False,labels=["низкая оценка","средняя оценка","высокая оценка"]) #Разделим все игры по оценкам пользователей на 3 категории

In [133]:
df_actual['critic_raiting_category']=pd.cut(df_actual['critic_score'],bins=[0,30,80,100],right=False,labels=["низкая оценка","средняя оценка","высокая оценка"]) #Разделим все игры по оценкам критиков на 3 категории

In [135]:
grouped_data_rating=df_actual.groupby(['user_rating_category','critic_raiting_category'], as_index=False)['name'].count() #Группируем данные по оценкам критиков и пользователей и выводим количество фильмов в каждой группе

In [136]:
grouped_data_rating.head(9) #выводим группированные и агрегированные данные

Unnamed: 0,user_rating_category,critic_raiting_category,name
0,низкая оценка,низкая оценка,17
1,низкая оценка,средняя оценка,77
2,низкая оценка,высокая оценка,1
3,средняя оценка,низкая оценка,30
4,средняя оценка,средняя оценка,3157
5,средняя оценка,высокая оценка,641
6,высокая оценка,низкая оценка,1
7,высокая оценка,средняя оценка,1167
8,высокая оценка,высокая оценка,1017


In [137]:
grouped_data_platform=df_actual.groupby('platform')['name'].count() #Группируем данные по платформе выпуска фильма и выводим количество фильмов в каждой группе

In [138]:
ordered=grouped_data_platform.sort_values(ascending=False) #Сортируем данные по убыванию количества фильмов на платформе

In [139]:
ordered.head(7) #Выводим первые 7 платформ по максимальному количеству фильмов. Топ готов.

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

## 5. Итоговый вывод

В данном проекте была проведена работа по знакомству с представленными данными. Мы выгрузили информацию, рассмотрели размеры таблицы, столбцы и типы данных в них. На следующем шаге провели обработку данных, а именно заполнили пропуски где это возможно, скорректировали наименования стобцов для работы с ними, привели в соответствие типы данных, очистили таблицу от дубликатов. Далее была проведена категоризация данных по оценкам критиков и пользователей, а также мы категоризовали дату выхода фильма, определив категории по десятилетиям. На финальном шаге провели фильтрацию данных по запрашиваемым временным рамкам,а затем сгруппировали данные по фильмам в разрезе платформ, а также категорий оценок критиков и пользователей. 
В результате получили срез актуальных данных на исследуемом периоде (2000-2013 год), сгруппированый и агрегированный по запрашиваемым показателям. В конечном счете получили несколько новых столбцов категорий оценок пользователей и критиков, а также группы года релиза фильма.