# Проект спринта

## Анализ данных игры "Секреты Темнолесья"

**Цель: Узнать топ 7 платформ на которых выпускались игры в период с 2000 до 2013 года и привести данные в читаемый вид**

### Знакомсво с данными

In [7]:
# Подключаем библиотеку pandas
import pandas as pd
# Подключаем библиотеку numpy
import numpy as np

In [8]:
# Выгружаем данные из датасета hotel_dataset.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [9]:
# Выводим информацию о датафрейме
print(games.info())

# Сохраним объем датафрейма в отдельной переменной для сравления после удаления дубликатов и пустых строк
total_rows = games.shape[0]
print(f'Кол-во строк датафрейма до предобработкаи данных {total_rows}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None
Кол-во строк датафрейма до предобработкаи данных 16956


Информация о данных:
1. Датафрейм содержит 10 столбцов
2. Датафрем содержит 16 956 строчек
3. Данные в датафреме двух типов: *object* и *float64*
4. Столбец Critic Score - содержит наибольшее количество пропусков

In [12]:
# Выводим первые 5 и последние 5 строк датафрейма на экран
display(games.head(5))
display(games.tail(5))

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


Столбцы:

- Year of Release - тип данных Float64, при этом в столбце хранится год - подойдет тип данных *int* или *datetime64*
- EU sales, JP sales, Other sales и User Score - содержат данные типа Чисто с плавающей точкой - подойдет тип данных *float64*


### Предобработка данных

#### Столбцы

In [19]:
#Выводим названия столбцов
print(games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


Названия столбцов написаны не в стиле  **snake case**

In [21]:
# Приводим названи колонок к стилю snake case
games.columns = games.columns.str.lower().str.replace(' ', '_')

In [23]:
# выводим новое название колонок
print(games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


#### Типы данных

In [25]:
# Преобразуем год выпуска в float64
games['year_of_release'] = games['year_of_release'].astype('float64', errors='raise')
# Удаляем строки с пропущеным годом
games = games.dropna(subset=['year_of_release'])
# Преобразуем 'year_of_release' в int64
games['year_of_release'] = games['year_of_release'].astype('int64')


In [28]:
#Выводим информацию об измененном ДатаФреме
print(games.info())

<class 'pandas.core.frame.DataFrame'>
Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16681 non-null  object 
 6   jp_sales         16681 non-null  object 
 7   other_sales      16681 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       9974 non-null   object 
 10  rating           9901 non-null   object 
dtypes: float64(3), int64(1), object(7)
memory usage: 1.5+ MB
None


In [29]:
# Преобразуем данные к типу float64
games['eu_sales'] = pd.to_numeric(games['eu_sales'], errors='coerce')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], errors='coerce')
games['other_sales'] = pd.to_numeric(games['other_sales'], errors='coerce')
games['user_score'] = pd.to_numeric(games['user_score'], errors='coerce')

In [31]:
#Выводим информацию об измененном ДатаФреме
print(games.info())

<class 'pandas.core.frame.DataFrame'>
Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16675 non-null  float64
 6   jp_sales         16677 non-null  float64
 7   other_sales      16681 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float64
 10  rating           9901 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB
None


In [32]:
# Посчитаем пропуски
print(games.isnull().sum())

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64


In [33]:
# Посчитаем пропуски в %
print(round((games.isnull().mean() * 100),2))

name                0.01
platform            0.00
year_of_release     0.00
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.53
user_score         54.69
rating             40.65
dtype: float64


#### Наибольшее кол-во пропусков в столбцах:
- user_score - 43.53%
- critic_score - 37.67%
- rating - 31.84%


##### Есть гипотеза, что кол-во пропусков в рейтиге зависит от кол-ва проданных копий игры

In [36]:
# Суммируем продажи
sales_columns = ['na_sales', 'eu_sales', 'jp_sales', 'other_sales']
games['total_sales'] = games[sales_columns].sum(axis=1)

# Создаем DataFrame с пропусками
null_mask = games.isnull()
games_with_nulls = games[null_mask.any(axis=1)]

# Список столбцов для проверки пропусков
columns_to_check = ['critic_score', 'user_score', 'rating']

# Группируем по total_sales и считаем пропуски в выбранных столбцах
null_by_total_sales = games_with_nulls.groupby('total_sales')[columns_to_check].agg(lambda x: x.isnull().sum())
print(null_by_total_sales.head(10))
print(null_by_total_sales.tail(10))

             critic_score  user_score  rating
total_sales                                  
0.00                    2           2       2
0.01                  556         584     458
0.02                  766         796     645
0.03                  580         629     494
0.04                  418         461     325
0.05                  381         450     320
0.06                  247         266     200
0.06                   76          99      58
0.07                   55          52      34
0.07                  219         233     188
             critic_score  user_score  rating
total_sales                                  
17.28                   1           1       1
18.14                   1           1       1
18.24                   1           1       1
20.62                   1           1       1
23.09                   1           1       1
24.67                   1           1       1
28.31                   1           1       1
30.26                   1         

Наибольшее кол-во пропусков в столбцах с рейтингом у игр с маленьким кол-вом проданых копий

#### Заполним пропуски

Для начала заполним пропуски с данными по продажам относильно года выпуска и платформы

In [41]:
# Список столбцов с продажами
sales_columns = ['eu_sales', 'jp_sales']

# Заполняем пропуски, применяя transform ко всем sales_columns
games[sales_columns] = games.groupby(['platform', 'year_of_release'])[sales_columns].transform(lambda x: x.fillna(x.mean()))

# Вывод
print(games.info())
print('\nПроверка на пропуски после заполнения')
print(games[sales_columns].isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 16681 entries, 0 to 16955
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16681 non-null  float64
 6   jp_sales         16681 non-null  float64
 7   other_sales      16681 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float64
 10  rating           9901 non-null   object 
 11  total_sales      16681 non-null  float64
dtypes: float64(7), int64(1), object(4)
memory usage: 1.7+ MB
None

Проверка на пропуски после заполнения
eu_sales    0
jp_sales    0
dtype: int64


Данные заполнены, пропусков в продажах нет

Заполним данные с пропуском рейтинга игр по стобцам critic_score, user_score, rating, относительно года выпуска и платформы

In [48]:
# Список столбцов для заполнения
rating_columns = ['critic_score', 'user_score']

# Заполняем пропуски
games[rating_columns] = games[rating_columns].fillna(-1)

# Вывод
print(games.info())
print('\nПроверка на пропуски после заполнения')
print(games[rating_columns].isnull().sum())
# Посчитаем пропуски в %
print(f'\nПроцент пропусков \n{round((games[rating_columns].isnull().mean() * 100),2)}')

<class 'pandas.core.frame.DataFrame'>
Index: 16681 entries, 0 to 16955
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16681 non-null  float64
 6   jp_sales         16681 non-null  float64
 7   other_sales      16681 non-null  float64
 8   critic_score     16681 non-null  float64
 9   user_score       16681 non-null  float64
 10  rating           9901 non-null   object 
 11  total_sales      16681 non-null  float64
dtypes: float64(7), int64(1), object(4)
memory usage: 1.7+ MB
None

Проверка на пропуски после заполнения
critic_score    0
user_score      0
dtype: int64

Процент пропусков 
critic_score    0.0
user_score      0.0
dtype: float64


Нулевые значения по рейтигам заполнены, остальные строки можно удалить, на анализ они будут влиять незаначительно

In [50]:
# Удаляем пропуски по столбцам name и genre там по 2 пропуска из всего датафрема
games = games.dropna(subset=['name', 'genre'])

#### Удаление дубликатов

Приведем данные к общему виду

In [54]:
# Все названия игр и жанр приведем к нижему регистру, а рейтинг к верхнему
games['name'] = games['name'].str.lower()
games['genre'] = games['genre'].str.lower()
games['rating'] = games['rating'].str.upper()

Найдем неявные дубликаты по названию

In [56]:
# Посчитаем кол-во дубликатов по названию и году выхода
unique_games_count = games[['name', 'year_of_release']].nunique()

# Выведем кол-во уникальных значений
print(unique_games_count)

# Выведем название, год выхода и платформу для проверки
print(games[['name',  'platform', 'year_of_release']].sort_values(
    by=['name', 'platform']).head(30))

name               11426
year_of_release       37
dtype: int64
                                              name platform  year_of_release
15191                               beyblade burst      3DS             2016
15192                               beyblade burst      3DS             2016
1086                             fire emblem fates      3DS             2015
3394                          frozen: olaf's quest      3DS             2013
3906                          frozen: olaf's quest       DS             2013
13983                   haikyu!! cross team match!      3DS             2016
2478                             tales of xillia 2      PS3             2012
4782                                   '98 koshien       PS             1998
8460                    .hack//g.u. vol.1//rebirth      PS2             2006
7182                  .hack//g.u. vol.2//reminisce      PS2             2006
8719       .hack//g.u. vol.2//reminisce (jp sales)      PS2             2006
8410         

Данные содержат дубликарты по названию и году выхода, но различаются разной платформой выхода. Пример:
Игра 007: quantum of solace - вышла в 2008 году и сразу на 6 платформах

Найдем явные дубликаты

In [59]:
# Проверим наличие дубликатов
dublicated = games.duplicated(subset=None, keep='first').sum() 
print(f'Кол-во дубликатов до удаления {dublicated}')

# Удаляем явные дубликаты
games = games.drop_duplicates(subset=None, keep='first', inplace=False)

dublicated = games.duplicated(subset=None, keep='first').sum() 
print(f'Кол-во дубликатов после удаления {dublicated}')
print(f'Кол-во строк после удаления дубликатов {len(games)}')

Кол-во дубликатов до удаления 235
Кол-во дубликатов после удаления 0
Кол-во строк после удаления дубликатов 16444


In [65]:
# Заменим рейтинг K-A на актуальный E
games['rating'] = games['rating'].str.replace('K-A', 'E')
# Заменим пропуске в рейтиге на "заглушку" - 'no_rating'
games['rating'] = games['rating'].fillna('no_rating')

Результаты предобработки:
- Название столбцов приведены к стилю snake_case
- Заполены пропуски в продажах по регионам и в стобцах рейтинг от критиков и пользователей
- Удалены строки с пропусками в рейтинге от критиков и пользователей (менее 9% от общего числа)
- Названия игр, жанр, рейтигн - приведены к общему виду (нижний регистр и верхний)
- Удалены явные дубликаты строк

In [67]:
# Сравним кол-во строк до предобработки и после
print(f'Кол-во строк датафрейма до предобработкаи данных {total_rows}')
print(f'Кол-во строк датафрема после предобработки данных {games.shape[0]}')
print(f' Кол-во удаленных строк {total_rows - games.shape[0]}')

Кол-во строк датафрейма до предобработкаи данных 16956
Кол-во строк датафрема после предобработки данных 16444
 Кол-во удаленных строк 512


In [68]:
# код ревьюера
games.isnull().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
total_sales        0
dtype: int64

**Пропусков в DataFrame больше нет**

#### Отфильруем данные по годам в рамках диавазоно 2000 год - 2013 год включительно

In [72]:
# Фильтрация данных по году выпуска игры
games_actual = games[(games['year_of_release'] >= 2000) & (games['year_of_release'] <= 2013)].copy()

#### Категоризация данных

In [75]:
#  Категорируем рейтинг пользователей
bins_user = [0, 3, 8, 10]
labels_user = ['low', 'medium', 'high']
games_actual['user_score_category'] = pd.cut(
                                             games_actual['user_score'], 
                                             bins=bins_user, 
                                             labels=labels_user, 
                                             right=False, # Позволяет сделать интервалы открытыми справа
                                             include_lowest=True # Гарантирует, что самая левая граница диапазона будет включена
                                             ).astype('category') # Оптимизирует хранение данных категориального типа

In [77]:
# Категорируем рейтиг критиков
bins_critic = [0, 30, 80, 100]
labels_critic = ['low', 'medium', 'high']
games_actual['critic_score_category'] = pd.cut(
                                            games_actual['critic_score'], 
                                            bins=bins_critic, 
                                            labels=labels_critic, 
                                            right=False, # Позволяет сделать интервалы открытыми справа
                                            include_lowest=True # Гарантирует, что самая левая граница диапазона будет включена
                                            ).astype('category') # Оптимизирует хранение данных категориального типа

In [78]:
# Выыедем 5 строк для проверки
display(games_actual.head(5))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales,user_score_category,critic_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,82.54,high,medium
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,35.52,high,high
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,32.77,high,high
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,29.8,high,high
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,28.91,medium,medium


#### Топ 7 платформ по кол-ву игр выпущенных за весь актуальный перион

In [81]:
# Сгруппируем данные
top_platforms = games_actual['platform'].value_counts().nlargest(7)
# Выведем топ
print(top_platforms)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: count, dtype: int64


#### Вывод
Рейтинг платформ:

In [84]:
print(top_platforms)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: count, dtype: int64


Результаты предобработки:
- Название столбцов приведены к стилю snake_case
- Заполены пропуски в продажах по регионам и в стобцах рейтинг от критиков и пользователей
- Удалены строки с пропусками в рейтинге от критиков и пользователей (менее 9% от общего числа)
- Названия игр, жанр, рейтигн - приведены к общему виду (нижний регистр и верхний)
- Удалены явные дубликаты строк

Были добавлены столбцы:
- total_sales - с общим объемом продаж
- user_score_category - рейтинг игры от пользователей (низкий, средний и высокий)
- critic_score_category - рейтинг игры от критиков (низкий, средний и высокий)