## Анализ данных игры "Секреты темнолесья"

- Автор: Макарова Анастасия
- Дата: 08.02.2025

### Цели и задачи проекта

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. Задача познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Описание данных

Данные /datasets/new_games.csv содержат информацию:

- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

- 1. Введение
- 2. Загрузка данных и знакомство с ними
- 3. Проверка ошибок в данных и их предобработка
- 3.1. Названия, или метки, столбцов датафрейма
- 3.2. Типы данных
- 3.3. Наличие пропусков в данных
- 3.4. Явные и неявные дубликаты в данных
- 4. Фильтрация данных
- 5. Категоризация данных
- 6. Итоговый вывод
---

## Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv в датафрейм new_games
new_games = pd.read_csv('https://code.s3.yandex.net//datasets/new_games.csv')

In [3]:
import warnings
warnings.filterwarnings('ignore')

In [4]:
# Выводим информацию о датафрейме
new_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Познакомимся с данными и выведем первые строки с помощью метода `info()`


In [5]:
# Выводим первые строки датафрейма на экран
new_games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [6]:
# С помощью метода describe() посмотрим сводную статистику датафрейма
new_games.describe()

Unnamed: 0,Year of Release,NA sales,Other sales,Critic Score
count,16681.0,16956.0,16956.0,8242.0
mean,2006.485522,0.262023,0.047087,68.926717
std,5.873102,0.808654,0.185577,13.944565
min,1980.0,0.0,0.0,13.0
25%,2003.0,0.0,0.0,60.0
50%,2007.0,0.08,0.01,71.0
75%,2010.0,0.24,0.03,79.0
max,2016.0,41.36,10.57,98.0


Датасет `new_games.csv` содержит 11 столбцов и 16 956 строк, в которых представлена информация  о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Изучим типы данных и их корректность. Данные представлены только в двух типах float64 и object:

**Числовые значения с плавающей запятой (float64).**

Такой тип содержат четыре столбца:
- `Year of Release` - год выпуска игры.
- `NA sales` - продажи в Северной Америке (в миллионах проданных копий), тип данных указан корректно,так как в столбце указаны числа.
- `Other sales` -продажи в других странах (в миллионах проданных копий),так как тут подразумеваются штуки, тип данных указан корректно,так как в столбце указаны числа.Так как в данных содержаться пропуски, такие столбцы нельзя преобразовывать в формат int64, только в float64.
- `Critic Score` - оценка критиков (от 0 до 100) -тип данных указан корректно,так как в столбце указаны числа.
Так как в данных содержаться пропуски, такие столбцы нельзя преобразовывать в формат int64, только в float64.

**Строковые данные (object).**

Такой тип содержат семь столбцов:
- `Name` — название игры -выбранный тип данных является корректным, так как эти столбец содержит текстовую информацию.
- `Platform` — название платформы- выбранный тип данных является корректным, так как эти столбец содержит текстовую информацию.
- `Genre` — жанр игры- выбранный тип данных является корректным, так как эти столбец содержит текстовую информацию.
- `EU sales` — продажи в Европе (в миллионах проданных копий) - в этом столбце содержиться числовая информация в количестве копий, требуется преобразовать в числовой формат.
- `JP sales` — продажи в Японии (в миллионах проданных копий)-в этом столбце содержиться числовая информация, требуется преобразовать в числовой формат.
- `User Score` — оценка пользователей (от 0 до 10)в этом столбце содержиться числовая информация в количестве копий, требуется преобразовать в числовой формат.
- `Rating` — рейтинг организации ESRB - рейтинг отображен буквой, поэтому тут тип допустим.


**Вывод:** данные соответсвуют описанию.Однако в данных есть пропуски и некоторые типы данных приведены неккоректно. Поэтому требуется предобработка данных.Все столбцы отражают содержимое данных. 

---

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

Посмотрим названия всех столбцов датафрейма и проверьте их стиль написания.

In [7]:
# Выводим названия столбцов датафрейма
new_games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Видим, что у стобцов разный стиль написания, приведем их к единому стилю snake case, т.е названия в нижнем регистре, а вместо пробелов — подчёркивания.

In [8]:
# Приведем все столбцы в нижний регистр, а вместо пробелов добавим подчёркивания 
columns_snake_case = ['name','platform','year_of_release','genre','na_sales','eu_sales','jp_sales','other_sales','critic_score','user_score','rating']
new_games.columns = columns_snake_case  

In [9]:
# Выводим названия столбцов датафрейма
new_games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

**Вывод:** Названия столбцов было приведено в неудобносм формате. Привели все столбцы к единому формату для удобства использования в дальнейшем.

### Типы данных

Проведем преобразование типов данных

Я поняла, в сл раз так и сделаю,спасибо! Просто уже нет времени все переделывать(

In [10]:
# Комментарий ревьюера
tmp = new_games.copy() # создаем копию датасета до преобразования
len(tmp)

16956

Столбец `eu_sales` (продажи в Европе (в миллионах проданных копий)) содержит числовой формат. Преобразуем этот столбец из типа object  к типу float. 

Проведем анализ, почему числовые данные имеют не числовой формат.

In [11]:
# Применяем метод unique() к столбцу eu_sales
unique_eu_sales = new_games['eu_sales'].unique()
unique_eu_sales

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

Видим,что данные содержат значение 'unknown'. Его нужно будет заменить на пропуск

In [12]:
# Переведем данные в столбце eu_sales к формату float64
# используем аргумент 'coerce', который заменит на NaN все данные, которые не удалось преобразовать в числа.
new_games['eu_sales']=pd.to_numeric(new_games['eu_sales'], errors='coerce')

Проверим столбец jp_sales почему данные в нем имеют не числовой формат

In [13]:
# Применяем метод unique() к столбцу jp_sales
unique_jp_sales = new_games['jp_sales'].unique()
unique_jp_sales

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

Столбец `jp_sales` также содержит значения 'unknown', заменим их на пропуски.


In [14]:
# Переведем данные в столбце jp_sales к формату float64
# используем аргумент 'coerce', который заменит на NaN все данные, которые не удалось преобразовать в числа.
new_games['jp_sales']=pd.to_numeric(new_games['jp_sales'], errors='coerce')

Проверим столбец `user_score` почему данные в нем имеют не числовой формат

In [15]:
# Применяем метод unique() к столбцу jp_sales
unique_user_score = new_games['user_score'].unique()
unique_user_score

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

Столбец `user_score` содержит строковые значения 'tbd'. Зменим 'tbd' на пропуски и приведм столбец в числовому типу.

In [16]:
# Переведем данные в столбце user_score к формату float64
# используем аргумент 'coerce', который заменит на NaN все данные, которые не удалось преобразовать в числа.
new_games['user_score']=pd.to_numeric(new_games['user_score'], errors='coerce')

In [17]:
# проверим результат преобразований
new_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


**Вывод:** 
Провели анализ столбцов, вяснили,что столбцы `jp_sales`, `eu_sales` содержат текстовые данные `unknown`, а столбец `user_score` -`tbd`, поэтому столбцы имели неккоректный тип данных. После замены этих данных пропусками удалось привести данные столбцы к числовому формату.
В результате преобразований были изменены следующие типы столбцов, для удобной работы.
- jp_sales с  object  к типу float64,
- user_score с  object  к типу float64,
- eu_sales с  object  к типу float64.

### Наличие пропусков в данных

Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [18]:
# Выводим количество пропущенных строк в датафрейме и сортируем их
new_games.isna().sum().sort_values(ascending=False)

user_score         9268
critic_score       8714
rating             6871
year_of_release     275
eu_sales              6
jp_sales              4
name                  2
genre                 2
platform              0
na_sales              0
other_sales           0
dtype: int64

In [19]:
# Выводим количество пропусков в относительном значении
new_games.isna().mean().sort_values(ascending=False)*100

user_score         54.659118
critic_score       51.391838
rating             40.522529
year_of_release     1.621845
eu_sales            0.035386
jp_sales            0.023590
name                0.011795
genre               0.011795
platform            0.000000
na_sales            0.000000
other_sales         0.000000
dtype: float64

**Изучим пропуски:** 
Самое большое количество пропусков содержиться в столбце `critic_score` (оценка критиков (от 0 до 100)) - 51%,
`user_score` (оценка пользователей (от 0 до 10)) -47%,
`rating` (рейтинг организации ESRB)-40%.
Эти пропуски могли возникнуть,так как не всем играм могли поставить оценку и не каждой игре мог быть рейтинг ESRB,

Чуть меньше пропусков в столбце `year_of_release` (год выпуска) - 1,6%,
И в незначительно количестве присутствуют пропуски в столбцах `genr`e (жанр) -0,01%, `name` (название игры) - 0,01%, `eu_sales` -0.035%, `jp_sales` -0.023%.
Эти пропуски могли ввозникнуть случайным образом.

В столбцах `critic_score`, `user_score` пропусков большое количество, поэтому удалить мы эти строки не можем, иначе потеряем большую часть данных. Так как в них содержатся числовые значения, заменим их на индикаторы, которые показывают,что здесь бы пропуск. Например на значение -1, так как оценка не может быть отрицательной.

In [21]:
# Выводим все строки с пропусками в столбце critic_score
new_games[new_games['critic_score'].isna()]
# Заполняем пропуски средним значением
new_games['critic_score']=new_games['critic_score'].fillna(-1)

In [22]:
# Проверяем наличие пропусков в столбце critic_score
new_games[new_games['critic_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating


In [23]:
# Выводим все строки с пропусками в столбце user_score
new_games[new_games['user_score'].isna()]
# Заполняем индикаторным значением -1
new_games['user_score']=new_games['user_score'].fillna(-1)

In [24]:
# Проверяем наличие пропусков в столбце critic_score
new_games[new_games['user_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating


Проверим столбец rating на уникальные значения

In [25]:
unique_rating = new_games['rating'].unique()
unique_rating

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

В столбце `rating` содержатся строковые значения и пропуски nan. Заменим пропуски на индикаторное значение 'unknown', которое не совпадает с данными столбца.

In [26]:
# Выводим все строки с пропусками в столбце user_score
new_games[new_games['rating'].isna()]
# Заполняем пропуски средним значением
new_games['rating']=new_games['rating'].fillna('unknown')

В столбцах `eu_sales` -0.035%, `jp_sales` -0.023% количество пропусков незначительное (менее 1%), но данные в этих столбцах потребуются при дальнейших расчетах, поэтому заполним эти пропуски средним значением в зависимости от группу по году выпуска и платформы.

Мы создаём функцию, которая принимает один аргумент sale — это строка из датафрейма `new_games`.
Мы пишем функцию для работы со строками, чтобы затем передать методу apply() аргумент axis=1,тогда функция применится к строкам, как нам и нужно.

In [1]:
# Создадим функцию mean_eu_sales() для заполнения пропусков в столбце eu_sales и сохраним значения в этом столбце
def mean_eu_sales(sale):
    if pd.isna(sale['eu_sales']):
        group = new_games[(new_games['platform'] == sale['platform']) & 
                          (new_games['year_of_release'] == sale['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return sale['eu_sales']

new_games['eu_sales'] = new_games.apply(mean_eu_sales, axis=1)

NameError: name 'new_games' is not defined

In [28]:
# Создадим функцию mean_jp_sales() для заполнения пропусков в столбце jp_sales и сохраним значения в этом столбце
def mean_jp_sales(sale):
    if pd.isna(sale['jp_sales']):
        group = new_games[(new_games['platform'] == sale['platform']) & 
                          (new_games['year_of_release'] == sale['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return sale['jp_sales']

new_games['jp_sales'] = new_games.apply(mean_jp_sales, axis=1)

В столбце `year_of_Release`  275 пропусков (1,6%), считаем эти данные незначительными и удалим данные строки. Так как в дальнейшем мы будем аналилировать данные по годам, а без доставерных данных, результаты могут быть скажены и мы все равно не сможем использовать эти данные при анализе.

In [29]:
# Отбираем строки без пропусков в столбце 'year_of_release'
new_games_drop = new_games.dropna(subset = ['year_of_release'])

In [30]:
unique_eu_sales = new_games_drop['year_of_release'].unique()
unique_eu_sales

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000., 1995., 1991., 1981., 1987., 1980.,
       1983.])

После обработки пропусков ,переведем данные с толбце `year_of_release` в тип int

In [31]:
# Меняем тип данных в столбце year_of_release на числовой
new_games_drop['year_of_release']=new_games_drop['year_of_release'].astype('int')

In [32]:
# проверим типы столбцов
new_games_drop.dtypes

name                object
platform            object
year_of_release      int64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

В столбцах `genre` и `name` по 2 пропуска, их мы просто удалим, так как они не требуются при дальнейших расчетах и их количество незначительно.

In [33]:
# Отбираем строки без пропусков в столбце genre и name 
new_games_drop = new_games_drop.dropna(subset = ['genre', 'name'])

In [34]:
# Проверим количество пропусков в датафрейме
new_games_drop.isna().sum().sort_values(ascending=False)

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

**Вывод:**
- в столбце `critic_score` было заменено 8714 пропусков (51%) на индикаторное значение -1. Так как оценка не может быть отрицательной.
- в столбце `user_score` было заменено 8080 пропусков (47%)  на индикаторное значение -1. Так как оценка не может быть отрицательной.
- встолбце `rating` было заменено 6871 пропусков (40,5%) на значение 'unknown', так как в столбце содержаться не числовые ,а строковые данные.
- В столбце `year_of_Release` было заменено 275 пропусков (1,6%). так как их колличество незначительное, приняли решение их удалить, так как заменить их было бы нецелесообразно, так как данные по годам будут использоваться в дальнейших расчетах и это может исказить картину вцелом. Также привели преобразование типа данных в столбце `year_of_Release` с `float` на `int`.
- В столбцах `name'и'genre` было удалено по 2 строки с пропусками, так как это меньше одного процента, считаем потерю таких данных некритичным.
- В столбцах `jp_sales`- 4 пропусков и `eu_sales`- 6 пропуска, пропуски были заменены на среднее значение, в зависимости от года выпуска и платформы.

### Явные и неявные дубликаты в данных


Проверим уникальные значения в категориальных данных с названиями жанра игры, платформы, рейтинга. Посмотрим, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.

In [35]:
# Применяем метод unique() к столбцу genre
unique_genre = new_games_drop['genre'].unique()
unique_genre

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

Видим, что есть неявные одинаковые названия, но они написаны в разных регистрах, привем все к единому формату.

In [36]:
# приведем все жанры к нижнему регистру с момощью метода lower()
new_games_drop['genre']=new_games_drop['genre'].str.lower()

In [37]:
# проверим результат преобразований
unique_hotel_names = new_games_drop['genre'].unique()
unique_hotel_names

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [38]:
# Применяем метод unique() к столбцу platform
unique_platform = new_games_drop['platform'].unique()
unique_platform


array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [39]:
# приведем все жанры к нижнему регистру с момощью метода upper()
new_games_drop['platform']=new_games_drop['platform'].str.upper()


In [40]:
# Проверим результат преобразований в верхнему регистру в столбце platform
unique_platform = new_games_drop['platform'].unique()
unique_platform

array(['WII', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XONE',
       'WIIU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [41]:
# Применяем метод unique() к столбцу rating
unique_platform = new_games_drop['rating'].unique()
unique_platform

array(['E', 'unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [42]:
# Применяем метод unique() к столбцу name
unique_platform = new_games_drop['name'].unique()
unique_platform

array(['Wii Sports', 'Super Mario Bros.', 'Mario Kart Wii', ...,
       'Woody Woodpecker in Crazy Castle 5', 'LMA Manager 2007',
       'Haitaka no Psychedelica'], dtype=object)

In [43]:
# приведем все названия игр к нижнему регистру с момощью метода lower()
new_games_drop['name']=new_games_drop['name'].str.lower()

In [44]:
# проверим результат преобразований
unique_platform = new_games_drop['name'].unique()
unique_platform

array(['wii sports', 'super mario bros.', 'mario kart wii', ...,
       'woody woodpecker in crazy castle 5', 'lma manager 2007',
       'haitaka no psychedelica'], dtype=object)

**Вывод:**
В результате проверки на уникальные значения в столбцах были найдены неявные дубликаты.
- в столбце `genre` все значения были приведены к нижнему регистру, что бы они были в едином формате.
- в столбце `latform` все значения были приведены к верхнему регистру, что бы они были в едином формате.
- в столбце `rating` все значения уникальны, оставили в исходном формате.
- в столбце `name` все названия игр были приведены к нижнему регистру.

Проверим датафрейм на явные дубликаты.

In [45]:
# используем метод duplicated() в pandas, который используется для обнаружения дубликатов в датафреймах или Series
# применим функцию sum() — она будет считать количество True, что будет количеством дубликатов
duplicated_new_games = new_games_drop.duplicated().sum()
duplicated_new_games

235

В датафрейме найдено 235 дубликат, так как это дублирующие строки, их мы удалим.

In [46]:
# Сортируем датафрейм по всем столбцам
new_games_sorted = new_games_drop.sort_values(by=new_games.columns.tolist())

In [47]:
# Находим дубликаты
duplicates = new_games_sorted[new_games_sorted.duplicated(keep=False)]
duplicates

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
15191,beyblade burst,3DS,2016,role-playing,0.00,0.00,0.03,0.00,-1.0,-1.0,unknown
15192,beyblade burst,3DS,2016,role-playing,0.00,0.00,0.03,0.00,-1.0,-1.0,unknown
15301,11eyes: crossover,X360,2009,adventure,0.00,0.00,0.02,0.00,-1.0,-1.0,unknown
15302,11eyes: crossover,X360,2009,adventure,0.00,0.00,0.02,0.00,-1.0,-1.0,unknown
4860,18 wheeler: american pro trucker,PS2,2001,racing,0.20,0.15,0.00,0.05,61.0,5.7,E
...,...,...,...,...,...,...,...,...,...,...,...
2909,yu-gi-oh! the falsebound kingdom,GC,2002,strategy,0.49,0.13,0.07,0.02,-1.0,-1.0,unknown
6695,zoo resort 3d,3DS,2011,simulation,0.11,0.09,0.03,0.02,-1.0,-1.0,E
6696,zoo resort 3d,3DS,2011,simulation,0.11,0.09,0.03,0.02,-1.0,-1.0,E
8156,zumba fitness rush,X360,2012,sports,0.00,0.16,0.00,0.02,73.0,6.2,E10+


In [48]:
# Удаляем дубликаты
new_games_no_duplicates =  new_games_sorted.drop_duplicates()

In [49]:
# Сохраняем количество строк после удаления дубликатов
final_new_games = new_games_no_duplicates

В результате проверки на дубликаты в столбцах было найдено 235 дубликат.
Данные дубликаты удалены из датафрейма, что бы не исказить последующие вычисления. 

В процессе подготовки данных мы удаляли строки с пропусками и дубликаты. Посчитаем количество удалённых строк в абсолютном и относительном значениях.

In [50]:
# Количество строк в исходном датафрейме
new_games.shape[0]

16956

In [51]:
# Количество строк в финальном датафрейме
final_new_games.shape[0]

16444

In [52]:
# Рассчитаем количество удаленных строк в процентном отношении
result=round(100-(final_new_games.shape[0]/new_games.shape[0]*100),2)
result

3.02

In [53]:
# Комментарий ревьюера
# Проверим сколько удалено строк датасета
a, b = len(tmp), len(final_new_games)
print(" Было строк в исходном датасете", a,
      '\n', "Осталось строк в датасете после обработки", b,
      '\n', "Удалено строк в датасете после обработки", a-b,
      '\n', "Процент потерь", round((a-b)/a*100, 2))

 Было строк в исходном датасете 16956 
 Осталось строк в датасете после обработки 16444 
 Удалено строк в датасете после обработки 512 
 Процент потерь 3.02


**Вывод:** 
- Для удобства были преобразованы к нижнему регистру названия всех столбцов.
- В трех столбцах `jp_sales`,`user_score`,`eu_sales` были изменены типы данных с object к типу float64.
- В восьми стоблбцах были обнаружены пропуски.Пропуски были устранены на 100%. Также была проведена работа по их устранению:
`critic_score`,`user_score`,`year_of_Release` в этих столбцах пропуски были заменены на индикаторное значение,
`name`, `genre` здесь пропуски были удалены,
`jp_sales`, `eu_sales` здесь пропуски были заменены на среднее значение, в зависимости от года выпуска и платформы.
- Столбцы `genre`,`platform`,`rating`,`name` были проверены на уникальные значения. Была проведена работа по устранению неявных дубликатов- стоблбцы были преобразованы к единому регистру.
- В датафрейме найдено 235  явных дубликатов,эти строки мы удалили.

В итоге всех преобразований осталось 16444 строк из 16956 строк. Было удалено 3,02% строк. Что является незначительным и не помешает дальнейшему анализу. Сохранили очищенные данные в датафрейме `final_new_games`.

---

## Фильтрация данных

В задании сказано, что требуется изучить историю продаж игр в начале XXI века, в период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме `df_actual`.

In [54]:
# Отберём строки, которые относяться к периоду с 2000 по 2013 включительно c помощью логического оператора
# Выведем первые строки
df_actual = final_new_games[(final_new_games['year_of_release'] >= 2000) & (final_new_games['year_of_release'] <= 2013)]
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
3394,frozen: olaf's quest,3DS,2013,platform,0.27,0.27,0.0,0.05,-1.0,-1.0,unknown
3906,frozen: olaf's quest,DS,2013,platform,0.21,0.26,0.0,0.04,-1.0,-1.0,unknown
2478,tales of xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1.0,-1.0,unknown
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1.0,-1.0,unknown


In [55]:
# Выведем информацию о датафрейме df_actual
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 3394 to 9260
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


**Вывод:** Сформировали срез данных для дальнейшего исследования и сохранили его в отдельном датафрейме df_actual. Он содержит 12781 строку, 11 стобцов.

In [56]:
# Комментарий ревьюера
df_actual.year_of_release.sort_values().unique()

array([2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
       2011, 2012, 2013])

---

## Категоризация данных
    
Проведем категоризацию данных:
Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [57]:
# Создем функцию для категоризации пользоватеьских оценок:
def categorize_score(evaluation):
    if evaluation <0:
        return "нет оценки"
    if evaluation < 3: 
        return "низкая"
    if evaluation <8:
        return "средняя"
    if evaluation <=10:
        return "высокая"
    
df_actual["user_score_categories"] = df_actual["user_score"].apply(categorize_score)

In [58]:
# выводим несколько строк датафрейма, что бы посмотреть результат
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_categories
3394,frozen: olaf's quest,3DS,2013,platform,0.27,0.27,0.0,0.05,-1.0,-1.0,unknown,нет оценки
3906,frozen: olaf's quest,DS,2013,platform,0.21,0.26,0.0,0.04,-1.0,-1.0,unknown,нет оценки
2478,tales of xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T,средняя
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1.0,-1.0,unknown,нет оценки
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1.0,-1.0,unknown,нет оценки


Разделим все игры по оценкам пользователей и выделим такие категории: : высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [59]:
# Создем функцию для категоризации оценок критиков:
def categorize_score_critic(evaluation):
    if evaluation <0:
        return "нет оценки"
    if evaluation < 30: 
        return "низкая"
    if evaluation <80:
        return "средняя"
    if evaluation <=100:
        return "высокая"

df_actual["critic_score_categories"] = df_actual["critic_score"].apply(categorize_score_critic)

In [60]:
# Комментарий ревьюера
# Проверяем границы категорий по заданию брифа и созданные в проекте
tmp0, u_s, c_s = df_actual.copy(), 'user_score', 'critic_score'
cat_u, cat_c = 'user_score_categories', 'critic_score_categories'
print("Оценка 8 должна относиться категории 'высокая оценка'", "здесь это",
      tmp0[tmp0[u_s] == 8][cat_u].unique())
print("Оценка 3 должна относиться категории 'средняя оценка'", "здесь это",
      tmp0[tmp0[u_s] == 3][cat_u].unique())
print("Оценка 0 должна относиться категории 'низкая оценка'", "здесь это",
      tmp0[tmp0[u_s] == 0][cat_u].unique())
print("=================================")
print("Оценка 80 должна относиться категории 'высокая оценка'", "здесь это",
      tmp0[tmp0[c_s] == 80][cat_c].unique())
print("Оценка 30 должна относиться категории 'средняя оценка'", "здесь это",
      tmp0[tmp0[c_s] == 30][cat_c].unique())
print("Оценка 0 должна относиться категории 'низкая оценка'", "здесь это",
      tmp0[tmp0[c_s] == 0][cat_c].unique())

Оценка 8 должна относиться категории 'высокая оценка' здесь это ['высокая']
Оценка 3 должна относиться категории 'средняя оценка' здесь это ['средняя']
Оценка 0 должна относиться категории 'низкая оценка' здесь это ['низкая']
Оценка 80 должна относиться категории 'высокая оценка' здесь это ['высокая']
Оценка 30 должна относиться категории 'средняя оценка' здесь это ['средняя']
Оценка 0 должна относиться категории 'низкая оценка' здесь это []


In [61]:
# выводим несколько строк датафрейма, что бы посмотреть результат
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_categories,critic_score_categories
3394,frozen: olaf's quest,3DS,2013,platform,0.27,0.27,0.0,0.05,-1.0,-1.0,unknown,нет оценки,нет оценки
3906,frozen: olaf's quest,DS,2013,platform,0.21,0.26,0.0,0.04,-1.0,-1.0,unknown,нет оценки,нет оценки
2478,tales of xillia 2,PS3,2012,role-playing,0.2,0.12,0.45,0.07,71.0,7.9,T,средняя,средняя
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1.0,-1.0,unknown,нет оценки,нет оценки
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1.0,-1.0,unknown,нет оценки,нет оценки


Проверим результат после категоризации данных: сгруппируем данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [62]:
# Сгрупируем данные по пользовательским оценкам и посчитаем количество игр
grouped_df_actual = df_actual.groupby('user_score_categories')['name'].count()
grouped_df_actual

user_score_categories
высокая       2286
нет оценки    6298
низкая         116
средняя       4081
Name: name, dtype: int64

In [63]:
# Сгрупируем данные по оценкам критиков и посчитаем количество игр
grouped_df_actual = df_actual.groupby('critic_score_categories')['name'].count()
grouped_df_actual

critic_score_categories
высокая       1692
нет оценки    5612
низкая          55
средняя       5422
Name: name, dtype: int64

Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [64]:
grouped_platform = df_actual.groupby('platform')['name'].count()
sort_grouped_platform = grouped_platform.sort_values(ascending=False)
sort_grouped_platform.head(7)


platform
PS2     2127
DS      2120
WII     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

**Вывод:**
Разделили все игры по оценкам пользователей и оценкам критиков и выделили такие категории: низкая оценка,средняя оценка,высокая оценка, без оценки (сюда попали игры,где были пропуски по оценкам). Для критериев пользовательсвкой оценки был создан столбц `user_score_categories`, для критериев оуенок критиков - `critic_score_categories`.

Сгруппировкали данные по оценкам критиков и пользователей и посчитали количество игр в каждой категории.
По оценкам пользователей: большинству игр была присвоена средняя оценка- 4081 играм, высокая оценка - 2286 играм, низкая оценка была присвоена 116 играм. Без оценок большее количество игр -6298.

По оценкам критиков: большинству игр была присвоена средняя оценка -  5422, высокая оценка - 1692, низкая - 55. Без оценок также большая часть игр - 5612. 

Выделили топ-7 платформ по количеству игр,выпущенных за весь актуальный период: PS2, DS,WII ,PSP,X360 ,PS3,GBA.


---

## Итоговый вывод


- Были загружены данные datasets/new_games.csv. Данные содержат 11 столбцов и 16 956 строк, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. При первичном знакомстве с данными и их предобработкой получили такие результаты:

- В восьми столбцах были обнаружены пропуски (`critic_score`,`user_score`,`year_of_Release`,`name`,`genre`,`jp_sales`,`eu_sales`). Максимальное количество пропущенных значений в столбцах `critic_score` (51%), `user_score`(47%) и `rating` (40,5%). Скорре всего это связано с тем,что пользователи ставят оценки не всем играм и критики такэе обращают внимание не на все игры и ставят им оценки. В столбцах с незначительной долей пропусков, удалили строки, которые их содержат: в столбцах `year_of_Release`,`name`,`genre`. В столбцах `jp_sales`,`eu_sales` - заменили пропущенные значения средним по платформе и жанру.

- Провели анализ столбцов, вяснили, что столбцы `jp_sales`, `eu_sales` содержат текстовые данные `unknown`, а столбец `user_score` -`tbd`, поэтому столбцы имели неккоректный тип данных. После замены этих данных пропусками удалось привести данные столбцы к числовому формату. В результате преобразований были изменены следующие типы столбцов, для удобной работы.
В  столбцах `jp_sales`,`user_score`,`eu_sales` - изменили тип данных с object к типу float64, а столбце `year_of_Release`- с float64 на int64.

- Столбцы `genre`,`platform`,`rating`,`name` были проверены на уникальные значения. Была проведена работа по устранению неявных дубликатов- стоблбцы были преобразованы к единому регистру. Была проведена работа по проверке на явные дубликаты. В датафрейме найдено 235 явных дубликатов,эти строки мы удалили. Сохранили рузультат в новом датафрейме `final_new_games`. В итоге всех преобразований осталось 16444 строк из 16956 строк. Было удалено 512 строк или 3,02%. Что является незначительным и не помешает дальнейшему анализу.

- Сформировали срез, в который вошли данные за в период с 2000 по 2013 год включительно. Новый срез данных сохранили в отдельном датафрейме `df_actual`. Он содержит 12781 строку, 11 стобцов. 

- Разделили все игры по категориям пользовательских оценок и оценок критиков. Для критериев пользовательсвкой оценки был создан столбц `user_score_categories`, для критериев оуенок критиков - `critic_score_categories`. Можно сделать вывод,что в основном люди и критики ставят средние оценки, это значит что есть и минусы и плюсы у игр. Большая часть игр без оценок, это значит,что не все люди ставят оценки, возможно можно им  нужно подсветить, что бы они больше оставляли обратную связь, это позволит внедрять улучшения и увеличить спрос на игры, а критики возможно оценивают только популярные игры, а не все. В целом больше высоких и средних оценок ,чем низких, это говорит о том, что в целом игры вызвают положительную реакцию у критиков и пользовтелей.

- Самое большое количество игр, в период с 2000-2013 г, вышло на платформе: PS2 - 2127 шт, DS - 2120 шт, WII - 1275 шт, PSP - 1180 шт, X360- 1121 шт, PS3 - 1087 шт, GBA - 811 шт.



