# Знакомство и предобработка данных «Секреты Темнолесья»


### Цели и задачи проекта

**Цель** — подготовить данные для дальнейшего изучения развития игровой индустрии с 2000 по 2013 год включительно с целью написания статьи.
**Задача** - познакомиться с данными, проверить их корректность и провести предобработку для получения необходимого среза данных. 

### Описание данных

<font color='#777778'>В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:</font>
<font color='#777778'>
- `name` — название игры.
- `platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `rating` — рейтинг организации ESRB (англ. Entertainment Software rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.</font>

### Содержимое проекта

1. Загрузка и знакомство с данными
2.  Проверка ошибок в данных и их предобработка
   - Названия, или метки, столбцов датафрейма
   - Типы данных
   - Наличие пропусков в данных
   - Явные и неявные дубликаты в данных: 
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод 

## 1. Загрузка и знакомство с данными

1. Загрузите необходимые библиотеки Python и данные датасета `/new_games.csv`.
2. Познакомьтесь с данными: выведите первые строки и результат метода `.info()`.
3. Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
4. Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета datasets/new_games.csv в датафрейм df
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Датасет `/new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр в разных странах.

**Типы данных и их корректность:**
- **Числовые значения с плавающей запятой (float64)** Четыре столбца имеют тип данных `float64`: `Year of Release`, `NA sales`, `Other sales`, `Critic Score`. Для столбцов `NA sales`, `Other sales` тип`float64` является корректным, так как эти столбцы хранят числа с дробными значениями. Для столбцов `Year of Release` и `Critic Score` наиболее подхдящим будет тип `int64`, так как данные в этих столбцах хранят целочисленные значения.
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:`name`, `platform`, `genre`, `EU sales`, `JP sales`, `User Score`, `rating`. Для столбцов  `name`, `platform`, `genre` тип `object` является подходящим, так как в столбцах хранятся текстовые данные. Столбцы `EU sales`, `JP sales`, `User Score` хранят числовые данные с дробными частями, поэтому их лучше привести к типу `float64`. Столбец `rating` можно рассматривать как категориальный признак и преобразовать в тип `category`.

После анализа типов данных видно, что некоторые столбцы необходимо привести к типу `float64`. Также, для оптимизации, один столбец к типу `int64`.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма: 

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания. 
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [5]:
#выводим названия всех столбцов датафрейма 
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

В названиях столбцов есть пробелы, что не соответствует не `snake_case` не `CamelCase`. Приведем названия столбцов к стилю `snake_case`.

In [6]:
#Приводим названия столбцов датафрейма к стилю snake_case
df.columns = df.columns.str.lower().str.replace(' ', '_') 
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Названия всех столбцов были приведены к стилю `snake_case`.

### 2.2. Типы данных: 

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу int64. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных. 
- В числовых столбцах могут встретиться строковые значения, например, `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

Некоректные типы данных встречается в столбцах: `year_of_release`, `critic_score`, `eu_sales`, `jp_sales`, `user_score`. Выведем уникальные значения этих столбцов, чтобы определить причины неверной типизации.

In [7]:
#Выводим уникальные значения столбца year_of_release
df['year_of_release'].unique()

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

In [8]:
df['critic_score'].unique()

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

In [9]:
#Выводим уникальные значения столбца eu_sales
df['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [10]:
#Выводим уникальные значения столбца jp_sales
df['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [11]:
#Выводим уникальные значения столбца user_score
df['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

Причины того, что столбцы имеют некорректные типы данных:
- `year_of_release`, `critic_score`- в столбцах числовые данные хранятся как числа с плавающей точкой, также встречаются `nan` значения.
- `eu_sales`, `jp_sales` - в данных столбцах встречаются текстовые данные 'unknown', из-за чего им был присвоем тип  `object`.
- `user_score` - в данном столбце встречаются как пустые значения `nan`, так и текстовые строки `tbd`.

In [12]:
#Используем цикл для преобразования типов данных в столбцах  `eu_sales`, `jp_sales`, `user_score` в тип float64, так как в некоторых столбцах содержатся строковые данные
for column in ['eu_sales', 'jp_sales', 'user_score']:
    df[column] = pd.to_numeric(df[column], errors = 'coerce')

In [13]:
#Выводим результат преобразования
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


Для оптимизации работы с данными в датафрейме были сделаны такие изменения типов данных:
-  `eu_sales`, `jp_sales`, `user_score`: тип данных изменён с `object` на `float64`.
 
Также, после этапа обработки пропусков, дополнительно будеут изменены типы данных столбцов `year_of_release` и `critic_score` с `object` на `int64`. 

### 2.3. Наличие пропусков в данных: 

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.
- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [14]:
#Сохраняем количество строк датасета до преобразования 
dataset_size = len(df) 
dataset_size

16956

In [15]:
# Выводим количество пропущенных строк в столбцах датафрейма в абсолютных значениях
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [16]:
# Подсчитываем процент пропусков в каждом столбце 
df.isna().sum() / len(df) * 100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

Пропуски встречаются в столбцах:
- `name`, `genre`: по 2 пропуска в каждом столбце. Пропуски в этих столбцах находятся в одних и тех же строках. Востановить данные невозможно, поэтому эти 2 строки можно удалить.
- `year_of_release`: 275 пропусков (1,6 %). Пропуски кажутся случайными, небольшой процент (1,6%), и они встречаются в случайном порядке для различных игр и платформ. Невозможно точно сопоставить данные для заполнения пропусков, поэтому эти строки можно удалить. Так как в дальнейшую выборку по годам они не попадут.
- `eu_sales` (6 пропусков 0,03 %), `jp_sales` (4 пропуска 0,02 %): может быть или случайный пропуск или показатель того что продажи были нулевыми. Эти пропущенные значения можно заменить на средние значения по платформам и годам выхода игр или заменить на 0 (нулевые продажи).
- `critic_score`(8714 пропусков 51,4 %), `user_score`(9268 пропусков 54,6 %). Количество пропусков слишком большое, их нельзя удалять, их можно или заполнить или заменить на значения-индикаторы. Также для принятия более верноего решения, можно было бы уточнить у поставщика данных о возможных причинах пропусков.
- `rating`.  - 6871 пропуска 40,5 % - Количество пропусков очень больше. Данный в столбец можно оставить без изменений или заменить на значения-индикаторы (например, пустую строку ' '). 

In [17]:
# Отфильтровываем строки с пустыми значниями в столбце name и year_of_release
df = df[df['name'].notna() & df['year_of_release'].notna() ].copy()

In [18]:
# заполняем пропущеные значения столбца eu_sales на среднее значение в зависимости от названия платформы и года выхода игры
def mean_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

df['eu_sales'] = df.apply(mean_eu_sales, axis=1)

In [19]:
# заполняем пропущеные значения столбца jp_sales на среднее значение в зависимости от названия платформы и года выхода игры
def mean_eu_sales(row):
    if pd.isna(row['jp_sales']):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

df['jp_sales'] = df.apply(mean_eu_sales, axis=1)

Перед заменой пропусков в колонках отзывов и рейтинга, проверяем уникальные значения в этих столбцах, что бы выбрать значение-индикатор, которое не попадает в диапазон допустимых значений в столбцах.

In [20]:
#Проверяем уникальные значения в столбце critic_score
df['critic_score'].unique()

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 41., 36., 31., 27., 35., 26., 19., 28., 23.,
       24., 21., 17., 13.])

In [21]:
#Проверяем уникальные значения в столбце user_score 
df['user_score'].unique()

array([8. , nan, 8.3, 8.5, 6.6, 8.4, 8.6, 7.7, 6.3, 7.4, 8.2, 9. , 7.9,
       8.1, 8.7, 7.1, 3.4, 5.3, 4.8, 3.2, 8.9, 6.4, 7.8, 7.5, 2.6, 7.2,
       9.2, 7. , 7.3, 4.3, 7.6, 5.7, 5. , 9.1, 6.5, 8.8, 6.9, 9.4, 6.8,
       6.1, 6.7, 5.4, 4. , 4.9, 4.5, 9.3, 6.2, 4.2, 6. , 3.7, 4.1, 5.8,
       5.6, 5.5, 4.4, 4.6, 5.9, 3.9, 3.1, 2.9, 5.2, 3.3, 4.7, 5.1, 3.5,
       2.5, 1.9, 3. , 2.7, 2.2, 2. , 9.5, 2.1, 3.6, 2.8, 1.8, 3.8, 0. ,
       1.6, 9.6, 2.4, 1.7, 1.1, 0.3, 1.5, 0.7, 1.2, 2.3, 0.5, 1.3, 0.2,
       0.6, 1.4, 0.9, 1. , 9.7])

Изучив все уникальные значения, видим, что пустые значения можно заменить на `-1`

In [22]:
# заменим пропущеные значения столбца critic_score на значение-индикатор -1.
df['critic_score'] = df['critic_score'].fillna(-1)

In [23]:
# заменим пропущеные значения столбца user_score на значение-индикатор -1.
df['user_score'] = df['user_score'].fillna(-1)

In [24]:
# заполняем пустые значения столбца rating на значение-индикатор ' '.
df['rating'] = df['rating'].fillna(' ')

In [25]:
#Выводим информацию для проверки внесенных изменений
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

После того как пропуски в столбцых `year_of_release` и `critic_score` обработы, поменяем тип данных для столбца с `object` на `int64`.

In [26]:
#Меняем типы данных столбцов year_of_release и critic_score с object на int64
df[['year_of_release', 'critic_score']] = df[['year_of_release', 'critic_score']].astype('int64')

In [27]:
#Выводим информацию для проверки внесенных изменений
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  int64  
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(5), int64(2), object(4)
memory usage: 1.5+ MB


При обработке пропусков датафрейма, были выполнены следующие действия:
- Отфильтрованы строки с пустыми значениями в столбцах `name` и `year_of_release`.
- Заполнены пропущеные значения в столбцах `eu_sales` и `jp_sales` на среднее значение в зависимости от названия платформы и года выхода игры.
- Заполнены пустые значения столбцов `critic_score` и `user_score` на значение-индикатор -1.
- Заполнены пустые значения столбца `rating` на значение-индикатор ' '.

Также были изменены типы данных столбцов year_of_release и critic_score с object на int64

### 2.4. Явные и неявные дубликаты в данных: 

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.
- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.
- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

В процессе подготовки данных вы могли удалять данные, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях. После проведения предобработки данных напишите общий промежуточный вывод.

In [28]:
#Выводим все уникальные значения толбца platform
unique_game_names = df['platform'].unique()
unique_game_names

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [29]:
#Выводим все уникальные значения толбца year_of_release
unique_year_of_release = df['year_of_release'].unique()
unique_year_of_release

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983])

In [30]:
#Выводим все уникальные значения толбца genre
unique_genres = df['genre'].unique()
unique_genres

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [31]:
#Выводим все уникальные значения толбца rating
unique_rating = df['rating'].unique()
unique_rating

array(['E', ' ', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

- `platform` - все платформы явялются уникальными.
- `year_of_release` - все года имеют одинаковый формат и являются уникальными.
- `genre` - названия жанров записаны как в верхнем так и в нижнем регистре, из-за чего появляются неявные дубликаты. Стоит привести названия к одному регистру, например, к нижнему. 
- `rating` - встречается обозначение `K-A`, которое на данный момент соответствует играм категории `E`. Необходимо заменить все обозначения `K-A` на `E`.

In [32]:
#Приводим значения толбца genre к нижнему регистру и выводим результат
df['genre'] = df['genre'].str.lower()
df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [33]:
#В столбце rating заменяем все обозначения K-A на E и выводим результат
df['rating'] = df['rating'].str.replace('K-A', 'E')
df['rating'].unique()

array(['E', ' ', 'M', 'T', 'E10+', 'AO', 'EC', 'RP'], dtype=object)

In [34]:
#Проверяем наличие явных дубликатов в данных 
number_of_duplicates = df.duplicated().sum() 

In [35]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = df.shape[0]

In [36]:
# Удаляем дубликаты датафрейма 
df = df.drop_duplicates()

In [37]:
# Сохраняем количество строк после удаления дубликатов
final_row_count = df.shape[0]

In [38]:
#Считаем сколько строк удалено из датасета после обработки 
number_of_lines_deleted = dataset_size - final_row_count

In [39]:
#Считаем процент потерь
per_of_losses = round((number_of_lines_deleted / dataset_size) * 100, 2)

In [40]:
#Выводим количество строк до и после удаления дубликатов 
print(f"Количество строк в исходном датасете: {dataset_size}")
print(f"Количество строк после обработки: {final_row_count}")
print(f"Количество удаленных строк после обработки датасета: {number_of_lines_deleted}")
print(f"Процент потерь: {per_of_losses}")

Количество строк в исходном датасете: 16956
Количество строк после обработки: 16444
Количество удаленных строк после обработки датасета: 512
Процент потерь: 3.02


В ходе работы с явными и неявными дубликатоми, были проведены следующие действия:
- Привели значения столбца `genre` к нижнему регистру
- В столбце `rating` заменили все обозначения `K-A` на `E`
- Удалили 512 строк, процент потерь: 3,02%.

В датафрейме осталось 16444 строк.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [41]:
#Отбираем данные с 2000 по 2013 год включительно и сохраняем в отдельном датафрейме df_actual
df_actual = df[df['year_of_release'].between(2000, 2013)].copy()

In [42]:
#Проверяем года попавшие в выборку
df_actual['year_of_release'].unique()

array([2006, 2008, 2009, 2005, 2007, 2010, 2013, 2004, 2002, 2001, 2011,
       2012, 2003, 2000])

In [43]:
#Подсчитываем количество строк после применения фитра
df_shape = df_actual.shape[0]

In [44]:
#Подсчитываем количество отфильтрованных строк
number_of_filtered = final_row_count - df_shape

In [45]:
#Выводим рузультат применения фитра 
print(f"Количество строк до применения фильтра: {final_row_count}")
print(f"Количество отфильтрованных строк: {number_of_filtered}")
print(f"Количество строк после применения фильтра: {df_shape}")

Количество строк до применения фильтра: 16444
Количество отфильтрованных строк: 3663
Количество строк после применения фильтра: 12781


Данные были отфильтрованы, в датафрейм `df_actual` мы сохранили все данные за период с 2000 по 2013 год включительно. Из датафрейма исключили 3663 строки, в финальную версию датафрейма попало 12781 строка.

---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [46]:
#Разделяем все игры по оценкам пользователей на категории
df_actual['user_score_group'] = pd.cut(df_actual['user_score'], bins=[-2, 0, 3, 8, 11], right = False, labels=["данные по оценке отсутствуют","низкая оценка", "средняя оценка", "высокая оценка"])

In [47]:
df_actual['user_score_group'] = pd.cut(df_actual['user_score'], bins=[-2, 0, 3, 8, 11], right = False, labels=["данные по оценке отсутствуют","низкая оценка", "средняя оценка", "высокая оценка"])

In [48]:
#Выводим количество строк в каждой группе
df_actual.groupby('user_score_group')['name'].count()

  df_actual.groupby('user_score_group')['name'].count()


user_score_group
данные по оценке отсутствуют    6298
низкая оценка                    116
средняя оценка                  4081
высокая оценка                  2286
Name: name, dtype: int64

In [49]:
#Разделяем все игры по оценкам критиков на категории  
df_actual['critic_score_group'] = pd.cut(df_actual['critic_score'], bins=[-2, 0, 30, 80, 110], right = False, labels=["данные по оценке отсутствуют","низкая оценка", "средняя оценка", "высокая оценка"])

In [50]:
#Выводим количество строк в каждой группе
df_actual.groupby('critic_score_group')['name'].count()

  df_actual.groupby('critic_score_group')['name'].count()


critic_score_group
данные по оценке отсутствуют    5612
низкая оценка                     55
средняя оценка                  5422
высокая оценка                  1692
Name: name, dtype: int64

In [51]:
#Выводим топ-7 платформ по количеству игр, выпущенных за весь актуальный период
df_actual.groupby('platform')['name'].count().sort_values(ascending=False).head(7)


platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

В ходе категоризации данных было выполнено следующее:
- Разделяем все игры по оценкам пользователей на 3 категории: `данные по оценке отсутствуют`,`низкая оценка`, `средняя оценка`, `высокая оценка`. Также в отдельную категорию поместили игры, для которых нет оценок - `данные по оценке отсутствуют`. Данные с категориями поместили в новый столбец `user_score_group`. 
- Разделяем все игры по оценкам критиков на 3 категории: `низкая оценка`, `средняя оценка`, `высокая оценка`. Также в отдельную категорию поместили игры, для которых нет оценок - `данные по оценке отсутствуют`. Данные с категориями поместили в новый столбец `critic_score_group`. 
- Вывели топ-7 платформ по количеству игр, выпущенных за весь актуальный период: PS2 (2127), DS (2120), Wii (1275), PSP (1180),  X360 (1121), PS3 (1087), GBA (811). 

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Были загружены данные `/new_games.csv` они содержат 11 столбцов и 16956 строк, в которых представлена информация о продажах игр в разных странах. При первичном знакомстве с данными и их предобработкой получили такие результаты:
- Для оптимизации работы с данными в датафрейме были сделаны такие изменения типов данных:
   - `eu_sales`, `jp_sales`, `user_score`: тип данных изменён с `object` на `float64`.
   - Типы данных столбц `year_of_release`, `critic_score` с `object` на `int64`.
- Названия всех столбцов датафрейма были приведены к стилю `snake case`.
- При работе с пропусками были выполненны следующие изменения:
   - Отфильтрованы строки с пустыми значениями в столбцах `name` и `year_of_release`.
   - Заполнены пропущеные значения в столбцах eu_sales и jp_sales на среднее значение в зависимости от названия платформы и года выхода игры.
   - Заполнены пустые значения столбцов critic_score и user_score на значение-индикатор -1.
   - Заполнены пустые значения столбца rating на значение-индикатор ' '. 
- В ходе работы с явными и неявными дубликатоми, были проведены следующие действия:
   - Привели значения столбца `genre` к нижнему регистру.
   - В столбце `rating` заменили все обозначения `K-A` на `E`.
   - Удалили 512 строк, после обработки осталось 16444 строк, процент потерь составил 3.02%.
- Выполнили фильтрацию данных. Данные были отфильтрованы, в датафрейм `df_actual` мы сохранили все данные за период с 2000 по 2013 год включительно. Из датафрейма исключили 3663 строки, в финальную версию датафрейма попало 12781 строка.
- В ходе категоризации данных было выполнено следующее:
   - Разделили все игры по оценкам пользователей на 3 категории: `данные по оценке отсутствуют`,`низкая оценка`, `средняя оценка`, `высокая оценка`. Также в отдельную категорию поместили игры, для которых нет оценок - `данные по оценке отсутствуют`. Данные с категориями поместили в новый столбец `user_score_group`. 
   - Разделили все игры по оценкам критиков на 3 категории: `низкая оценка`, `средняя оценка`, `высокая оценка`. Также в отдельную категорию поместили игры, для которых нет оценок - `данные по оценке отсутствуют`. Данные с категориями поместили в новый столбец `critic_score_group`. 
   - Вывели топ-7 платформ по количеству игр, выпущенных за весь актуальный период: PS2 (2127), DS (2120), Wii (1275), PSP (1180),  X360 (1121), PS3 (1087), GBA (811). 