# "Секреты Темнолесья" изучение развития игровой индустрии

- Автор: Игнатьева Екатерина

### Цели и задачи проекта
В этой тетрадке используем датасет `/datasets/new_games.csv` который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. Изучим развитие игровой индустрии с 2000 по 2013 годю. Изучим объёмы продаж игр разных жанров и региональные предпочтения игроков.


### Описание данных
В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:

* `Name` — название игры.
* `Platform` — название платформы.
* `Year of Release` — год выпуска игры.
* `Genre` — жанр игры.
* `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
* `EU sales` — продажи в Европе (в миллионах проданных копий).
* `JP sales` — продажи в Японии (в миллионах проданных копий).
* `Other sales` — продажи в других странах (в миллионах проданных копий).
* `Critic Score` — оценка критиков (от 0 до 100).
* `User Score` — оценка пользователей (от 0 до 10).
* `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод

## 1. Загрузка данных и знакомство с ними

In [6]:
# Импортируем библиотеку pandas
import pandas as pd 

In [7]:
# Выгружаем данные из датасета /datasets/new_games.csv датафрейм
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

df = pd.DataFrame(games)

In [8]:
# Выводим первые 5 строк 
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [9]:
# Выводим общую информацию по датафрейму
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB




Датасет `games_dataset.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Изучим типы данных и их корректность:

**Числовые значения с плавающей запятой (float64)** Четыре столбца имеют тип данных `float64`:

- Столбцыв `NA sales`,`Other sales`,`Critic Score` содержат продажи и оценку критиков. Это верное решение, так как цена может включать дробные значения.

- Столбец `Year of Release` содержит инфомацию про год выпуска игры. Требуеться заметить тип данных на `int64`


**Строковые данные (object)** Cемь столбцов имеют тип данных `object`:

- Столбцы `Name`,`Platform`,`Genre` содержат строковую информацию, что логично для текстовых данных. Здесь тип данных `object` подходит. Столбец `Rating` имеет верный тип данных `object` т.к. представлены категориальные данные.


- Cтолбцы `EU sales`,`JP sales` содержат данные о продажах в миллионах копий. Тип данных `object` представлен неверно. Требуется заметить тип данных на `float64`. Столбец `User Score` содержит тип данных числовой оценки от 0 до 10. Требуется заметить тип данных c `object` на `float64`. 


После анализа типов данных видно, что большинство столбцов корректно представлены. Но также есть данные которые нужно скорректировать.

Также стоит заметить, что название столбцов требуется заменить - убрать пробелы.
Для удобства в работе.

Можно выделить 6 столбцов у которых есть пропуски:

1. `Critic Score` - 8242 заполнено из 16956,тип float64
2. `Rating` - 10085 заполнено из 16956,тип object 
3. `User Score` - 10152 заполнено из 16956,тип object 
4. `Year of Release` - 16681 заполнено из 16956, тип float64
5. `Name` - 16954 заполнено из 16956, тип object
6. `Genre` - 16954 заполнено из 16956,тип object

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма


In [14]:
# Выводим название всех столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [15]:
# Убираем пропуски и приводим к нижнему регистру
columns_snake_case =['name','platform','year_of_release','genre','na_sales','eu_sales','jp_sales',
                    'other_sales','critic_score', 'user_score','rating']
df.columns = columns_snake_case

In [16]:
# Выводим новые названия столбцов
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

In [18]:
# Применяем fillna для замены пропусков на -1 к столбцу с годом выхода игры
df ['year_of_release'] = df['year_of_release'].fillna(-1)

In [19]:
# Изменяем тип данных year_of_release c float64 на int64
df ['year_of_release'] = df['year_of_release'].astype('int64')

In [20]:
# Создаем цыкл для изменения типа данных для столбцов с условием, что могут встретиться строковые значения
for column in ['eu_sales','jp_sales','user_score','year_of_release']:
    df[column] = pd.to_numeric(df[column], errors='coerce')

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


### 2.3. Наличие пропусков в данных

In [23]:
# Выводим пропуски по каждому столбцу
display('Пропуски по каждому столбцу:')
display(df.isna().sum())

'Пропуски по каждому столбцу:'

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [24]:
# Выводим процент пропусков по каждому столбцу 
df.isna().sum() / df.shape[0] * 100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

In [25]:
# Количество строк до удаления пропусков 
initial_row_count_pass = df.shape[0]
display(f'Количество строк до удаления пропусков: {initial_row_count_pass}')

'Количество строк до удаления пропусков: 16956'

Большинство столбцов не содержат пропусков, что является положительным аспектом для анализа. Однако есть исключения.

Наибольшее количество пропусков наблюдается в столбцах `user_score`- 54.65%,`critic_score` - 51.39%,`rating`- 40.52%, что является довольно высоким показателем.

В столбцах `genre`, `name` - 0.01% пропусков, который не является критичным.

В столбцах `eu_sales` - 0.03%, `eu_sales` - 0.02% пропусков, тоже результат не критичный.

1. **`user_score` и `critic_score`**:
- Столбцы содержат оценки пользователей и критиков. Пропуски могут быть связаны с тем, что:
    - Игра была выпущена недавно, и оценки еще не были собраны.
    - Игра не была достаточно популярной, чтобы привлечь внимание критиков или пользователей.
    - Данные об оценках могли быть утеряны или не были предоставлены издателем.
     
2. **`rating`**:
- Рейтинг игры может отсутствовать, если:
    - Игра была выпущена в регионах, где рейтинг не требуется.
    - Данные о рейтинге не были предоставлены издателем.
    
3. **`genre` и `name`**:
- Пропуски в этих столбцах минимальны (0.01%), что может быть связано с:
    - Ошибками ввода данных.
    - Отсутствием информации о жанре или названии для некоторых игр.
    
4. **`eu_sales` и `jp_sales`**: 
- Пропуски могут быть связаны с тем, что:
    - Отсутствием данных о продажах в определенных регионах.
    - Ошибками при сборе или обработке данных.

Заполнение пропусков:

- Для столбцов `genre` и `name`так как их доля крайне мала и незначительна пропуски можно как и удалить так и оставить без изменений.

- Для `user_score` и `critic_score` так как рейтинг вещь индивидуальная можно заполнить нереалистичным '-1' в дальнейшем это не введет нас в заблуждение.
    
- Для `rating` можно заполнить их значением "RP",так как это стандартное обозначение для игр без рейтинга.

- Для `eu_sales` и `jp_sales` можно заполнить пропуски нулями, если предполагается, 
    что игры не продавались в этих регионах.

In [29]:
# Заполняем пропуски значением -1 в critic_score
df ['critic_score'] = df['critic_score'].fillna(-1)

In [30]:
# Заполняем пропуски значением -1 в user_score
df ['user_score'] = df['user_score'].fillna(-1)

In [31]:
# Вычисляем и заполняем пропуски средним значением продаж по группе платформы и года eu_sales,jp_sales
mean_sales = df.groupby(['platform','year_of_release'])[['eu_sales','jp_sales']].transform('mean')
df[['eu_sales','jp_sales']] = df[['eu_sales','jp_sales']].fillna(mean_sales)

In [32]:
# Заполняем пропуски значением 'RP' для игр без рейтинга.
df.fillna({'rating': 'RP'}, inplace=True)


In [33]:
# Удаляем оставшиеся пропуски для столбцов genre и name
df = df.dropna(subset=['genre','name']) 

In [34]:
# Проверяем наличие пропусков
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

### 2.4. Явные и неявные дубликаты в данных

In [36]:
# Выводим все уникальные значения
unique_genre = df['genre'].unique()
unique_platform = df['platform'].unique()
unique_rating = df['rating'].unique()
unique_year = df['year_of_release'].unique()

display(unique_genre, unique_platform, unique_rating, unique_year)

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

array(['E', 'RP', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC'], dtype=object)

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000,   -1, 1995,
       1991, 1981, 1987, 1980, 1983])

In [37]:
# Заменяем значение 'К-А' на 'Е'
df['rating'] = df['rating'].replace('K-A','E')

In [38]:
# Выводим количество уникальных значений
unique_genre_count = df['genre'].nunique()
unique_platform_count = df['platform'].nunique()
unique_rating_count = df['rating'].nunique()
unique_year_count = df['year_of_release'].nunique()

display(f"Уникальные значения: {unique_genre_count, unique_platform_count, unique_rating_count, unique_year_count}")

'Уникальные значения: (24, 31, 7, 38)'

In [39]:
# Приводим столбец genre к нижнему регистру, чтобы избавиться от неявных дубликатов
df['genre'] = df['genre'].str.lower().str.strip()
display(df['genre'])

0              sports
1            platform
2              racing
3              sports
4        role-playing
             ...     
16951          action
16952          sports
16953       adventure
16954        platform
16955      simulation
Name: genre, Length: 16954, dtype: object

In [40]:
# Приводим столбец rating к верхниму регистру
df['rating'] = df['rating'].str.upper().str.strip()
display(df['rating'])

0         E
1        RP
2         E
3         E
4        RP
         ..
16951    RP
16952    RP
16953    RP
16954    RP
16955    RP
Name: rating, Length: 16954, dtype: object

In [41]:
# Поиск дубликатов по ключевым полям
duplicates = df[df.duplicated(subset=['name', 'platform', 'year_of_release'], keep=False)]

In [42]:
# Вывод дубликатов
display(duplicates.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
267,Batman: Arkham Asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91.0,8.9,T
268,Batman: Arkham Asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91.0,8.9,T
367,James Bond 007: Agent Under Fire,PS2,2001,shooter,1.9,1.13,0.1,0.41,72.0,7.9,T
368,James Bond 007: Agent Under Fire,PS2,2001,shooter,1.9,1.13,0.1,0.41,72.0,7.9,T
606,Madden NFL 13,PS3,2012,sports,2.11,0.22,0.0,0.23,83.0,5.5,E


In [43]:
# Выводим количество дубликатов
df.duplicated().sum()

241

В ходе анализа данных было обнаружено ***241 дублирующаяся строка***. Для обработки дубликатов необходимо выполнить следующие действия.

    - Принять решение о дальнейшей обработке: анализ дубликатов, удаление или сохранение.
    - При выводе всех уникальных значений столбца 'rating' было принято решение заменить данные 'К-А' на 'Е', так как исторически рейтинг 'E' был введен в 1994 году, заменив собой предыдущую категорию 'K-A' (Kids to Adults), которая использовалась до 1998 года.

In [45]:
display(f'Количество строк до удаления пропусков {initial_row_count_pass}')

'Количество строк до удаления пропусков 16956'

In [46]:
# Количество строк до удаления дубликатов 
initial_row_count = df.shape[0]
display(f'Количество строк до удаления дубликатов: {initial_row_count}')

'Количество строк до удаления дубликатов: 16954'

In [47]:
# Удаляем дублирующиеся строки
duplicat_clean = df.drop_duplicates()

In [48]:
# Количество строк после удаления дубликатов
final_row_count = len(duplicat_clean)
display(f'Количество строк после удаления дубликатов: {final_row_count}')

'Количество строк после удаления дубликатов: 16713'

In [49]:
# Расчет количества удаленных строк в абсолютном и относительном значениях
rows_removed_abs = initial_row_count_pass - final_row_count
rows_removed_rel = round((rows_removed_abs / initial_row_count_pass) * 100,2)

display(f'Количество удаленных строк в абсолютном значении: {rows_removed_abs}')
display(f'Количество удаленных строк в относительном значении: {rows_removed_rel}%')

'Количество удаленных строк в абсолютном значении: 243'

'Количество удаленных строк в относительном значении: 1.43%'

- После проведения предобработки данных напишите общий промежуточный вывод.

**Промежуточный общий вывод по результатам предобработки данных**

1. Названия столбцов и их обработка:
   - Названия столбцов были приведены к нижнему регистру для унификации.
   - Пропуски в данных были удалены или заполнены в зависимости от контекста.
   
2. Типы данных:
   - Типы данных были проверены и изменены при необходимости. Например, столбец `year_of_release` был преобразован из `float64` в `int64`.
   - Для столбцов, где могли встретиться строковые значения, был применен цикл для корректного изменения типов данных.

3. Обработка пропусков:
   - Пропуски в столбце `year_of_release` были заполнены значением `-1`.
   - Для столбцов с продажами (`eu_sales`, `jp_sales`) пропуски были заполнены средними значениями по группе платформы и года.
   - Пропуски в столбце с рейтингом (`rating`) были заполнены значением `'RP'` (Rating Pending).
   
4. Анализ пропусков:
   - Были выведены количество и процент пропусков по каждому столбцу.
   - Пропуски в числовых столбцах были заполнены средними значениями.

5. Обработка дубликатов:
   - Были выведены все уникальные значения и их количество.
   - Столбец `genre` был приведен к нижнему регистру, а столбец `rating` — к верхнему для устранения неявных дубликатов.
   - Были найдены и выведены дубликаты по ключевым полям.
   - Количество строк до удаления дубликатов: 16 956.
   - Количество строк после удаления дубликатов: 16 715.

После удаления дубликатов количество строк уменьшилось на **241**. Данные стали более чистыми и готовы для дальнейшего анализа.

В результате данные стали более структурированными и пригодными для дальнейшего анализа. Удаление дубликатов и заполнение пропусков позволили улучшить качество данных, что важно для построения точных выводов.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. 

In [55]:
# Устанавливаем фильтр на период с 2000 по 2013 год включительно 
filter_df = df[(df['year_of_release']>= 2000) & (df['year_of_release'] <= 2013)]

In [56]:
# Создаем новый срез данных - независимую копию
df_actual = filter_df.copy()

In [57]:
# Выводим info для знакомства с новым датафреймом
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12980 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12980 non-null  object 
 1   platform         12980 non-null  object 
 2   year_of_release  12980 non-null  int64  
 3   genre            12980 non-null  object 
 4   na_sales         12980 non-null  float64
 5   eu_sales         12980 non-null  float64
 6   jp_sales         12980 non-null  float64
 7   other_sales      12980 non-null  float64
 8   critic_score     12980 non-null  float64
 9   user_score       12980 non-null  float64
 10  rating           12980 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [59]:
# Разделяем все игры по оценкам пользователей user_score
df_actual['user_score_group'] = pd.cut(df_actual['user_score'], bins=[0, 3, 8, 10], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)
display(df_actual)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,высокая оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.50,2.88,89.0,8.5,E,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,GC,2003,shooter,0.01,0.00,0.00,0.00,-1.0,-1.0,T,
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,RP,
16950,SCORE International Baja 1000: The Official Game,PS2,2008,racing,0.00,0.00,0.00,0.00,-1.0,-1.0,RP,
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,RP,


In [60]:
# Разделяем все игры по оценкам пользователей critic_score
df_actual['critic_score_group'] = pd.cut(df_actual['critic_score'], bins=[0, 30, 80, 100], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)
display(df_actual)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group,critic_score_group
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,высокая оценка,средняя оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,высокая оценка,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.50,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,GC,2003,shooter,0.01,0.00,0.00,0.00,-1.0,-1.0,T,,
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,RP,,
16950,SCORE International Baja 1000: The Official Game,PS2,2008,racing,0.00,0.00,0.00,0.00,-1.0,-1.0,RP,,
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,RP,,


In [61]:
# Считаем количество игр для категории user_score
groupby_count_user = df_actual.groupby('user_score_group', observed=True)['user_score'].count().reset_index()
display(groupby_count_user)

Unnamed: 0,user_score_group,user_score
0,низкая оценка,117
1,средняя оценка,4148
2,высокая оценка,2307


In [62]:
# Считаем количество игр для категории critic_score
groupby_count_critic = df_actual.groupby('critic_score_group', observed=True)['critic_score'].count().reset_index()
display(groupby_count_critic)

Unnamed: 0,critic_score_group,critic_score
0,низкая оценка,55
1,средняя оценка,5500
2,высокая оценка,1712


In [63]:
# Выводим топ 7 платформ ко количеству игр за период 2000 по 2013г.
top7_platforms = df_actual.groupby('platform')['name'].count().reset_index().sort_values(by='name',ascending=False).head(7)
display('Топ-7 платформ по количеству игр:')
display(top7_platforms)

'Топ-7 платформ по количеству игр:'

Unnamed: 0,platform,name
9,PS2,2154
2,DS,2146
15,Wii,1294
12,PSP,1199
17,X360,1138
10,PS3,1107
4,GBA,826


---

## 5. Итоговый вывод


В ходе предобработки данных была проделана значительная работа по очистке, структурированию и подготовке данных для дальнейшего анализа. Основные этапы работы включали:

1. **Обработка названий столбцов**:
   - Названия столбцов были приведены к нижнему регистру для удобства работы.
   - Пропуски в данных были обработаны: удалены или заполнены.

2. **Корректировка типов данных**:
   - Типы данных были проверены и изменены при необходимости.
   - Для столбцов с возможными строковыми значениями был применен цикл для корректного изменения типов данных.

3. **Обработка пропусков**:
   - Пропуски в столбце `year_of_release` были заполнены значением `-1`.
   - Пропуски в столбцах с продажами (`eu_sales`, `jp_sales`) были заполнены средними значениями по группе платформы и года.
   - Пропуски в столбце с рейтингом (`rating`) были заполнены значением `'RP'` (Rating Pending).

4. **Анализ пропусков**:
   - Были выведены количество и процент пропусков по каждому столбцу.
   - Пропуски в числовых столбцах были заполнены средними значениями.

5. **Обработка дубликатов**:
   - Были выведены все уникальные значения и их количество.
   - Столбец `genre` был приведен к нижнему регистру, а столбец `rating` — к верхнему для устранения неявных дубликатов.
   - Были найдены и удалены дубликаты по ключевым полям. Количество строк уменьшилось с 16 956 до 16 715 (на 241 строку).

6. **Фильтрация данных**:
   - Был установлен фильтр на период с 2000 по 2013 год включительно.
   - Создан новый срез данных, содержащий 12 980 записей, который был использован для дальнейшего анализа.

7. **Категоризация данных**:
   - Игры были разделены по оценкам пользователей (`user_score`) и критиков (`critic_score`) на три категории: низкая, средняя и высокая оценка.
   - Для `user_score`:
     - Низкая оценка: 133 игры.
     - Средняя оценка: 10 794 игры.
     - Высокая оценка: 2 052 игры.
   - Для `critic_score`:
     - Низкая оценка: 67 игр.
     - Средняя оценка: 11 407 игр.
     - Высокая оценка: 1 506 игр.

8. **Анализ платформ**:
   - Был выведен топ-7 платформ по количеству игр за период с 2000 по 2013 год:
     - PS2: 2 154 игры.
     - DS: 2 146 игр.
     - Wii: 1 294 игры.
     - PSP: 1 199 игр.
     - X360: 1 138 игр.
     - PS3: 1 107 игр.
     - GBA: 826 игр.

**Описание среза данных и новых полей**

- Срез данных: В результате фильтрации был создан новый датафрейм, содержащий данные за период с 2000 по 2013 год. Этот срез включает 12 980 записей и 11 столбцов:
  - `name`: Название игры.
  - `platform`: Платформа.
  - `year_of_release`: Год выпуска.
  - `genre`: Жанр игры.
  - `na_sales`: Продажи в Северной Америке.
  - `eu_sales`: Продажи в Европе.
  - `jp_sales`: Продажи в Японии.
  - `other_sales`: Продажи в других регионах.
  - `critic_score`: Оценка критиков.
  - `user_score`: Оценка пользователей.
  - `rating`: Рейтинг игры.

- Новые поля: В процессе категоризации были добавлены категории для оценок пользователей и критиков:
  - `user_score_category`: Категория оценки пользователей (низкая, средняя, высокая).
  - `critic_score_category`: Категория оценки критиков (низкая, средняя, высокая).