# «Секреты Темнолесья»

- Автор: Ивегеш Ольга
- Дата: 25.03.2025

### Цели и задачи проекта

- Познакомиться с данными
- Проверить их корректность и провести предобработку
- Получить необходимый срез данных.

## Описание данных

Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). 

### План работы
- На первом этапе необходимо загрузить данные и познакомиться с ними
- Далее привести данные к удобному виду (изменить названия столбцов)
- Откорректировать типы данных
- Проверить наличие дубликатов и устранить их при необходимости
- Вывести необходимые данные (2000-2013 года)
- Добавить категоризацию (по оценкам пользователей и по оценкам критиков)
- Вывести ТОП-7 платформ по количеству игр

## 2.1 Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [6]:
import pandas as pd
import numpy as np

In [7]:
df=pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

- Познакомьтесь с данными: выведите первые строки и результат метода `info()`.


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [10]:
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


- Представленная таблица состоит из 11 столбцов и 16956 строк. Тип данныз столбцов Year of Release, EU sales и JP sales, User Score необходимо изменить, для этого необходимо откорректировать данные. Также в столбцах Name и Genre есть пропуски, которые можно заменить на пустую строку
- Названия столбцов необходимо привести к стилю snake case.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [13]:
print(f'Названия столбцов до изменения: \n {df.columns}')
df.columns.str.lower()
columns_snake_case = [
    'name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating']
df.columns = columns_snake_case
print(f'Названия столбцов после изменения: \n {df.columns}')

Названия столбцов до изменения: 
 Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')
Названия столбцов после изменения: 
 Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

In [15]:
df['year_of_release']=df['year_of_release'].fillna(0)
df['year_of_release']= df['year_of_release'].astype('int64')
df[['eu_sales','jp_sales']]= df[['eu_sales','jp_sales']].replace('unknown',np.nan)
df['user_score']=df['user_score'].replace('tbd',np.nan)
df[['eu_sales','jp_sales','user_score']]= df[['eu_sales','jp_sales','user_score']].astype('float64')

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


- Так как в столбце year_of_release  встречались пропуски, тип данных был float64. Заменили пропуски на заглушку, и преобразовали в int64.
- В столбцах eu_sales и jp_sales 'unknown' заменили на NaN, чтобы привести к типу данных float64.
- В столбце user_score 'tbd' заменили на NaN и также привели к типу данных float64

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [19]:
df_lines=len(df)
df_lines

16956

In [20]:
df.isna().sum() # количество пропусков в столбцах в абсолютных значениях

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [21]:
df.isna().sum()/len(df) # количество пропусков в столбцах в относительных значениях

name               0.000118
platform           0.000000
year_of_release    0.000000
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64

- Два пропуска в name и genre заменим на пустую строку, что характерно для данного типа данных
- Пропуски в оценках исправлять нецелесообразно, так как может повлиять на статистику и из-за этого будет проведен некорректный анализ данных


In [23]:
columns_to_replace = ['name','genre']

for i in columns_to_replace:
    df[i] = df[i].fillna('')


In [24]:
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [25]:
def median_group_sales(row):
    for x in ['eu_sales', 'jp_sales']:
        if pd.isna(row[x]):
            group = df[(df['platform'] == row['platform']) & 
               (df['year_of_release'] == row['year_of_release'])]
            return group[x].median()
        else:
            return row[x]

In [26]:
df['eu_sales'] = df.apply(median_group_sales, axis=1)
df['jp_sales'] = df.apply(median_group_sales, axis=1)

In [27]:
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [29]:
# Просмотр уникальных названий жанров
df_genre = sorted(df['genre'].unique())
df_genre

['',
 'ACTION',
 'ADVENTURE',
 'Action',
 'Adventure',
 'FIGHTING',
 'Fighting',
 'MISC',
 'Misc',
 'PLATFORM',
 'PUZZLE',
 'Platform',
 'Puzzle',
 'RACING',
 'ROLE-PLAYING',
 'Racing',
 'Role-Playing',
 'SHOOTER',
 'SIMULATION',
 'SPORTS',
 'STRATEGY',
 'Shooter',
 'Simulation',
 'Sports',
 'Strategy']

In [30]:
df['genre'] =[s.lower() for s in df['genre']]
df['genre'] = [s.title() for s in df['genre']]
df_genre = sorted(df['genre'].unique())
df_genre

['',
 'Action',
 'Adventure',
 'Fighting',
 'Misc',
 'Platform',
 'Puzzle',
 'Racing',
 'Role-Playing',
 'Shooter',
 'Simulation',
 'Sports',
 'Strategy']

Изначально в столбце с жанрами были неявные дубликаты из-за разных регистров. Привели к одному регистру, чтоб не было дубликатов

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [33]:
display(df.duplicated().sum()) #количество явных дубликатов

241

In [34]:
# удаление явных дубликатов
df = df.drop_duplicates().reset_index(drop=True)

In [35]:
display(df.duplicated().sum()) #количество явных дубликатов

0

- После работы с неявными дубликатами было обнаружено 241 явный дубликат. Явные дубликаты были удалены

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

In [38]:
# Сохраняем количество удалённых строк
deleted_lines = df_lines - df.shape[0]
# Сохраняем процент удалённых строк
deleted_percent = round(deleted_lines / df_lines * 100, 2)

In [39]:
deleted_percent # процент удаленных строк

1.42

In [40]:
deleted_lines # количество удаленных строк

241

### Промежуточные выводы:
- Изучены данные. Изначально в данных были пропуски, некоторые данные были неправильного типа, присутствовали дубликаты.
- В ходе работы были изменены названия столбцов, изменены типы данных на более подходящие, исправлены ошибки и дополнены недостающие данные. Также данные были очищены от дубликатов (явных и неявных)

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [43]:
df_actual=df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].reset_index()

In [44]:
df_actual

Unnamed: 0,index,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,0,Wii Sports,Wii,2006,Sports,41.36,28.96,28.96,8.45,76.0,8.0,E
1,2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,12.76,3.29,82.0,8.3,E
2,3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,10.93,2.95,80.0,8.0,E
3,6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,9.14,2.88,89.0,8.5,E
4,7,Wii Play,Wii,2006,Misc,13.96,9.18,9.18,2.84,58.0,6.6,E
...,...,...,...,...,...,...,...,...,...,...,...,...
12776,16706,Men in Black II: Alien Escape,GC,2003,Shooter,0.01,0.00,0.00,0.00,,,T
12777,16708,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,0.01,0.00,0.00,0.00,,,
12778,16709,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,0.00,0.00,0.00,0.00,,,
12779,16711,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.01,0.00,,,


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [46]:
def categorize_user(row): # по оценкам пользователей
    if row['user_score'] >= 8:
        return "высокая оценка"
    elif row['user_score'] >= 3:
        return "средняя оценка"
    elif row['user_score'] >= 0:
        return "низкая оценка"
    else:
        return "нет данных"

In [47]:
df_actual['Category_user'] = df_actual.apply(categorize_user, axis=1) # по оценкам пользователей

In [48]:
df_actual

Unnamed: 0,index,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,Category_user
0,0,Wii Sports,Wii,2006,Sports,41.36,28.96,28.96,8.45,76.0,8.0,E,высокая оценка
1,2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,12.76,3.29,82.0,8.3,E,высокая оценка
2,3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,10.93,2.95,80.0,8.0,E,высокая оценка
3,6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,9.14,2.88,89.0,8.5,E,высокая оценка
4,7,Wii Play,Wii,2006,Misc,13.96,9.18,9.18,2.84,58.0,6.6,E,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...
12776,16706,Men in Black II: Alien Escape,GC,2003,Shooter,0.01,0.00,0.00,0.00,,,T,нет данных
12777,16708,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,0.01,0.00,0.00,0.00,,,,нет данных
12778,16709,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,0.00,0.00,0.00,0.00,,,,нет данных
12779,16711,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.01,0.00,,,,нет данных


- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [50]:
def categorize_critic(row): # по оценкам критиков
    if row['critic_score'] >= 80:
        return "высокая оценка"
    elif row['critic_score'] >= 30:
        return "средняя оценка"
    elif row['critic_score'] >= 0:
        return "низкая оценка"   
    else:
        return "нет данных"

In [51]:
df_actual['Category_critic'] = df_actual.apply(categorize_critic, axis=1) # по оценкам критиков

In [52]:
df_actual

Unnamed: 0,index,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,Category_user,Category_critic
0,0,Wii Sports,Wii,2006,Sports,41.36,28.96,28.96,8.45,76.0,8.0,E,высокая оценка,средняя оценка
1,2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,12.76,3.29,82.0,8.3,E,высокая оценка,высокая оценка
2,3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,10.93,2.95,80.0,8.0,E,высокая оценка,высокая оценка
3,6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,9.14,2.88,89.0,8.5,E,высокая оценка,высокая оценка
4,7,Wii Play,Wii,2006,Misc,13.96,9.18,9.18,2.84,58.0,6.6,E,средняя оценка,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12776,16706,Men in Black II: Alien Escape,GC,2003,Shooter,0.01,0.00,0.00,0.00,,,T,нет данных,нет данных
12777,16708,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,0.01,0.00,0.00,0.00,,,,нет данных,нет данных
12778,16709,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,0.00,0.00,0.00,0.00,,,,нет данных,нет данных
12779,16711,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.01,0.00,,,,нет данных,нет данных


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [54]:
df_actual.groupby('Category_user')['name'].count().sort_values()

Category_user
низкая оценка      116
высокая оценка    2286
средняя оценка    4081
нет данных        6298
Name: name, dtype: int64

In [55]:
df_actual.groupby('Category_critic')['name'].count().sort_values()

Category_critic
низкая оценка       55
высокая оценка    1692
средняя оценка    5422
нет данных        5612
Name: name, dtype: int64

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [57]:
top=df_actual.groupby('platform')['name'].count().sort_values(ascending=False)

In [58]:
top[0:7]

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

- Проведен анализ и предобработка данных. Изменены названия столбцов. У столбцов year_of_release, eu_sales, jp_sales скорректированы типы данных. В столбцах name и genre пропуски заменены на пустые строки, У столбца year_of_release в местах пропусков поставлены заглушка (-1). У столбцов eu_sales, jp_sales в местах пропусков заполнены данные в соответствии с аналогичными позициями. В жанрах регистр приведен к одинаковому для избежания дублирования, строки с явными дубликатами удалены (241 строка, составила 1.42% от всех строк)
- Проведена фильтрация данных с учетом запроса (2000-2013 года), данные сохранены в df_actual
- Выполнена категоризация данных по оценкам пользователей и создан столбец Category_user
- Выполнена категоризация данных по оценкам критиков и создан столбец Category_critic
- Посчитано количество игр для каждой категории данных
- Выведен ТОП-7 платформ по количеству игр, выпущенных за актуальный период