# Анализ данных для статьи об играх

- Автор: Анастасия Таначева
- Дата: 04.04.2025

### Цели и задачи проекта

<font color='#777778'>Цель:</font>
Изучение развития игровой индустрии за 2000-2013 годы.

<font color='#777778'>Задачи:</font>
- познакомиться с данными
- проверить их корректность
- провести предобработку, получив необходимый срез данных
- поделиться полученными результатами с коллегами

### Описание данных

<font color='#777778'>
    
Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:</font>
    
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

- загрузка данных и знакомство с ними
- преобработка данных
- фильтрация данных
- категоризация данных

### Загрузка данных и знакомство с ними

- Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
import pandas as pd

In [2]:
a = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
df = a

print(df)

                                Name Platform  Year of Release         Genre  \
0                         Wii Sports      Wii           2006.0        Sports   
1                  Super Mario Bros.      NES           1985.0      Platform   
2                     Mario Kart Wii      Wii           2008.0        Racing   
3                  Wii Sports Resort      Wii           2009.0        Sports   
4           Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing   
...                              ...      ...              ...           ...   
16951  Samurai Warriors: Sanada Maru      PS3           2016.0        Action   
16952               LMA Manager 2007     X360           2006.0        Sports   
16953        Haitaka no Psychedelica      PSV           2016.0     Adventure   
16954               Spirits & Spells      GBA           2003.0      Platform   
16955            Winning Post 8 2016      PSV           2016.0    Simulation   

       NA sales EU sales JP sales  Othe

In [3]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None


### Проанализировав предоставленный фрагмент данных, можно сделать следующие выводы:

<font color='#777778'>Объём данных:</font> в предоставленном датасете содержится 16956 строк и 11 столбцов. На мой взгляд, это хороший объем, который позволит провести статистический анализ и выявить некоторые закономерности. 

<font color='#777778'>Соответствие описания содержанию:</font> названия столбцов в целом соответствуют содержанию:
- Name: название игры
- Platform: платформа, на которой выпущена игра
- Year of Release: год выпуска
- Genre: жанр игры
- NA_sales: продажи в Северной Америке
- EU_sales: продажи в Европе
- JP_sales: продажи в Японии
- Other_sales: продажи в других регионах
- Critic_Score: оценка критиков
- User_Score: оценка пользователей
- Rating: возрастной рейтинг

<font color='#777778'>Пропуски:</font> в данных явно присутствуют пропуски. Особенно много их в столбцах Critic_Score, User_Score и Rating. Также вероятно наличие пропусков в столбце Year of Release, который содержит значения типа float.

<font color='#777778'>Типы данных:</font>
- Year of Release имеет тип float, что несколько не логично для года. Год должен быть целочисленным значением (int). Это может указывать на пропуски, представленные как NaN (которые приводят к типу float).
- User_Score имеет тип object, что может указывать на смешанные типы данных в столбце (например, числовые значения и строковые).

<font color='#777778'>Особенности данных и предобработка:</font>

1. Названия столбцов: названия столбцов хорошо отражают суть данных.
2. Пропуски: обработка пропусков критически важна. Необходимо решить, как их заполнить (например, средним, или медианой, или модой) или удалить строки с пропусками. 
3. Тип данных Year of Release: необходимо привести тип данных в этом столбце к целочисленному (int) после обработки пропусков.
4. Тип данных User_Score: необходимо привести тип данных в этом столбце к числу с плавающей запятой (float).
5. Дубликаты: стоит проверить данные на наличие явных и неявных дубликатов строк, которые могут исказить результаты анализа.

---

## 2.  Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [4]:
# 1. Выведем исходные названия столбцов
print("Исходные названия столбцов:")
print(df.columns)

# 2. Приведем столбцы к стилю snake_case
def to_snake_case(name):
    return name.lower().replace(' ', '_')

# 3. Применим функцию к столбцам
df.columns = [to_snake_case(col) for col in df.columns]

# 4. Выведем новые названия столбцов
print("\nОбновленные названия столбцов:")
print(df.columns)


Исходные названия столбцов:
Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Обновленные названия столбцов:
Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')


### Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

In [5]:
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce').astype('float64')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce').astype('float64')
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce').astype('float64')

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB
None


### Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.

In [6]:
param_param = pd.DataFrame({
    'Абсолютное число пропусков': df.isna().sum(),
    'Относительное число пропусков (%)': df.isna().sum() / len(df) * 100
})

print(param_param)

                 Абсолютное число пропусков  Относительное число пропусков (%)
name                                      2                           0.011795
platform                                  0                           0.000000
year_of_release                         275                           1.621845
genre                                     2                           0.011795
na_sales                                  0                           0.000000
eu_sales                                  6                           0.035386
jp_sales                                  4                           0.023590
other_sales                               0                           0.000000
critic_score                           8714                          51.391838
user_score                             9268                          54.659118
rating                                 6871                          40.522529


###### Краткий вывод:
- Как видно из выведенных данных, пропуски характерны для столбцов critic_score (8714 пропусков или 51,39%), user_score (9268 пропусков или 54,66%) и rating (6871 пропусков или 40,52%). Помимо этого, изначально было 275 пропусков в столбце year_of_release, но мы их предварительно обработали, чтобы преобразовать к нужному типу данных. В трех последних из перечисленных столбцов (critic_score, user_score, rating) количество пропусков значительно. Просто удалять их нельзя, это может серьезно сказать на качестве анализа. Стоит заменить пропуски медианным или средним значением, как и будет сделано далее.  

- Как мне кажется, пропуски могли возникнуть из-за того, что некоторые критики и пользователи не стали выставлять оценки, поскольку могли не увидеть формы для выставления оценок или не захотели этого делать. В любом случае, пропуски нужно обработать, чем мы и займемся дальше:)  

### Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.

In [7]:
df = df.fillna({'critic_score': df['critic_score'].median(), 'user_score': df['user_score'].median()})

print(df)

                                name platform  year_of_release         genre  \
0                         Wii Sports      Wii           2006.0        Sports   
1                  Super Mario Bros.      NES           1985.0      Platform   
2                     Mario Kart Wii      Wii           2008.0        Racing   
3                  Wii Sports Resort      Wii           2009.0        Sports   
4           Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing   
...                              ...      ...              ...           ...   
16951  Samurai Warriors: Sanada Maru      PS3           2016.0        Action   
16952               LMA Manager 2007     X360           2006.0        Sports   
16953        Haitaka no Psychedelica      PSV           2016.0     Adventure   
16954               Spirits & Spells      GBA           2003.0      Platform   
16955            Winning Post 8 2016      PSV           2016.0    Simulation   

       na_sales  eu_sales  jp_sales  ot

### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [8]:
# Применяем метод unique() к столбцу name
unique_genres = df['genre'].unique()
unique_genres = [genre.lower() if isinstance(genre, str) else genre for genre in unique_genres]
unique_genres_1 = df['genre'].nunique()

unique_rating = df['rating'].unique()
unique_rating_1 = df['rating'].nunique()
unique_platforms = df['platform'].unique()
unique_platforms_1 = df['platform'].nunique()
unique_year_of_release = df['year_of_release'].unique()
unique_year_of_release_1 = df['year_of_release'].nunique()

# Выводим результат
print(f'Уникальные жанры: {unique_genres}')
print(f'Число уникальных жанров: {unique_genres_1}')
print() # Пустая строка для пробела
print(f'Уникальные значения рейтинга: {unique_rating}')
print(f'Число уникальных платформ: {unique_rating_1}')
print() # Пустая строка для пробела
print(f'Уникальные платформы: {unique_platforms}')
print(f'Число уникальных платформов: {unique_platforms_1}')
print() # Пустая строка для пробела
print(f'Уникальные года выпуска: {unique_year_of_release}')
print(f'Число уникальных годов выпуска: {unique_year_of_release_1}')


Уникальные жанры: ['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc', 'shooter', 'simulation', 'action', 'fighting', 'adventure', 'strategy', nan, 'misc', 'role-playing', 'racing', 'action', 'shooter', 'fighting', 'sports', 'platform', 'adventure', 'simulation', 'puzzle', 'strategy']
Число уникальных жанров: 24

Уникальные значения рейтинга: ['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
Число уникальных платформ: 8

Уникальные платформы: ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
Число уникальных платформов: 31

Уникальные года выпуска: [2006. 1985. 2008. 2009. 1996. 1989. 1984. 2005. 1999. 2007. 2010. 2013.
 2004. 1990. 1988. 2002. 2001. 2011. 1998. 2015. 2012. 2014. 1992. 1997.
 1993. 1994. 1982. 2016. 2003. 1986. 2000.   nan 1995. 1991. 1981. 1987.
 1980. 1983.]
Число уникальных годов выпуска: 37


- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [9]:
# Определяем количество строк до удаления дубликатов
initial_row_count = len(df)
print(f'Количество строк до удаления дубликатов: {initial_row_count}')

# Находим дублирующиеся строки
duplicates = df[df.duplicated()]
print("Дублирующиеся строки:")
print(duplicates)

# Удаляем дублирующиеся строки
games_cleaned = df.drop_duplicates()

# Определяем количество строк после удаления дубликатов
final_row_count = len(games_cleaned)
print(f'Количество строк после удаления дубликатов: {final_row_count}')


Количество строк до удаления дубликатов: 16956
Дублирующиеся строки:
                                                name platform  \
268                            Batman: Arkham Asylum      PS3   
368                 James Bond 007: Agent Under Fire      PS2   
717                            God of War: Ascension      PS3   
848                  Rayman Raving Rabbids: TV Party      Wii   
963                                       Diablo III      PS4   
...                                              ...      ...   
16543             Bunmei Kaika: Aoiza Ibunroku Saien      PSP   
16671        Fullmetal Alchemist: Prince of the Dawn      Wii   
16799                            Transformers: Prime      Wii   
16912  Metal Gear Solid V: The Definitive Experience     XOne   
16940                          The Longest 5 Minutes      PSV   

       year_of_release         genre  na_sales  eu_sales  jp_sales  \
268             2009.0        Action      2.24      1.31      0.07   
368       

- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

###### Промежуточный вывод:

- Количество найденных дубликатов: в датасете было обнаружено 182 дублирующиеся строки. Их было решено удалить, так как необходимо корректно проанализировать данные. 
- Изучив для начала уникальные значения, мы посчитали общее количество строк, выявили неявные и явные дубликаты, затем удалили их. После удаления дубликатов в датасете осталось 16774 строки.

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

In [10]:
# Определяем количество строк до удаления дубликатов
initial_count = len(df)

# Удаляем дублирующиеся строки
games_cleaned = df.drop_duplicates()

# Сохраняем количество строк после удаления
games_cleaned_1 = len(games_cleaned)

# Вычисляем количество удаленных дубликатов
final_row_count = initial_count - games_cleaned_1

# Вычисляем относительное число удаленных дубликатов
relative_removed = (final_row_count/initial_count) * 100

print(f'Абсолютное количество удаленных дубликатов: {final_row_count}')
print(f'Относительное количество удаленных дубликатов: {relative_removed: .2f}')

Абсолютное количество удаленных дубликатов: 182
Относительное количество удаленных дубликатов:  1.07


###### Общий промежуточный вывод
- Привели данные к соответствующим типам и сразу заполнили пропуски в столбце year_of_release, чтобы привести его к типу int64. Пропуски в этом столбце были заполнены медианным значением.
- Обнаружили в столбцах critic_score,user_score, rating довольно большое количество пропусков, которые было решено заменить медианным значением, поскольку оно более точное и близкое к имеющимся данным.
- Выявили явные и неявные дубликаты, которых получилось 182, их было решено удалить для корректного анализа.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [11]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]

print(df_actual)

                                                   name platform  \
0                                            Wii Sports      Wii   
2                                        Mario Kart Wii      Wii   
3                                     Wii Sports Resort      Wii   
6                                 New Super Mario Bros.       DS   
7                                              Wii Play      Wii   
...                                                 ...      ...   
16947                     Men in Black II: Alien Escape       GC   
16949                Woody Woodpecker in Crazy Castle 5      GBA   
16950  SCORE International Baja 1000: The Official Game      PS2   
16952                                  LMA Manager 2007     X360   
16954                                  Spirits & Spells      GBA   

       year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0               2006.0    Sports     41.36     28.96      3.77         8.45   
2               2008.0   

---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [12]:
def categorize_score(score):
    if pd.isna(score): # Проверка на NaN или другие пропущенные значения
        return 'нет оценки'
    elif 8 <= score <= 10 or 80 <= score <= 100:
        return 'высокая оценка'
    elif 3 <= score < 8 or 30 <= score < 80:
        return 'средняя оценка'
    elif 0 <= score < 3 or 0 <= score < 30:
        return 'низкая оценка'
    else:
        return 'нет оценки'


df['critic_score'] = pd.to_numeric(df['critic_score'], errors='coerce') # Преобразуем в числа, нечисловые значения станут NaN
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

df['critic_score_category'] = df['critic_score'].apply(categorize_score)
df['user_score_category'] = df['user_score'].apply(categorize_score)

print(df_actual)

                                                   name platform  \
0                                            Wii Sports      Wii   
2                                        Mario Kart Wii      Wii   
3                                     Wii Sports Resort      Wii   
6                                 New Super Mario Bros.       DS   
7                                              Wii Play      Wii   
...                                                 ...      ...   
16947                     Men in Black II: Alien Escape       GC   
16949                Woody Woodpecker in Crazy Castle 5      GBA   
16950  SCORE International Baja 1000: The Official Game      PS2   
16952                                  LMA Manager 2007     X360   
16954                                  Spirits & Spells      GBA   

       year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0               2006.0    Sports     41.36     28.96      3.77         8.45   
2               2008.0   

- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [13]:
# Группируем данные по категориям оценок критиков и считаем количество игр
critic_score_counts = df.groupby('critic_score_category')['name'].count()

# Группируем данные по категориям оценок пользователей и считаем количество игр
user_score_counts = df.groupby('user_score_category')['name'].count()

print("Количество игр по категориям оценок критиков:")
print(critic_score_counts)
print()

print("Количество игр по категориям оценок пользователей:")
print(user_score_counts)


Количество игр по категориям оценок критиков:
critic_score_category
высокая оценка     2033
низкая оценка        62
средняя оценка    14859
Name: name, dtype: int64

Количество игр по категориям оценок пользователей:
user_score_category
высокая оценка     2610
низкая оценка       146
средняя оценка    14198
Name: name, dtype: int64


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [14]:
# Топ-7 платформ по количеству игр
top_platforms = df['platform'].value_counts().head(7).index

# Фильтрация данных по топ-7 платформам
df_top_platforms = df[df['platform'].isin(top_platforms)]

print(df_top_platforms['platform'].value_counts())

PS2     2189
DS      2177
PS3     1355
Wii     1340
X360    1281
PSP     1229
PS      1215
Name: platform, dtype: int64


---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

##### Проделанная работа:
- Названия столбцов приведены к единому формату, более удобному для восприятия;
- Типы данных приведены в соответствие с содержанием столбца;
- Пропуски в столбцах critic_score и user_score заполнены медианным значением. Пропуски в столбце rating заменены на Unkhown, поскольку содержание столбца не позволяет привести данные к числового формату;
- Дублирующиеся строки (таких было 182) удалены для корретного анализа.

###### Проанализированные данные:
- Поскольку коллеги попросили сделать анализ по современным играм, мы провели срез данных, выбрав года выпуска игры с 2000 по 2013;
- После фильтрации по годам играм были присвоены категории в зависимости от оценки пользователей и критиков: игры с низкой оценкой, средней и высокой.

###### В топ-7 платформ по количеству выпущенных игр вошли:
<font color='#777778'>Платформа:</font> PS2, DS, PS3, Wii, X360, PSP, PS.            