## Анализ выполнил:

**Мартыненко Андрей. Группа DA_125**


**Дата: 10.07.2025**

## Описание проекта

Команда игры «Секреты Темнолесья» готовит статью для известного IT-ресурса, целью которой является привлечение новой аудитории и повышение интереса к игре. В статье будет проведён обзор развития игровой индустрии в начале XXI века (2000–2013 годы) с акцентом на жанр RPG — компьютерные ролевые игры.

Исследование охватит эволюцию игровых платформ, анализ объёмов продаж игр разных жанров и региональные предпочтения игроков. Особое внимание уделяется таким значимым событиям индустрии, как появление мощных консолей (PlayStation 2, Xbox, Nintendo Wii), рост многопользовательских онлайн-игр и формирование глобальных игровых сообществ.

Для подготовки статьи команда использует исторические данные из открытых источников: продажи игр, жанры, платформы, а также пользовательские и экспертные оценки. Это позволит создать глубокий и информативный обзор, который заинтересует как поклонников классических игр, так и новых игроков.


### Задачи проекта


1. Познакомиться с исходными данными, проверить их корректность и качество (Провести исследовательский анализ данных)
2. Провести предобработку данных для получения необходимого среза (Провести предобработку по условиям).

### Условия для предобработки данных

- Отобрать игры по дате выхода: только игры, выпущенные в период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов:
  - **Высокая оценка**: 
    - пользовательская оценка от 8 до 10 (включительно),
    - экспертная оценка от 80 до 100 (включительно).
  - **Средняя оценка**:
    - пользовательская оценка от 3 до 8 (не включая 8),
    - экспертная оценка от 30 до 80 (не включая 80).
  - **Низкая оценка**:
    - пользовательская оценка от 0 до 3 (не включая 3),
    - экспертная оценка от 0 до 30 (не включая 30).
- Выделить топ-7 игровых платформ по количеству выпущенных игр за период с 2000 по 2013 год.


## Описание данных

Данные из файла /datasets/new_games.csv содержат информацию о продажах видеоигр различных жанров и платформ, а также оценки этих игр от пользователей и критиков.

| Название столбца   | Описание                                                                                          |
|--------------------|---------------------------------------------------------------------------------------------------|
| **Name**           | Название игры                                                                                     |
| **Platform**       | Название платформы (например, PS4, Xbox One, PC и др.)                                            |
| **Year of Release**| Год выпуска игры                                                                                  |
| **Genre**          | Жанр игры                                                                                         |
| **NA sales**       | Продажи в Северной Америке (в миллионах проданных копий)                                          |
| **EU sales**       | Продажи в Европе (в миллионах проданных копий)                                                    |
| **JP sales**       | Продажи в Японии (в миллионах проданных копий)                                                    |
| **Other sales**    | Продажи в других странах (в миллионах проданных копий)                                            |
| **Critic Score**   | Оценка критиков (от 0 до 100)                                                                     |
| **User Score**     | Оценка пользователей (от 0 до 10)                                                                 |
| **Rating**         | Рейтинг организации ESRB (Entertainment Software Rating Board), определяющий возрастную категорию |

### Категории рейтинга ESRB

- **RP (Rating Pending)**  
  Используется в рекламных материалах для игр, которым ещё не присвоен окончательный рейтинг ESRB. Принят в 1994 году и действует до сих пор.

- **EC (Early Childhood)**  
  Игры, ориентированные на дошкольную аудиторию. Не содержат материалов, которые родители могли бы считать неприемлемыми. Принят в 1994 году, действовал до 2018 года.

- **E (Everyone)**  
  Игры для всех возрастов. Могут содержать незначительное количество насилия и сленга. До 1998 года рейтинг назывался Kids to Adults (K-A). Принят в 1994 году и действует до сих пор.

- **E10+ (Everyone 10 and older)**  
  Игры для людей от 10 лет и старше. Могут содержать более высокий уровень насилия и грубую разговорную речь. Принят в 2005 году и действует до сих пор.

- **T (Teen)**  
  Игры для людей от 13 лет и старше. Могут содержать умеренное количество насилия, включая небольшие количества крови, грубую речь, юмор и сексуальное содержание. Принят в 1994 году и действует до сих пор.

- **M (Mature)**  
  Игры для лиц от 17 лет и старше. Могут содержать интенсивные или реалистичные изображения насилия, кровь, ужасы, увечья, непристойные сексуальные сцены, частичную наготу и грубую ненормативную лексику. Принят в 1994 году и действует до сих пор.

- **AO (Adults Only)**  
  Игры для людей от 18 лет и старше. Содержат материалы с более высоким уровнем воздействия, чем рейтинг M. Принят в 1994 году и действует до сих пор.


In [1]:
!pip install ydata-profiling
!pip install --upgrade matplotlib seaborn
!pip install --upgrade matplotlib
!pip install wordcloud
!pip install --upgrade ydata-profiling matplotlib pillow wordcloud




##  Импорт библиотек

In [2]:
import os
import pandas as pd # Для работы с DF
import numpy as np
import re
from typing import Optional, List, Tuple
from ydata_profiling import ProfileReport # профайлер для исследовательского анализа данных
import warnings
warnings.filterwarnings("ignore")


## Преднастройка pandas

In [3]:
# Установить максимальное количество выводимых строк, например, 100
pd.set_option('display.max_rows', 300)
# Проверить текущее значение
print(pd.get_option('display.max_rows'))
# Чтобы показывать все столбцы
pd.set_option('display.max_columns', None)
# Чтобы увеличить максимальную ширину столбца
pd.set_option('display.max_colwidth', None)

300


## Набор функций

### Функция для импорта файла get_file_path

In [4]:
def get_file_path(file_name='new_games.csv'):
    path = 'https://code.s3.yandex.net/datasets/'
    try:
        file_path = os.path.join(path, file_name)  # хотя os.path.join не предназначен для URL - для простоты сделаем так
        return file_path

    except Exception as e:
        print(f"Ошибка при работе с URL: {e}")
        desktop = os.path.join(os.path.expanduser('~'), 'Desktop')
        local_file_path = os.path.join(desktop, file_name)
        print(f"Загружаем локальный файл: {local_file_path}")
        return local_file_path

# Функция для преобразования данных  и фильтрации по условию задачи 2 preprocess_games_data

In [5]:
import pandas as pd
import numpy as np

def preprocess_games_data(df: pd.DataFrame) -> pd.DataFrame:
    """
    Предобрабатывает данные о видеоиграх.

    Функция выполняет следующие шаги:
    - Преобразует столбец 'User Score' в числовой тип (float), некорректные значения заменяет на NaN.
    - Преобразует столбцы с продажами ('NA sales', 'EU sales', 'JP sales', 'Other sales') в числовой тип,
      если они представлены как строки.
    - Добавляет категориальные столбцы 'User Score Category' и 'Critic Score Category',
      классифицируя оценки пользователей и критиков на "Высокая", "Средняя" и "Низкая" по заданным диапазонам.
    - Приводит все текстовые столбцы к типу category для оптимизации памяти.
    - Приводит все числовые столбцы к типу float64.

    Параметры:
    -----------
    df : pd.DataFrame
        Исходный DataFrame с данными о видеоиграх.

    Возвращает:
    -----------
    pd.DataFrame
        Предобработанный DataFrame.
    """

    # Приводим 'Year of Release' к числовому типу (float), ошибки в NaN
    if 'Year of Release' in df.columns:
        df['Year of Release'] = pd.to_numeric(df['Year of Release'], errors='coerce')

    # Преобразование User Score и Critic Score в числовой тип с заменой ошибок на NaN
    if 'User Score' in df.columns:
        df['User Score'] = pd.to_numeric(df['User Score'], errors='coerce')
        df['User Score'] = df['User Score'].fillna(-1)

    if 'Critic Score' in df.columns:
        df['Critic Score'] = pd.to_numeric(df['Critic Score'], errors='coerce')
        df['Critic Score'] = df['Critic Score'].fillna(-1)

    # Список колонок с продажами
    sales_columns = ['NA sales', 'EU sales', 'JP sales', 'Other sales']

    # Преобразуем продажи в числовой тип, если они представлены строками
    for col in sales_columns:
        if col in df.columns and df[col].dtype == object:
            df[col] = pd.to_numeric(df[col], errors='coerce')

    # Функция для категоризации User Score
    def categorize_user_score(score):
        if score == -1 or pd.isna(score):
            return "Неизвестно"
        elif score >= 7:
            return "Высокая"
        elif score >= 4:
            return "Средняя"
        else:
            return "Низкая"

    # Функция для категоризации Critic Score
    def categorize_critic_score(score):
        if score == -1 or pd.isna(score):
            return "Неизвестно"
        elif score >= 75:
            return "Высокая"
        elif score >= 50:
            return "Средняя"
        else:
            return "Низкая"

    # Добавляем категории оценок пользователей и критиков
    if 'User Score' in df.columns:
        df['User Score Category'] = df['User Score'].apply(categorize_user_score).astype('category')
    if 'Critic Score' in df.columns:
        df['Critic Score Category'] = df['Critic Score'].apply(categorize_critic_score).astype('category')

    # Приведение текстовых столбцов к типу category для оптимизации памяти
    text_columns = ['Name', 'Platform', 'Genre', 'Rating']
    for col in text_columns:
        if col in df.columns:
            df[col] = df[col].astype('category')

    # Приведение всех числовых столбцов к float64
    numeric_cols = df.select_dtypes(include=['number']).columns
    df[numeric_cols] = df[numeric_cols].astype('float64')

    return df


### Функция для заполнения пропусков fill_missing_values

In [6]:
def fill_missing_values(df: pd.DataFrame) -> pd.DataFrame:
    """
    Заполняет пропуски в DataFrame:
    - Для колонок с типом float64 заменяет пропуски на 0.
    - Для колонки 'Rating' заполняет пропуски значением 'RP'.
    - Для колонок 'User Score Category' и 'Critic Score Category' заполняет пропуски значением 0.
    
    Args:
        df (pd.DataFrame): Входной DataFrame с нужными колонками и типами.
    
    Returns:
        pd.DataFrame: DataFrame с заполненными пропусками.
    """
    # Заполняем пропуски в числовых колонках float64 нулями
    float_cols = df.select_dtypes(include=['float64']).columns
    df[float_cols] = df[float_cols].fillna(0)

    # Обрабатываем колонку 'Rating'
    if 'Rating' in df.columns:
        if pd.api.types.is_categorical_dtype(df['Rating']):
            # Добавляем категорию 'RP', если её нет
            if 'RP' not in df['Rating'].cat.categories:
                df['Rating'] = df['Rating'].cat.add_categories('RP')
        df['Rating'] = df['Rating'].fillna('RP')

    # меняем тип данных в поле Year of Release
    if 'Year of Release' in df.columns:
        df['Year of Release'] = df['Year of Release'].astype(int)

    return df


### Функция удаления явных дубликатов и отбора записей с указанными категориями оценок (для подготовки предварительного набора данных) preprocess_df


In [7]:
def preprocess_df(df: pd.DataFrame) -> pd.DataFrame:
    """
    Предобрабатывает DataFrame, удаляя явные дубликаты и строки с пропущенными значениями.

    Аргументы:
        df (pd.DataFrame): Исходный DataFrame для предобработки.

    Возвращает:
        pd.DataFrame: Обработанный DataFrame без дубликатов и пропусков.
    
    Функция также выводит в консоль количество удалённых строк на каждом этапе и итоговое количество оставшихся записей.
    """
    # Удаляем явные дубликаты
    df_clean = df.drop_duplicates()
    
    # Считаем количество удалённых строк на этом шаге
    removed_duplicates = len(df) - len(df_clean)
    
    # Удаляем строки с пропущенными значениями
    df_clean = df_clean.dropna()
    
    # Считаем количество удалённых строк с пропусками
    removed_na = len(df) - removed_duplicates - len(df_clean)
    
    # Общие удалённые строки
    total_removed = removed_duplicates + removed_na
    
    # Выводим информацию
    print(f"Количество удалённых строк (явные дубликаты): {removed_duplicates}")
    print(f"Количество удалённых строк (с пропусками): {removed_na}")
    print(f"Общее количество удалённых строк: {total_removed}")
    print(f"Количество оставшихся записей: {len(df_clean)}")
    
    return df_clean

### Функция для поиска неявных дубликатов combine_and_clean

In [8]:
def combine_and_clean(row):
    """
    Объединяет значения столбцов 'Name', 'Platform', 'Year of Release' и 'Genre' из строки DataFrame,
    очищает полученную строку: приводит к нижнему регистру, удаляет пробелы и указанные знаки препинания.
    Если значение отсутствует (NaN), заменяет на пустую строку.

    Аргументы:
        row (pd.Series): строка DataFrame с нужными столбцами.

    Возвращает:
        str: очищенная объединённая строка.
    """
    def clean_text(s):
        if pd.isna(s):
            return ''
        s = str(s).lower()
        s = re.sub(r'[\s\.\-\_\(\)\[\]\{\}\,\;\'\"]+', '', s)
        return s

    combined = f"{row.get('Name', '')}{row.get('Platform', '')}{row.get('Year of Release', '')}{row.get('Genre', '')}"
    return clean_text(combined)

## Импорт исходных данных с помощью функции для импорта файла get_file_path ( Загрузка данных и знакомство с ними)

In [9]:
df=pd.read_csv(get_file_path(),parse_dates=True)

In [10]:
df

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.0,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.0,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.0,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.00,,,


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [12]:
df.Rating.value_counts()

Rating
E       4037
T       3005
M       1587
E10+    1441
EC         8
K-A        3
RP         3
AO         1
Name: count, dtype: int64

In [13]:
df.Rating.isna().sum()

6871

In [14]:
df[df.Rating.isna()].Name.value_counts()

Name
Sonic & All-Stars Racing Transformed        7
The Amazing Spider-Man 2 (2014)             7
FIFA 12                                     7
Disney Infinity 2.0: Marvel Super Heroes    6
Avatar: The Game                            6
                                           ..
Taiko no Tatsujin: Go! Go! Godaime          1
Namco Museum Vol.4                          1
Wing Arms                                   1
Treasure Hunter G                           1
Haitaka no Psychedelica                     1
Name: count, Length: 5852, dtype: int64

Тут тоже есть дубликаты, но скорее всего рейтинг для пропусков будет RP

In [15]:
df.describe(include='all')

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
count,16954,16956,16681.0,16954,16956.0,16956.0,16956.0,16956.0,8242.0,10152,10085
unique,11559,31,,24,,308.0,245.0,,,96,8
top,Need for Speed: Most Wanted,PS2,,Action,,0.0,0.0,,,tbd,E
freq,12,2189,,3405,,5950.0,10680.0,,,2464,4037
mean,,,2006.485522,,0.262023,,,0.047087,68.926717,,
std,,,5.873102,,0.808654,,,0.185577,13.944565,,
min,,,1980.0,,0.0,,,0.0,13.0,,
25%,,,2003.0,,0.0,,,0.0,60.0,,
50%,,,2007.0,,0.08,,,0.01,71.0,,
75%,,,2010.0,,0.24,,,0.03,79.0,,


### Вывод по загрузке данных и знакомству с ними
Массив имет 16956 записей 

Данные содержат явные и неявные дубликаты. В частности, в колонке `Name`,`Platform` и, возможно, `Genre`
так как количество уникальных значений превышает 20 шт.

Требуется преобразование типов.

Требуется проверка числовых значений на смещение

Поле `Rating` содержит пропуски


Данные содержат следующие ошибки:
- Неверные типы (`Rating`, `User Score`, `EU sales`, `JP sales`)
- пропуски
- неверные форматы колонок(не соответствуют стилю snake_code)

Более подробно смотри в разделе **Расшифровка отчета профайлера**


Данные из файла /datasets/new_games.csv содержат информацию о продажах видеоигр различных жанров и платформ, а также оценки этих игр от пользователей и критиков.


Вероятно, отсутсвие рейтинга в столбце Raiting свидетельствует о том, что это категория RP

| Название столбца   | Описание                                                                                          |
|--------------------|---------------------------------------------------------------------------------------------------|
| **Name**           | Название игры                                                                                     |
| **Platform**       | Название платформы (например, PS4, Xbox One, PC и др.)                                            |
| **Year of Release**| Год выпуска игры                                                                                  |
| **Genre**          | Жанр игры                                                                                         |
| **NA sales**       | Продажи в Северной Америке (в миллионах проданных копий)                                          |
| **EU sales**       | Продажи в Европе (в миллионах проданных копий)                                                    |
| **JP sales**       | Продажи в Японии (в миллионах проданных копий)                                                    |
| **Other sales**    | Продажи в других странах (в миллионах проданных копий)                                            |
| **Critic Score**   | Оценка критиков (от 0 до 100)                                                                     |
| **User Score**     | Оценка пользователей (от 0 до 10)                                                                 |
| **Rating**         | Рейтинг организации ESRB (Entertainment Software Rating Board), определяющий возрастную категорию |

### Категории рейтинга ESRB

- **RP (Rating Pending)**  
  Используется в рекламных материалах для игр, которым ещё не присвоен окончательный рейтинг ESRB. Принят в 1994 году и действует до сих пор.

- **EC (Early Childhood)**  
  Игры, ориентированные на дошкольную аудиторию. Не содержат материалов, которые родители могли бы считать неприемлемыми. Принят в 1994 году, действовал до 2018 года.

- **E (Everyone)**  
  Игры для всех возрастов. Могут содержать незначительное количество насилия и сленга. До 1998 года рейтинг назывался Kids to Adults (K-A). Принят в 1994 году и действует до сих пор.

- **E10+ (Everyone 10 and older)**  
  Игры для людей от 10 лет и старше. Могут содержать более высокий уровень насилия и грубую разговорную речь. Принят в 2005 году и действует до сих пор.

- **T (Teen)**  
  Игры для людей от 13 лет и старше. Могут содержать умеренное количество насилия, включая небольшие количества крови, грубую речь, юмор и сексуальное содержание. Принят в 1994 году и действует до сих пор.

- **M (Mature)**  
  Игры для лиц от 17 лет и старше. Могут содержать интенсивные или реалистичные изображения насилия, кровь, ужасы, увечья, непристойные сексуальные сцены, частичную наготу и грубую ненормативную лексику. Принят в 1994 году и действует до сих пор.

- **AO (Adults Only)**  
  Игры для людей от 18 лет и старше. Содержат материалы с более высоким уровнем воздействия, чем рейтинг M. Принят в 1994 году и действует до сих пор.



## Задача 1 Первичный анализ данных

### Применим ydata_profiling для уменьшения трудозатрат на ручное исследование

In [16]:
profile = ProfileReport(df, title="Отчет по данным", explorative=True)

# Сохраняем отчет в HTML-файл

#profile.to_file(r"C:\Users\Andrei\Desktop\report.html")

# Или отображаем в Jupyter Notebook
profile.to_notebook_iframe()


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


  0%|          | 0/11 [00:00<?, ?it/s][A
100%|██████████| 11/11 [00:00<00:00, 15.44it/s][A


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

### Расшифровка отчета профайлера  

#### Общая информация

| Показатель                | Значение       |
|--------------------------|----------------|
| Количество переменных    | 11             |
| Количество наблюдений    | 16,956         |
| Пропущенные значения     | 22,668 (12.2%) |
| Дубликаты строк          | 182 (1.1%)     |
| Общий размер в памяти    | 6.5 МБ         |
| Средний размер записи    | 404.8 байт     |

---

#### Типы переменных

| Тип переменной | Количество |
|----------------|------------|
| Текстовые      | 4          |
| Категориальные | 3          |
| Числовые       | 4          |

---

#### Описание переменных

##### Name (Текст)  
- Уникальных значений: 11,559 (68.2%)  
- Пропущено: 2 (<0.1%)  
- Размер в памяти: 1.2 МБ  

##### Platform (Категориальная)  
- Высокая корреляция с другими признаками  
- Уникальных значений: 31 (0.2%)  
- Пропущено: 0  
- Размер в памяти: 857.4 КБ  
- Частотные значения: PS2 (2,189), DS (2,177), PS3 (1,355), Wii (1,340), X360 (1,281), остальные (8,614)  

##### Year of Release (Числовая)  
- Высокая корреляция, есть пропуски  
- Уникальных значений: 37 (0.2%)  
- Пропущено: 275 (1.6%)  
- Среднее: 2006.49  
- Мин/Макс: 1980 / 2016  
- Размер в памяти: 132.6 КБ  

##### Genre (Категориальная)  
- Уникальных значений: 24 (0.1%)  
- Пропущено: 2 (<0.1%)  
- Размер в памяти: 929.7 КБ  
- Частотные значения: Action (3,405), Sports (2,367), Misc (1,769), Role-Playing (1,510), Shooter (1,341), остальные (6,562)  

##### NA sales (Числовая)  
- Высокая корреляция, присутствуют нули  
- Уникальных значений: 402 (2.4%)  
- Пропущено: 0  
- Среднее: 0.262  
- Мин/Макс: 0 / 41.36  
- Нулевые значения: 4,574 (27.0%)  
- Размер в памяти: 132.6 КБ  

##### EU sales (Текст)  
- Уникальных значений: 308 (1.8%)  
- Пропущено: 0  
- Размер в памяти: 871.4 КБ  

##### JP sales (Текст)  
- Уникальных значений: 245 (1.4%)  
- Пропущено: 0  
- Размер в памяти: 867.0 КБ  

##### Other sales (Числовая)  
- Высокая корреляция, сильная асимметрия, присутствуют нули  
- Уникальных значений: 155 (0.9%)  
- Пропущено: 0  
- Среднее: 0.047  
- Мин/Макс: 0 / 10.57  
- Нулевые значения: 6,701 (39.5%)  
- Размер в памяти: 132.6 КБ  

##### Critic Score (Числовая)  
- Пропуски есть  
- Уникальных значений: 82 (1.0%)  
- Пропущено: 8,714 (51.4%)  
- Среднее: 68.93  
- Мин/Макс: 13 / 98  
- Размер в памяти: 132.6 КБ  

##### User Score (Текст)  
- Пропуски есть  
- Уникальных значений: 96 (0.9%)  
- Пропущено: 6,804 (40.1%)  
- Размер в памяти: 726.5 КБ  

##### Rating (Категориальная)  
- Пропуски есть  
- Уникальных значений: 8 (0.1%)  
- Пропущено: 6,871 (40.5%)  
- Размер в памяти: 872.6 КБ  

---


### Интерпретация предупреждений (Alerts) и выводы по результатам первичного исследования данных

| Предупреждение                                                  | Категория       | Интерпретация                                                                                                      |
|----------------------------------------------------------------|-----------------|-------------------------------------------------------------------------------------------------------------------|
| Dataset has 182 (1.1%) duplicate rows                          | Дубликаты       | В данных присутствуют 182 полностью совпадающих строки (1.1% от всего датасета), что может исказить анализ.       |
| NA sales is highly overall correlated with Other sales        | Высокая корреляция | Продажи в Северной Америке сильно коррелируют с продажами в других регионах, возможна избыточность признаков.     |
| Other sales is highly overall correlated with NA sales        | Высокая корреляция | Подтверждается высокая взаимосвязь между продажами в Северной Америке и других регионах.                          |
| Platform is highly overall correlated with Year of Release    | Высокая корреляция | Платформа игры тесно связана с годом выпуска, например, определённые платформы появляются только в конкретные годы.|
| Year of Release is highly overall correlated with Platform     | Высокая корреляция | Аналогично, год выпуска связан с платформой.                                                                      |
| Year of Release has 275 (1.6%) missing values                  | Отсутствующие значения | В 1.6% записей отсутствует информация о годе выпуска, что требует обработки пропусков.                            |
| Critic Score has 8714 (51.4%) missing values                   | Отсутствующие значения | Более половины данных по оценкам критиков отсутствуют, что существенно влияет на анализ.                          |
| User Score has 6804 (40.1%) missing values                     | Отсутствующие значения | Оценки пользователей отсутствуют в 40.1% случаев, что также важно учитывать.                                      |
| Rating has 6871 (40.5%) missing values                         | Отсутствующие значения | Рейтинги отсутствуют в 40.5% записей, что может осложнить анализ возрастных ограничений и других факторов.       |
| Other sales is highly skewed (γ1 = 24.69595666)                | Сильная асимметрия | Распределение продаж в других регионах сильно скошено вправо, большинство игр имеют низкие продажи, несколько — очень высокие. |
| NA sales has 4574 (27.0%) zeros                                | Нулевые значения | В данных по продажам в Северной Америке около 27% значений равны нулю, что может означать отсутствие продаж.      |
| Other sales has 6701 (39.5%) zeros                             | Нулевые значения | Почти 40% игр показывают нулевые продажи в других регионах, что важно учитывать при анализе.                      |

### Интерпретация корреляционной матрицы 

| Пара переменных               | Коэффициент корреляции | Интерпретация                                                                                                         |
|------------------------------|-----------------------|----------------------------------------------------------------------------------------------------------------------|
| **Critic Score – NA sales**       | 0.315                 | Умеренная положительная связь: игры с более высокими оценками критиков, как правило, имеют лучшие продажи в Северной Америке. |
| **Critic Score – Other sales**    | 0.335                 | Аналогично, умеренная положительная связь с продажами в прочих регионах.                                              |
| **Critic Score – Genre**           | 0.064                 | Очень слабая положительная связь, практически отсутствует значимая зависимость между жанром и оценками критиков.       |
| **Critic Score – Platform**        | 0.091                 | Слабая положительная связь, платформа слабо влияет на оценки критиков.                                               |
| **Critic Score – Rating**          | 0.064                 | Очень слабая положительная связь между рейтингом игры и оценками критиков.                                           |
| **Critic Score – Year of Release** | 0.010                 | Практически отсутствует связь, год выпуска не влияет на оценки критиков.                                             |
| **Genre – Platform**               | 0.120                 | Слабая положительная связь: определённые жанры чаще выходят на определённых платформах.                               |
| **Genre – Rating**                 | 0.271                 | Умеренная положительная связь: жанр влияет на рейтинг игры (например, некоторые жанры могут иметь более строгие возрастные ограничения). |
| **Genre – Year of Release**        | 0.110                 | Слабая положительная связь, жанры меняются со временем, но незначительно.                                           |
| **Genre – NA sales**               | 0.011                 | Почти отсутствует связь между жанром и продажами в Северной Америке.                                                |
| **Genre – Other sales**            | 0.000                 | Нет связи между жанром и продажами в прочих регионах.                                                               |
| **NA sales – Other sales**         | 0.777                 | Очень высокая положительная корреляция: продажи в Северной Америке и других регионах сильно связаны — успешные игры продаются хорошо в нескольких регионах одновременно. |
| **NA sales – Platform**             | 0.068                 | Слабая положительная связь, платформа почти не влияет на продажи в Северной Америке.                                |
| **NA sales – Rating**               | 0.037                 | Практически отсутствует связь между рейтингом и продажами в Северной Америке.                                       |
| **NA sales – Year of Release**      | -0.138                | Слабая отрицательная связь: более новые игры имеют тенденцию к меньшим продажам в Северной Америке (возможно из-за конкуренции или насыщения рынка). |
| **Other sales – Platform**          | 0.000                 | Нет связи между платформой и продажами в прочих регионах.                                                          |
| **Other sales – Rating**            | 0.020                 | Практически отсутствует связь между рейтингом и продажами в прочих регионах.                                        |
| **Other sales – Year of Release**   | 0.047                 | Очень слабая положительная связь между годом выпуска и продажами в прочих регионах.                                 |
| **Platform – Year of Release**      | 0.661                 | Высокая положительная корреляция: платформы связаны с временем выпуска — новые платформы появляются позже и соответствуют более поздним годам выпуска игр. |
| **Platform – Rating**               | 0.189                 | Слабая положительная связь: платформа может влиять на рейтинг игры (например, из-за аудитории или ограничений).     |
| **Rating – Year of Release**        | 0.136                 | Слабая положительная связь: со временем рейтинги игр немного менялись (например, ужесточение возрастных ограничений). |

---

### Общие выводы по результатам первичного анализа данных

- Самые сильные связи наблюдаются между продажами в разных регионах (NA sales и Other sales) и между платформой и годом выпуска.
- Оценки критиков умеренно связаны с продажами, что подтверждает влияние качества игры на коммерческий успех.
- Влияние жанра и рейтинга на продажи и оценки критиков достаточно слабое или умеренное.
- Год выпуска игры имеет слабую или отсутствующую связь с большинством переменных, кроме платформы.
- Данные содержат умеренное количество пропусков (~12%), особенно много пропусков в оценках критиков и пользователей, а также в рейтингах — требуется обработка пропусков перед анализом или моделированием.
- Наличие дубликатов (1.1%) стоит учесть — возможно их стоит удалить для повышения качества.
- Высокая корреляция между некоторыми признаками (например, Platform и Year of Release) может повлиять на модели — рекомендуется проверить мультиколлинеарность.
- Значительная доля нулевых значений в продажах по регионам требует дополнительного анализа и возможной трансформации данных.

### План  по дальнейшим действиям с датасетом
- Создать уникальное категориальное поле для отсева неявных дубликатов
- Подумать над изменением типов данных.
- Удалить или обработать дубликаты для повышения качества данных.  
- Учитывать высокую корреляцию между признаками.  
- Обработать пропуски — заполнить, удалить или использовать специальные методы.  
- Рассмотреть преобразования для сильно скошенных данных (например, логарифмирование).  
- Проанализировать причины нулевых значений в продажах и принять решение о их учёте.

## Задача 2 Предобработка данных по условию

**Условия для предобработки данных**

- Отобрать игры по дате выхода: только игры, выпущенные в период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов:
  - **Высокая оценка**: 
    - пользовательская оценка от 8 до 10 (включительно),
    - экспертная оценка от 80 до 100 (включительно).
  - **Средняя оценка**:
    - пользовательская оценка от 3 до 8 (не включая 8),
    - экспертная оценка от 30 до 80 (не включая 80).
  - **Низкая оценка**:
    - пользовательская оценка от 0 до 3 (не включая 3),
    - экспертная оценка от 0 до 30 (не включая 30).
- Выделить топ-7 игровых платформ по количеству выпущенных игр за период с 2000 по 2013 год.

Реализуем данные требования ввиде функции фильтрации preprocess_games_data см. список функций

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [18]:
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


### Применение  Функции для преобразования данных  и фильтрации по условию задачи 2 preprocess_games_data

In [19]:
df_filtered=preprocess_games_data(df)

Сравним до выборки по условию задачи и после. В функции преобразования также заменил типы данных

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16681 non-null  float64 
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16950 non-null  float64 
 6   JP sales               16952 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 10085 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(7)
memory usage: 1.4 MB


In [21]:
df_filtered.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16681 non-null  float64 
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16950 non-null  float64 
 6   JP sales               16952 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 10085 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(7)
memory usage: 1.4 MB


Теперь для значений формата float заменяем пропуски на нулевые значения,  а для  Rating, User Score Category, Critic Score Category  заполняем заглушкой 'не указано'

### Применение Функции для заполнения пропусков fill_missing_values

In [22]:
df_preprocess_filled=fill_missing_values(df_filtered)

Проверяем с помощью метода .info(), что функция отработала корректно

In [23]:
df_preprocess_filled.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16956 non-null  int64   
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16956 non-null  float64 
 6   JP sales               16956 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 16956 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.4 MB


In [24]:
df_preprocess_filled.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating,User Score Category,Critic Score Category
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая,Высокая
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,RP,Неизвестно,Неизвестно
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая,Высокая
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая,Высокая
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1.0,-1.0,RP,Неизвестно,Неизвестно


In [25]:
df_preprocess_filled.tail()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating,User Score Category,Critic Score Category
16951,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.0,0.0,0.01,0.0,-1.0,-1.0,RP,Неизвестно,Неизвестно
16952,LMA Manager 2007,X360,2006,Sports,0.0,0.01,0.0,0.0,-1.0,-1.0,RP,Неизвестно,Неизвестно
16953,Haitaka no Psychedelica,PSV,2016,Adventure,0.0,0.0,0.01,0.0,-1.0,-1.0,RP,Неизвестно,Неизвестно
16954,Spirits & Spells,GBA,2003,Platform,0.01,0.0,0.0,0.0,-1.0,-1.0,RP,Неизвестно,Неизвестно
16955,Winning Post 8 2016,PSV,2016,Simulation,0.0,0.0,0.01,0.0,-1.0,-1.0,RP,Неизвестно,Неизвестно


In [26]:
df_preprocess_filled.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating,User Score Category,Critic Score Category
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая,Высокая
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,RP,Неизвестно,Неизвестно
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая,Высокая
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая,Высокая
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,-1.0,-1.0,RP,Неизвестно,Неизвестно


Получилось красиво, правда. Но это еще не конец, теперь нам надо избавиться от дубликатов и проверить количество записей при условии, что мы будем учитывать только категории, в столбцах которых  User Score Category и Critic Score Category отличаются от 'не указано'. Воспользуемся Функцией удаления явных дубликатов и отбора записей с указанными категориями оценок (для подготовки предварительного набора данных)

In [27]:
df_preprocess_filled.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16956 non-null  int64   
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16956 non-null  float64 
 6   JP sales               16956 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 16956 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.4 MB


In [28]:
df_pre_final= preprocess_df(df_preprocess_filled)

Количество удалённых строк (явные дубликаты): 182
Количество удалённых строк (с пропусками): 2
Общее количество удалённых строк: 184
Количество оставшихся записей: 16772


In [29]:
df_pre_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16772 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16772 non-null  category
 1   Platform               16772 non-null  category
 2   Year of Release        16772 non-null  int64   
 3   Genre                  16772 non-null  category
 4   NA sales               16772 non-null  float64 
 5   EU sales               16772 non-null  float64 
 6   JP sales               16772 non-null  float64 
 7   Other sales            16772 non-null  float64 
 8   Critic Score           16772 non-null  float64 
 9   User Score             16772 non-null  float64 
 10  Rating                 16772 non-null  category
 11  User Score Category    16772 non-null  category
 12  Critic Score Category  16772 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.5 MB


### Применение Функции для поиска неявных дубликатов combine_and_clean

Теперь перейдем к более сложным — неявным дубликатам в категориальных переменных. Решим эту задачу следующим образом: создадим синтетическое поле, представляющее собой сумму стандартизированных категориальных признаков.  Добавляем новый столбец с объединенными и очищенными данными df_final['combined_cleaned'] с помощью Функции для поиска неявных дубликатов

In [30]:
df_final=df_pre_final.copy()

In [31]:
df_final['combined_cleaned'] = df_final.apply(combine_and_clean, axis=1)

Собственно, чутье не подвело и дубликаты таки есть

In [32]:
df_final['combined_cleaned'].value_counts()

combined_cleaned
crackdown2x3602010shooter                           2
legacyofkain:defiancexb2003action                   2
thelegendofspyro:theeternalnightwii2007platform     2
captainmorganeandthegoldenturtleps32012adventure    2
sanfranciscorush:extremeracingn641997racing         2
                                                   ..
deadoralive5x3602012fighting                        1
naruto:ultimateninjajpsalesps22003fighting          1
finalfantasyxips20roleplaying                       1
dragonballheroes:ultimatemission23ds2014strategy    1
winningpost82016psv2016simulation                   1
Name: count, Length: 16712, dtype: int64

In [33]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16772 entries, 0 to 16955
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16772 non-null  category
 1   Platform               16772 non-null  category
 2   Year of Release        16772 non-null  int64   
 3   Genre                  16772 non-null  category
 4   NA sales               16772 non-null  float64 
 5   EU sales               16772 non-null  float64 
 6   JP sales               16772 non-null  float64 
 7   Other sales            16772 non-null  float64 
 8   Critic Score           16772 non-null  float64 
 9   User Score             16772 non-null  float64 
 10  Rating                 16772 non-null  category
 11  User Score Category    16772 non-null  category
 12  Critic Score Category  16772 non-null  category
 13  combined_cleaned       16772 non-null  object  
dtypes: category(6), float64(6), int64(1), objec

### Удаление неявных дубликатов

Дропаем дубликаты

In [34]:
# Считаем количество строк до удаления дубликатов
before_count = len(df_final)

# Удаляем дубликаты по столбцу 'combined_cleaned'
df_final = df_final.drop_duplicates(subset=['combined_cleaned'], keep='first').reset_index(drop=True)

# Считаем количество строк после удаления дубликатов
after_count = len(df_final)

# Выводим количество удалённых строк
print(f"Удалено дубликатов по столбцу 'combined_cleaned': {before_count - after_count}")


Удалено дубликатов по столбцу 'combined_cleaned': 60


In [35]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16712 entries, 0 to 16711
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16712 non-null  category
 1   Platform               16712 non-null  category
 2   Year of Release        16712 non-null  int64   
 3   Genre                  16712 non-null  category
 4   NA sales               16712 non-null  float64 
 5   EU sales               16712 non-null  float64 
 6   JP sales               16712 non-null  float64 
 7   Other sales            16712 non-null  float64 
 8   Critic Score           16712 non-null  float64 
 9   User Score             16712 non-null  float64 
 10  Rating                 16712 non-null  category
 11  User Score Category    16712 non-null  category
 12  Critic Score Category  16712 non-null  category
 13  combined_cleaned       16712 non-null  object  
dtypes: category(6), float64(6), int64(1), 

### Массив для составления топа df_final

Таким образом мы подготовили массив для составления нашего топа по играм. Напомню условия, которые мы выполнили на этапе фильтрации

- Отобрать игры по дате выхода: только игры, выпущенные в период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов:
  - **Высокая оценка**: 
    - пользовательская оценка от 8 до 10 (включительно),
    - экспертная оценка от 80 до 100 (включительно).
  - **Средняя оценка**:
    - пользовательская оценка от 3 до 8 (не включая 8),
    - экспертная оценка от 30 до 80 (не включая 80).
  - **Низкая оценка**:
    - пользовательская оценка от 0 до 3 (не включая 3),
    - экспертная оценка от 0 до 30 (не включая 30).
 
Мы исключили случаи для неуказанных категорий с помощью Функции удаления явных дубликатов и отбора записей с указанными категориями оценок (для подготовки предварительного набора данных)
 
Преступим к последнему пункту
- Выделить топ-7 игровых платформ по количеству выпущенных игр за период с 2000 по 2013 год.

In [36]:
df_final

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating,User Score Category,Critic Score Category,combined_cleaned
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая,Высокая,wiisportswii2006sports
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,RP,Неизвестно,Неизвестно,supermariobrosnes1985platform
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая,Высокая,mariokartwiiwii2008racing
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая,Высокая,wiisportsresortwii2009sports
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,pokemonred/pokemonbluegb1996roleplaying
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16707,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.01,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,samuraiwarriors:sanadamarups32016action
16708,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,lmamanager2007x3602006sports
16709,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,haitakanopsychedelicapsv2016adventure
16710,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,spirits&spellsgba2003platform


### Группирока для Топ-7  с фильтрацией по периоду

In [37]:
# Фильтруем данные по году выпуска от 2000 до 2013 включительно
df_actual = df_final[(df_final['Year of Release'] >= 2000) & (df_final['Year of Release'] <= 2013)]

# Группируем по платформе и считаем количество игр через agg
platform_group = df_actual.groupby('Platform').agg(Number_of_Games=('Name', 'count'))

# Сортируем по убыванию и выбираем топ-7
top_7_platforms_df = platform_group.sort_values(by='Number_of_Games', ascending=False).head(7).reset_index()

# Переименовываем столбцы
top_7_platforms_df.columns = ['Платформа', 'Количество игр']


### Топ-7 игровых платформ по количеству выпущенных игр за период с 2000 по 2013 год

In [38]:
top_7_platforms_df

Unnamed: 0,Платформа,Количество игр
0,PS2,2127
1,DS,2120
2,Wii,1275
3,PSP,1180
4,X360,1121
5,PS3,1086
6,GBA,811


In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16956 non-null  int64   
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16956 non-null  float64 
 6   JP sales               16956 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 16956 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.4 MB


In [40]:
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12780 entries, 0 to 16710
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   12780 non-null  category
 1   Platform               12780 non-null  category
 2   Year of Release        12780 non-null  int64   
 3   Genre                  12780 non-null  category
 4   NA sales               12780 non-null  float64 
 5   EU sales               12780 non-null  float64 
 6   JP sales               12780 non-null  float64 
 7   Other sales            12780 non-null  float64 
 8   Critic Score           12780 non-null  float64 
 9   User Score             12780 non-null  float64 
 10  Rating                 12780 non-null  category
 11  User Score Category    12780 non-null  category
 12  Critic Score Category  12780 non-null  category
 13  combined_cleaned       12780 non-null  object  
dtypes: category(6), float64(6), int64(1), objec

Раскомитить ниже при необходимости отчет по очищенным данным. 

In [41]:
# Создаем отчет по очищенным данным
#profile_clean = ProfileReport(df_final, title="Отчет по очищенным данным", explorative=True)

# Сохраняем отчет в HTML-файл
#profile_clean.to_file(r"C:\Users\Andrei\Desktop\report_clean.html")

# Или отображаем отчет в Jupyter Notebook
#profile_clean.to_notebook_iframe()


## Итоговый вывод и ответы на вопросы

- По результатам исследования данных (ИАД) было установлено, что данные содержат в себе явные 151 и неявные дубликаты 25 шт.
- Данные требуют замены типов, содержат нулевые значения, имеют смещение и неверные типы.
- Рекомендуется также заменить пробелы в названиях колонок на _ и привести их к строковым значениям
- После очистки и некоторых улучшений данные будут пригодны для построения модели предсказания рейтинга.

### Инфо исходного массива

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16956 non-null  int64   
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16956 non-null  float64 
 6   JP sales               16956 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 16956 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.4 MB


### Инфо массива после очистки и предобработки для ответа на вопрос заказчика

In [43]:
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12780 entries, 0 to 16710
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   12780 non-null  category
 1   Platform               12780 non-null  category
 2   Year of Release        12780 non-null  int64   
 3   Genre                  12780 non-null  category
 4   NA sales               12780 non-null  float64 
 5   EU sales               12780 non-null  float64 
 6   JP sales               12780 non-null  float64 
 7   Other sales            12780 non-null  float64 
 8   Critic Score           12780 non-null  float64 
 9   User Score             12780 non-null  float64 
 10  Rating                 12780 non-null  category
 11  User Score Category    12780 non-null  category
 12  Critic Score Category  12780 non-null  category
 13  combined_cleaned       12780 non-null  object  
dtypes: category(6), float64(6), int64(1), objec

In [44]:
df_actual.Rating.value_counts()

Rating
RP      4059
E       3661
T       2588
M       1256
E10+    1207
EC         8
AO         1
K-A        0
Name: count, dtype: int64

In [45]:
# Количество записей до обработки
before_count = len(df)
print(f"Количество записей до обработки: {before_count}")

# Количество записей после обработки
after_count = len(df_actual)

print(f"Количество записей после обработки: {after_count}")
print(f"Доля в остатке: {after_count/before_count}")

Количество записей до обработки: 16956
Количество записей после обработки: 12780
Доля в остатке: 0.7537154989384289


In [46]:
df_actual.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating',
       'User Score Category', 'Critic Score Category', 'combined_cleaned'],
      dtype='object')

Переименуем колонки финального массива df_actual в snake_case

In [47]:
def to_snake_case(name: str) -> str:
    name = name.strip()
    # заменяем пробелы и дефисы на нижнее подчеркивание
    name = re.sub(r'[\s\-]+', '_', name)
    # переводим в нижний регистр
    name = name.lower()
    return name

df_actual.columns = [to_snake_case(col) for col in df_final.columns]

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Name                   16954 non-null  category
 1   Platform               16956 non-null  category
 2   Year of Release        16956 non-null  int64   
 3   Genre                  16954 non-null  category
 4   NA sales               16956 non-null  float64 
 5   EU sales               16956 non-null  float64 
 6   JP sales               16956 non-null  float64 
 7   Other sales            16956 non-null  float64 
 8   Critic Score           16956 non-null  float64 
 9   User Score             16956 non-null  float64 
 10  Rating                 16956 non-null  category
 11  User Score Category    16956 non-null  category
 12  Critic Score Category  16956 non-null  category
dtypes: category(6), float64(6), int64(1)
memory usage: 1.4 MB


In [49]:
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12780 entries, 0 to 16710
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   name                   12780 non-null  category
 1   platform               12780 non-null  category
 2   year_of_release        12780 non-null  int64   
 3   genre                  12780 non-null  category
 4   na_sales               12780 non-null  float64 
 5   eu_sales               12780 non-null  float64 
 6   jp_sales               12780 non-null  float64 
 7   other_sales            12780 non-null  float64 
 8   critic_score           12780 non-null  float64 
 9   user_score             12780 non-null  float64 
 10  rating                 12780 non-null  category
 11  user_score_category    12780 non-null  category
 12  critic_score_category  12780 non-null  category
 13  combined_cleaned       12780 non-null  object  
dtypes: category(6), float64(6), int64(1), objec

In [50]:
print(round(df_actual.shape[0] / df.shape[0], 2))


0.75


In [51]:
df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category,combined_cleaned
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая,Высокая,wiisportswii2006sports
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая,Высокая,mariokartwiiwii2008racing
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая,Высокая,wiisportsresortwii2009sports
6,New Super Mario Bros.,DS,2006,Platform,11.28,9.14,6.50,2.88,89.0,8.5,E,Высокая,Высокая,newsupermariobrosds2006platform
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя,Средняя,wiiplaywii2006misc
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16703,Men in Black II: Alien Escape,GC,2003,Shooter,0.01,0.00,0.00,0.00,-1.0,-1.0,T,Неизвестно,Неизвестно,meninblackii:alienescapegc2003shooter
16705,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,0.01,0.00,0.00,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,woodywoodpeckerincrazycastle5gba2002platform
16706,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,0.00,0.00,0.00,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,scoreinternationalbaja1000:theofficialgameps22008racing
16708,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,-1.0,-1.0,RP,Неизвестно,Неизвестно,lmamanager2007x3602006sports


In [52]:
df_actual['user_score_category'].value_counts()

user_score_category
Неизвестно    6298
Высокая       4272
Средняя       1941
Низкая         269
Name: count, dtype: int64

In [53]:
df_actual['critic_score_category'].value_counts()

critic_score_category
Неизвестно    5612
Средняя       3726
Высокая       2705
Низкая         737
Name: count, dtype: int64

# Топ-7 платформ по количеству игр

In [54]:
# Группировка по платформам и подсчет количества игр с известным user_score
full_crit_and_user = df_actual.groupby('platform').size().sort_values(ascending=False).head(7)

print("Топ-7 платформ по количеству игр :")
full_crit_and_user

Топ-7 платформ по количеству игр :


platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1086
GBA      811
dtype: int64

### Топ-7 платформ по количеству игр с известным user score

In [55]:
# Фильтрация для user_score (исключаем 'Неизвестно')
df_user_known = df_actual[df_actual['user_score_category'] != 'Неизвестно']

# Группировка по платформам и подсчет количества игр с известным user_score
user_score_counts = df_user_known.groupby('platform').size().sort_values(ascending=False).head(7)

print("Топ-7 платформ по количеству игр с известным user score:")
user_score_counts



Топ-7 платформ по количеству игр с известным user score:


platform
PS2     1220
X360     862
PS3      762
PC       612
XB       571
Wii      546
DS       512
dtype: int64

### Топ-7 платформ по количеству игр с известным critic score

In [56]:
# Фильтрация для critic_score (исключаем 'Неизвестно')
df_critic_known = df_actual[df_actual['critic_score_category'] != 'Неизвестно']

# Группировка по платформам и подсчет количества игр с известным critic_score
critic_score_counts = df_critic_known.groupby('platform').size().sort_values(ascending=False).head(7)

print("\nТоп-7 платформ по количеству игр с известным critic score:")
print(critic_score_counts)



Топ-7 платформ по количеству игр с известным critic score:
platform
PS2     1275
X360     868
PS3      767
DS       708
XB       706
PC       571
Wii      568
dtype: int64



### Ответ на итоговый вопрос заказчика
Данных пригодных для анализа

Количество записей до обработки: 16956


Количество записей после обработки: 12780


Доля в остатке записей от исходного массива: 0.75




**Теперь для значений формата float заменяем пропуски на нулевые значения, а для Rating, User Score Category, Critic Score Category заполняем заглушкой 'не указано'**



**Топ-7 игровых платформ по количеству выпущенных игр за период с 2000 по 2013 год с учетом неуказанных значений user_score и :**


| Платформа | Количество игр |
|-----------|----------------|
| PS2       | 2127           |
| DS        | 2120           |
| Wii       | 1275           |
| PSP       | 1180           |
| X360      | 1121           |
| PS3       | 1086           |
| GBA       | 811            |






**Топ-7 платформ по количеству игр с известным user score:**

| Платформа | Количество игр |
|-----------|----------------|
| PS2       | 1220           |
| X360      | 862            |
| PS3       | 762            |
| PC        | 612            |
| XB        | 571            |
| Wii       | 546            |
| DS        | 512            |

---

**Топ-7 платформ по количеству игр с известным critic score:**

| Платформа | Количество игр |
|-----------|----------------|
| PS2       | 1275           |
| X360      | 868            |
| PS3       | 767            |
| DS        | 708            |
| XB        | 706            |
| PC        | 571            |
| Wii       | 568            |
