# Анализ и предобработка данных о видеоиграх для последующего использования в исследовании

- Автор:Мусабаева Алеся Талгатовна
- Дата: 22.11.2024

### Цели и задачи проекта

<font color='#7030a0'>Анализировать и подготовить данные игрового рынка для последующего использования в исследовательских или бизнес-задачах, обеспечивая корректность и удобство их анализа.</font>

### Описание данных

<font color='#7030a0'>В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:
- `Name`  —  Название игры;  
- `Platform` —  Платформа, на которой выпущена игра (например, Wii, NES, GB и т. д.);
- `Year of Release` — Год выпуска игры;
- `Genre` — Жанр игры (например, Sports, Platform, Racing, Role-Playing и т. д.);
- `NA sales` —  Продажи в Северной Америке (в миллионах единиц);    
- `EU sales` — Продажи в Европе (в миллионах единиц);
- `JP sales` — Продажи в Японии (в миллионах единиц);
- `Other sales`  —  Продажи в других регионах (в миллионах единиц);
- `Critic Score` —  Оценка критиков (по 100-балльной шкале);
- `User Score`  — Оценка пользователей (по 10-балльной шкале);
- `Rating` —  Возрастной рейтинг игры (например, E — для всех, T — для подростков).  
</font>    

### Содержимое проекта
<font color='#7030a0'> Основные шаги проекта: 
- Загрузка и знакомство с данными.
- Проверка ошибок в данных и их предоработка.
- Фильтрация данных.
- Категоризация данных.    
</font>   

## 1. Загрузка и знакомство с данными

1. Загрузите необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.
2. Познакомьтесь с данными: выведите первые строки и результат метода `.info()`.
3. Сделайте вывод о полученных данных: данные какого объёма вам предоставили, соответствуют ли они описанию, встречаются ли в них пропуски, используются ли верные типы данных.
4. Отметьте другие особенности данных, которые вы обнаружили и на которые стоит обратить внимание при предобработке. Например, вы можете проверить названия столбцов: все ли названия отражают содержимое данных и прописаны в удобном для работы виде.

In [1]:
#Подключаем библиотеку pandas
import pandas as pd
            

In [2]:
#Загружаем данные в датафрейм
df=pd.read_csv('/datasets/new_games.csv')

In [3]:
#Выводим первые строки
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


<font color='#7030a0'> Промежуточные выводы:
   - Пропущенные значения: В некоторых записях значения в столбцах Critic Score, User Score, и Rating отсутствуют (NaN).
   - Проведем дополнительный анализ, чтобы увидеть полную картину.
    </font>

In [4]:
#Отображаем общую информацию  
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


<font color='#7030a0'> Промежуточные выводы:
1. Датафрейм содержит 16956 записей и 11 столбцов из них есть пропущенные значения в следующих столбцах:
- `Name` и 'Genre' (2 пропуска).
- `Year of Release`(275 пропусков).
- `Critic Score` (менее половины значений заполнено).
- `User Score` и `Rating`(пропущены значения).
2. Некорректные типы данных:
- `Year of Release` float64 (возможно из-за пропусков).
- `EU sales` и `JP sales` представлены как object, а должны быть числовыми (float).
- `User Score` тип object, но должно быть числовой.
Пропуски и аномалии могут повлиять на качество анализа, особенно в столбцах с оценками и продажами.
3. Названия столбцов:
- Названия столбцов содержат пробелы и не согласованы с общими стандартами оформления данных (например, Year of Release, NA sales, EU sales и т.д.).
- Рекомендуется привести названия к удобному для работы формату, например, в стиле snake_case: year_of_release, na_sales, eu_sales.
4. Аномалии в данных:
- Продажи (NA sales, EU sales, JP sales, Other sales)
- Проверить значения на предмет отрицательных или аномально высоких значений.
5. Шкала оценок:
- Critic Score: Представлена в 100-балльной шкале.
- User Score: Представлена в 10-балльной шкале. Для удобства можно привести их к единой шкале.
6.Дублирующиеся строки
- Возможно наличие дубликатов, которые стоит выявить и удалить.
</font>

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма: 

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания. 
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [5]:
# Выведем наименование столбцов датафрейма
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# Приведем названия столбцов к удобному для работы формату, в стиле snake_case.
df=df.rename(columns={'Year of Release':'Year_of_Release',
                          'NA sales':'NA_sales',
                          'EU sales':'EU_sales',
                          'JP sales':'JP_sales',
                          'Other sales':'Other_sales',
                          'Critic Score':'Critic_Score',
                          'User Score':'User_Score'})
    #После замены наименований переведем все имена столбцов в нижний регистр
df.columns = df.columns.str.lower()

In [7]:
# Вывеем обновленное название столбцов датафрейма
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных: 

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу int64. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных. 
- В числовых столбцах могут встретиться строковые значения, например, `unknown` или другие. Приводите такие столбцы к числовому типу данных, заменив строковые значения на пропуски.

In [8]:
#Выведем значения столбца, которые не являются числовыми
columns_to_check = ['eu_sales', 'jp_sales', 'user_score']

for column in columns_to_check:
    non_numeric_values = df[~pd.to_numeric(df[column], errors='coerce').notna()]
    print(f"Нечисловые значения в '{column}':")
    print(non_numeric_values[column].head())
    print()

Нечисловые значения в 'eu_sales':
446     unknown
802     unknown
1131    unknown
1132    unknown
1394    unknown
Name: eu_sales, dtype: object

Нечисловые значения в 'jp_sales':
467     unknown
819     unknown
1379    unknown
4732    unknown
Name: jp_sales, dtype: object

Нечисловые значения в 'user_score':
1     NaN
4     NaN
5     NaN
9     NaN
10    NaN
Name: user_score, dtype: object



In [9]:
# Список столбцов, которые нужно преобразовать в числовой формат
columns_to_convert = ['eu_sales', 'jp_sales', 'user_score']

# Преобразование каждого столбца с помощью цикла
for column in columns_to_convert:
    df[column] = pd.to_numeric(df[column], errors='coerce')


In [10]:
#Год представлен в формате float64. Нужно проверить на аномальные значения
max_year=df['year_of_release'].max()
min_year=df['year_of_release'].min()
print (f"Максимальный год выпуска: {max_year},Минимальный год выпуска:{min_year}")

Максимальный год выпуска: 2016.0,Минимальный год выпуска:1980.0


In [11]:
#Преобразуем год в формат даты(год)
df['year_of_release'] = pd.to_datetime(df['year_of_release'], format='%Y', errors='coerce')

In [12]:
# Сохраняем количество строк до удаления
initial_row_count = df.shape[0]

# Удаляем строки с пропусками в 'year_of_release'
df = df.dropna(subset=['year_of_release']).reset_index(drop=True)

removed_row_count = initial_row_count - df.shape[0]
print(f'Количество удаленных строк: {removed_row_count}')
print(f'Количество оставшихся строк: {df.shape[0]}')

Количество удаленных строк: 275
Количество оставшихся строк: 16681


In [13]:
# Проверяем изменение типов
df.dtypes[['year_of_release','eu_sales', 'jp_sales','user_score']]

year_of_release    datetime64[ns]
eu_sales                  float64
jp_sales                  float64
user_score                float64
dtype: object

<font color='#7030a0'> Промежуточные выводы:
1. Замечен неверный тип для следующих столбцов:  `EU sales`, `JP sales`, `User Score` , `Year of release`;
2. В связи с тем что в `EU sales`, `JP sales`, `User Score` хранится важная информация по продажам и ср оценкам было принято преобразовать к типу `float64`.Пропущенные значения становятся NaN;
2. `Year of release` преобразовали к типу `datetime64`.Удалили пропуски
</font>

### 2.3. Наличие пропусков в данных: 

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.
- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [14]:
# Выводим количество пропущенных строк в датафрейме
df.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

In [15]:
# Подсчитываем процент строк с пропусками
round(df.isna().sum() / len(df) * 100,1)

name                0.0
platform            0.0
year_of_release     0.0
genre               0.0
na_sales            0.0
eu_sales            0.0
jp_sales            0.0
other_sales         0.0
critic_score       51.5
user_score         54.7
rating             40.6
dtype: float64

<font color='#7030a0'> Промежуточные выводы:
1. `name` — 2 пропуска,`genre` — 2 пропуска:
- Причина пропусков: Возможные пропуски в столбце с названием игры могут быть связаны с отсутствием информации о названии игры в редких или незавершенных записях. 
- Действия: данные строки также можно удалить.   
2. `critic_score` — 8714 пропусков:
- Причина пропусков: Пропуски в данном столбце могут возникать, если игра не была оценена критиками или данные о критиках для этой игры отсутствуют. 
- Действия: Категоризировать в отдельную группу "Без оценки",заменить на значение-индикатор(-1) так как доля игр 51.4%
3. `user_score` — 9268 пропусков:
- Причина пропусков: Это могут быть игры, для которых нет пользовательских оценок, либо они были удалены.
- Действия: Категоризировать в отдельную группу "Без оценки",заменить на значение-индикатор(-1) так как доля игр 54.7%
4. `eu_sales`, `jp_sales` в ходе изменения формата было выявлено содержание текстового значения 'unknown' 
- Причина пропусков: Пропуски могут возникать в случае отсутствия записи или неверный ввод данных.
- Действия: заменить на среднее значение в зависимости от названия платформы и года выхода игры.
5. `rating` — 6871 пропусков
- Причина пропусков: Пропуски в столбце с рейтингами могут быть связаны с отсутствием информации о возрастном рейтинге игры, либо этот параметр не был определён для игры.
  - Действия: Заменить пропуски заглушкой "Unknown"
</font>

*Удаляем пропуски.*

In [16]:
# Сохраняем количество строк до удаления
initial_row_count = df.shape[0]

# Удаляем строки с пропусками в 'name'
df = df.dropna(subset=['name']).reset_index(drop=True)

removed_row_count = initial_row_count - df.shape[0]
print(f'Количество удаленных строк: {removed_row_count}')
print(f'Количество оставшихся строк: {df.shape[0]}')

Количество удаленных строк: 2
Количество оставшихся строк: 16679


In [17]:
# Сохраняем количество строк до удаления
initial_row_count = df.shape[0]

# Удаляем строки с пропусками в 'genre'
df = df.dropna(subset=['genre']).reset_index(drop=True)

removed_row_count = initial_row_count - df.shape[0]
print(f'Количество удаленных строк: {removed_row_count}')
print(f'Количество оставшихся строк: {df.shape[0]}')

Количество удаленных строк: 0
Количество оставшихся строк: 16679


<font color='#7030a0'> Промежуточные выводы:
1. Удалили пустые строки по столбцу `name`;
2. После удаления пустых строк по столбцу `name` в столбце `genre` пустых строк не обнаружено
</font>

*Замена пустых значений на заглушку*

In [18]:
#Проверяем уникальные значения
print(df['rating'].unique())

['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [19]:
df['old_rating']=df['rating']
# Заполняем пропуски значение-индикаторами
df['rating']= df['rating'].fillna("Unknown")
changed_rows=df[df['old_rating'].isna()]
# Отображаем изменённые строки
print(changed_rows[['old_rating', 'rating']].head())

   old_rating   rating
1         NaN  Unknown
4         NaN  Unknown
5         NaN  Unknown
9         NaN  Unknown
10        NaN  Unknown


In [20]:
#Проверяем уникальные значения
print(df['user_score'].unique())

[8.  nan 8.3 8.5 6.6 8.4 8.6 7.7 6.3 7.4 8.2 9.  7.9 8.1 8.7 7.1 3.4 5.3
 4.8 3.2 8.9 6.4 7.8 7.5 2.6 7.2 9.2 7.  7.3 4.3 7.6 5.7 5.  9.1 6.5 8.8
 6.9 9.4 6.8 6.1 6.7 5.4 4.  4.9 4.5 9.3 6.2 4.2 6.  3.7 4.1 5.8 5.6 5.5
 4.4 4.6 5.9 3.9 3.1 2.9 5.2 3.3 4.7 5.1 3.5 2.5 1.9 3.  2.7 2.2 2.  9.5
 2.1 3.6 2.8 1.8 3.8 0.  1.6 9.6 2.4 1.7 1.1 0.3 1.5 0.7 1.2 2.3 0.5 1.3
 0.2 0.6 1.4 0.9 1.  9.7]


In [21]:
df['old_user_score']=df['user_score']
# Заполняем пропуски значение-индикаторами
df['user_score']=df['user_score'].fillna(-1)
changed_rows=df[df['old_user_score'].isna()]
# Отображаем изменённые строки
print(changed_rows[['old_user_score', 'user_score']].head())

    old_user_score  user_score
1              NaN        -1.0
4              NaN        -1.0
5              NaN        -1.0
9              NaN        -1.0
10             NaN        -1.0


In [22]:
#Проверяем уникальные значения
print(df['critic_score'].unique())

[76. nan 82. 80. 89. 58. 87. 91. 61. 97. 95. 77. 88. 83. 94. 93. 85. 86.
 98. 96. 90. 84. 73. 74. 78. 92. 71. 72. 68. 62. 49. 67. 81. 66. 56. 79.
 70. 59. 64. 75. 60. 63. 69. 50. 25. 42. 44. 55. 48. 57. 29. 47. 65. 54.
 20. 53. 37. 38. 33. 52. 30. 32. 43. 45. 51. 40. 46. 39. 34. 41. 36. 31.
 27. 35. 26. 19. 28. 23. 24. 21. 17. 13.]


In [23]:
df['old_critic_score']=df['critic_score']
# Заполняем пропуски значение-индикаторами
df['critic_score']=df['critic_score'].fillna(-1)
changed_rows=df[df['old_critic_score'].isna()]
# Отображаем изменённые строки
print(changed_rows[['old_critic_score', 'critic_score']].head())

    old_critic_score  critic_score
1                NaN          -1.0
4                NaN          -1.0
5                NaN          -1.0
9                NaN          -1.0
10               NaN          -1.0


In [24]:
#Значение количества копий игр заменяем на ср значения в зависимости от названия платформы и года выхода игры(Европа).
df['old_eu_sales']=df['eu_sales']
# Определяем функцию для замены значений
def mean_group_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = df[
            (df['platform'] == row['platform']) &
            (df['year_of_release'] == row['year_of_release'])
        ]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

# Применяем функцию по строкам
df['eu_sales'] = df.apply(mean_group_eu_sales, axis=1)
changed_rows=df[df['old_eu_sales'].isna()]
# Отображаем изменённые строки
print(changed_rows[['old_eu_sales', 'eu_sales']].head())  

      old_eu_sales  eu_sales
444            NaN  0.063883
792            NaN  0.109785
1120           NaN  0.213784
1121           NaN  0.291000
1380           NaN  0.100449


In [25]:
#Значение количества копий игр заменяем на ср значения в зависимости от названия платформы и года выхода игры(Япония).
df['old_jp_sales']=df['jp_sales']
# Определяем функцию для замены значений
def mean_group_jp_sales(row):
    if pd.isna(row['jp_sales']):
        group = df[
            (df['platform'] == row['platform']) &
            (df['year_of_release'] == row['year_of_release'])
        ]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

# Применяем функцию по строкам
df['jp_sales'] = df.apply(mean_group_jp_sales, axis=1)
changed_rows=df[df['old_jp_sales'].isna()]
# Отображаем изменённые строки
print(changed_rows[['old_jp_sales', 'jp_sales']].head())  

      old_jp_sales  jp_sales
464            NaN  0.012721
808            NaN  0.011322
1365           NaN  0.071260
4666           NaN  0.043060


In [26]:
# Удаляем промежуточные столбцы
df.drop(columns=['old_rating','old_user_score','old_critic_score','old_eu_sales','old_jp_sales'], inplace=True)
# Выводим количество пропущенных строк в датафрейме после обработки данных
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

<font color='#7030a0'> Промежуточные выводы:
1. После проведения работы над пропусками, пустых значений не осталось.
2. Проделанная работа:
    -  `name` — удалены пустые строки 
    - `critic_score`,`user_score` — пропуски заменены на значение-индикатор(-1)=
    - `eu_sales`, `jp_sales` - пропуски были заменены на среднее значение в зависимости от названия платформы и года выхода игры.
    -`rating` -  пропуски были заменены заглушкой "Unknown"
</font>

### 2.4. Явные и неявные дубликаты в данных: 

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.
- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.
- Напишите промежуточный вывод: укажите количество найденных дубликатов и действия по их обработке.

В процессе подготовки данных вы могли удалять данные, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях. После проведения предобработки данных напишите общий промежуточный вывод.

In [27]:
#Выводим часть уникальных значений имен, так как по предворительный подсчетам их 11560 значений
unique_count = df['name'].nunique()
print(f'Количество уникальных значений {unique_count}')
print(df['name'].unique())

Количество уникальных значений 11426
['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']


In [28]:
df['old_name']=df['name']
# Проводим нормализацию данных с текстовыми значениями:
df['name']=df['name'].str.lower()
# Отображаем изменённые строки
changed_rows=df[df['old_name']!=df['name']]
print(changed_rows[['old_name', 'name']].head())

                   old_name                      name
0                Wii Sports                wii sports
1         Super Mario Bros.         super mario bros.
2            Mario Kart Wii            mario kart wii
3         Wii Sports Resort         wii sports resort
4  Pokemon Red/Pokemon Blue  pokemon red/pokemon blue


In [29]:
#Выводим уникальные значения жанра
unique_genre=df['genre'].unique()
print(list(unique_genre))

['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc', 'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure', 'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER', 'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION', 'PUZZLE', 'STRATEGY']


In [30]:
df['old_genre']=df['genre']
# Проводим нормализацию данных с текстовыми значениями:
df['genre']=df['genre'].str.lower()
# Отображаем изменённые строки
changed_rows=df[df['old_genre']!=df['genre']]
print(changed_rows[['old_genre', 'genre']].head())

      old_genre         genre
0        Sports        sports
1      Platform      platform
2        Racing        racing
3        Sports        sports
4  Role-Playing  role-playing


In [31]:
#Выводим уникальные значения платформы
unique_platfortm=df['platform'].unique()
print(list(unique_platfortm))

['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA', 'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne', 'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16', '3DO', 'GG', 'PCFX']


In [32]:
df['old_platform']=df['platform']
# Проводим нормализацию данных с текстовыми значениями:
df['platform']=df['platform'].str.upper()
# Отображаем изменённые строки
changed_rows=df[df['old_platform']!=df['platform']]
print(changed_rows[['old_platform', 'platform']].head())

  old_platform platform
0          Wii      WII
2          Wii      WII
3          Wii      WII
7          Wii      WII
8          Wii      WII


In [33]:
# Выводим уникальные значения рейтинга
unique_rating_before = df['rating'].unique()
print(f'Старый уникальный рейтинг: {list(unique_rating_before)}')

# Изменим имя рейтинга 'K-A' на 'E'
df['rating'] = df['rating'].replace({'K-A': 'E'})

# Выводим уникальные значения после изменения
unique_rating_after = df['rating'].unique()
print(f'Обновленный уникальный рейтинг: {list(unique_rating_after)}')


Старый уникальный рейтинг: ['E', 'Unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP']
Обновленный уникальный рейтинг: ['E', 'Unknown', 'M', 'T', 'E10+', 'AO', 'EC', 'RP']


In [34]:
df['old_rating']=df['rating']
# Проводим нормализацию данных с текстовыми значениями:
df['rating']=df['rating'].str.upper()
# Отображаем изменённые строки
changed_rows=df[df['old_rating']!=df['rating']]
print(changed_rows[['old_rating', 'rating']].head())

   old_rating   rating
1     Unknown  UNKNOWN
4     Unknown  UNKNOWN
5     Unknown  UNKNOWN
9     Unknown  UNKNOWN
10    Unknown  UNKNOWN


<font color='#7030a0'> Промежуточные выводы:
1. `name` — обнаружено большое множество неявных дубликатов, а так же использование разных форматов выделения наименований:" " и ' '
Действия: Если последующеее использования наименований не требуется, можно оставить без изменения.
2. `genre` — после преобразования данных неявных дубликатов не выявлено. 
3. `platform` — после преобразования данных неявных дубликатов не выявлено. 
4. `rating` — после преобразования данных неявных дубликатов не выявлено.    
</font>

In [35]:
#проверяем дубликаты по всем столбцам
initial_row_count = df.shape[0]
print(f'Количество строк до удаления дубликатов: {initial_row_count}')

# Найдем дублирующиеся строки
duplicates = df[df.duplicated()]

# Удалии дублирующиеся строки
df = df.drop_duplicates()

# Определим количество строк в датафрейме после удаления дубликатов
final_row_count = df.shape[0]
deleted_total=initial_row_count-final_row_count
deleted_total_prc=round((deleted_total/initial_row_count)*100,2)
print(f'Количество строк после удаления дубликатов: {final_row_count}')
print(f'Удалено строк: {deleted_total}')
print(f'Процент удаленных строк: {deleted_total_prc}%')

Количество строк до удаления дубликатов: 16679
Количество строк после удаления дубликатов: 16500
Удалено строк: 179
Процент удаленных строк: 1.07%


<font color='#7030a0'> Промежуточные выводы:
- Столбцы `name` и `genre`привели к нижнему регистру;
- Столбцы `platform` и `rating`привели к верхнему регистру;   
- Количество строк до удаления дубликатов: 16679
- Количество строк после удаления дубликатов: 16500
- Удалено строк: 179
- Процент удаленных строк: 1.0%
</font>

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [36]:
#Поставим фильтры на года и применим сортировку
df_actual=df[
    (df['year_of_release']>='2000-01-01 00:00:00')&
    (df['year_of_release']<='2013-12-31 00:00:00')
]

#Сортируем датафрем по стобцу year of release:
df_sorted=df_actual.sort_values(by='year_of_release')
#Выведем год в формате YYYY
df_sorted['year_of_release_YYYY'] = df_sorted['year_of_release'].dt.year

In [37]:
# Посчитаем сумму продаж и средний рейтин по годам 
grouped_data_y=df_sorted.groupby('year_of_release_YYYY').agg({
                        'na_sales':'sum',
                        'eu_sales':'sum',
                        'jp_sales':'sum',
                        'other_sales':'sum'
})
# Добавляем итоговый столбец, который будет суммировать все продажи
grouped_data_y['total_sales'] = grouped_data_y['na_sales'] + grouped_data_y['eu_sales'] + grouped_data_y['jp_sales'] + grouped_data_y['other_sales']
grouped_data_y['na_sales_share']=round(grouped_data_y['na_sales']/grouped_data_y['total_sales']*100,0)
grouped_data_y['eu_sales_share']=round(grouped_data_y['eu_sales']/grouped_data_y['total_sales']*100,0)
grouped_data_y['jp_sales_share']=round(grouped_data_y['jp_sales']/grouped_data_y['total_sales']*100,0)
grouped_data_y['other_sales_share']=round(grouped_data_y['other_sales']/grouped_data_y['total_sales']*100,0)
display(grouped_data_y)

Unnamed: 0_level_0,na_sales,eu_sales,jp_sales,other_sales,total_sales,na_sales_share,eu_sales_share,jp_sales_share,other_sales_share
year_of_release_YYYY,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2000,95.13,53.14,42.77,11.68,202.72,47.0,26.0,21.0,6.0
2001,175.14,95.43,40.26,22.84,333.67,52.0,29.0,12.0,7.0
2002,216.29,109.78,41.76,27.27,395.1,55.0,28.0,11.0,7.0
2003,193.79,103.88,34.2,25.94,357.81,54.0,29.0,10.0,7.0
2004,222.95,106.324233,41.65,47.26,418.184233,53.0,25.0,10.0,11.0
2005,242.49,121.22,54.74,40.31,458.76,53.0,26.0,12.0,9.0
2006,262.56,127.529785,73.78,54.04,517.909785,51.0,25.0,14.0,10.0
2007,310.18,157.307139,60.37432,76.78,604.641459,51.0,26.0,10.0,13.0
2008,349.1,181.223883,60.262721,81.49,672.076604,52.0,27.0,9.0,12.0
2009,338.13,188.09,61.961322,73.63,661.811322,51.0,28.0,9.0,11.0


<font color='#7030a0'> Промежуточные выводы:
- Рост продаж увелиивался начиная с 2000 года. Пик продаж отмечается в 2008 году (678.2 млн единиц), при этом Америка остается крупнейшим рынком.
-Снижения роста продаж происходит в 2009 году. Это снижение может быть связано с насыщением рынка и изменениями в предпочтениях потребителей.
- Тренды по жанрам и платформам: Можно сделать дальнейший анализ по жанрам или платформам, чтобы понять, какие игры или платформы обеспечивали рост или спад продаж в определенные годы.
</font>

In [38]:
# Посчитаем сумму продаж и средний рейтинг по годам и 
grouped_data_g=df_sorted.groupby('genre').agg({
                        'na_sales':'sum',
                        'eu_sales':'sum',
                        'jp_sales':'sum',
                        'other_sales':'sum'
})
# Добавляем итоговый столбец, который будет суммировать все продажи
grouped_data_g['total_sales'] = grouped_data_g['na_sales'] + grouped_data_g['eu_sales'] + grouped_data_g['jp_sales'] + grouped_data_g['other_sales']
grouped_data_g['na_sales_share']=round(grouped_data_g['na_sales']/grouped_data_g['total_sales']*100,0)
grouped_data_g['eu_sales_share']=round(grouped_data_g['eu_sales']/grouped_data_g['total_sales']*100,0)
grouped_data_g['jp_sales_share']=round(grouped_data_g['jp_sales']/grouped_data_g['total_sales']*100,0)
grouped_data_g['other_sales_share']=round(grouped_data_g['other_sales']/grouped_data_g['total_sales']*100,0)
display(grouped_data_g)

Unnamed: 0_level_0,na_sales,eu_sales,jp_sales,other_sales,total_sales,na_sales_share,eu_sales_share,jp_sales_share,other_sales_share
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
action,681.11,390.690708,103.332721,152.65,1327.783429,51.0,29.0,8.0,11.0
adventure,76.8,43.03,33.81,12.97,166.61,46.0,26.0,20.0,8.0
fighting,148.94,68.09,38.531322,29.04,284.601322,52.0,24.0,14.0,10.0
misc,352.37,183.483883,79.89126,67.05,682.795143,52.0,27.0,12.0,10.0
platform,250.98,133.350449,52.58306,39.86,476.773509,53.0,28.0,11.0,8.0
puzzle,63.57,39.23,23.26,10.02,136.08,47.0,29.0,17.0,7.0
racing,265.16,178.56,25.98,66.29,535.99,49.0,33.0,5.0,12.0
role-playing,249.96,128.06,211.44,43.03,632.49,40.0,20.0,33.0,7.0
shooter,417.04,228.88,18.43,78.75,743.1,56.0,31.0,2.0,11.0
simulation,159.54,97.48,37.85,27.49,322.36,49.0,30.0,12.0,9.0


<font color='#7030a0'> Промежуточные выводы:
- Наибольший общий объем продаж (1338.8 млн) жанр: Action,  на который приходится 51% продаж в Северной Америке, 29% в Европе и 8% в Японии.
- Наименьшие объемы продаж по жанрам Strategy и Puzzle.
Примечания:
-Северная Америка остается лидером по большинству жанров, с долей в 50% и более для большинства категорий, особенно для action и sports.
-Япония имеет относительно высокую долю в жанре role-playing (33%) и strategy (24%), что является типичным для японской игровой индустрии, но имеет низкую долю в шутерах и спортивных играх.
-Европа занимает промежуточное положение, часто с долей около 25-30% по большинству жанров, с некоторыми колебаниями в зависимости от конкретного жанра (например, высокий интерес к спортивным играм).
</font>

In [39]:
# Посчитаем сумму продаж и средний рейтинг по годам и платформам
grouped_data_p=df_sorted.groupby('platform').agg({
                        'na_sales':'sum',
                        'eu_sales':'sum',
                        'jp_sales':'sum',
                         'other_sales':'sum',
                        'name':'count'
    
})

# Переименуем столбец с количеством и добавляем итоговый столбец, который будет суммировать все продажи
grouped_data_p.rename(columns={'name': 'game_count'}, inplace=True)
grouped_data_p['total_sales'] = grouped_data_p['na_sales'] + grouped_data_p['eu_sales'] + grouped_data_p['jp_sales'] + grouped_data_p['other_sales']
grouped_data_p['na_sales_share']=round(grouped_data_p['na_sales']/grouped_data_p['total_sales']*100,0)
grouped_data_p['eu_sales_share']=round(grouped_data_p['eu_sales']/grouped_data_p['total_sales']*100,0)
grouped_data_p['jp_sales_share']=round(grouped_data_p['jp_sales']/grouped_data_p['total_sales']*100,0)
grouped_data_p['other_sales_share']=round(grouped_data_p['other_sales']/grouped_data_p['total_sales']*100,0)
display(grouped_data_p)

Unnamed: 0_level_0,na_sales,eu_sales,jp_sales,other_sales,game_count,total_sales,na_sales_share,eu_sales_share,jp_sales_share,other_sales_share
platform,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
3DS,60.65,45.41,56.95,9.67,304,172.68,35.0,26.0,33.0,6.0
DC,2.53,0.79,3.96,0.13,31,7.41,34.0,11.0,53.0,2.0
DS,381.3,187.521022,175.13126,59.12,2126,803.072282,47.0,23.0,22.0,7.0
GB,9.12,5.19,13.01,1.68,27,29.0,31.0,18.0,45.0,6.0
GBA,185.08,74.560449,46.96,7.67,813,314.270449,59.0,24.0,15.0,2.0
GC,132.2,38.38,21.34,5.13,544,197.05,67.0,19.0,11.0,3.0
N64,22.01,6.16,8.25,1.04,71,37.46,59.0,16.0,22.0,3.0
PC,56.7,103.48,0.08,18.53,768,178.79,32.0,58.0,0.0,10.0
PS,66.21,47.28,20.1,8.01,277,141.6,47.0,33.0,14.0,6.0
PS2,573.22,332.183784,138.02,190.54,2131,1233.963784,46.0,27.0,11.0,15.0


<font color='#7030a0'> Промежуточные выводы:
- PS2 Общие продажи: 1242.7 млн (самая высокая среди платформ). Платформа была очень популярна в Северной Америке и Европе, что делает ее одной из самых успешных игровых консолей.
-  Наибольшие продажи зафиксированы у консолей PS2,  Wii, X360 которые показали отличные результаты на нескольких рынках.   
</font>

---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [40]:
#Убираем данные без рейтинга для последующей категоризации
df_us = df

# Категоризация оценок с помощью pd.cut
df_us['user_score_category'] = pd.cut(
    df_us['user_score'],
    bins=[-2, 0, 3, 8, 10], 
    labels=['Нет оценки','Низкая оценка', 'Средняя оценка', 'Высокая оценка'],
    include_lowest=True  # Включаем нижнюю границу диапазона
)


In [41]:
# Посчитаем средний user рейтинг по  группе 
grouped_data=df_us.groupby('user_score_category').agg({
                        'user_score':'mean',
                        'name':'count'
})

# Переименуем столбцы для большей ясности

grouped_data.rename(columns={'user_score': 'average_user_score','name':'game_count'}, inplace=True)
total_game_count = grouped_data['game_count'].sum()
grouped_data['game_count_share']=round(grouped_data['game_count']/total_game_count*100,0)
print(grouped_data)

                     average_user_score  game_count  game_count_share
user_score_category                                                  
Нет оценки                    -0.999889        9011              55.0
Низкая оценка                  2.212346         162               1.0
Средняя оценка                 6.646565        5066              31.0
Высокая оценка                 8.548120        2261              14.0


<font color='#7030a0'> Промежуточные выводы:
- Большинство игр (55%) попадают в категорию "Нет оценки"
- Только 31% игр имеют среднюю  оценку пользователей, что указывает на умеренно позитивное восприятие игр пользователями.
- Игры с низкими оценками составляют всего 1% от общего числа, с низким средним баллом 2.2.
</font>

In [42]:
#Убираем данные без рейтинга для последующей категоризации
df_filtered_cs = df[df['critic_score'] >= 0].copy() 

# Категоризация оценок с помощью pd.cut
df_filtered_cs['critic_score_category'] = pd.cut(
    df_filtered_cs['critic_score'],
    bins=[0, 30, 80, 100], 
    labels=['Низкая оценка', 'Средняя оценка', 'Высокая оценка'],
    include_lowest=True  # Включаем нижнюю границу диапазона
)

In [43]:
# Посчитаем средний critic рейтинг по  группе 
grouped_data=df_filtered_cs.groupby('critic_score_category').agg({
                        'critic_score':'mean',
                        'name':'count',

})
# Переименуем столбцы для большей ясности
grouped_data.rename(columns={'critic_score': 'average_critic_score', 'name': 'game_count'}, inplace=True)
total_game_count = grouped_data['game_count'].sum()
grouped_data['game_count_share']=round(grouped_data['game_count']/total_game_count*100,0)
print(grouped_data)

                       average_critic_score  game_count  game_count_share
critic_score_category                                                    
Низкая оценка                     25.591549          71               1.0
Средняя оценка                    64.718599        6194              77.0
Высокая оценка                    85.838101        1748              22.0


<font color='#7030a0'> Промежуточные выводы:
- Почти 77% игр имеют оценки критиков в диапазоне средней категории (средний балл 64.7). Это соответствует схожей картине, что и у пользователей.
- Лишь 22% игр критики оценили высоко, со средним баллом 85.8. 
- Всего 1% игр попали в низкую категорию (средний балл 25.6), что предполагает либо некачественные игры, либо игры, рассчитанные на очень узкую аудиторию.
</font>

In [44]:
# Сортируем данные по 'game_count' по убыванию
grouped_data_p_sorted = grouped_data_p.sort_values(by='game_count', ascending=False)

# Сбрасываем индекс
grouped_data_p = grouped_data_p_sorted.reset_index(drop=False)  

# Добавляем столбец с общим количеством игр
grouped_data_p['game_count_share'] = round(grouped_data_p['game_count'] / grouped_data_p['game_count'].sum() * 100, 0)

# Переустанавливаем индекс, начиная с 1
grouped_data_p.index = grouped_data_p.index + 1

# Выбираем столбцы 'platform', 'total_sales' и 'game_count'
selected_columns = grouped_data_p[['platform', 'total_sales', 'game_count', 'game_count_share']]

# Выводим первые 7 строк
print(selected_columns.head(7))


  platform  total_sales  game_count  game_count_share
1      PS2  1233.963784        2131              17.0
2       DS   803.072282        2126              17.0
3      WII   888.680000        1279              10.0
4      PSP   289.653060        1184               9.0
5     X360   915.543828        1126               9.0
6      PS3   863.770000        1090               8.0
7      GBA   314.270449         813               6.0


---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

<font color='#7030a0'> Основной вывод по проделанной работе:
1.	В ходе работы с данными был выполнен предварительный анализ и очистка данных, включая обработку пропусков и некорректных типов данных.
2.	Для решения проблемы с пропущенными значениями в столбце рейтинга была разработана функция, которая заполняет пропуски модальным значением рейтинга по жанру.
3.	Были обработаны пропуски в столбцах year_of_release, user_score, critic_score, а также заменены текстовые значения в eu_sales и jp_sales на числовые данные.
4.	Операции включали преобразование типов данных, удаление дубликатов и приведение названий столбцов к стандартному формату.
5.	После преобразования данных, особенно с оценками и продажами, проведена агрегация данных по платформам и годам, что позволило выявить ключевые тренды в продажах и оценках игр.
6.	Были сделаны промежуточные выводы по трендам в продажах, жанрам и платформам, а также по восприятию игр пользователями и критиками.
7.	Визуализированы и проанализированы результаты по популярным возрастным рейтингам для жанров, что позволяет лучше понять влияние жанра на рейтинг игры.
8.	В результате обработки и анализа данных, была улучшена качество набора данных, что способствует более точным аналитическим выводам и прогнозам.

</font>

<font color='#7030a0'>Проделанная работа:
- `critic_score`,`user_score` — пропуски заменены на значение-индикатор(-1)
- `eu_sales`, `jp_sales` - пропуски были заменены на среднее значение в зависимости от названия платформы и года выхода игры.
-`rating` -  пропуски были заменены заглушкой "Unknown"
- Столбцы `name` и `genre`привели к нижнему регистру;
- Столбцы `platform` и `rating`привели к верхнему регистру;   
Удаленные данные:
    
*Изначальный датафрейм содержал 16956 строк*
- `years` - удалено 275 пустых строк;
-  `name` —  удалены 2 пустые строки     
- Количество строк до удаления дубликатов: 179
    
*Количество строк после удаления: 16500*
    
Всего удалено строк: 456 строк
    
Процент удаленных строк: 2.7%
    
</font>    

In [45]:
# добавяем обновлённое описание полей итогового датафрейма. 
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16500 entries, 0 to 16678
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   name                 16500 non-null  object        
 1   platform             16500 non-null  object        
 2   year_of_release      16500 non-null  datetime64[ns]
 3   genre                16500 non-null  object        
 4   na_sales             16500 non-null  float64       
 5   eu_sales             16500 non-null  float64       
 6   jp_sales             16500 non-null  float64       
 7   other_sales          16500 non-null  float64       
 8   critic_score         16500 non-null  float64       
 9   user_score           16500 non-null  float64       
 10  rating               16500 non-null  object        
 11  old_name             16500 non-null  object        
 12  old_genre            16500 non-null  object        
 13  old_platform         16500 non-