# Задание-проект

---
- Датасет: Продажи игр (https://www.kaggle.com/datasets/gregorut/videogamesales)

- Цель: Найти наиболее перспективный жанр игры для потенциальной разработки.
---

## Проверка качества данных

In [45]:
import pandas as pd

data=pd.read_csv('Datasets/vgsales.csv', sep=",")  # Загрузка данных

data.head(10) # Просмотрим 10 значений сверху


Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37
5,6,Tetris,GB,1989.0,Puzzle,Nintendo,23.2,2.26,4.22,0.58,30.26
6,7,New Super Mario Bros.,DS,2006.0,Platform,Nintendo,11.38,9.23,6.5,2.9,30.01
7,8,Wii Play,Wii,2006.0,Misc,Nintendo,14.03,9.2,2.93,2.85,29.02
8,9,New Super Mario Bros. Wii,Wii,2009.0,Platform,Nintendo,14.59,7.06,4.7,2.26,28.62
9,10,Duck Hunt,NES,1984.0,Shooter,Nintendo,26.93,0.63,0.28,0.47,28.31


### Столбцы и их значение

Column | Definition
---|---------
Rank | Рейтинг, основанный на общем объеме продаж
Name | Название игры
Platform | Платформа, для которой была выпущена игра
Year | Год, когда была выпущена игра
Genre | Жанр, к которому относится игра
Publisher |  Издатель, который опубликовал игру
NA_Sales | Продажи в Северной Америке
EU_Sales | Продажи в Европейском союзе
JP_Sales |  Продажи в Японии
Other_Sales | Продажи в другой части мира
Global_Sales |  Общий объем продаж игры по всему миру

In [26]:
print(data.dtypes)  # проверяем типы данных

Rank              int64
Name             object
Platform         object
Year            float64
Genre            object
Publisher        object
NA_Sales        float64
EU_Sales        float64
JP_Sales        float64
Other_Sales     float64
Global_Sales    float64
dtype: object


In [27]:
data.isnull().values.any()  # Чтобы проверить, есть ли какое-то нулевое значение

True

In [28]:
data.isnull().sum().sum()  # Итоговые нулевые значения

329

In [29]:
data.isnull().sum() # Узнаем где находятся нулевые значения и их сколько по итогу

Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [30]:
data.duplicated().sum() # В данных нет дубликатов строк

0

In [31]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16327 non-null  float64
 4   Genre         16598 non-null  object 
 5   Publisher     16540 non-null  object 
 6   NA_Sales      16598 non-null  float64
 7   EU_Sales      16598 non-null  float64
 8   JP_Sales      16598 non-null  float64
 9   Other_Sales   16598 non-null  float64
 10  Global_Sales  16598 non-null  float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


In [32]:
data.dropna(inplace=True)  # Удаляем нулевые значение, чтобы устранить пробелы в данных

In [34]:
data.isnull().sum()  # Проверяем итоговые нулевые значения после удаления


Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

---

## Основные статистические показатели

In [41]:
data['Year'].astype(int).min()  # Это показывает, что у нас есть данные с 1980 года и далее

1980

In [42]:
data['Year'].astype(int).max() # Это показывает, что у нас есть данные до 2020 года

2020

In [48]:
data['Year'].nunique()  # В наших данных 39 уникальных лет

39

In [50]:
data['Year'].mean()  

2006.4064433147546

In [51]:
data['Year'].std()

5.828981114712805

In [57]:
data['Year'].quantile(.25) # 25 процентов значения в столбце "ГОД" меньше 2003 года

2003.0

In [60]:
data['Year'].quantile(.75) # 75 процентов значения в столбце "ГОД" меньше 2010 года

2010.0

In [68]:
data['Name'].count()  # У нас есть в общей сумме 16598 значений в столбце "Name"

16598

In [70]:
data['Name'].nunique()  # unique() представляет количество уникальных значений, которое в столбце "Name" равно 11493

11493

In [74]:
data['Name'].mode() #  Наиболее распространенное значение в нашем столбце "Name"

0    Need for Speed: Most Wanted
Name: Name, dtype: object

In [75]:
data['Name'].value_counts()

Name
Need for Speed: Most Wanted                12
Ratatouille                                 9
FIFA 14                                     9
LEGO Marvel Super Heroes                    9
Madden NFL 07                               9
                                           ..
Ar tonelico Qoga: Knell of Ar Ciel          1
Galaga: Destination Earth                   1
Nintendo Presents: Crossword Collection     1
TrackMania: Build to Race                   1
Know How 2                                  1
Name: count, Length: 11493, dtype: int64

In [79]:
data['Platform'].count()  # У нас есть в общей сумме 16598 значений в столбце "Platform"


16598

In [80]:
data['Platform'].nunique()  # unique() представляет количество уникальных значений, которое в столбце "Platform" равно 31. 
                            # Здесь мы видим, что количество уникальных платформ, на которых выпущена игра, меньше, чем количество уникальных игр


31

In [82]:
data['Platform'].mode() #  Наиболее распространенное значение в нашем столбце "Platform", Мы выясняем, что большинство игр было выпущено на nintendo ds

# https://ru.wikipedia.org/wiki/Nintendo_DS


0    DS
Name: Platform, dtype: object

In [83]:
data['Platform'].value_counts()  # 

Platform
DS      2163
PS2     2161
PS3     1329
Wii     1325
X360    1265
PSP     1213
PS      1196
PC       960
XB       824
GBA      822
GC       556
3DS      509
PSV      413
PS4      336
N64      319
SNES     239
XOne     213
SAT      173
WiiU     143
2600     133
NES       98
GB        98
DC        52
GEN       27
NG        12
SCD        6
WS         6
3DO        3
TG16       2
GG         1
PCFX       1
Name: count, dtype: int64

In [65]:
data['Genre'].describe()


count      16598
unique        12
top       Action
freq        3316
Name: Genre, dtype: object

In [66]:
data['Publisher'].describe()


count               16540
unique                578
top       Electronic Arts
freq                 1351
Name: Publisher, dtype: object

In [67]:
data['Global_Sales'].describe()


count    16598.000000
mean         0.537441
std          1.555028
min          0.010000
25%          0.060000
50%          0.170000
75%          0.470000
max         82.740000
Name: Global_Sales, dtype: float64