#  Аналіз даних про відеоігри

У цьому ноутбуці виконано аналіз даних про відеоігри з CSV-файлу. Ми досліджуємо жанри, платформи, обсяги продажів та інші цікаві аспекти.

In [9]:
import pandas as pd
data ={
    "Ім'я":['Василь','Андрій','Оля'],
    'Вік':[12,45,65],
    'Стать':['чоловік','чоловік','жінка'],
    'Оцінка':[3,4,5]
}
df = pd.DataFrame(data)
print(df)
df['Оцінка']


     Ім'я  Вік    Стать  Оцінка
0  Василь   12  чоловік       3
1  Андрій   45  чоловік       4
2     Оля   65    жінка       5


0    3
1    4
2    5
Name: Оцінка, dtype: int64

In [10]:
df[df['Оцінка']>3]

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
1,Андрій,45,чоловік,4
2,Оля,65,жінка,5


In [11]:
df[df['Стать']=='жінка']

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
2,Оля,65,жінка,5


In [13]:
df[((df['Оцінка']<5) &(df['Вік']>20))]

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
1,Андрій,45,чоловік,4


##  Сортування за віком


In [14]:
df.sort_values(by='Вік',ascending=False)

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
2,Оля,65,жінка,5
1,Андрій,45,чоловік,4
0,Василь,12,чоловік,3


In [15]:
df.sort_values(by='Оцінка',ascending=True)

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
0,Василь,12,чоловік,3
1,Андрій,45,чоловік,4
2,Оля,65,жінка,5


In [16]:
df.sort_values(by=['Стать','Оцінка'],ascending=[True,False])

Unnamed: 0,Ім'я,Вік,Стать,Оцінка
2,Оля,65,жінка,5
1,Андрій,45,чоловік,4
0,Василь,12,чоловік,3


##  Групування: середня оцінка по статі


In [17]:
df.groupby('Стать')['Оцінка'].mean()

Стать
жінка      5.0
чоловік    3.5
Name: Оцінка, dtype: float64

In [18]:
df.groupby('Стать')['Вік'].max()

Стать
жінка      65
чоловік    45
Name: Вік, dtype: int64

In [19]:
df.groupby('Стать').size()

Стать
жінка      1
чоловік    2
dtype: int64

In [21]:
import numpy as np
import pandas as pd

data = {
    "Ім'я": ['Оля', 'Роман', 'Іван'],
    'Вік': [25, np.nan, 32],
    'Оцінка': [90, 85, np.nan]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Ім'я,Вік,Оцінка
0,Оля,25.0,90.0
1,Роман,,85.0
2,Іван,32.0,


##  Пошук пропущених значень

In [22]:
df.isna()

Unnamed: 0,Ім'я,Вік,Оцінка
0,False,False,False
1,False,True,False
2,False,False,True


##  Заповнення пропущених значень

In [25]:
df['Оцінка'] = df['Оцінка'].fillna(0)

In [24]:
df['Вік'].dropna()

0    25.0
2    32.0
Name: Вік, dtype: float64

##  Завантаження CSV-файлу з даними

In [58]:
import pandas as pd

url = "https://raw.githubusercontent.com/ValdisW/datasets/master/video-game-sales.csv"
df = pd.read_csv(url)

##  Огляд структури даних

In [34]:
print(df.shape)
print(df.columns)
print(df.head())
print(df.info())
print(df.describe())

(16598, 11)
Index(['Rank', 'Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales'],
      dtype='object')
   Rank                      Name Platform    Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29.08      3.58      6.81         0.77         40.24  
2     15.85     12.88      3.79         3.31         35.82  
3     15.75     11.01      3.28         2.96         33.00  
4     11.27      8.89     10.22         1.00        

##  Пошук пропущених значень

In [40]:
print(df.isna().sum())


0


In [59]:

print(df.columns)

Index(['Rank', 'Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales'],
      dtype='object')


##  Найуспішніший жанр за глобальними продажами

In [63]:
genre_sales = df.groupby('Genre')['Global_Sales'].sum().sort_values(ascending=False).idxmax()
print(genre_sales)

Action


In [68]:
top_game = df.groupby('Platform').sum().max().head(1)
print(top_game)

Rank    20845831
dtype: object


In [80]:
top_year = df.groupby('Name')['Year'].sum().sort_values(ascending=False).head(3)
print(top_year)

Name
Need for Speed: Most Wanted    24096.0
FIFA 14                        18117.0
LEGO Marvel Super Heroes       18117.0
Name: Year, dtype: float64


In [85]:
top_NA = df.groupby('Genre')['NA_Sales'].mean().sort_values(ascending=False)
print(top_NA)

Genre
Platform        0.504571
Shooter         0.444733
Sports          0.291283
Racing          0.287766
Action          0.264726
Fighting        0.263667
Misc            0.235906
Role-Playing    0.219946
Puzzle          0.212680
Simulation      0.211430
Strategy        0.100881
Adventure       0.082271
Name: NA_Sales, dtype: float64


In [86]:
top_EU = df.groupby('Publisher')['EU_Sales'].max().sort_values(ascending=False).head(1)
print(top_EU)

Publisher
Nintendo    29.02
Name: EU_Sales, dtype: float64


##  Висновки

У цьому ноутбуці ми провели базовий аналіз даних про відеоігри. Ми дізнались:
- Які жанри найуспішніші за продажами
- Які платформи популярніші
- Які видавці домінують у Європі
- Як працювати з пропущеними даними
