<img src="gamesIcon.jpg">

# Projekt - Analiza zbioru danych vgsales
Mateusz Lindel

### 1. Wstęp
Dla celów projektowych wybrano zbiór danych vgsales zawierający liczbę sprzedanych kopii gier w latach 1980 - 2020. Uścislając, zbiór danych zawiera gry, które sprzedały się przynajnajmniej w 100 tyś kopiach.
Przygotowano pełną analizę, zawierającą również przygotowanie zbioru danych do analizy. Zbiór danych został przygotowany w oparciu danych z strony https://www.vgchartz.com/.

### 2. Przygotowanie zabioru danych
W tym punkcie dokona się początkowej analizy zbioru tzn. zaznajomienie się co zbiór zawiera oraz jak jest zbudowany. Dokonane zostanie również ewentualne czyszczenie zbioru, jeżeli zbiór będzie tego wymagał.

Na początek zostaną zaimportowane wszystkie potrzebne biblioteki, a następnie zostanie wczytany cały zbiór z pliku.

In [1]:
#wczytywanie bibliotek
import numpy as np 
import pandas as pd 

In [2]:
df = pd.read_csv("vgsales.csv") # domyślny sep = ","

Po prawidłowym wczytaniu zbioru zostaną zostaną wyświetlone kilka losowych rekordów.

In [10]:
df.sample(5)

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
1699,1701,Spider-Man: The Movie,GC,2002.0,Action,Activision,0.86,0.27,0.01,0.04,1.19
7692,7694,Looney Tunes: Space Race,PS2,2002.0,Racing,Infogrames,0.1,0.08,0.0,0.03,0.2
2953,2955,Skylanders: Trap Team,PS3,2014.0,Action,Activision,0.24,0.33,0.0,0.12,0.69
1621,1623,SpongeBob SquarePants: Battle for Bikini Bottom,GBA,2003.0,Platform,THQ,0.88,0.33,0.0,0.02,1.23
12504,12506,Top Gear Hyper-Bike,N64,1999.0,Racing,Kemco,0.05,0.01,0.0,0.0,0.06


Wyświetlmy kilka informacji o tym zbiorze

In [8]:
print(df.shape)
df.columns

(16598, 11)


Index(['Rank', 'Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales'],
      dtype='object')

Zbiór posiada dokładnie 16598 rekordów. Każdy rekord zawiera informacje w 11 kolumnach:
1.	Rank - Miejsce w rankingu sprzedaży globalnej (właściwość jest również ID)
2.	Name - Nazwa gry
3.	Platform - Platforma na jaką została wydana
4.	Year - Rok wydania gry
5.	Genre - Gatunek gry
6.	Publisher - Nazwa wydawcy
7.	NA_Sales - Liczba sprzedanych kopii w Ameryce Płn. (w milionach)
8.	EU_Sales - Liczba sprzedanych kopii w Europie (w milionach)
9.	JP_Sales - Liczba sprzedanych kopii w Japonii (w milionach)
10.	Other_Sales - Liczba sprzedanych kopii w reszcie świata (w milionach)
11.	Global_Sales - Liczba sprzedanych kopii na całym świecie (w milionach)

Wyświetlona zostanie teraz ogólna informacja o zbiorze - typ danych w kolumnach, informacje o ilości braków. Dodatkowo zostanie wypisany zostanie opis dla wartości numerycznych, zawierający m.in średnią, odchylenie standardowe, min, max itp.

In [11]:
df.describe()

Unnamed: 0,Rank,Year,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
count,16598.0,16327.0,16598.0,16598.0,16598.0,16598.0,16598.0
mean,8300.605254,2006.406443,0.264667,0.146652,0.077782,0.048063,0.537441
std,4791.853933,5.828981,0.816683,0.505351,0.309291,0.188588,1.555028
min,1.0,1980.0,0.0,0.0,0.0,0.0,0.01
25%,4151.25,2003.0,0.0,0.0,0.0,0.0,0.06
50%,8300.5,2007.0,0.08,0.02,0.0,0.01,0.17
75%,12449.75,2010.0,0.24,0.11,0.04,0.04,0.47
max,16600.0,2020.0,41.49,29.02,10.22,10.57,82.74


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16327 non-null  float64
 4   Genre         16598 non-null  object 
 5   Publisher     16540 non-null  object 
 6   NA_Sales      16598 non-null  float64
 7   EU_Sales      16598 non-null  float64
 8   JP_Sales      16598 non-null  float64
 9   Other_Sales   16598 non-null  float64
 10  Global_Sales  16598 non-null  float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.1+ MB


Dzięki informacji uzyskanej z metody **info()** można łatwo zauważyć, że mamy braki w kolumnach **Year** oraz **Publisher**. Wyświetlmy zatem dla pewności w których kolumnach te braki występują. Następnie obliczmy procentowo, ile jest braków.

In [14]:
df.isna().any()

Rank            False
Name            False
Platform        False
Year             True
Genre           False
Publisher        True
NA_Sales        False
EU_Sales        False
JP_Sales        False
Other_Sales     False
Global_Sales    False
dtype: bool

In [21]:
print(((df.isna().sum() * 100) / df.shape[0]).round(2))
print('\n')
print(df.isna().sum())

Rank            0.00
Name            0.00
Platform        0.00
Year            1.63
Genre           0.00
Publisher       0.35
NA_Sales        0.00
EU_Sales        0.00
JP_Sales        0.00
Other_Sales     0.00
Global_Sales    0.00
dtype: float64


Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64


Wyświetlmy jeszcze dokladniejsze opisy dla tych dwóch kolumn

In [22]:
df[['Year', 'Publisher']].describe(include='all')

Unnamed: 0,Year,Publisher
count,16327.0,16540
unique,,578
top,,Electronic Arts
freq,,1351
mean,2006.406443,
std,5.828981,
min,1980.0,
25%,2003.0,
50%,2007.0,
75%,2010.0,


Po tej krótkiej analizie, widać że tych braków nie jest za wiele. 
Kolumna **Year** zawiera typ float, zatem brakujące wartości zostaną uzupełnione najpopularniejszą metodą - średnią z tej kolumny.
Następnie zamieniony zostanie typ danych na int, gdyż rok powinien być liczbą całkowitą, nie ma potrzeby trzymania typu float.

In [24]:
df.Year = df.Year.fillna(df.Year.mean())
df.Year = df.Year.astype('int32')

In [25]:
df[['Year']].describe(include='all')

Unnamed: 0,Year
count,16598.0
mean,2006.399807
std,5.781426
min,1980.0
25%,2003.0
50%,2007.0
75%,2010.0
max,2020.0


Po tej opracji kolumna **Year** zawiera już poprawne dane - zostałą oczyszczona.
Dla uzupełnienia braków w kolumnie **Publisher** wykorzystana zostanie wartość, która występuje w tej kolumnie najczęściej - jest to najczęściej wykorzystywana metoda w analizie danych. Sprawdzone zostanie, jaka wartość występuje najczęściej.

In [52]:
df.Publisher.value_counts()

Electronic Arts                 1351
Activision                       975
Namco Bandai Games               932
Ubisoft                          921
Konami Digital Entertainment     832
                                ... 
Kokopeli Digital Studios           1
Evolution Games                    1
Ertain                             1
Team17 Software                    1
Illusion Softworks                 1
Name: Publisher, Length: 578, dtype: int64

Wartości puste zostaną zatem zastąpione przez "Electronic Arts"

In [54]:
df.Publisher = df.Publisher.fillna(df.Publisher.value_counts().keys()[0])

In [59]:
print(df.isna().any())
df.isna().sum()

Rank            False
Name            False
Platform        False
Year            False
Genre           False
Publisher       False
NA_Sales        False
EU_Sales        False
JP_Sales        False
Other_Sales     False
Global_Sales    False
dtype: bool


Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

Po tych działaniach pozbyto się pustych wartości z zbioru. Zbiór zostanie sprawdzony pod kątem duplikatów.

In [57]:
df[df.duplicated(keep=False)]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales


W zbiorze nie występują żadne duplikaty. Zbiór **vgsales** został przygotowany do dalszej analizy.
Na koniec zapiszy jeszcze zbiór do osobnego pliku. W dalszej części projektu, właśnie ten oczyszczony zbiór będzie wykorzystywany do analizy.

In [60]:
df.to_csv("vgsalesCleaned.tsv", sep = ",")

### 2. Analiza oczyszczonego zbioru
Przed rozpoczęciem analizy zostanie zaczytany oczyszczony w poprzednim kroku zbiór.

In [61]:
vgdf = pd.read_csv("vgsalesCleaned.tsv")