# Project

## **주제와 목적**
최근 북미, 유럽, 일본, 그외 지역에서의 게임 판매량 데이터를 분석하고  
분석을 바탕으로 다음 분기 어떤 게임을 설계 할 것인지 정하는것이다    

## **게임을 설계하기 위해서 무엇을 고려해야할까?**
게임을 설계하는 방향은 "판매량이 많은 게임" 을 만드는 것이다  
그러므로 게임의 판매량에 영향을 주는 요인이 무엇인지 확인하고  
그 요인들을 바탕으로 게임의 장르, 플랫폼을 선택해야한다.

### **1. 장르는 어떻게 선택할까?**

우선 장르와 지역, 연도의 관련성을 분석해보자
1. 지역별 장르의 선호도가 다를까?
2. 연도별 장르의 트랜드가 있는가?

이 과정을 통해 장르와 연관성 있는것을 찾아낸다  

### **2. 플랫폼은 어떻게 선택할까?**

플랫폼과 판매량의 관련성을 분석해보자
1. 지역별 플랫폼의 선호도가 다를까?


### **3. 그 후 설계 방향은?**
위의 연관성 있는 기준들을 판매량이 많은 게임들에 적용시켜  
설계할 게임의 최적의 장르와 플렛폼을 고를 수 있다


분석을 시작하기전에, 데이터를 좀더 깔끔하게 다듬는 전처리 작업을 진행하였다  
# 전처리작업(EDA)
우선 데이터내의 수치를 일관성있게 통일하기위해 전처리작업을 진행하였다  
전처리작업이란, 숫자의단위나 알파벳의 대소문자의 통일, 알수없는값이나 비어있는값을 처리하여 데이터의 오류를 줄이는 과정이다.

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [30]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, f_oneway, stats
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler


# 데이터 불러오기
df = pd.read_csv('/content/drive/MyDrive/AI_bootcamp/vgames2.csv', encoding='CP949')

# 인덱스제거
df = df.drop(['Unnamed: 0','Name','Publisher'], axis=1)

In [31]:
# 데이터 전처리하기


# 판매량을 (0.00) 단위로 통일하고 float으로 변경하는 함수 선언
def unification(string):
    # K가 있다면 지우고 천 곱하고 백만으로 나누기
    if ('K' in string) == True:
        # 만약 0K 라면 0.001로 바로바꾸기
        if string == '0K':
            return float(0.001)
        else:
            remove_k = string.replace('K','')
            return float(remove_k)*0.001
    # M이 있다면 지우기
    elif ('M' in string) == True:
        # 만약 OM 이라면 1.0으로 바꾸기
        if string == '0M':
            return float(1.0)
        else:
            remove_m = string.replace('M','')
            return float(remove_m)
    # 둘다없다면 타입만바꾸기
    else:
        return float(string)

# 판매량 칼럽의 단위통일시키기
df['NA_Sales'] = df['NA_Sales'].apply(unification)
df['JP_Sales'] = df['JP_Sales'].apply(unification)
df['EU_Sales'] = df['EU_Sales'].apply(unification)
df['Other_Sales'] = df['Other_Sales'].apply(unification)

# datatype이 object->float으로 되었는지 확인
df.dtypes

Platform        object
Year           float64
Genre           object
NA_Sales       float64
EU_Sales       float64
JP_Sales       float64
Other_Sales    float64
dtype: object

전처리가 끝난 데이터로 분석해보자  


# 1. 장르는 어떻게 선택할까?

- 지역별 장르의 선호도는 다를까?  
  - 장르들의 지역별 판매량이 비슷하다면  ->  선호도가 비슷하다  
  - 장르들의 지역별 판매량이 다르다면  ->  선호도가 다르다  


In [32]:
# 장르와 판매량만 포함하는 df2 선언후 결측치 처리
df2 = df
df2 = df2.drop(['Year','Platform'],axis=1)
df2 = df2.dropna()
df2.isna().sum()
df2.head()

Unnamed: 0,Genre,NA_Sales,EU_Sales,JP_Sales,Other_Sales
0,Action,0.04,0.0,0.0,0.0
1,Action,0.17,0.0,0.0,0.01
2,Adventure,0.0,0.0,0.02,0.0
3,Misc,0.04,0.0,0.0,0.0
4,Platform,0.12,0.09,0.0,0.04


In [33]:
# 장르 선호도 비교해보기

# 장르들 목록 선언
genres = ['Action', 'Adventure', 'Fighting', 'Misc', 'Platform', 'Puzzle',
       'Racing', 'Role-Playing', 'Shooter', 'Simulation', 'Sports',
       'Strategy']

# 각 장르에대한 지역별 판매량 비교
for genre in genres:
    genre_data = df2[df2['Genre'] == genre]
    result = f_oneway(genre_data['NA_Sales'],genre_data['JP_Sales'],genre_data['EU_Sales'],genre_data['Other_Sales'])
    print(genre, '/p-value =', result[1])

# 여기서의 " 귀무가설 = 지역간 장르별 판매량은 차이가없다 "
# 하지만 장르들의 p-value 값이 모두 0.05보다 현저히 작으므로 귀무가설을 기각할수 있다
# 즉 "각 지역간의 장르별 판매량은 차이가 있다"
# 지역별 장르의 선호도는 다르다

Action /p-value = 9.917382232427142e-147
Adventure /p-value = 2.0945837982584205e-20
Fighting /p-value = 1.2330556384385163e-43
Misc /p-value = 6.440700553325507e-43
Platform /p-value = 3.476396668290617e-28
Puzzle /p-value = 7.747629545653912e-07
Racing /p-value = 5.541020506203407e-39
Role-Playing /p-value = 2.1695107684387342e-27
Shooter /p-value = 1.8083226259160457e-63
Simulation /p-value = 1.0172201539635495e-21
Sports /p-value = 1.4237698139211029e-39
Strategy /p-value = 2.6194762348013894e-12


In [None]:
ddt = df2.T.drop('Genre',axis=1)

scaler = StandardScaler()
df_scaled = scaler.fit_transform(ddt)
df_scaled

pca = PCA(2)
pca_df = pca.fit_transform(df_scaled)
pca_df = pd.DataFrame(pca_df, columns=['g1','g2'])
pca_df

stats.spearmanr(pca_df.g1,pca_df.g2)


- 연도별 게임의 트랜드가 있을까?
  - 연도의 장르별 갯수가 다르다면 - > 트랜드가 있다
  - 연도의 장르별 갯수가 비슷하다면 - > 트랜드가 없다  
(트랜드가 의미하는것이 장르의 갯수일까? 장르의 판매량일까 ?)

In [39]:
# 연도와 장르만 포함한 df3 선언후 결측치 처리
df3 = df[['Year','Genre']].dropna()
df3.isna().sum()

# 네자리로 통일시킨후 catogorical 하게 바꾸는 함수 선언
def make_year(year):
    if year < 21:
        return str(year+2000)
    elif year > 80 and year <= 99:
        return str(year+1900)
    else:
        return str(year)

# apply 사용해서 단위 통일
df3['Year'] = df3['Year'].apply(make_year)
df3.head()

Unnamed: 0,Year,Genre
0,2008.0,Action
1,2009.0,Action
2,2010.0,Adventure
3,2010.0,Misc
4,2010.0,Platform


In [38]:
# 장르의 갯수라면 ? 
# 연도별 장르의 갯수를 나타내는 데이터프레임 선언
year_genre = pd.crosstab(df3.Year,df3.Genre)
year_genre.head()

scaler = StandardScaler()
df_scaled = scaler.fit_transform(year_genre)
df_scaled

pca = PCA(2)
pca_df = pca.fit_transform(df_scaled)
pca_df = pd.DataFrame(pca_df, columns=['g1','g2'])
pca_df

stats.spearmanr(pca_df.g1,pca_df.g2)

SpearmanrResult(correlation=0.07469635627530365, pvalue=0.6513166876572201)

In [None]:
# 장르의 판매량이라면 ?
# 연도

In [371]:
# 연도별 데이터나누기

# 연도리스트 생성
years = ['1980.0', '1981.0', '1982.0', '1983.0', '1984.0', '1985.0', '1986.0',
       '1987.0', '1988.0', '1989.0', '1990.0', '1991.0', '1992.0', '1993.0',
       '1994.0', '1995.0', '1996.0', '1997.0', '1998.0', '1999.0', '2000.0',
       '2001.0', '2002.0', '2003.0', '2004.0', '2005.0', '2006.0', '2007.0',
       '2008.0', '2009.0', '2010.0', '2011.0', '2012.0', '2013.0', '2014.0',
       '2015.0', '2016.0', '2017.0', '2020.0']




# 2. 플랫폼은 어떻게 선택할까?

- 플랫폼과 지역별 판매량은 연관이있을까?




In [367]:
# 플랫폼과 지역별 판매액만 나타내는 데이터프레임 선언, 결측치제거
df4 = df.drop(['Year','Genre'],axis=1)
df4 = df4.dropna()
df4.head()

Unnamed: 0,Platform,NA_Sales,EU_Sales,JP_Sales,Other_Sales
0,DS,0.04,0.0,0.0,0.0
1,Wii,0.17,0.0,0.0,0.01
2,PSP,0.0,0.0,0.02,0.0
3,DS,0.04,0.0,0.0,0.0
4,PS3,0.12,0.09,0.0,0.04


In [368]:
# 플랫폼 리스트 선언
platforms = ['2600', '3DO', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG', 'N64',
       'NES', 'NG', 'PC', 'PCFX', 'PS', 'PS2', 'PS3', 'PS4', 'PSP', 'PSV',
       'SAT', 'SCD', 'SNES', 'TG16', 'WS', 'Wii', 'WiiU', 'X360', 'XB',
       'XOne']

# 각 플랫폼별 데이터 분리
def makePlatform(df):
    for platform in platforms:
        platform_data = df4[df4['Platform'] == platform]
        result = f_oneway(platform_data['NA_Sales'],platform_data['JP_Sales'],platform_data['EU_Sales'],platform_data['Other_Sales'])
        print(platform, '/p-value =', result[1])

makePlatform(df4)

# 귀무가설은 지역별 플랫폼의 판매량은 차이가 없다
# 결과는 아주오래된 몇개의 플랫폼을 제외하고는 모두 0.05보다 훨씬 낮은 p-value값을 가졌다
# 그러므로 귀무가설을 기각할 수 있고, 지역별 플랫폼의 판매량은 차이가 있다 고 판단할 수 있다
# 즉 지역별 플랫폼의 선호도는 다르다

2600 /p-value = 3.136406828910054e-42
3DO /p-value = 0.017162023580482293
3DS /p-value = 9.455209761154263e-10
DC /p-value = 0.00025256814746011486
DS /p-value = 7.303193580388891e-31
GB /p-value = 0.00017150874520351794
GBA /p-value = 2.2205794111493737e-53
GC /p-value = 7.714143836255033e-62
GEN /p-value = 0.0002372932225412577
GG /p-value = nan
N64 /p-value = 1.1672258273331049e-31
NES /p-value = 4.8735256244936565e-05
NG /p-value = 1.0011788008419206e-09
PC /p-value = 2.180888936680166e-34
PCFX /p-value = nan
PS /p-value = 2.2098341986663434e-58
PS2 /p-value = 1.0035671961679485e-71
PS3 /p-value = 2.372704652390955e-56
PS4 /p-value = 4.3547886105079335e-17
PSP /p-value = 1.7909100328021057e-11
PSV /p-value = 0.006047894173131857
SAT /p-value = 1.7092865289945671e-65
SCD /p-value = 0.6543526382795086
SNES /p-value = 2.6965843101790935e-16
TG16 /p-value = 0.29035241802349165
WS /p-value = 5.5371926648596975e-05
Wii /p-value = 5.524957156652667e-22
WiiU /p-value = 1.33240566024685e-07

  msw = sswn / dfwn


# 4. 출고량이 많은 게임을 분석하고 시각화해보자

출고량 순서대로 그래프를 그려보자

# 결론
## 판매량과 다른 요소들의 관계를 비교해보자  
위의 분석들을 통해 다음과 같은 결론을 내릴 수 있다  

판매량 - 장르  
판매량 - 플랫폼  
판매량 - 

이 우선순위를 바탕으로  
최근 판매량이 많은 게임을 분석하여 적용시켜본다면  

목적에 부합하는  
"잘 팔리는 게임"을 만들 수 있는 가능성이 높다  

~ 한 게임을 만드는것이 좋다

In [26]:
Rs = [8,1,1]
Ws = [1,1,8]
Ps = [1,8,1]

f_oneway(Rs,Ws,Ps)

F_onewayResult(statistic=0.0, pvalue=1.0)

In [22]:
g11

[8, 1, 1]

# 잘못된 자료들

In [None]:
# 정체불명의 장르분포비교 ,
ge_lo = df2.groupby('Genre').sum().T

# 각 지역별 장르의 분포를 비교하는 F-test 실시
ge_loc = f_oneway(ge_lo['Action'],ge_lo['Adventure'],ge_lo['Fighting'],ge_lo['Misc'],ge_lo['Platform'],ge_lo['Puzzle'],ge_lo['Racing'],ge_lo['Role-Playing'],ge_lo['Shooter'],ge_lo['Simulation'],ge_lo['Sports'],ge_lo['Strategy'])
print("P-value :", ge_loc.pvalue)

print("""
여기서의 귀무가설은 "장르별 판매량은 차이가없다" 이다

p-value의 값은 0.051 이므로 귀무가설을 기각할 수 없다
지역의 장르별 판매량은 차이가없다. 즉, 선호도가 비슷하다 
""")

In [None]:
# 플랫폼별 장르의 판매량 나타내는 함수 선언
platforms = ['2600', '3DO', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG', 'N64',
       'NES', 'NG', 'PC', 'PCFX', 'PS', 'PS2', 'PS3', 'PS4', 'PSP', 'PSV',
       'SAT', 'SCD', 'SNES', 'TG16', 'WS', 'Wii', 'WiiU', 'X360', 'XB',
       'XOne']

def platformGenre(df):
    df_empty = pd.DataFrame(columns=['Action','Adventure',	'Fighting',	'Misc',	'Platform',	'Puzzle',	'Racing',	'Role-Playing',	'Shooter',	'Simulation',	'Sports',	'Strategy'])
    for platform in platforms:
        plat = df[df['Platform'] == platform]
        plat = plat[['Genre','Total_Sales']]
        result = plat.groupby('Genre').mean().T
        result = result.rename(index={'Total_Sales': platform})
        df_empty = pd.concat([df_empty,result])
    return df_empty

platformGenre(df_platform_genre)