In [22]:
# Module
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from scipy import stats # 확률분포 그래프
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics

import warnings
warnings.filterwarnings('ignore')

In [23]:
total = pd.read_csv('./data/total_match.csv')

In [24]:
# 카테고리 순서
natcat = pd.DataFrame(list(total['team'].unique()))
natcat = natcat.sort_values(by = 0)
# natcat.reindex(index = range(1,19), columns=[0])
natcat['순서'] = range(1,19)
natcat

Unnamed: 0,0,순서
11,바레인,1
9,북한,2
12,사우디아라비아,3
13,시리아,4
8,아랍에미리트,5
17,오만,6
1,오스트레일리아,7
6,요르단,8
2,우즈베키스탄,9
5,이라크,10


In [25]:
total.head()

Unnamed: 0,seq,gameday,team,shoot,foul,possession,weater,temp,rank,salary,goal
0,12,29-Jan-11. 18:00,일본,3,14,55,4,20,17,4180995,1
1,51,29-Jan-11. 18:00,오스트레일리아,8,22,45,4,20,20,4910670,1
2,35,28-Jan-11. 18:00,우즈베키스탄,5,15,57,1,22,73,187874,2
3,24,28-Jan-11. 18:00,한국,4,10,43,1,22,31,2308955,3
4,34,25-Jan-11. 19:25,우즈베키스탄,3,9,67,4,21,73,187874,0


In [26]:
# 나라별 그룹 후 각 컬럼 평균 계산하기
# pivot table을 사용하여 그룹화하기
total_nations = total.pivot_table(index = ['team'], aggfunc = np.mean)
total_nations.head()

Unnamed: 0_level_0,foul,goal,possession,rank,salary,seq,shoot,temp,weater
team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
바레인,17.833333,1.5,48.0,112.5,66162.5,47.833333,5.666667,21.833333,2.0
북한,16.166667,0.333333,44.833333,114.5,118777.0,34.666667,3.333333,20.833333,2.166667
사우디아라비아,11.5,1.0,56.333333,89.0,294800.0,28.333333,3.333333,21.166667,2.333333
시리아,18.666667,1.333333,49.333333,106.0,138091.0,46.0,4.666667,21.0,3.0
아랍에미리트,12.222222,1.444444,51.888889,81.0,94580.666667,46.222222,3.444444,22.777778,2.333333


In [27]:
del total_nations['rank']
del total_nations['salary']
del total_nations['seq']
del total_nations['temp']
del total_nations['weater']

In [28]:
total_nations.head()

Unnamed: 0_level_0,foul,goal,possession,shoot
team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
바레인,17.833333,1.5,48.0,5.666667
북한,16.166667,0.333333,44.833333,3.333333
사우디아라비아,11.5,1.0,56.333333,3.333333
시리아,18.666667,1.333333,49.333333,4.666667
아랍에미리트,12.222222,1.444444,51.888889,3.444444


In [16]:
# 국가를 카테고리화 시키기
total['team']=total['team'].astype('category')
total['weater']=total['weater'].astype('category')
total['team'].cat.categories = ['%s'%i for i in range(1,19)]

In [6]:
total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 11 columns):
seq           128 non-null int64
gameday       128 non-null object
team          128 non-null category
shoot         128 non-null int64
foul          128 non-null int64
possession    128 non-null int64
weater        128 non-null category
temp          128 non-null int64
rank          128 non-null int64
salary        128 non-null int64
goal          128 non-null int64
dtypes: category(2), int64(8), object(1)
memory usage: 10.3+ KB


gameday	team	shoot	foul	possession	weater	temp	rank	salary	goal

In [49]:
target_col = ['team','shoot','foul','possession','weater','temp','rank','salary']
total[target_col].head()

Unnamed: 0,team,shoot,foul,possession,weater,temp,rank,salary
0,13,3,14,55,4,20,17,4180995
1,7,8,22,45,4,20,20,4910670
2,9,5,15,57,1,22,73,187874
3,18,4,10,43,1,22,31,2308955
4,9,3,9,67,4,21,73,187874


In [50]:
train, test = train_test_split(total,test_size=0.3,random_state=0)

In [51]:
# Train data 구성
# 모델 제작용 컬럼과 정답 컬럼을 구분
train_X = train[target_col]
train_Y = train['goal']
train_Y = train_Y.astype(float)
train_X.head()

Unnamed: 0,team,shoot,foul,possession,weater,temp,rank,salary
100,11,7,11,40,1,25,45,936990
6,18,7,24,43,4,17,31,2308955
92,16,1,8,59,1,27,139,5148
52,18,5,17,62,1,24,31,2308955
97,10,2,10,39,1,30,89,9586


In [52]:
train_Y.head()

100    1.0
6      2.0
92     0.0
52     2.0
97     0.0
Name: goal, dtype: float64

In [53]:
X_test = test[target_col]
Y_test = test['goal']
Y_test = Y_test.astype(float)
X_test.head()

Unnamed: 0,team,shoot,foul,possession,weater,temp,rank,salary
40,13,5,19,59,4,19,17,4180995
24,3,3,7,48,4,20,98,577598
86,5,0,12,68,3,28,65,138181
51,5,5,11,48,4,18,113,7380
8,7,10,28,55,1,20,20,4910670


In [54]:
Y_test.head()

40    2.0
24    0.0
86    0.0
51    0.0
8     1.0
Name: goal, dtype: float64

In [55]:
feature_one = train_X.values
target = train_Y.values

In [56]:
# model 생성
model = RandomForestRegressor(n_estimators=100, n_jobs=-1,random_state=0)
model

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=-1,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [57]:
# Training
model.fit(feature_one, target)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=-1,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [58]:
# 예측
pre = model.predict(X_test)
pre

array([1.32, 0.72, 1.6 , 0.61, 3.69, 3.39, 0.75, 1.76, 2.76, 3.04, 2.02,
       0.68, 0.72, 1.43, 1.81, 0.7 , 1.3 , 2.46, 0.48, 2.89, 0.8 , 0.75,
       1.76, 1.69, 0.62, 1.07, 0.99, 0.93, 1.48, 1.  , 1.28, 0.51, 3.67,
       0.71, 2.05, 0.71, 2.65, 1.35, 1.63])

13	3	14	55	4	20	17	4180995
team	shoot	foul	possession	weater	temp	rank	salary

In [69]:
# 2015년 호주, 한국 예측(1:2)
pre = model.predict([[7,4,26,53,3,22,20,1534325]])
pre2 = model.predict([[18,3,19,47,3,22,31,2308955]])
print('2015년 호주, 한국 예측')
print(pre)
print(pre2)
# 2015년 호주, 쿠웨이트 예측(4:1)
pre = model.predict([[7,8,19,60,3,16,100,1534325]])
pre2 = model.predict([[16,5,10,40,3,16,139,5148]])
print('2015년 호주, 쿠웨이트 예측')
print(pre)
print(pre2)
# 2015년 한국 오만 예측(1:0)
pre = model.predict([[18,6,14,67,3,19,51,2306476]])
pre2 = model.predict([[6,1,8,33,3,19,104,165857]])
print('2015년 한국 오만 예측')
print(pre)
print(pre2)
# 2019년 이란 일본 예측(0:3)
pre = model.predict([[11,2,17,46,1,31,45,4530110]])
pre2 = model.predict([[13,4,18,54,1,31,53,6934420]])
print('2019년 이란 일본 예측')
print(pre)
print(pre2)
# 2019년 카타르 일본 예측(3:1)
pre = model.predict([[15,3,8,40,1,31,93,147021]])
pre2 = model.predict([[13,1,18,60,1,31,50,6934420]])
print('2019년 카타르 일본 예측(')
print(pre)
print(pre2)
# 2019년 한국 카타르 예측(0:1)
pre = model.predict([[18,2,19,58,1,31,53,6038313]])
pre2 = model.predict([[15,4,14,42,1,31,93,147021]])
print('2019년 한국 카타르 예측')
print(pre)
print(pre2)
# 2019년 이란 중국 예측(3:0)
pre = model.predict([[11,7,19,55,1,31,29,4530110]])
pre2 = model.predict([[14,1,15,45,1,31,76,326027]])
print('2019년 이란 중국 예측')
print(pre)
print(pre2)

2015년 호주, 한국 예측
[1.11]
[1.07]
2015년 호주, 쿠웨이트 예측
[3.39]
[0.75]
2015년 한국 오만 예측
[1.36]
[0.08]
2019년 이란 일본 예측
[1.36]
[1.46]
2019년 카타르 일본 예측(
[0.84]
[1.46]
2019년 한국 카타르 예측
[1.2]
[0.82]
2019년 이란 중국 예측
[2.33]
[1.]


In [66]:
# 예측
# 날씨 - 구름 1 안개 2 비 3 맑음 4
print('바레인', '북한', '사우디아라비아', '시리아', '아랍에미리트', '오만', '오스트레일리아', '요르단')
print('우즈베키스탄', '이라크', '이란', '인도', '일본', '중국', '카타르', '쿠웨이트', '팔레스타인','한국')
print('')

print('')
print('오늘의 날씨를 입력해주세요!!','구름', '안개', '비', '맑음')

weather1 = input("날씨(구름', '안개', '비', '맑음) : ")
if weather1 == '구름':
    weather1 = 1
if weather1 == '안개':
    weather1 = 2
if weather1 == '비':
    weather1 = 3
if weather1 == '맑음':
    weather1 = 4
temp1 = input("오늘의 기온 : ")

print('')

# 팀 입력받기
team1 = input("팀 1 국가 : ")
a = natcat.loc[natcat[0]=='%s'%team1,"순서"]
a=int(a)

shoot1 = input("팀 1 유효슈팅 : ")
foul1 = input("팀 1 반칙 : ")
time1 = input("팀 1 점유율 : ")
fifa1 = input("팀 1 피파랭킹 : ")
sal1 = input("팀 1 팀연봉 : ")

print('')

# 팀2
team2 = input("팀 2 국가 : ")
b = natcat.loc[natcat[0]=='%s'%team2,"순서"]
b=int(b)

shoot2 = input("팀 2 유효슈팅 : ")
foul2 = input("팀 2 반칙 : ")
time2 = input("팀 2 점유율 : ")
fifa2 = input("팀 2 피파랭킹 : ")
sal2 = input("팀 2 팀연봉 : ")


pre1 = model.predict([[int(a),(int(shoot1) * 1.5),(40 - int(foul1)),(int(time1) * 1.5),int(weather1),int(temp1),(211 - int(fifa1)),(int(sal1) / 7021535 * 10)]])
pre2 = model.predict([[int(b),(int(shoot2) * 1.5),(40 - int(foul2)),(int(time2) * 1.5),int(weather1),int(temp1),(211 - int(fifa2)),(int(sal2) / 7021535 * 10)]])
print('')
print(team1, pre1) # 쿠웨이트
print(team2, pre2) # 우즈벡

if pre1 > pre2:
    print('%s (%d) 이 %s (%d)를 이겼습니다.'%(team1,pre1,team2,pre2))
if pre2 > pre1:
    print('%s (%d) 이 %s (%d)를 이겼습니다.'%(team2,pre2,team1,pre1))

바레인 북한 사우디아라비아 시리아 아랍에미리트 오만 오스트레일리아 요르단
우즈베키스탄 이라크 이란 인도 일본 중국 카타르 쿠웨이트 팔레스타인 한국


오늘의 날씨를 입력해주세요!! 구름 안개 비 맑음
날씨(구름', '안개', '비', '맑음) : 구름
오늘의 기온 : 31

팀 1 국가 : 한국
팀 1 유효슈팅 : 12
팀 1 반칙 : 14
팀 1 점유율 : 60
팀 1 피파랭킹 : 70
팀 1 팀연봉 : 99999999

팀 2 국가 : 일본
팀 2 유효슈팅 : 12
팀 2 반칙 : 14
팀 2 점유율 : 40
팀 2 피파랭킹 : 60
팀 2 팀연봉 : 99999999

한국 [3.28]
일본 [3.87]
일본 (3) 이 한국 (3)를 이겼습니다.
