---
- 작성자 : 이휘
- 작성일 : 2024-06-04
---

In [1]:
# 데이터 프레임과 계산을 위한 라이브러리
import pandas as pd
import numpy as np

# 차트
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 차트 경고 메세지 무시
import warnings
warnings.filterwarnings('ignore')

In [3]:
# 한글 폰트 문제 해결 함수
def fontKorea():
    # 한글 폰트 문제 해결 
    # matplotlib은 한글 폰트를 지원하지 않음
    # os정보
    import platform

    # font_manager : 폰트 관리 모듈
    # rc : 폰트 변경 모듈
    from matplotlib import font_manager, rc
    # unicode 설정
    plt.rcParams['axes.unicode_minus'] = False

    if platform.system() == 'Darwin':
        rc('font', family='AppleGothic') # os가 macos
    elif platform.system() == 'Windows':
        path = 'c:/Windows/Fonts/malgun.ttf' # os가 windows
        font_name = font_manager.FontProperties(fname=path).get_name()
        rc('font', family=font_name)
    else:
        print("Unknown System")

In [4]:
# 날짜, 요일, 홈팀, 원정팀, 장소, 관중 수 데이터 불러오기
data_01 = pd.read_csv("./Data/kiwoom_heroes_info(2022~2024).csv")
data_01.head()

Unnamed: 0,날짜,요일,홈팀,원정팀,장소,관중 수
0,2022-04-02,토,키움,롯데,고척,8257
1,2022-04-03,일,키움,롯데,고척,6115
2,2022-04-05,화,키움,LG,고척,2298
3,2022-04-06,수,키움,LG,고척,2304
4,2022-04-07,목,키움,LG,고척,2055


In [5]:
wheather = pd.read_json('./Data/result_dict.json')
wheather.T.head()

Unnamed: 0,시간,위치,기온,강수량,풍속,습도,기압,일조,일사,시정,현상번호
2022-04-02,"{'0': '2022-04-02 12:00', '1': '2022-04-02 13:...","{'0': '서울', '1': '서울', '2': '서울', '3': '서울', '...","{'0': 12.5, '1': 13.2, '2': 14.0, '3': 13.7, '...","{'0': 0.0, '1': 0.0, '2': 0.0, '3': 0.0, '4': ...","{'0': 2.2, '1': 3.0, '2': 3.6, '3': 4.8, '4': ...","{'0': 33.0, '1': 29.0, '2': 36.0, '3': 36.0, '...","{'0': 1017.0, '1': 1016.3, '2': 1015.4, '3': 1...","{'0': 1.0, '1': 1.0, '2': 1.0, '3': 1.0, '4': ...","{'0': 3.19, '1': 3.27, '2': 3.1, '3': 2.75, '4...","{'0': 2000.0, '1': 2000.0, '2': 2000.0, '3': 2...","{'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ..."
2022-04-03,"{'0': '2022-04-03 12:00', '1': '2022-04-03 13:...","{'0': '서울', '1': '서울', '2': '서울', '3': '서울', '...","{'0': 13.5, '1': 15.4, '2': 16.0, '3': 16.3, '...","{'0': 0.0, '1': 0.0, '2': 0.0, '3': 0.0, '4': ...","{'0': 3.6, '1': 2.9, '2': 3.8, '3': 3.8, '4': ...","{'0': 35.0, '1': 33.0, '2': 28.0, '3': 25.0, '...","{'0': 1018.2, '1': 1017.5, '2': 1016.7, '3': 1...","{'0': 1.0, '1': 1.0, '2': 1.0, '3': 1.0, '4': ...","{'0': 3.1, '1': 3.31, '2': 3.18, '3': 2.87, '4...","{'0': 2000.0, '1': 2000.0, '2': 2000.0, '3': 2...","{'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ..."
2022-04-05,"{'0': '2022-04-05 12:00', '1': '2022-04-05 13:...","{'0': '서울', '1': '서울', '2': '서울', '3': '서울', '...","{'0': 14.1, '1': 15.2, '2': 15.5, '3': 15.2, '...","{'0': 0.0, '1': 0.0, '2': 0.0, '3': 0.0, '4': ...","{'0': 4.1, '1': 3.9, '2': 3.3, '3': 4.4, '4': ...","{'0': 31.0, '1': 29.0, '2': 27.0, '3': 27.0, '...","{'0': 1011.9, '1': 1011.3, '2': 1010.7, '3': 1...","{'0': 1.0, '1': 1.0, '2': 1.0, '3': 1.0, '4': ...","{'0': 2.82, '1': 2.86, '2': 2.86, '3': 2.64, '...","{'0': 2000.0, '1': 2000.0, '2': 2000.0, '3': 2...","{'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ..."
2022-04-06,"{'0': '2022-04-06 12:00', '1': '2022-04-06 13:...","{'0': '서울', '1': '서울', '2': '서울', '3': '서울', '...","{'0': 14.4, '1': 15.8, '2': 16.2, '3': 16.5, '...","{'0': 0.0, '1': 0.0, '2': 0.0, '3': 0.0, '4': ...","{'0': 2.4, '1': 2.8, '2': 4.0, '3': 2.9, '4': ...","{'0': 45.0, '1': 32.0, '2': 21.0, '3': 27.0, '...","{'0': 1011.8, '1': 1011.4, '2': 1010.6, '3': 1...","{'0': 1.0, '1': 1.0, '2': 1.0, '3': 0.8, '4': ...","{'0': 3.09, '1': 3.28, '2': 3.04, '3': 2.15, '...","{'0': 2000.0, '1': 2000.0, '2': 2000.0, '3': 2...","{'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ..."
2022-04-07,"{'0': '2022-04-07 12:00', '1': '2022-04-07 13:...","{'0': '서울', '1': '서울', '2': '서울', '3': '서울', '...","{'0': 14.8, '1': 15.1, '2': 14.8, '3': 14.8, '...","{'0': 0.0, '1': 0.0, '2': 0.0, '3': 0.0, '4': ...","{'0': 4.7, '1': 5.2, '2': 4.6, '3': 4.6, '4': ...","{'0': 30.0, '1': 31.0, '2': 32.0, '3': 32.0, '...","{'0': 1006.7, '1': 1006.1, '2': 1005.8, '3': 1...","{'0': 1.0, '1': 1.0, '2': 1.0, '3': 1.0, '4': ...","{'0': 3.22, '1': 3.38, '2': 3.27, '3': 2.9, '4...","{'0': 2000.0, '1': 2000.0, '2': 2000.0, '3': 2...","{'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ..."


In [11]:
wheather.T['시간'].values

array([{'0': '2022-04-02 12:00', '1': '2022-04-02 13:00', '2': '2022-04-02 14:00', '3': '2022-04-02 15:00', '4': '2022-04-02 16:00', '5': '2022-04-02 17:00', '6': '2022-04-02 18:00', '7': '2022-04-02 19:00'},
       {'0': '2022-04-03 12:00', '1': '2022-04-03 13:00', '2': '2022-04-03 14:00', '3': '2022-04-03 15:00', '4': '2022-04-03 16:00', '5': '2022-04-03 17:00', '6': '2022-04-03 18:00', '7': '2022-04-03 19:00'},
       {'0': '2022-04-05 12:00', '1': '2022-04-05 13:00', '2': '2022-04-05 14:00', '3': '2022-04-05 15:00', '4': '2022-04-05 16:00', '5': '2022-04-05 17:00', '6': '2022-04-05 18:00', '7': '2022-04-05 19:00'},
       {'0': '2022-04-06 12:00', '1': '2022-04-06 13:00', '2': '2022-04-06 14:00', '3': '2022-04-06 15:00', '4': '2022-04-06 16:00', '5': '2022-04-06 17:00', '6': '2022-04-06 18:00', '7': '2022-04-06 19:00'},
       {'0': '2022-04-07 12:00', '1': '2022-04-07 13:00', '2': '2022-04-07 14:00', '3': '2022-04-07 15:00', '4': '2022-04-07 16:00', '5': '2022-04-07 17:00', '6': '

In [None]:
# 속성 확인
data_01.info()

In [None]:
# 날짜 데이터를 datetime으로 type으규식 로 변환할 수 있게 정사용하여 데이터 변환
data_01['날짜'] = data_01['날짜'].str.replace(r'\([가-힣]\)', '', regex=True)
# 날짜 컬럼을 datetime으로 type 변환
data_01['날짜'] = pd.to_datetime(data_01['날짜'])
data_01.head()

In [None]:
# 속성 확인
data_01.info()

In [None]:
# 날짜, 요일, 홈팀, 원정팀, 장소, 관중 수 데이터 불러오기
data_02 = pd.read_csv("./Data/test.csv")
data_02.head()

In [None]:
# 필요한 데이터 병합하기
kiwoom = pd.concat(
    [
        data_01['날짜'],
        data_01['요일'],
        data_01['원정팀'],
        data_01['관중 수'],
        data_02['시작시간']
    ],
    axis=1
    )
kiwoom

In [None]:
# 속성 확인
kiwoom.info()

In [None]:
# 연도, 월 컬럼으로 분리하기
kiwoom['연도'] = kiwoom['날짜'].dt.year
kiwoom

In [None]:
# 속성 확인
kiwoom.info()

----
### 목표 : 2022~2023년 데이터와 2024년 데이터 분리하기
> 관중 수 예측 모델을 만들어 2022~2023년 데이터를 train 데이터로 학습시키고 <br>
학습한 예측 모델을 가지고 2024 데이터를 test 데이터로 사용하자

In [None]:
# 2022~2023년 데이터와 2024년 데이터 분리
kiwoom_2022_2023 = \
    kiwoom[(kiwoom['연도'] == 2022) | (kiwoom['연도'] == 2023)]
kiwoom_2024 = kiwoom[kiwoom['연도'] == 2024]
kiwoom_2024 = kiwoom_2024.reset_index(drop=True)

In [None]:
# 분리 되었는지 확인
kiwoom_2022_2023['연도'].unique()

In [None]:
# 분리 되었는지 확인
kiwoom_2024['연도'].unique()

In [None]:
# 스타일
plt.style.use('classic')

kiwoom_2022_2023['관중 수'].plot(
    kind='hist',
    bins=20,
    color='coral',
    figsize=(15,7)
)

plt.title('Historam')
plt.xlabel('Fan')

plt.show()

----
#### 2022~2023년 요일별 관중 수

In [None]:
fontKorea()
sns.boxplot(
    data=kiwoom_2022_2023,
    x='요일',
    y='관중 수'
)
plt.title('KBO 리그 요일별 2022~2023년 요일별 관중 수')
plt.show()

In [None]:
# # plt.scatter(x, kiwoom_2022_2023['관중 수'], s=area, c=colors, alpha=0.5)
# plt.figure(figsize=(10, 6))
# plt.scatter(kiwoom_2022_2023.index, kiwoom_2022_2023['관중 수'])
# # 그래프 표시
# plt.show()

In [None]:
# 데이터 불러오기 (kiwoom_2022_2023 DataFrame)
data = kiwoom_2022_2023.groupby('요일')['관중 수'].mean().sort_values()

# 막대 그래프 생성
plt.figure(figsize=(10, 6))
plt.bar(data.index, data.values, color='skyblue')  # 요일 이름 사용
plt.xlabel("요일")
plt.ylabel("평균 관중 수")
plt.ylim(3000,10000)
plt.title("KBO 리그 요일별 평균 관중 수(2022~2023년)")

# 그래프 표시
plt.show()

> 목요일이 가장 평균 관중 수가 가장 낮고, 토요일이 가장 높다. <br>
> 상관 관계를 위해 위의 데이터를 수치화 작업하자 <br>
> 목요일 -> 1<br>
> 수요일 -> 2<br>
> 화요일 -> 3<br>
> 금요일 -> 4<br>
> 일요일 -> 5<br>
> 토요일 -> 6<br>

In [None]:
data

In [None]:
data[1]

In [None]:
# 변환
day_mapping = {
    '목': data[0],
    '수': data[1],
    '화': data[2],
    '금': data[3],
    '일': data[4],
    '토': data[5]
}
# 변환 적용
kiwoom_2022_2023['요일'].replace(day_mapping, inplace=True)
kiwoom_2024['요일'].replace(day_mapping, inplace=True)

In [None]:
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023[['요일','관중 수']].corr()

In [None]:
sns.boxplot(
    data=kiwoom_2022_2023,
    x='시작시간',
    y='관중 수',
)
plt.title("KBO 리그 시작시간별 평균 관중 수(2022~2023년)")
plt.show()

### 시작 시간
- 야구 시작시간<br>
- 주말 -> 14:00, 17:00<br>
- 평일 -> 18:30<br>
- 혹서기 한정 -> 18:00(7,8월일 때 17:00 경기를 1시간 미룸)

In [None]:
kiwoom_2022_2023['시작시간'].unique()

In [None]:
# 2022~2023년 시작시간이 18:00인 데이터 확인(2건)
kiwoom_2022_2023[kiwoom_2022_2023['시작시간'] == '18:00']

In [None]:
# 총 2건 밖에 안되므로 17:00 값으로 대체
# 18:00 시작시간 데이터 선택
target_rows = kiwoom_2022_2023[kiwoom_2022_2023['시작시간'] == '18:00']

# 시작시간 변경
kiwoom_2022_2023.loc[target_rows.index, '시작시간'] = '17:00'

In [None]:
# 시작시간 컬럼 속성 확인
kiwoom_2022_2023['시작시간'].unique()

----
#### 2022~2023년 시작시간별 평균 관중 수

In [None]:
# 데이터 불러오기 (kiwoom_2022_2023 DataFrame)
data = kiwoom_2022_2023.groupby('시작시간')['관중 수'].mean().sort_values()

# 막대 그래프 생성
plt.figure(figsize=(10, 6))
plt.bar(data.index, data.values, color='skyblue')
plt.xlabel("시작시간")
plt.ylabel("평균 관중 수")
plt.ylim(3000,10000)
plt.title("KBO 리그 시작시간별 평균 관중 수(2022~2023년)")

# 그래프 표시
plt.show()

> 18:30이 가장 평균 관중 수가 가장 낮고, 14:00이 가장 높다. <br>
> 상관 관계를 위해 위의 데이터를 수치화 작업하자 <br>
> 18:30 -> 1<br>
> 17:00 -> 2<br>
> 14:00 -> 3<br>

In [None]:
# 변환
day_mapping = {
    '18:30': data[0],
    '17:00': data[1],
    '14:00': data[2]
}

# 변환 적용
kiwoom_2022_2023['시작시간'].replace(day_mapping, inplace=True)
kiwoom_2024['시작시간'].replace(day_mapping, inplace=True)

In [None]:
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023[['관중 수','요일','시작시간']].corr()

----
#### 주중 경기/주말(공휴일) 경기 나누자

In [None]:
len(kiwoom_2022_2023.loc[(kiwoom_2022_2023['요일'] == 5) | (kiwoom_2022_2023['요일'] == 6)])

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['연도'] == 2022]

> 2022년 공휴일(월, 주말 제외)<br>
05-05, 06-01, 09-09

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2022-06-01']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2022-09-09']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['연도'] == 2023]

> 2022년 공휴일(월, 주말 제외)<br>
05-05, 06-06, 08-15, 09-28, 09-29

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-05-05']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-06-06']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-09-28']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-09-29']

In [None]:
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2022-06-01']
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2022-09-09']
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-05-05']
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-06-06']
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-09-28']
kiwoom_2022_2023[kiwoom_2022_2023['날짜'] == '2023-09-29']

In [None]:
kiwoom_2022_2023['주중/주말(공휴일)'] = ''

In [None]:
holidays = ['2022-06-01', '2022-09-09', '2023-05-05', '2023-06-06', '2023-09-28', '2023-09-29']

for holiday in holidays:
    kiwoom_2022_2023.loc[kiwoom_2022_2023['날짜'] == holiday, '주중/주말(공휴일)'] = 1

In [None]:
kiwoom_2022_2023.loc[kiwoom_2022_2023['요일'] == 5, '주중/주말(공휴일)'] = 1
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023.loc[kiwoom_2022_2023['요일'] == 6, '주중/주말(공휴일)'] = 1
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023.loc[kiwoom_2022_2023['주중/주말(공휴일)'] != 1, '주중/주말(공휴일)'] = 0
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023['주중/주말(공휴일)'].isnull().sum()

In [None]:
kiwoom_2022_2023['주중/주말(공휴일)'] = kiwoom_2022_2023['주중/주말(공휴일)'].astype('int')
kiwoom_2022_2023

In [None]:
kiwoom_2022_2023[['관중 수','주중/주말(공휴일)','요일','시작시간']].corr()

In [None]:
kiwoom_2024

In [None]:
kiwoom_2024.loc[kiwoom_2024['요일'] == 5, '주중/주말(공휴일)'] = 1
kiwoom_2024

In [None]:
kiwoom_2024.loc[kiwoom_2024['요일'] == 6, '주중/주말(공휴일)'] = 1
kiwoom_2024

In [None]:
kiwoom_2024.loc[kiwoom_2024['주중/주말(공휴일)'] != 1, '주중/주말(공휴일)'] = 0
kiwoom_2024

In [None]:
kiwoom_2024['주중/주말(공휴일)'] = kiwoom_2024['주중/주말(공휴일)'].astype('int')
kiwoom_2024

----
#### 2022~2023년 원정팀별 평균 관중 수

In [None]:
# 데이터 불러오기 (kiwoom_2022_2023 DataFrame)
data = kiwoom_2022_2023.groupby('원정팀')['관중 수'].mean().sort_values()

# 막대 그래프 생성
plt.figure(figsize=(10, 6))
plt.bar(data.index, data.values, color='skyblue')  # 요일 이름 사용
plt.xlabel("원정팀")
plt.ylabel("평균 관중 수")
plt.ylim(3000,10000)
plt.title("KBO 리그 원정팀별 평균 관중 수(2022~2023년)")

# 그래프 표시
plt.show()

> KT 경기가 가장 평균 관중 수가 가장 낮고, 롯데 경기가 가장 높다. <br>
> 상관 관계를 위해 위의 데이터를 수치화 작업하자 <br>
> KT -> 1<br>
> NC -> 2<br>
> 두산 -> 3<br>
> 삼성 -> 4<br>
> LG -> 5<br>
> SSG -> 6<br>
> 한화 -> 7<br>
> KIA -> 8<br>
> 롯데 -> 9<br>

In [None]:
# 변환 맵 정의
away_mapping = {
    'KT': data[0],
    'NC': data[1],
    '두산': data[2],
    '삼성': data[3],
    'LG': data[4],
    'SSG': data[5],
    '한화': data[6],
    'KIA': data[7],
    '롯데': data[8]
}

# 변환 적용
kiwoom_2022_2023['원정팀'].replace(away_mapping, inplace=True)
kiwoom_2024['원정팀'].replace(away_mapping, inplace=True)

In [None]:
kiwoom_2022_2023

In [None]:
# column 이름 문자열로 바꾸기
kiwoom_2022_2023.columns = kiwoom_2022_2023.columns.astype(str)
kiwoom_2024.columns = kiwoom_2024.columns.astype(str)

In [None]:
kiwoom_2022_2023 = kiwoom_2022_2023.drop(['날짜','연도'], axis=1)
kiwoom_2024 = kiwoom_2024.drop(['날짜','연도'], axis=1)

In [None]:
# # One-Hot Encoding 작업
# # 원정팀
# away_encoding = pd.get_dummies(kiwoom_2022_2023['원정팀'])
# kiwoom_2022_2023 = kiwoom_2022_2023.join(away_encoding)

In [None]:
# # One-Hot Encoding 작업
# # 원정팀
# away_encoding = pd.get_dummies(kiwoom_2024['원정팀'])
# kiwoom_2024 = kiwoom_2024.join(away_encoding)

In [None]:
kiwoom_2022_2023.head()

In [None]:
kiwoom_2024.head()

In [None]:
# 2022-2023년 데이터 정리
# One-Hot Encoding 부분을 boolean에서 int로 변환
kiwoom_2022_2023.iloc[:,8:] = kiwoom_2022_2023.iloc[:,8:].astype('int')
# column 이름 문자열로 바꾸기
kiwoom_2022_2023.columns = kiwoom_2022_2023.columns.astype(str)
# Target인 관중 수를 제외한 나머지 원본 Feature 부분 제외하고 데이터 불러오기
kiwoom_2022_2023 = pd.concat([kiwoom_2022_2023['관중 수'],kiwoom_2022_2023['요일'],kiwoom_2022_2023['시작시간'],kiwoom_2022_2023['주중/주말(공휴일)'],kiwoom_2022_2023.iloc[:,8:]],axis=1)
kiwoom_2022_2023.head(10)

In [None]:
# 2024년 데이터 정리
# One-Hot Encoding 부분을 boolean에서 int로 변환
kiwoom_2024.iloc[:,8:] = kiwoom_2024.iloc[:,8:].astype('int')
# column 이름 문자열로 바꾸기
kiwoom_2024.columns = kiwoom_2024.columns.astype(str)
# Target인 관중 수를 제외한 나머지 원본 Feature 부분 제외하고 데이터 불러오기
kiwoom_2024 = pd.concat([kiwoom_2024['관중 수'],kiwoom_2024['요일'],kiwoom_2024['시작시간'],kiwoom_2024['주중/주말(공휴일)'],kiwoom_2024.iloc[:,8:]],axis=1)
kiwoom_2024.head(10)

In [None]:
# 분석한 Target과 Feature 열만 가져오기
kiwoom_2022_2023 = \
    pd.concat(
        [
            kiwoom_2022_2023['관중 수'],
            kiwoom_2022_2023['요일'],
            kiwoom_2022_2023['시작시간']
        ],
        axis=1
        )
kiwoom_2022_2023.head(10)

In [None]:
kiwoom_2022_2023.corr()

In [None]:
# 2022-2023 데이터 임시 저장
# kiwoom_2022_2023.to_csv('./Data/2022-2023_One-hot.csv')

----
## 관중 수 범위 찾기

In [None]:
# k-mean로 관중 수 범위 나눌 k 값 찾기
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# 데이터 전처리: 타깃 컬럼과 피쳐 컬럼 분리
features = kiwoom_2022_2023.drop(columns=['관중 수'])
target = kiwoom_2022_2023['관중 수']

attendance_shape = np.array(target).reshape(-1,1)

# 특성 표준화
scaler = StandardScaler()
features_scaled = scaler.fit_transform(attendance_shape)

# 엘보우 방법을 사용하여 최적의 클러스터 수 찾기
sse = []
k_range = range(3, 15)  # 3부터 15까지의 k 값에 대해 확인

for k in k_range:
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(attendance_shape)
    sse.append(kmeans.inertia_)

# 엘보우 그래프 그리기
plt.figure(figsize=(10, 6))
plt.plot(k_range, sse, marker='o')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Sum of squared distances (SSE)')
plt.title('Elbow Method For Optimal k')
plt.grid(True)
plt.show()


> k값의 최적은 5이므로, 관중 수는 5구간으로 나누는 것이 적합.

In [None]:
# K-means 클러스터링
kmeans = KMeans(n_clusters=5)
clusters = kmeans.fit_predict(attendance_shape)
clusters

# 클러스터 라벨을 데이터프레임에 추가
kiwoom_2022_2023['Cluster'] = clusters

# 각 클러스터의 관중 수 범위 계산
cluster_ranges = {}

for cluster in range(5):
    cluster_data = \
        kiwoom_2022_2023[kiwoom_2022_2023['Cluster'] == cluster]
    min_attendance = \
        cluster_data['관중 수'].min()
    max_attendance = \
        cluster_data['관중 수'].max()
    cluster_ranges[cluster] = (min_attendance, max_attendance)

# 클러스터의 관중 수 범위를 정렬
sorted_cluster_ranges = \
sorted(cluster_ranges.items(), key=lambda x: x[1])
sorted_cluster_ranges

> 관중 수를 클러스터링으로 분류 결과 <br>  
~3500 -> 1 <br>
3500~6000 -> 2 <br>
6000~9000 -> 3 <br>
9000~13000 -> 4 <br>
13000~ -> 5 <br>

In [None]:
# 규칙에 따라 관중 수를 분류하여 새로운 컬럼에 할당
kiwoom_2022_2023['관중수 분류'] = \
    pd.cut(kiwoom_2022_2023['관중 수'], 
    bins=[0, 3500, 6000, 9000, 13000, float('inf')], 
    labels=[
        np.mean(sorted_cluster_ranges[0][1]).round(0),
        np.mean(sorted_cluster_ranges[1][1]).round(0),
        np.mean(sorted_cluster_ranges[2][1]).round(0),
        np.mean(sorted_cluster_ranges[3][1]).round(0),
        np.mean(sorted_cluster_ranges[4][1]).round(0)
        ], 
    right=False)

In [None]:
kiwoom_2022_2023 = \
kiwoom_2022_2023.drop(['Cluster','관중 수'], axis=1)
kiwoom_2022_2023['관중수 분류'].astype(int)
kiwoom_2022_2023

In [None]:
# 규칙에 따라 관중 수를 분류하여 새로운 컬럼에 할당
kiwoom_2024['관중수 분류'] = pd.cut(kiwoom_2024['관중 수'], 
                                    bins=[0, 3500, 6000, 9000, 13000, float('inf')], 
                                    labels=[
                                                np.mean(sorted_cluster_ranges[0][1]).round(),
                                                np.mean(sorted_cluster_ranges[1][1]).round(),
                                                np.mean(sorted_cluster_ranges[2][1]).round(),
                                                np.mean(sorted_cluster_ranges[3][1]).round(),
                                                np.mean(sorted_cluster_ranges[4][1]).round()
                                            ], 
                                    right=False)

In [None]:
kiwoom_2024 = kiwoom_2024.drop(['관중 수'], axis=1)
kiwoom_2024['관중수 분류'].astype(int)
kiwoom_2024

In [None]:
# plt.scatter(
#     x=kiwoom_2022_2023.index,
#     y=kiwoom_2022_2023['관중 수'],
#     c=clusters
# )

----
# 예측


In [None]:
# 각 column별 상관계수 확인
kiwoom_2022_2023.corr()

In [None]:
# Randomforest 회귀모델로 정확도율 구하기
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 데이터 준비 (x는 피쳐, y는 타겟)
x = kiwoom_2022_2023.drop(['관중 수'], axis=1)
y = kiwoom_2022_2023['관중 수']

# 학습 데이터와 테스트 데이터로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

# 랜덤 포레스트 회귀모델 학습
rf_regressor = RandomForestRegressor()
rf_regressor.fit(x_train, y_train)

# 테스트 데이터에 대한 예측
y_pred = rf_regressor.predict(x_test)

# 오차 계산 (평균 제곱 오차)
mse = mean_squared_error(y_test, y_pred)
# print("Mean Squared Error:", mse)

# MAPE 계산 함수 정의
def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    print(y_pred.round(0))
    print(y_true)
    # return np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    return (1 - np.mean(np.abs((y_true - y_pred) / y_true))) * 100


# MAPE 계산
mape = mean_absolute_percentage_error(y_test, y_pred)
print("정확도율:", mape.round(0), "%")

----
### 랜덤포레스트 클러스터링 예측

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

----
### Train, test 구분

In [None]:
# 데이터 준비 (x는 피쳐, y는 타겟)
x = kiwoom_2022_2023.drop(['관중수 분류'], axis=1)
y = kiwoom_2022_2023['관중수 분류']

# 실제 데이터 준비
test_x = kiwoom_2024.drop(['관중수 분류'], axis=1)
test_y = kiwoom_2024['관중수 분류']

In [None]:
def cross_validation(classifier, features, labels):
    cv_scores = []
    for i in range(10):
        scores = cross_val_score(
            classifier, # 함수
            features,
            labels,
            cv=10,
            scoring='accuracy',
            n_jobs=-1
        )
        cv_scores.append(round(scores.mean()*100,0))
    return cv_scores

In [None]:
# 랜덤포레스트
cross_validation(RandomForestClassifier(), x, y)

In [None]:
# 랜덤포레스트
cross_validation(SVC(), x, y)

In [None]:
# 의사결정 나무
cross_validation(tree.DecisionTreeClassifier(), x, y)

In [None]:
# KNN
cross_validation(KNeighborsClassifier(n_neighbors=5), x, y)

In [None]:
# 학습 데이터와 테스트 데이터로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

# 랜덤 포레스트 분류모델 학습
svm_clf = SVC()
# rf_clf_01 = RandomForestClassifier()
svm_clf.fit(x_train, y_train)
# rf_clf.fit(x, y)

# 테스트 데이터에 대한 예측
# y_pred = rf_clf.predict(x_test)
# y_pred_t = rf_clf.predict(test_x)
scores = cross_val_score(svm_clf, x_test, y_test, cv=5)

print("교차 검증 점수:", scores*100)
print(f"평균 교차 검증 점수:{round(scores.mean()*100)}%")    

# 정확도 계산
# accuracy = accuracy_score(y_test, y_pred)
# accuracy_t = accuracy_score(test_y, y_pred_t)
# print(f"학습예측율 : {scores * 100:.2f}%({i+1}회)")
# print(f"학습예측율 : {accuracy * 100:.2f}%({i+1}회)")
# print(f"실제예측율 : {accuracy * 100:.2f}%({i+1}회)")

In [None]:
# Train용 함수
def trainML(model):
    # 5번 반복하여 학습 및 평가
    for i in range(5):

        # 학습 데이터와 테스트 데이터로 분리
        x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
        
        # 랜덤 포레스트 분류모델 학습
        dtree = model
        dtree.fit(x_train, y_train)

        # 테스트 데이터에 대한 예측
        y_pred = dtree.predict(x_test)

        # 정확도 계산
        accuracy = accuracy_score(y_test, y_pred)
        accuracies.append(accuracy)
        print(f"예측율 : {accuracy * 100:.2f}%({i+1}회)")

----
### 랜덤포레스트

In [None]:
trainML(RandomForestClassifier())

----
### 의사결정나무

----
### KNN

----
### SVM

In [None]:
trainML(SVC(probability=True).fit(x, y))

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import RidgeClassifier

In [None]:
# 학습 데이터와 테스트 데이터로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

# 특성 만들기
poly = PolynomialFeatures(degree=7, include_bias=False)
poly.fit(x_train)
train_poly = poly.transform(x_train)
test_poly = poly.transform(x_test)

# 데이터 스케일링
ss = StandardScaler()
ss.fit(x_train)
train_scaled = ss.transform(x_train)
test_scaled = ss.transform(x_test)

In [None]:
# 분류기 학습
clf = RidgeClassifier()
clf.fit(train_scaled, y_train)

# 교차 검증 수행 및 평가
scores = cross_val_score(clf, x_test, y_test, cv=5)
print("교차 검증 점수:", scores*100)
print("평균 교차 검증 점수:", scores.mean()*100,'%')

In [None]:
# 분류기 학습
kncf = KNeighborsClassifier(n_neighbors=5)
kncf.fit(train_scaled, y_train)

# 교차 검증 수행 및 평가
scores = cross_val_score(kncf, x_test, y_test, cv=5)
print("교차 검증 점수:", scores*100)
print("평균 교차 검증 점수:", scores.mean()*100,'%')

In [None]:
# Feature
kiwoom_2022_2023_input = kiwoom_2022_2023.drop(['관중수 분류'], axis=1).to_numpy()
kiwoom_2022_2023_input[:5]

In [None]:
# Target Data
kiwoom_2022_2023_target = kiwoom_2022_2023['관중수 분류'].to_numpy()
kiwoom_2022_2023_target[:5]

In [None]:
# Train과 Test 분리
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
    train_test_split(kiwoom_2022_2023_input, kiwoom_2022_2023_target, stratify=kiwoom_2022_2023_target, random_state=42)

In [None]:
# 표준화 작업
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [None]:
from sklearn.linear_model import SGDClassifier

In [None]:
sc = SGDClassifier(
    loss='log', # 로지스틱 손실함수
    # loss='log_loss', # 로지스틱 손실함수
    max_iter=10, # 반복 횟수
    random_state=42
    )

In [None]:
sc.fit(train_scaled, train_target)

In [None]:
print('train score :', sc.score(train_scaled, train_target))
print('test score :', sc.score(test_scaled, test_target))

In [None]:
sc.partial_fit(train_scaled, train_target)
print('train score :', sc.score(train_scaled, train_target))
print('test score :', sc.score(test_scaled, test_target))

In [None]:
import numpy as np
sc = SGDClassifier(loss='log', random_state=42)
# sc = SGDClassifier(loss='log_loss', random_state=42)
train_score = []
test_score = []

classes = np.unique(train_target)
classes

In [None]:
for _ in range(0,300):
    sc.partial_fit(train_scaled, train_target, classes=classes)
    train_score.append(sc.score(train_scaled, train_target))
    test_score.append(sc.score(test_scaled, test_target))

In [None]:
# 그래프로
import matplotlib.pyplot as plt

plt.plot(train_score)
plt.plot(test_score)

plt.show()

In [None]:
# 새롭게 시작
sc = SGDClassifier(
    loss='log',
    # loss='log_loss',
    max_iter=100,
    tol=None # 조기종료 시점이나 현재는 정지기준이 없고 반복기간동안의 최적의 손실값보다 큰 경우 조기 종료.
)
sc.fit(train_scaled, train_target)
print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

In [None]:
# 새롭게 시작
sc = SGDClassifier(
    loss='hinge', # SVM
    # loss='log_loss',
    max_iter=100,
    tol=1.0e-2 # 기본값.
)
sc.fit(train_scaled, train_target)
print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

In [None]:
# 새롭게 시작
sc = SGDClassifier(
    loss='perceptron', # SVM
    # loss='log_loss',
    max_iter=100,
    tol=1.0e-2 # 기본값.
)
sc.fit(train_scaled, train_target)
print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))