## 선수별 언급 횟수 카운팅하기

이제 선수별로 시간 흐름에 따라서 뉴스 기사에서 언급된 횟수를 카운팅하겠습니다.  

### 선수 이름 데이터 가져오기
선수들의 이름은 KBO 공식 홈페이지에서 가져왔습니다.  

- KBO 전체 등록 현황: https://www.koreabaseball.com/Player/RegisterAll.aspx

In [3]:
import csv

def load_players():
    players = []
    with open("./data/baseball_player.csv") as fr:
        reader = csv.DictReader(fr)
        for row in reader:
            pitchers = row["투수"].split(" ")
            catchers = row["포수"].split(" ")
            infielders = row["내야수"].split(" ")
            outfielders = row["외야수"].split(" ")
            players.extend(pitchers + catchers + infielders + outfielders)
    return players

In [4]:
players = load_players()
players.extend(["이정후", "김하성", "최지만", "배지환", "박효준", "고우석"])
print(len(players), players)

285 ['곽도규', '윤영철', '임기영', '이준영', '김승현', '최지민', '네일', '황동하', '김건국', '장현식', '전상현', '김도현', '정해영', '알드레드', '양현종', '김태군', '한준수', '박찬호', '박민', '김도영', '서건창', '홍종표', '최원준', '이우성', '김호령', '소크라테스', '최형우', '나성범', '이창진', '홍건희', '김민규', '김강률', '이병헌', '김동주', '최지강', '알칸타라', '김명신', '브랜든', '이영하', '최원준', '김택연', '정철원', '양의지', '김기연', '허경민', '전민재', '강승호', '김재호', '양석환', '이유찬', '박준영', '정수빈', '김재환', '김대한', '라모스', '조수행', '김유영', '김대현', '정우영', '백승현', '이상영', '손주영', '켈리', '엔스', '김영준', '김진성', '김진수', '정지헌', '이지강', '유영찬', '박동원', '허도환', '김범석', '문보경', '오스틴', '신민재', '김주성', '구본혁', '김대원', '안익훈', '박해민', '김현수', '홍창기', '문성주', '이상민', '원태인', '양현', '이승현', '오승환', '김태훈', '육선엽', '최지광', '레예스', '코너', '최성훈', '이호성', '이승현', '김재윤', '이병헌', '강민호', '안주형', '김동진', '김영웅', '전병우', '김지찬', '박병호', '이재현', '이성규', '윤정빈', '김헌곤', '구자욱', '조병현', '서진용', '송영진', '김광현', '앤더슨', '한두솔', '노경은', '박민호', '문승원', '시라카와', '오원석', '최민준', '이로운', '김민식', '이지영', '안상현', '최정', '고명준', '박성한', '김성현', '박지환', '정준재', '추신수', '에레디아', '한유섬', '오태곤', '최지훈', '최민창', '송명기', '임정호', '김영규', '카

### 기사에서 선수 이름 카운팅하기
- 선수 이름 리스트를 정규표현식으로 만들어 카운팅을 할 예정
- "양현", "양현종" 선수처럼 이름외 외자인 선수가 존재할 경우, 이름이 세글자인 선수가 먼저 검색에 걸리도록 players 리스트의 순서를 한번 뒤집어준다.

In [5]:
import re

player_pattern = "|".join(sorted(players, reverse=True))

In [6]:
player_pattern

'후라도|황준서|황재균|황영묵|황성빈|황동하|홍현빈|홍창기|홍종표|홍건희|현도훈|헤이수스|허도환|허경민|한현희|한준수|한재승|한유섬|한승혁|한두솔|하트|하주석|하영민|쿠에바스|코너|켈리|카스타노|추신수|최형우|최항|최지훈|최지민|최지만|최지광|최지강|최주환|최정|최재훈|최인호|최원준|최원준|최성훈|최민창|최민준|채은성|진해수|주현상|주권|조영건|조수행|조상우|조병현|정훈|정해영|정철원|정찬헌|정지헌|정준재|정우영|정수빈|전상현|전사민|전병우|전민재|장현식|장진혁|장시환|장성우|임지열|임종찬|임정호|임기영|이호성|이창진|이지영|이지강|이준호|이준영|이주형|이정훈|이정후|이재현|이재원|이재상|이유찬|이원석|이원석|이우성|이용찬|이용규|이영하|이승현|이승현|이성규|이상영|이상민|이병헌|이병헌|이민우|이로운|이도윤|윤준혁|윤정빈|윤영철|윤동희|육청명|육선엽|유영찬|윌커슨|원태인|원성준|우규민|오태곤|오재일|오윤석|오원석|오승환|오스틴|오선진|오석주|엔스|에레디아|엄상백|양현종|양현|양의지|양석환|앤더슨|알칸타라|알드레드|안현민|안치홍|안주형|안익훈|안상현|신본기|신민혁|신민재|시라카와|송영진|송성문|송명기|손호영|손주영|손아섭|손성빈|손동현|소크라테스|성재헌|서호철|서진용|서의태|서동욱|서건창|브랜든|벤자민|백승현|배지환|배정대|배재환|박효준|박해민|박한결|박찬호|박진형|박진|박지환|박준영|박윤성|박영현|박시원|박시영|박승주|박승욱|박수종|박세혁|박세웅|박성한|박상원|박병호|박민호|박민우|박민|박동원|박건우|바리아|문현빈|문승원|문성현|문성주|문상철|문보경|문동주|류현진|로하스|레이예스|레예스|라모스|도태훈|도슨|데이비슨|노시환|노경은|네일|남지민|나승엽|나성범|나균안|김휘집|김호령|김혜성|김형준|김현수|김헌곤|김하성|김택연|김태훈|김태진|김태연|김태군|김진욱|김진수|김진성|김지찬|김주원|김주성|김재환|김재호|김재현|김재윤|김재열|김윤하|김유영|김원중|김영준|김영웅|김영규|김시훈|김승현|김성현|김성욱|김성민|김선기|김상수|김상수|김범수|김범석|김민혁|김민식|김민수|김

- 정규표현식의 findall 함수를 이용해서 기사에 등장한 선수 이름을 찾습니다.
- 길이가 긴 기사와 짧은 기사 간의 형평성을 위해서 중복을 제거해줍니다.

In [7]:
def extract_player_names(article):
    return re.findall(player_pattern, article)

In [8]:
extract_player_names("이정후가 양현종을 상대로 홈런을 쳤습니다. 이정후는 팀을 승리로 이끌었습니다.")

['이정후', '양현종', '이정후']

## 선수별 2023년 시계열 뉴스 기사 언급 횟수 데이터 셋 만들기
이제 각 선수별로 2023년 누적 언급 횟수를 카운팅하는 데이터 셋을 만들어줍니다.

### 1. 각 일자별 기사들을 가져와서 선수 언급 횟수를 카운팅하여 딕셔너리 형태로 만듭니다. 
- key: 날짜 value: 선수 언급 횟수 Counter
- Counter의 key: 선수 이름, value: 언급 횟수

```python
date_counter = {
    "20230302": {
        "이정후": 5,
        "김광현": 10,
        ...
    },
    "20230731": {
        "이정후": 12,
        "김광현": 8
    },
    ...
}
```



In [27]:
from collections import defaultdict, Counter
from tqdm import tqdm

def get_date_counter():
    date_counter = defaultdict(Counter)
    with open("./data/baseball_2023.csv") as fr:
        reader = csv.DictReader(fr)
        for article_dict in tqdm(reader):
            date = article_dict["date"]
            content = article_dict["content"]
            player_names = extract_player_names(content)
            date_counter[date] += Counter(set(player_names))
    return date_counter

In [28]:
date_counter = get_date_counter()

115136it [00:24, 4660.49it/s]


In [30]:
print(date_counter["20230501"])

Counter({'고우석': 37, '소크라테스': 35, '나균안': 32, '김진욱': 31, '김상수': 27, '김원중': 27, '김광현': 26, '박세웅': 24, '최형우': 23, '오재일': 23, '박병호': 22, '이로운': 22, '구승민': 22, '한현희': 21, '송영진': 21, '오원석': 20, '이원석': 20, '김민수': 19, '김진성': 18, '김태훈': 17, '신본기': 16, '나성범': 15, '문동주': 14, '강현우': 14, '박진': 14, '배정대': 13, '이용찬': 13, '오스틴': 12, '김민': 12, '송명기': 12, '황재균': 11, '강백호': 11, '문성주': 11, '채은성': 11, '김도영': 11, '김민석': 11, '주권': 10, '박동원': 10, '이창진': 10, '양현종': 10, '김동혁': 10, '최원준': 9, '장성우': 9, '안치홍': 9, '박민우': 9, '박찬호': 8, '켈리': 8, '이지강': 8, '벤자민': 8, '앤더슨': 8, '김현수': 8, '고승민': 8, '이승현': 8, '오윤석': 8, '문보경': 7, '정우영': 7, '노시환': 7, '알칸타라': 7, '김영규': 7, '이우성': 7, '정해영': 7, '강민호': 7, '문상철': 6, '황성빈': 6, '원태인': 6, '최지민': 6, '윤영철': 6, '김재윤': 6, '허경민': 6, '오승환': 6, '이정훈': 5, '최정': 5, '문승원': 5, '양의지': 5, '엄상백': 5, '이재현': 5, '김동주': 4, '이병헌': 4, '김기연': 4, '오선진': 4, '김혜성': 4, '이정후': 4, '김주원': 4, '로하스': 4, '홍창기': 4, '손아섭': 4, '에레디아': 4, '조수행': 4, '전상현': 4, '장현식': 3, '서건창': 3, '이준영': 3, '구자욱': 3, '김민혁': 3, '박해민': 3, '

### 2. 2023년 각 일자를 나타내는 리스트를 만들어 줌

In [31]:
from datetime import datetime, timedelta

def get_dates_between(start_datetime, end_datetime):
    datestr_list = []
    while start_datetime < end_datetime:
        datestr_list.append(start_datetime.strftime("%Y%m%d"))
        start_datetime += timedelta(days=1)
    return datestr_list

In [32]:
date_list = get_dates_between(
    start_datetime=datetime(2023, 1, 1),
    end_datetime=datetime(2024, 1, 1)
)
print(date_list)

['20230101', '20230102', '20230103', '20230104', '20230105', '20230106', '20230107', '20230108', '20230109', '20230110', '20230111', '20230112', '20230113', '20230114', '20230115', '20230116', '20230117', '20230118', '20230119', '20230120', '20230121', '20230122', '20230123', '20230124', '20230125', '20230126', '20230127', '20230128', '20230129', '20230130', '20230131', '20230201', '20230202', '20230203', '20230204', '20230205', '20230206', '20230207', '20230208', '20230209', '20230210', '20230211', '20230212', '20230213', '20230214', '20230215', '20230216', '20230217', '20230218', '20230219', '20230220', '20230221', '20230222', '20230223', '20230224', '20230225', '20230226', '20230227', '20230228', '20230301', '20230302', '20230303', '20230304', '20230305', '20230306', '20230307', '20230308', '20230309', '20230310', '20230311', '20230312', '20230313', '20230314', '20230315', '20230316', '20230317', '20230318', '20230319', '20230320', '20230321', '20230322', '20230323', '20230324', '20

### 3. 선수별로 2022년 시간 흐름에 따른 누적 언급 횟수 집계하기
각 선수들의 이름을 key, 2022년도 일자 흐름에 따라서 누적 언급 횟수 list를 value로 갖도록 딕셔너리를 만듬.
- key: 선수 이름, value: 각 일자별 누적 언급 횟수
```python
player_count_dict = {
    "이정후": [5, 7, 16, 29, 33, ...],
    "김광현": [1, 1, 5, 8, 10, ...]
}
```

In [33]:
def get_player_count_dict(date_list, date_counter):
    player_count_dict = {player: [0 for x in range(len(date_list))] for player in players}
    
    for i, date in enumerate(date_list):
        cur_counter = date_counter[date]
        # 이전 날짜에 언급 횟수를 가져옴
        if i > 0:
            for player in players:
                player_count_dict[player][i] = player_count_dict[player][i-1]
        # 현재 날짜에 언급된 횟수를 더해줌
        for player in cur_counter:
            player_count_dict[player][i] += cur_counter[player]
    return player_count_dict

In [34]:
player_count_dict = get_player_count_dict(date_list, date_counter)

In [39]:
# 2022년 1월 1일부터 12월 31일까지 스포츠 뉴스에 이정후 선수가 언급된 누적 횟수
print(player_count_dict["이정후"])

[14, 86, 142, 239, 275, 289, 297, 313, 336, 364, 375, 387, 396, 404, 408, 436, 455, 465, 484, 561, 579, 588, 594, 605, 657, 696, 707, 712, 731, 749, 766, 780, 793, 808, 817, 828, 852, 879, 890, 913, 942, 958, 981, 1004, 1022, 1090, 1131, 1222, 1239, 1281, 1356, 1385, 1405, 1426, 1493, 1525, 1543, 1552, 1614, 1672, 1739, 1819, 1861, 1911, 2040, 2208, 2295, 2485, 2689, 2799, 2924, 3065, 3172, 3240, 3320, 3335, 3383, 3416, 3440, 3448, 3488, 3542, 3567, 3578, 3603, 3620, 3636, 3659, 3719, 3751, 3800, 3819, 3837, 3855, 3893, 3934, 3946, 3959, 3972, 3984, 4022, 4040, 4073, 4112, 4112, 4174, 4209, 4243, 4275, 4294, 4342, 4369, 4393, 4404, 4432, 4442, 4483, 4509, 4521, 4540, 4544, 4560, 4634, 4677, 4718, 4740, 4768, 4777, 4815, 4881, 4930, 4948, 4951, 4972, 4984, 5018, 5067, 5109, 5138, 5148, 5163, 5169, 5186, 5211, 5222, 5251, 5302, 5343, 5348, 5354, 5382, 5401, 5426, 5445, 5492, 5508, 5532, 5573, 5654, 5777, 5812, 5854, 5916, 5961, 6016, 6054, 6066, 6082, 6093, 6137, 6165, 6190, 6236, 6251, 

## 결과 출력하기

In [40]:
def convert_date_format(date):
    return datetime.strptime(date, "%Y%m%d").strftime("%Y-%m-%d")
    
with open("./data/baseball_timeseries.csv", "w") as fw:
    writer = csv.writer(fw)
    writer.writerow(["name", "imge"] + [convert_date_format(x) for x in date_list])
    for player_key in player_count_dict:
        writer.writerow([player_key, ""] + player_count_dict[player_key])