## 선수별 언급 횟수 카운팅하기

이제 선수별로 시간 흐름에 따라서 뉴스 기사에서 언급된 횟수를 카운팅하겠습니다.  

### 선수 이름 데이터 가져오기
선수들의 이름은 KBO 공식 홈페이지에서 가져왔습니다.  

- KBO 전체 등록 현황: https://www.koreabaseball.com/Player/RegisterAll.aspx

In [1]:
import csv

def load_players():
    players = []
    with open("./data/baseball_players.csv") as fr:
        reader = csv.reader(fr)
        next(reader)
        for row in reader:
            team, pitcher_str, catcher_str, infielder_str, outfielder_str = row
            pitchers = pitcher_str.split("\n")
            catchers = catcher_str.split("\n")
            infielders = infielder_str.split("\n")
            outfielders = outfielder_str.split("\n")
            players.extend(pitchers + catchers + infielders + outfielders)
    return players

In [2]:
players = load_players()
print(len(players), players)

279 ['김진욱', '한현희', '최준용', '박세웅', '구승민', '김상수', '반즈', '신정락', '최이준', '김원중', '윤명준', '나균안', '스트레일리', '유강남', '정보근', '안치홍', '한동희', '김민수', '노진혁', '박승욱', '이학주', '전준우', '정훈', '안권수', '렉스', '김민석', '고승민', '윤동희', '고효준', '서진용', '김광현', '맥카티', '노경은', '박민호', '문승원', '오원석', '임준섭', '신헌민', '박종훈', '백승건', '최민준', '김민식', '조형우', '최정', '박성한', '김건웅', '최주환', '전의산', '최경모', '김성현', '추신수', '에레디아', '한유섬', '오태곤', '김정민', '최상민', '임찬규', '함덕주', '정우영', '진해수', '켈리', '이정용', '배재준', '박명근', '김진성', '플럿코', '김윤식', '이지강', '유영찬', '최성훈', '김기연', '박동원', '오지환', '서건창', '김민성', '문보경', '송찬의', '정주현', '박해민', '김현수', '오스틴', '신민재', '홍창기', '문성주', '박치국', '홍건희', '이병헌', '김동주', '최지강', '알칸타라', '김명신', '곽빈', '최원준', '김유성', '고봉재', '최승용', '정철원', '장승현', '양의지', '허경민', '강승호', '전민재', '김재호', '양석환', '이유찬', '로하스', '정수빈', '김재환', '강진성', '조수행', '양찬열', '송승환', '송명기', '페디', '김태현', '김영규', '김시훈', '임정호', '하준영', '이용준', '신민혁', '김진호', '구창모', '조민석', '이준호', '박세혁', '안중열', '도태훈', '박민우', '오영수', '서호철', '오태양', '윤형준', '김한별', '김주원', '천재환', '김성욱', '손아섭', '박건우', '한석현', '윤영철', '임기영', '이준영

### 기사에서 선수 이름 카운팅하기
- 선수 이름 리스트를 정규표현식으로 만들어 카운팅을 할 예정
- "양현", "양현종" 선수처럼 이름외 외자인 선수가 존재할 경우, 이름이 세글자인 선수가 먼저 검색에 걸리도록 players 리스트의 순서를 한번 뒤집어준다.

In [3]:
import re

player_pattern = ""

- 정규표현식의 findall 함수를 이용해서 기사에 등장한 선수 이름을 찾습니다.
- 길이가 긴 기사와 짧은 기사 간의 형평성을 위해서 중복을 제거해줍니다.

In [4]:
def extract_player_names(article):
    return re.findall(player_pattern, article)

In [5]:
extract_player_names("이정후가 양현종을 상대로 홈런을 쳤습니다. 이정후는 팀을 승리로 이끌었습니다.")

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

## 선수별 2022년 시계열 뉴스 기사 언급 횟수 데이터 셋 만들기
이제 각 선수별로 2022년 누적 언급 횟수를 카운팅하는 데이터 셋을 만들어줍니다.

### 1. 각 일자별 기사들을 가져와서 선수 언급 횟수를 카운팅하여 딕셔너리 형태로 만듭니다. 
- key: 날짜 value: 선수 언급 횟수 Counter
- Counter의 key: 선수 이름, value: 언급 횟수

```python
date_counter = {
    "20230302": {
        "이정후": 5,
        "김광현": 10,
        ...
    },
    "20230731": {
        "이정후": 12,
        "김광현": 8
    },
    ...
}
```



In [6]:
from collections import defaultdict, Counter
from tqdm import tqdm

def get_date_counter():
    date_counter = defaultdict(Counter)
    return date_counter

In [7]:
date_counter = get_date_counter()

In [8]:
print(date_counter["20220301"])

Counter()


### 2. 2022년 각 일자를 나타내는 리스트를 만들어 줌

In [9]:
from datetime import datetime, timedelta

def get_dates_between(start_datetime, end_datetime):
    datestr_list = []
    return datestr_list

In [10]:
date_list = get_dates_between(
    start_datetime=datetime(2022, 1, 1),
    end_datetime=datetime(2023, 1, 1)
)
print(date_list)

[]


### 3. 선수별로 2022년 시간 흐름에 따른 누적 언급 횟수 집계하기
각 선수들의 이름을 key, 2022년도 일자 흐름에 따라서 누적 언급 횟수 list를 value로 갖도록 딕셔너리를 만듬.
- key: 선수 이름, value: 각 일자별 누적 언급 횟수
```python
player_count_dict = {
    "이정후": [5, 7, 16, 29, 33, ...],
    "김광현": [1, 1, 5, 8, 10, ...]
}
```

In [48]:
def get_player_count_dict(date_list, date_counter):
    player_count_dict = {player: [0 for x in range(len(date_list))] for player in players}
    
    for i, date in enumerate(date_list):
        cur_counter = date_counter[date]
        # 이전 날짜에 언급 횟수를 가져옴
        if i > 0:
            for player in players:
                player_count_dict[player][i] = player_count_dict[player][i-1]
        # 현재 날짜에 언급된 횟수를 더해줌
        for player in cur_counter:
            player_count_dict[player][i] += cur_counter[player]
    return player_count_dict

In [26]:
player_count_dict = get_player_count_dict(date_list, date_counter)

In [30]:
# 2022년 1월 1일부터 12월 31일까지 스포츠 뉴스에 이정후 선수가 언급된 누적 횟수
print(player_count_dict["이정후"])

[5, 7, 16, 29, 33, 37, 41, 42, 45, 47, 50, 56, 59, 63, 65, 66, 70, 71, 74, 77, 79, 79, 82, 84, 85, 86, 90, 108, 117, 120, 125, 128, 131, 146, 151, 158, 158, 159, 159, 162, 177, 203, 232, 242, 253, 259, 264, 269, 272, 275, 277, 305, 316, 318, 320, 325, 327, 331, 332, 334, 336, 341, 377, 393, 398, 404, 410, 428, 436, 446, 466, 502, 529, 542, 551, 593, 612, 616, 623, 627, 642, 652, 685, 690, 695, 704, 712, 728, 735, 784, 815, 838, 876, 887, 913, 934, 946, 956, 969, 990, 1004, 1031, 1065, 1079, 1106, 1141, 1200, 1225, 1253, 1312, 1359, 1383, 1427, 1440, 1447, 1472, 1508, 1530, 1558, 1572, 1583, 1611, 1651, 1676, 1693, 1720, 1746, 1775, 1794, 1811, 1837, 1855, 1873, 1888, 1909, 1912, 1922, 1929, 1934, 1953, 1964, 1992, 2002, 2037, 2079, 2106, 2114, 2147, 2188, 2202, 2228, 2243, 2274, 2285, 2294, 2302, 2306, 2346, 2377, 2404, 2415, 2426, 2463, 2512, 2557, 2615, 2666, 2702, 2736, 2784, 2825, 2847, 2877, 2923, 2953, 2979, 3014, 3042, 3105, 3208, 3263, 3306, 3353, 3383, 3429, 3500, 3603, 3659, 

## 결과 출력하기

In [33]:
def convert_date_format(date):
    return datetime.strptime(date, "%Y%m%d").strftime("%Y-%m-%d")
    
with open("./data/baseball_timeseries.csv", "w") as fw:
    writer = csv.writer(fw)
    writer.writerow(["name", "imge"] + [convert_date_format(x) for x in date_list])
    for player_key in player_count_dict:
        writer.writerow([player_key, ""] + player_count_dict[player_key])