## ch 10. 데이터 전처리하기

크롤링을 통해 수집한 뉴스 기사 데이터에서 필요없는 부분을 먼저 제거하겠습니다. 텍스트 데이터를 전처리할 때는 정규 표현식을 활용하면 좋습니다.

### 크롤링 데이터 불러오기

csv 라이브러리를 이용해서 데이터를 불러오겠습니다.

In [8]:
import csv
from tqdm.notebook import tqdm

def load_article_list():
    article_list = []
    with open ("./data/merged.csv") as fr:
        reader = csv.DictReader(fr)
        for item_dict in tqdm(reader):
            article_list.append(item_dict)
    return article_list 

In [9]:
article_list = load_article_list()

0it [00:00, ?it/s]

In [10]:
article_list[:5]

[{'date': '20230101',
  'url': 'https://m.sports.naver.com/kbaseball/article/076/0003956216',
  'title': "'16일째 멈춘 시계' FA 협상, 사인&트레이드 논의 재개하나",
  'content': "2022 KBO 준플레이오프 4차전 KT위즈와 키움 히어로즈의 경기가 20일 수원KT위즈파크에서 열렸다. 키움 정찬헌. 수원=박재만 기자 pjm@sportschosun.com/2022.10.20/2022 KBO 준플레이오프 2차전 키움 히어로즈와 KT위즈의 경기가 17일 서울 고척스카이돔에서 열렸다. KT 신본기. 고척=박재만 기자 pjm@sportschosun.com/2022.10.17/[스포츠조선 나유리 기자]연말에 멈춰있던 FA 시계는 다시 돌아갈까. 현재까지 KBO리그 FA 마지막 계약은 지난달 16일 발표한 NC 다이노스와 투수 이재학의 계약이다. 이재학은 NC에 잔류하면서 2+1년 최대 9억원에 사인했다.굵직한 선수들은 대부분 FA 시장이 열리자마자 계약을 마쳤다. '최대어' 양의지를 비롯해 채은성 유강남 박동원 노진혁 박세혁 등 주요 선수들은 대부분 11월에 거취가 결정됐고, 이들의 계약이 확정된 후 시장의 시계는 급격히 느려졌다. 이재학의 잔류가 결정되고 나서도 보름이 넘는 기간 동안 추가 계약은 한 건도 성사되지 않았다. 여전히 시장에는 미계약 선수 6명이 남아있다. 투수 정찬헌과 한현희 강리호(개명전 강윤구), 내야수 신본기, 외야수 권희동과 이명기다. 연말에는 구단들도 대부분 종무를 하고 쉬는 분위기다. 중요하고 급한 업무는 처리하지만, 우선 순위가 뒤로 밀린다. 구단별로 사정은 달라도 전체적인 분위기가 그렇다. 새해가 시작된만큼, 야구단 업무도 다시 기지개를 켠다. 구단들은 대부분 1월 둘째주 전후로 2023년도 업무를 시작한다. '미아'가 될 위기에 놓여있는 FA 미계약 선수들에 관련한 논의도 다시 시작될 수 있다. 현재까지 이들 중  원 소속 구단으로부터 만

### 크롤링 과정에서 포함된 불필요한 텍스트 제거

크롤링 결과를 확인해보니 \xa0와 같이 뜻을 알 수 없는 문자들이 포함되어 있습니다. 이는 크롤링 과정에서 불필요하게 포함된 데이터로, 미리 제거해주는 것이 좋습니다. str에서 제공하는 replace 함수로 제거해보겠습니다.

In [14]:
from copy import deepcopy

def filter_invalid_char(article_list):
    new_article_list = []
    for article in tqdm(article_list):
        new_article = deepcopy(article)
        content = article["content"]
        new_article["content"] = content.replace("\xa0", "")
        new_article_list.append(new_article)
    return new_article_list

In [15]:
article_list = filter_invalid_char(article_list)

  0%|          | 0/24262 [00:00<?, ?it/s]

In [18]:
article_list[:5]

[{'date': '20230101',
  'url': 'https://m.sports.naver.com/kbaseball/article/076/0003956216',
  'title': "'16일째 멈춘 시계' FA 협상, 사인&트레이드 논의 재개하나",
  'content': "2022 KBO 준플레이오프 4차전 KT위즈와 키움 히어로즈의 경기가 20일 수원KT위즈파크에서 열렸다. 키움 정찬헌. 수원=박재만 기자 pjm@sportschosun.com/2022.10.20/2022 KBO 준플레이오프 2차전 키움 히어로즈와 KT위즈의 경기가 17일 서울 고척스카이돔에서 열렸다. KT 신본기. 고척=박재만 기자 pjm@sportschosun.com/2022.10.17/[스포츠조선 나유리 기자]연말에 멈춰있던 FA 시계는 다시 돌아갈까. 현재까지 KBO리그 FA 마지막 계약은 지난달 16일 발표한 NC 다이노스와 투수 이재학의 계약이다. 이재학은 NC에 잔류하면서 2+1년 최대 9억원에 사인했다.굵직한 선수들은 대부분 FA 시장이 열리자마자 계약을 마쳤다. '최대어' 양의지를 비롯해 채은성 유강남 박동원 노진혁 박세혁 등 주요 선수들은 대부분 11월에 거취가 결정됐고, 이들의 계약이 확정된 후 시장의 시계는 급격히 느려졌다. 이재학의 잔류가 결정되고 나서도 보름이 넘는 기간 동안 추가 계약은 한 건도 성사되지 않았다. 여전히 시장에는 미계약 선수 6명이 남아있다. 투수 정찬헌과 한현희 강리호(개명전 강윤구), 내야수 신본기, 외야수 권희동과 이명기다. 연말에는 구단들도 대부분 종무를 하고 쉬는 분위기다. 중요하고 급한 업무는 처리하지만, 우선 순위가 뒤로 밀린다. 구단별로 사정은 달라도 전체적인 분위기가 그렇다. 새해가 시작된만큼, 야구단 업무도 다시 기지개를 켠다. 구단들은 대부분 1월 둘째주 전후로 2023년도 업무를 시작한다. '미아'가 될 위기에 놓여있는 FA 미계약 선수들에 관련한 논의도 다시 시작될 수 있다. 현재까지 이들 중  원 소속 구단으로부터 만

### 기자 이름 제거

다음으로 기사 본문에서 "[스포츠조선 나유리 기자]", "[OSEN=인천, 최규한 기자]"와 같이 대괄호와 함께 적힌 언론사 이름과 기자 이름을 제거해보겠습니다. 이는 형태가 매우 다양해서 단순히 replace만으로는 제거가 어렵습니다. 이럴 때엔 정규 표현식을 활용할 수 있습니다.

정규표현식은 아래와 같은 요령으로 작성하면 됩니다.

1. 예시 데이터를 가지고 정규표현식을 작성한 뒤, 결과를 확인한다.
2. 여러 샘플들에 대해서도 정규표현식이 의도한 대로 동작하는지 확인한다.

In [19]:
example_article = "[마이데일리 = 장윤호 기자]롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다. 그 때도 롯데에 서운함이 있었으나 말 없이 덮었다. 4년의 계약 기간이 지나갔다. 여전히 롯데는 한국시리즈 근처에 가지 못했다. 이대호는 올해 1월29일 롯데와 2년 총액 26억 원(계약금 8억 원 연봉 8억 원)에 특별한 옵션을 걸었다. 남은 2억 원에 다른 인센티브 조건이 아니라 한국시리즈 우승 의지를 담았다. 그리고 ‘우승하면 받는 1억 원의 옵션을 불우이웃을 돕는데 모두 기부하겠다’고 약속했다. 이대호는 그 때 계약이 늦어져 팬들에게 죄송하다고 말했다. 롯데 팬들이 걱정한 것도 사실이다. 전격 은퇴를 선언할 가능성도 분명히 있었다. 같은 시기 FA 4년 계약을 했던 KIA 최형우는 이미 12월에 3년 총액 47억원(게약금 13억원, 연봉 9억원, 옵션 7억원)에 계약을 맺었다.  차이가 분명히 있다. 최형우와 나이는 1살차였지만 이대호는 4년 계약 기간 중 파워나 기여도에서 그에 뒤지지 않았다. 그런데 단 하나 최형우는 계약 첫 해인 2017시즌 김기태 감독을 도와 팀을 한국시리즈 우승으로 이끌었다. 2022시즌 이대호는 롯데와 17년을 동행하게 된다. 부산에서 태어나고 자란 이대호가 무려 17년이나 한국시리즈 우승을 못하고 유니폼을 벗게 되면 평생 자신은 물론 롯데 팬들의 마음 한켠에 빈 곳이 남아 있게 될 것이다. 그는 2년 재계약을 하면서 은퇴 배수진을 치고 ‘우승을 위해 할 수 있는 모든 것을 다하겠다. 후배들에게 내가 가진 모든 것을 전수해주겠다’고 밝혔다. 그런데 프랜차이즈 스타 손아섭이 NC 다이노스로 떠나고 강민호 재영입도 실패하면서 롯데의 한국시리즈 우승은 점점 멀어져 가고 있다. 이대호의 꿈이 무너져 간다. 이제는 그의 침묵이 어색하다. [사진=마이데일리 DB](장윤호 기자 changyh218@mydaily.co.kr)"

In [34]:
import re

pattern = r"^\[.+?\]" 

In [35]:
re.findall(pattern, example_article)

['[마이데일리 = 장윤호 기자]']

전체 데이터 셋에서 일부를 샘플링해서 정규표현식 패턴에 일치하는 텍스트만 출력해보겠습니다.

In [36]:
import random

# random.seed(1234)

def check_pattern_match(article_list, pattern, num_samples=300):
    samples = random.choices(article_list, k=num_samples)
    for sample in samples:
        content = sample["content"]
        matches = re.findall(pattern, content)
        if matches:
            print(matches)

In [37]:
check_pattern_match(article_list, pattern)

['[OSEN=오키나와(일본), 이선호 기자]']
['[OSEN=고척, 이대선 기자]']
['[마이데일리 = 광주 김진성 기자]']
['[마이데일리 = 오사카(일본) 박승환 기자]']
['[마이데일리 = 오키나와(일본) 심혜진 기자]']
['[마이데일리 = 김진성 기자]']
['[마이데일리 = 박승환 기자]']
['[OSEN=수원, 이대선 기자]']
['[마이데일리 = 스코츠데일(미국 애리조나주) 김진성 기자]']
['[이데일리 스타in 이석무 기자]']
['[서울=뉴시스]']
['[마이데일리 = 고척 김진성 기자]']
['[OSEN=도쿄(일본), 손용호 기자]']
['[OSEN=도쿄(일본), 손용호 기자]']
['[마이데일리 = 수원 김건호 기자]']
['[오사카=뉴시스]']
['[OSEN=이선호 기자]']
['[마이데일리 = 박승환 기자]']
['[KBS 부산]']
['[스포츠서울ㅣ윤수경기자]']
['[마이데일리 = 김진성 기자]']
['[OSEN=오키나와(일본), 이대선 기자]']
['[뉴스리뷰]']
['[OSEN=스코츠데일(미국 애리조나주), 지형준 기자]']
['[KBO리그]']
['[광주=뉴시스]']
['[OSEN=부산, 이석우 기자]']
['[OSEN=백종인 객원기자]']
['[마이데일리 = 고척 김진성 기자]']
['[마이데일리 = 오키나와(일본) 김건호 기자]']
['[OSEN=도쿄, 손용호 기자]']
['[마이데일리 = 김진성 기자]']
['[OSEN=인천공항, 김성락 기자]']
['[OSEN=투손(미국 애리조나주), 지형준 기자]']
['[마이데일리 = 유진형 기자]']
['[OSEN=인천국제공항, 홍지수 기자]']
['[앵커]']
['[마이데일리 = 투손(미국 애리조나주) 김진성 기자]']
['[스포탈코리아]']
['[스포탈코리아]']
['[마이데일리 = 김건호 기자]']
['[OSEN=차탄, 손찬익 기자]']
['[정오뉴스]']
['[마이데일리 = 창원 김진성 기자]']
['[마이데일리 = 광주 김진성 기자]']
['[마이데일리 = 박승

### re.sub 함수를 이용해서 불필요한 텍스트 제거
앞서서 검증한 패턴을 가지고 데이터 셋에서 불필요한 부분을 제거

In [39]:
def filter_reporter_name(article_list, pattern):
    filtered_article_list = []
    for article in tqdm(article_list):
        new_article = deepcopy(article)
        content = article["content"]
        filtered_content = re.sub(pattern, "", content)
        if not filtered_content:
            continue
        new_article["content"] = filtered_content.strip()
        filtered_article_list.append(new_article)
    return filtered_article_list 

In [40]:
filtered_article_list = filter_reporter_name(article_list, pattern)

  0%|          | 0/24262 [00:00<?, ?it/s]

In [42]:
filtered_article_list[:5]

[{'date': '20230101',
  'url': 'https://m.sports.naver.com/kbaseball/article/076/0003956216',
  'title': "'16일째 멈춘 시계' FA 협상, 사인&트레이드 논의 재개하나",
  'content': "2022 KBO 준플레이오프 4차전 KT위즈와 키움 히어로즈의 경기가 20일 수원KT위즈파크에서 열렸다. 키움 정찬헌. 수원=박재만 기자 pjm@sportschosun.com/2022.10.20/2022 KBO 준플레이오프 2차전 키움 히어로즈와 KT위즈의 경기가 17일 서울 고척스카이돔에서 열렸다. KT 신본기. 고척=박재만 기자 pjm@sportschosun.com/2022.10.17/[스포츠조선 나유리 기자]연말에 멈춰있던 FA 시계는 다시 돌아갈까. 현재까지 KBO리그 FA 마지막 계약은 지난달 16일 발표한 NC 다이노스와 투수 이재학의 계약이다. 이재학은 NC에 잔류하면서 2+1년 최대 9억원에 사인했다.굵직한 선수들은 대부분 FA 시장이 열리자마자 계약을 마쳤다. '최대어' 양의지를 비롯해 채은성 유강남 박동원 노진혁 박세혁 등 주요 선수들은 대부분 11월에 거취가 결정됐고, 이들의 계약이 확정된 후 시장의 시계는 급격히 느려졌다. 이재학의 잔류가 결정되고 나서도 보름이 넘는 기간 동안 추가 계약은 한 건도 성사되지 않았다. 여전히 시장에는 미계약 선수 6명이 남아있다. 투수 정찬헌과 한현희 강리호(개명전 강윤구), 내야수 신본기, 외야수 권희동과 이명기다. 연말에는 구단들도 대부분 종무를 하고 쉬는 분위기다. 중요하고 급한 업무는 처리하지만, 우선 순위가 뒤로 밀린다. 구단별로 사정은 달라도 전체적인 분위기가 그렇다. 새해가 시작된만큼, 야구단 업무도 다시 기지개를 켠다. 구단들은 대부분 1월 둘째주 전후로 2023년도 업무를 시작한다. '미아'가 될 위기에 놓여있는 FA 미계약 선수들에 관련한 논의도 다시 시작될 수 있다. 현재까지 이들 중  원 소속 구단으로부터 만

### 결과 출력

In [44]:
with open("./data/preprocessed.csv", "w") as fw:
    writer = csv.DictWriter(fw, fieldnames=["date", "url", "title", "content"])
    writer.writeheader()
    for row in tqdm(filtered_article_list):
        writer.writerow(row)

  0%|          | 0/24252 [00:00<?, ?it/s]

## 정리

이번 시간에는 크롤링을 통해서 수집한 텍스트 데이터를 전처리하는 기법들을 배워보았습니다. 텍스트 데이터는 예상치 못한 변수들이 많으므로 전처리 과정이 필수적입니다. 2차 프로젝트 주제가 자연어처리를 활용한 감성 분석이니만큼, 오늘 배운 기법들을 잘 익혀서 활용하시기 바랍니다.