### 뉴스 데이터 전처리

In [5]:
import re
import pandas as pd

accident_df = pd.read_csv('./data/accident_df.csv', usecols=['date','title','body','category'])
welfare_df = pd.read_csv('./data/welfare_df.csv', usecols=['date','title','body','category'])

In [7]:
accident_df.head()

Unnamed: 0,date,title,body,category
0,2020-12-31,"회장은 구속, 노조는 임원 폭행…유성기업 10년 노사갈등 끝",2011년 5월부터 10년간 극심한 노사갈등을 빚어온 충남 아산의 유성기업이 분쟁에...,3
1,2020-12-31,‘부러진 화살’ 정지영 감독 스태프 지원금 횡령 혐의 송치,정지영 감독. 권혁재 기자\n \n영화 ‘부러진 화살’ 등을 연출한 정지영 감독과 ...,3
2,2020-12-31,"조두순 보름만에 첫 외출...신호 울린 순간, 경찰 뒤쫓았다",아동 성범죄자 조두순이 12일 오전 경기도 안산시 법무부 안산준법지원센터에서 나오고...,3
3,2020-12-31,올해 자동차 '안전도 평가 1위' 제네시스 G80...최하위는,사진 크게보기\nG80이 올해 자동차 안전도 평가에서 1위를 차지했다. [사진 제네...,3
4,2020-12-30,눈보라 휘몰아치는 제주…대설·강풍·풍랑특보에 하늘길 막혔다,사진 크게보기\n제주도 산간에 대설경보가 내려진 30일 오전 제주시의 한 중산간도로...,3


In [8]:
welfare_df.head()

Unnamed: 0,date,title,body,category
0,2020-12-31,동부구치소 확진자 추가 땐 오후 6시까지 벌써 800명 넘어서,신종 코로나 바이러스 감염증(코로나19) 확진자가 무더기로 발생한 서울 동부구치소....,4
1,2020-12-31,SK바이오사이언스 코로나19 백신 1상·2상 임상시험 승인,SK바이오사이언스 연구원이 백신 개발을 위한 실험을 하고 있다. SK 제공\n식품의...,4
2,2020-12-31,"[속보] 정부, 모더나 백신 2000만명분 계약…2분기 도입",정부가 도입 계약을 한 모더나 코로나19 백신. AFP=연합뉴스\n정부가 31일 제...,4
3,2020-12-31,끊이지 않는 요양시설 집단감염…부산 하루 69명 확진,22일 부산시청 등대광장에 마련된 임시선별검사소에서 시민이 검사를 받고 있다.부산에...,4
4,2020-12-31,"인천공항, 장애인·치매노인 위한 여행 상품 개발 돕는다",인천국제공항공사(이하 인천공항)가 2기 ‘인천공항 가치가세’에 참여할 사회적 기업 ...,4


In [9]:
def text_cleaning(docs):
    
    # ooo 기자 + 이메일 제거
    pattern1 = re.compile("[\w]+[\w]+[\=]+[\w\]+[\w\]+[\w]+[\s]+[/기]+[/자]+[\s]+.*|\n[\w\]+[\w\]+[\w]+[\s]+[/기]+[/자]+[\s]+.*")
    docs = [pattern1.sub("", doc) for doc in docs]
    
    # 한국어, 영어, 숫자, \n, ().!?를 제외한 글자를 제거하는 함수
    pattern2 = re.compile("[^\na-zA-Z0-9ㄱ-ㅎㅏ-ㅣ가-힣 ().!?]")
    docs = [pattern2.sub(" ", doc) for doc in docs]
    
    return docs

In [10]:
accident_df['cleaned_body'] = text_cleaning(accident_df['body'])
accident_df['cleaned_body'].head()

0    2011년 5월부터 10년간 극심한 노사갈등을 빚어온 충남 아산의 유성기업이 분쟁에...
1    정지영 감독. 권혁재 기자\n \n영화  부러진 화살  등을 연출한 정지영 감독과 ...
2    아동 성범죄자 조두순이 12일 오전 경기도 안산시 법무부 안산준법지원센터에서 나오고...
3    사진 크게보기\nG80이 올해 자동차 안전도 평가에서 1위를 차지했다.  사진 제네...
4    사진 크게보기\n제주도 산간에 대설경보가 내려진 30일 오전 제주시의 한 중산간도로...
Name: cleaned_body, dtype: object

In [11]:
welfare_df['cleaned_body'] = text_cleaning(welfare_df['body'])
welfare_df['cleaned_body'].head()

0    신종 코로나 바이러스 감염증(코로나19) 확진자가 무더기로 발생한 서울 동부구치소....
1    SK바이오사이언스 연구원이 백신 개발을 위한 실험을 하고 있다. SK 제공\n식품의...
2    정부가 도입 계약을 한 모더나 코로나19 백신. AFP 연합뉴스\n정부가 31일 제...
3    22일 부산시청 등대광장에 마련된 임시선별검사소에서 시민이 검사를 받고 있다.부산에...
4    인천국제공항공사(이하 인천공항)가 2기  인천공항 가치가세 에 참여할 사회적 기업 ...
Name: cleaned_body, dtype: object

In [13]:
accident_df.to_csv('./data/accident_df.csv')
welfare_df.to_csv('./data/welfare_df.csv')