## 텍스트 정제(Text Cleaning)
+ 공백 제거
+ 자음/모음으로만 이루어진 글자 제거
+ 문장부호 제거
+ 특수문자, 숫자, 이모지 등 제거
+ (있다면) html 태그 제거
+ 모든 띄어쓰기 제거 후 띄어쓰기 라이브러리 적용
+ 맞춤법 검사
## 형태소 분석(Morphological Analysis)
+ 문장을 형태소 단위로 분해
+ 동사와 형용사를 원형으로 변경
## 불용어 처리(Stopword Removal)
+ 영향을 미치지않는 일반적인 단어 제거
+ 은는이가, 그리고 그러나 등의 불용어 제거

In [1]:
from hanspell import spell_checker
result = spell_checker.check('맞춤법틀리면왜안돼쓰고싶은대로쓰면되지')
print(result.checked)

KeyError: 'result'

In [1]:
# Text Cleaning
import re
from hanspell import spell_checker

def textCleaning(raw):
    # 띄어쓰기 제거
    deleteSpace = raw.replace(" ", "")
    # 불필요한 문자 제거
    deleteOther = re.sub('[^가-힣a-zA-Z0-9\s]', '',deleteSpace)
    
    # 맞춤법 맞춰서 다시 나열. 원문이 기사라서 크게 중요하지 않은 과정이기는 함
    spell_checked = spell_checker.check(deleteOther)
    data = spell_checked.checked
    
    return data

In [2]:
# 형태소 분석
import re
from konlpy.tag import Okt
from collections import Counter

okt = Okt()

# 한국어 불용어 목록은 '텍스트마이닝을 위한 한국어 불용어 목록 연구'의 <표 8>에
# 은, 는, 가, 을, 를, 로, 에서 

# 형태소로 분해 및 어간 추출
def tokenizing(data):
    tokens = okt.morphs(data, stem = True)
    
    deleted_stopwords = removingStopwords(tokens)
    
    return deleted_stopwords

# 불용어 처리
def removingStopwords(data):
    stopwords = set()
    filepath = 'C:/workspace/0304_toyProject/cleaned_stopwords.txt'
    
    with open(filepath, 'r', encoding = 'utf-8') as file:
        for line in file:
            word = line.strip()
            stopwords.add(word)
    
    filtered_data = [token for token in data if token not in stopwords]
    
    return filtered_data

In [74]:
data = "한국 게임단 둘러보는 ‘e스포츠 관광’ 아시나요? < 게임문화 < 컬처Life < 기사본문 - 뉴스컬처 (NEWSCULTURE) 주요서비스 바로가기 본문 바로가기 매체정보 바로가기 로그인 바로가기 기사검색 바로가기 전체서비스 바로가기 상단영역 편집 : 2024-03-04 15:06 (월) 제보 이슈모아보기 로그인 전체메뉴 버튼 연예 공연·전시 인터뷰 포토·영상 경제·사회 이슈 컬처Life 여행문화 패션뷰티 헬스푸드 게임문화 생활문화 생활체육 검색버튼 기사검색 검색 인기뉴스 prev '장원영 친언니' 장다아 데뷔작 '피라미드 게임', 29일 공개 '더 퍼스트 슬램덩크' 오늘(29일) VOD 서비스 시작…특별판 극장 재상영 아나운서 총출동 '전국노래자랑', 박서진·장민호·이혜리 축하공연 배에서 여성 노린 보성 70대 어부의 추악한 두 얼굴('꼬리에 꼬리를 무는 그날 이야기') 정동원 부캐·제로베이스원 등 데뷔 20주년 동방신기 위해 헌정 무대 펼친다('불후의 명곡') '빛나는 SOLO' 트레저, 진짜 연애 예능? 최고의 '보석남' 서바이벌 결혼하면 이런 행복이 있습니다...준범·소예·재율, "

cleaned_data = textCleaning(data)
tokens = tokenizing(cleaned_data)
print(tokens)

['한국', '게', '이다', '둘러보다', 'e', '스포츠', '관광', '알다', '게임', '문화', '컬처', 'Life', '사', '문', '뉴스컬처', 'NEWSCULTURE', '주요', '서비스', '바로가기', '문', '바로가기', '매체', '정보', '바로가기', '로그인', '바로가기', '기사', '검색', '바로가기', '전체', '서비스', '바로가기', '상단', '영역', '편집', '202403041506월', '제보이슈모아보기로그인전체메뉴버튼연예공연전시인터뷰포토영상경제사회이슈컬처', 'Life', '여행', '문화', '패션', '뷰티', '헬스', '푸드', '게임', '문화생활', '문화생활', '체육', '검색', '버튼', '사', '검색', '검색', '인기', '뉴스', 'prev', '장원영', '친언니', '다', '데뷔', '작', '피라미드', '게임', '29일', '공개더퍼스트슬램덩크오늘', '29일', 'VOD', '서비스', '작', '특별판', '극', '장재', '상영', '아나운서', '출동', '전국노래자랑', '박서진', '장민호', '이혜리', '축하공연', '배', '여성', '노리다', '보성', '70', '어부', '의', '추악하다', '얼굴', '꼬리', '에', '꼬리', '물다', '그날', '이야', '기정동', '부캐', '제로', '베이스', '데뷔', '20', '동방신기', '위해', '정무', '펼치다', '불후의명곡', '빛나다', 'SOLO', '트', '레저', '진짜', '연애', '예능', '최고', '의', '보석', '남', '서바이벌', '결혼', '하', '면', '행복', '있다', '준', '범소', '재율']


In [4]:
import pandas as pd
from konlpy.tag import Okt

# CSV 파일에서 데이터프레임으로 읽어오기
df = pd.read_csv('e-sports_all.csv', encoding='cp949')

okt = Okt()
all_nouns = []  # 모든 nouns를 저장할 리스트

# Title과 Article 내용을 합쳐서 하나의 문자열로 만들기
combined_content = df['Title'] + ' ' + df['Content']

# 하나의 문자열로 합쳐진 내용을 형태소 분석하기
for content in combined_content:
    nouns = okt.nouns(str(content))
    all_nouns.extend(nouns)  # 모든 nouns를 하나의 리스트에 추가

print(all_nouns)


['해외', '스튜디오', '세계', '공략', '또', '다른', '도약', '준비', '넷이즈', '중국', '정부', '기조', '막대', '영향', '중국', '게임', '시장', '잠재력', '넷이즈', '게임', '이하', '넷이즈', '실적', '발표', '매출', '원', '영업', '이익', '원', '단위', '매출', '규모', '영업', '이익', '률', '기록', '텐센트', '퍼블리싱', '브랜드', '레벨', '인피니트', '의', '영향', '넷이즈', '중국', '내', '수익', '파이프라인', '유지', '퍼블리싱', '대신', '해외', '게임', '스튜디오', '직접', '설립', '세계', '시장', '공략', '전략', '실적', '매출', '위안', '약', '원', '영업', '이익', '위안', '약', '원', '순이익', '위안', '약', '원', '기준', '온라인게임', '비중', '로', '대다수', '차지', '온라인게임', '매출', '콘솔', '게임', '모바일', '게임', '발생', '넷이즈', '검색', '엔진', '유다', '오', '클라우드', '뮤직', '등', '게임', '외', '부문', '사업', '영위', '기준', '게임', '관련', '매출', '비중', '로', '대부분', '차지', '넷이즈', '게임', '라인업', '대다수', '중국', '수', '게임', '출처', '넷이즈', '자료', '현황', '계획', '몽환', '서유', '시리즈', '등', '기존', '흥행', '작', '호조', '몽환', '서유', '넷이즈', '바', '장수', '출시', '무협', '역수', '유저', '명', '달성', '작년', '출시', '플랫포머', '배틀로얄', '파티', '가입자', '수', '명', '달성', '중국', '설', '기간', '일일', '이용자', '수', '명', '기록', '파티', '넷이즈', '지난', '도쿄', '게임쇼', '참가', '자사', '

In [5]:
set(all_nouns)
all_nouns

['해외',
 '스튜디오',
 '세계',
 '공략',
 '또',
 '다른',
 '도약',
 '준비',
 '넷이즈',
 '중국',
 '정부',
 '기조',
 '막대',
 '영향',
 '중국',
 '게임',
 '시장',
 '잠재력',
 '넷이즈',
 '게임',
 '이하',
 '넷이즈',
 '실적',
 '발표',
 '매출',
 '원',
 '영업',
 '이익',
 '원',
 '단위',
 '매출',
 '규모',
 '영업',
 '이익',
 '률',
 '기록',
 '텐센트',
 '퍼블리싱',
 '브랜드',
 '레벨',
 '인피니트',
 '의',
 '영향',
 '넷이즈',
 '중국',
 '내',
 '수익',
 '파이프라인',
 '유지',
 '퍼블리싱',
 '대신',
 '해외',
 '게임',
 '스튜디오',
 '직접',
 '설립',
 '세계',
 '시장',
 '공략',
 '전략',
 '실적',
 '매출',
 '위안',
 '약',
 '원',
 '영업',
 '이익',
 '위안',
 '약',
 '원',
 '순이익',
 '위안',
 '약',
 '원',
 '기준',
 '온라인게임',
 '비중',
 '로',
 '대다수',
 '차지',
 '온라인게임',
 '매출',
 '콘솔',
 '게임',
 '모바일',
 '게임',
 '발생',
 '넷이즈',
 '검색',
 '엔진',
 '유다',
 '오',
 '클라우드',
 '뮤직',
 '등',
 '게임',
 '외',
 '부문',
 '사업',
 '영위',
 '기준',
 '게임',
 '관련',
 '매출',
 '비중',
 '로',
 '대부분',
 '차지',
 '넷이즈',
 '게임',
 '라인업',
 '대다수',
 '중국',
 '수',
 '게임',
 '출처',
 '넷이즈',
 '자료',
 '현황',
 '계획',
 '몽환',
 '서유',
 '시리즈',
 '등',
 '기존',
 '흥행',
 '작',
 '호조',
 '몽환',
 '서유',
 '넷이즈',
 '바',
 '장수',
 '출시',
 '무협',
 '역수',
 '유저',
 '명',
 '달성',
 '작년',
 '출

In [6]:
file_name = './clean_esport.txt'

with open(file_name, 'w+') as file:
    file.write('\n'.join(all_nouns))  # '\n' 대신 ', '를 사용하면 줄바꿈이 아닌 ', '를 기준으로 문자열 구분함