---
# 6. 텍스트 정제하기
---
## 1.자연어 처리의 기본개념과 절차
- 분석가능한 데이터로 변환하고 정제해야한다.
- 말뭉치는 대용향의 정형화된 텍스트의 집합이다.
- 텍스트 마이닝은 단어수준, 문자수준, 구수준
- 단계
    - 사전 정제
    - 토큰화
        - 토큰: 형태소, 하나의 단어, 두 단어 이상이 결합된 복합어
    - 정규화 단계
        - 말뜻의 중의성
        - 어간 추출
        - 표제어 추출
    - 불용어 제거
    - 결합제약
        - 복합어, 축약어, 미등록 신조어 처리
    - 품사표식
## 2.영어 텍스트의 자연어 처리

In [1]:
import pandas as pd
import numpy as np

In [2]:
df=pd.read_csv('../data/CEO3.csv', encoding='latin')
df.head()

Unnamed: 0,number,firm,publishing,country,text,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 450,Unnamed: 451,Unnamed: 452,Unnamed: 453,Unnamed: 454,Unnamed: 455,Unnamed: 456,Unnamed: 457,Unnamed: 458,Unnamed: 459
0,2,Amorepacific,1,Korea,We will use beauty to change the world and bec...,,,,,,...,,,,,,,,,,
1,4,Amorepacific,3,Korea,AMOREPACIFC Group will endeavor to become a gr...,,,,,,...,,,,,,,,,,
2,502,Amorepacific,4,Korea,AMOREPACIFIC Group has been pursuing the path ...,,,,,,...,,,,,,,,,,
3,5,Asiana Airlines,1,Korea,This year marks the 25th anniversary of the es...,,,,,,...,,,,,,,,,,
4,6,Asiana Airlines,2,Korea,"Since the inception, Asiana Airlines has pledg...",,,,,,...,,,,,,,,,,


In [3]:
texts=df.text

In [4]:
from nltk.tokenize import RegexpTokenizer #정규표현식 사용 정제
tokenizer=RegexpTokenizer(r'\w+')

In [5]:
from nltk.stem import WordNetLemmatizer#표제어
lemmatizer=WordNetLemmatizer()

In [6]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nadai\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [7]:
from nltk.corpus import stopwords
stop_words=nltk.corpus.stopwords.words('english')

In [8]:
stop_words.extend([])

In [9]:
stop_words[0:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [10]:
from nltk import wordnet
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\nadai\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [11]:
preprocessed_texts=[]

for text in texts.values:
    tokenized_text=tokenizer.tokenize(text.lower())#소문자로 변경
    lemmatized_text=[lemmatizer.lemmatize(token) for token in tokenized_text]
    #토큰화된 텍스트를 표제어 구성된 리스트 생성
    stopped_text=[token for token in lemmatized_text if token not in stop_words]
    #불용어가 아닌 토큰이라면 표제어 리스트에서 토큰을 추출해 리스트로 만들기
    preprocessed_texts.append(stopped_text)
preprocessed_texts

[['use',
  'beauty',
  'change',
  'world',
  'become',
  'company',
  'customer',
  'love',
  'stakeholder',
  'past',
  '67',
  'year',
  'amorepacific',
  'ha',
  'embarked',
  'long',
  'journey',
  'beauty',
  'provide',
  'happiness',
  'pleasure',
  'people',
  'around',
  'world',
  'amorepacific',
  'creation',
  'beauty',
  'product',
  'stood',
  'test',
  'numerous',
  'crisis',
  'resulting',
  'uncertain',
  'management',
  'condition',
  'achieve',
  'continuous',
  'growth',
  'caring',
  'customer',
  'taking',
  'quick',
  'action',
  'seek',
  'new',
  'opportunity',
  'even',
  'moment',
  'amorepacific',
  'striving',
  'satisfy',
  'global',
  'customer',
  'discovering',
  'value',
  'sustainable',
  'beauty',
  'found',
  'asia',
  'profound',
  'wisdom',
  'also',
  'making',
  'concerted',
  'effort',
  'create',
  'sustainable',
  'company',
  'amorepacific',
  'ha',
  'minimized',
  'negative',
  'impact',
  'environment',
  'strengthened',
  'development',


In [12]:
from collections import Counter

tokens=[]
for text in preprocessed_texts:
    tokens.extend(text)
    
counted_tokens=Counter(tokens) #전처리된 토큰리스트를 카운팅
top_20=counted_tokens.most_common(20)
top_20

[('business', 1534),
 ('company', 1445),
 ('year', 1159),
 ('management', 969),
 ('global', 953),
 ('growth', 938),
 ('sustainability', 907),
 ('customer', 890),
 ('also', 766),
 ('value', 755),
 ('new', 752),
 ('community', 722),
 ('world', 713),
 ('ha', 700),
 ('product', 683),
 ('social', 669),
 ('employee', 658),
 ('stakeholder', 651),
 ('effort', 637),
 ('u', 635)]

## 3.한국어 자연어 처리

In [13]:
import pandas as pd

df=pd.read_excel("../data/samsung_smartphone.csv.xlsx")
df.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,뉴스 식별자,일자,언론사,기고자,제목,통합 분류1,통합 분류2,통합 분류3,사건/사고 분류1,사건/사고 분류2,사건/사고 분류3,인물,위치,기관,키워드,특성추출(가중치순 상위 50개),본문,URL,분석제외 여부
0,1100201.0,20220307,국민일보,양한주,"삼성, 중저가 시장서 명예회복 노린다 A시리즈로 아이폰SE와 격돌",IT_과학>모바일,IT_과학>콘텐츠,,,,,,중국,"애플,옴디아,삼성전자,삼성","삼성,중저,시장,명예회복,A시리즈,아이폰SE,격돌,삼성전자,공개,이달,갤럭시,시리즈...","갤럭시,삼성전자,스마트폰,중저가,gos,업데이트,5g,옴디아,점유율,바이오닉,출하량...",삼성전자가 이르면 이달 중 보급형 스마트폰인 갤럭시 A 시리즈를 선보인다. 2년 만...,http://news.kmib.co.kr/article/view.asp?arcid=...,
1,2100701.0,20220307,헤럴드경제,박혜림 기자,"“삼성, 정말 이래도 돼?” 싸다고 ‘이것’까지 없앤다",IT_과학>모바일,IT_과학>콘텐츠,,,,,,,"애플,샘모바일,유럽,삼성전자","삼성,충전기,삼성전자,구성품,중저가,스마트폰,충전기,불포함,충전기,어댑터,A13,시...","갤럭시,충전기,스마트폰,삼성전자,중저가폰,중저가,샘모바일,구성품,a13,어댑,후속작...",[헤럴드경제=박혜림 기자] “싸다고 충전기까지 뺀다?” \n \n 삼성전자가 중저가...,http://biz.heraldcorp.com/view.php?ud=20220307...,
2,2100311.0,20220307,서울경제,윤민혁 기자,"삼성전자, '랩서스' 해킹 관해 ""고객정보 유출 없어""",IT_과학>보안,IT_과학>모바일,,,,,,미국,"시큐리티팀,랩서스,퀄컴,삼성전자,MX,엔비디아","삼성전자,랩서스,해킹,고객,정보,유출,삼성전자,외국,해커,그룹,랩서스,APSUS,해...","삼성전자,랩서스,삼성,임직원,하드웨어,미국,트러스트존,사업부,보안시스템,그래픽카드,...",삼성전자(005930)가 외국 해커 그룹 ‘랩서스(LAPSUS＄)’로부터 해킹 당했...,http://www.sedaily.com/NewsView/263BRBFNGS,
3,1100611.0,20220307,서울신문,나상현,삼성 “해킹 자료에 임직원 고객 개인 정보 포함 안됐다”,IT_과학>보안,IT_과학>모바일,,,,,,"미국,토렌트","랩서스,시큐리티팀,삼성전자,삼성,MX사업부,엔비디아","자료,삼성,해킹,임직원,고객,포함,개인,정보,삼성전자,랩서스,외국,해커,그룹,APS...","삼성전자,임직원,랩서스,미국,엔비디아,사업부,보안시스템,소스코드,토렌트,회로도,그래...",삼성전자가 최근 외국 해커그룹 랩서스(LAPSUS$)로부터 해킹 공격을 받은 것과 ...,http://www.seoul.co.kr/news/newsView.php?id=20...,
4,7100501.0,20220307,전자신문,전자신문인터넷 양민하 기자,"""갤럭시A 붙자""...공개 임박 애플 '아이폰SE3' 스펙은?",IT_과학>모바일,,,,,,,양산,"궈밍치,애플,전자신문,JP모건,퀄컴,옴디아,삼성전자,GSM아레나,삼성","아이폰SE3,갤럭시,공개,임박,애플,아이폰,SE,스펙,애플,이벤트,스페셜,아이폰SE...","중저가,스마트폰,아이폰se3,갤럭시,삼성전자,출하량,사용자,64gb,상반기,옴디아,...",애플이 오는 9일 스페셜 이벤트를 통해 '아이폰SE' 신제품을 선보일 전망이다. 홈...,http://www.etnews.com/20220307000271,


In [14]:
df.본문.head()

0    삼성전자가 이르면 이달 중 보급형 스마트폰인 갤럭시 A 시리즈를 선보인다. 2년 만...
1    [헤럴드경제=박혜림 기자] “싸다고 충전기까지 뺀다?” \n \n 삼성전자가 중저가...
2    삼성전자(005930)가 외국 해커 그룹 ‘랩서스(LAPSUS＄)’로부터 해킹 당했...
3    삼성전자가 최근 외국 해커그룹 랩서스(LAPSUS$)로부터 해킹 공격을 받은 것과 ...
4    애플이 오는 9일 스페셜 이벤트를 통해 '아이폰SE' 신제품을 선보일 전망이다. 홈...
Name: 본문, dtype: object

In [15]:
posts=df.본문

In [16]:
from eunjeon import Mecab
tagger=Mecab()

In [17]:
stop_words = "중 년 은 이 것 등 더 를 좀 즉 인 옹 때 만 원 이때 개 일 기 시 럭 갤 성 삼 스 폰 트 드 기 이 리 폴 사 전 마 자 플 블 가 "

In [18]:
stop_words=stop_words.split(' ')
stop_words[0:10]

['중', '년', '은', '이', '것', '등', '더', '를', '좀', '즉']

In [19]:
nouns=[]
for post in posts:
    for noun in tagger.nouns(post):
        if noun not in stop_words:
            nouns.append(noun)
nouns[:10]

['삼성전자', '이달', '보급', '스마트폰', '갤럭시', '시리즈', '보급', '제품', '출시', '중저가']

In [20]:
words=[]
for post in posts:
    words.extend(tagger.pos(post))#pos: part of speech(품사)

words[:10]

[('삼성전자', 'NNP'),
 ('가', 'JKS'),
 ('이르', 'VV'),
 ('면', 'EC'),
 ('이달', 'NNG'),
 ('중', 'NNB'),
 ('보급', 'NNG'),
 ('형', 'XSN'),
 ('스마트폰', 'NNP'),
 ('인', 'VCP+ETM')]

In [21]:
verbs=[]
for word in words:
    if word[1]=='VV':
        verbs.append(word[0]+'다')
        
verbs[:10]

['이르다', '지키다', '있다', '넣다', '따르다', '받다', '오다', '치솟다', '앓다', '실다']

In [22]:
adjective=[]
for word in words:
    if word[1]=='VA':
        adjective.append(word[0]+'다')
        
adjective[:10]

['싸다', '높다', '없다', '많다', '좋다', '있다', '높다', '많다', '없다', '같다']

In [23]:
from collections import Counter

counted_nouns=Counter(nouns)
top_20=counted_nouns.most_common(20)
top_20

[('갤럭시', 1865),
 ('삼성전자', 1795),
 ('시리즈', 808),
 ('스마트폰', 753),
 ('삼성', 557),
 ('공개', 478),
 ('제품', 439),
 ('시장', 391),
 ('출시', 374),
 ('더블', 350),
 ('기자', 345),
 ('세계', 270),
 ('시간', 266),
 ('모바일', 245),
 ('중국', 243),
 ('현지', 242),
 ('미국', 241),
 ('애플', 235),
 ('기술', 216),
 ('팩', 216)]