## spacy

In [2]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "All work and no play makes Jack a dull boy."
doc = nlp(text)

for token in doc:
    print(token.text,
          token.lemma_,  # 표제어
          token.pos_,    # 단어의 품사
          token.tag_,    # 자세한 품사
          token.is_stop) # 불용어 여부

All all DET DT True
work work NOUN NN False
and and CCONJ CC True
no no DET DT True
play play NOUN NN False
makes make VERB VBZ False
Jack Jack PROPN NNP False
a a DET DT True
dull dull ADJ JJ False
boy boy NOUN NN False
. . PUNCT . False


In [10]:
import spacy

konlp = spacy.load("ko_core_news_sm")

text = "단무지 빼고 김치랑 밥 빼고 양상추"
doc = nlp(text)

for token in doc:
    print(token.text,
          token.lemma_,  # 표제어
          token.pos_,    # 단어의 품사
          token.tag_,    # 자세한 품사
          token.is_stop) # 불용어 여부

단무지 단무지 PROPN NNP False
빼고 빼고 PROPN NNP False
김치랑 김치랑 VERB VBD False
밥 밥 PROPN NNP False
빼고 빼고 PROPN NNP False
양상추 양상추 PROPN NNP False


In [11]:
spacy.explain('PROPN')

'proper noun'

### 문장 구조

In [12]:
from IPython.display import SVG
SVG(spacy.displacy.render(doc))

<IPython.core.display.SVG object>

In [13]:
for token in doc:
    print(token.text,
          token.dep_,   # 의존 관계
          token.head)   # 지배소

단무지 dep 김치랑
빼고 nsubj 김치랑
김치랑 ROOT 김치랑
밥 compound 양상추
빼고 compound 양상추
양상추 npadvmod 김치랑


## kiwi 형태소 분석기

In [23]:
from kiwipiepy import Kiwi
kiwi = Kiwi()

text = '단무지 빼고 김치랑 밥 빼고 양상추'
result = kiwi.tokenize(text)
result

[Token(form='단무지', tag='NNG', start=0, len=3),
 Token(form='빼', tag='VV', start=4, len=1),
 Token(form='고', tag='EC', start=5, len=1),
 Token(form='김치', tag='NNG', start=7, len=2),
 Token(form='랑', tag='JC', start=9, len=1),
 Token(form='밥', tag='NNG', start=11, len=1),
 Token(form='빼', tag='VV', start=13, len=1),
 Token(form='고', tag='EF', start=14, len=1),
 Token(form='양상추', tag='NNG', start=16, len=3)]

In [24]:
def extract_noun(text):
    result = kiwi.tokenize(text)
    for token in result:
        if token.tag in ['NNG', 'NNP']:
            yield token.form


list(extract_noun('어제는 홍차를 마시고, 오늘은 커피를 마셨다.'))

['어제', '홍차', '오늘', '커피']

## 한국어 문서 단어 행렬

In [25]:
import pandas as pd
df = pd.read_csv('data/news_ai.csv')

In [26]:
kiwi.add_user_word('인공지능', 'NNP')

False

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(
    max_features=100,       # 최대 단어 수(빈도 순)
    tokenizer=extract_noun) # 토큰화 방법

dtm = cv.fit_transform(df['본문'])



In [28]:
cv.get_feature_names_out()

array(['가능', '강화', '개발', '게임', '계획', '공개', '과정', '과학', '관련', '교과', '교수',
       '교육', '구축', '국내', '국민', '기능', '기반', '기술', '기업', '다양', '대표', '대학',
       '데이터', '도시', '디지털', '때', '말', '모집', '문제', '물류', '미국', '미래', '반도체',
       '분석', '분야', '빅데이터', '사람', '사업', '사회', '산업', '삼성', '상황', '생각',
       '서비스', '서울', '선발', '설계', '세계', '센터', '소득', '스마트', '시간', '시대',
       '시스템', '시장', '신설', '업체', '연구', '영상', '예측', '올해', '운영', '융합', '이',
       '이번', '이상', '이용', '인간', '인공', '인도', '인재', '일', '자율', '전공', '전형',
       '점', '정보', '정부', '정책', '제공', '제도', '지난해', '지능', '지역', '지원', '진행',
       '채용', '코로나', '콘텐츠', '투자', '평가', '필요', '학생', '학생부', '학습', '한국',
       '혁신', '협력', '환경', '활용'], dtype=object)

In [29]:
word_count = pd.DataFrame({
    '단어': cv.get_feature_names_out(),
    '빈도': dtm.sum(axis=0).flat
})
word_count.sort_values('빈도', ascending=False).head()

Unnamed: 0,단어,빈도
17,기술,279
82,지능,252
68,인공,237
11,교육,146
2,개발,144
