<a href="https://colab.research.google.com/github/bjh5098/Social-Network-Analysis-and-Text-Mining/blob/master/Textmining_2_Spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Spacy 시작

***설치 방법***
*   pip install -U spacy
*   conda install -c conda-forge spacy

***언어 모델 설치***
*   python -m spacy download en(영어 모델) or de, ex, fr xx(다국어)
*   python -m spacy download en_core_web_sm

## Spacy 언어 모델

In [0]:
import spacy
nlp = spacy.load('en')

In [0]:
doc = nlp('this is a sentence')

In [0]:
doc

In [0]:
print(type(doc))

In [0]:
print(list(doc))

In [0]:
doc[0]

In [0]:
doc[0].text

##Spacy 언어모델 기본 파이프라인(pipeline) - 전처리

### Tokeonization

In [0]:
import spacy
nlp = spacy.load('en')

In [0]:
sentence = "Let's go to N.Y.!"

In [0]:
doc = nlp(sentence)

In [0]:
for token in doc:
    print(token)

### Part-of-Speech Tagging, POS Tagging

In [0]:
for token in doc:
    print(token.text, token.pos_)

### 파싱(Parsing) - 의존 구문 분석(Dependency parsing)

In [0]:
doc = nlp('Microsoft has offices all over Europe and U.K.')
for token in doc:
    print(token.text, token.dep_)

In [0]:
from spacy import displacy
displacy.render(doc, style='dep', jupyter=True)

### 개체명 인식(Named Entity Recognition, NER)

*   PERSON: 사람(실제, 허구 포함)
*   NORP: 민족, 종교 또는 정치 그룹
*   FACLITY: 건물, 공항, 고속도록 교량과 같은 시설
*   ORG: 기업, 단체 기관과 같은 조직
*   GPE: 국가, 도시, 주 등과 같은 지역명
*   LOC: GPE 이외의 산맥, 수역 등과 같은 지역의 유형
*   PROCUCT: 객체, 차량, 식품 등과 같은 서비스를 제외한 제품
*   EVENT: 허리케인(이름 있는), 전투, 전쟁, 스포츠 행사와 같은 이벤트
*   WORK_OF_ART: 책, 노래 등과 같은 예술의 제목
*   LAW: 법에 의해 명명된 문서
*   LANGUAGE: 이름 지어진 모든 언어

In [0]:
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

In [0]:
from spacy import displacy
displacy.render(doc, style='ent', jupyter=True)

### 기타 스파이시 토큰 속성

***표제어***

In [0]:
doc[0].lemma_

***품사 태그 약식***

In [0]:
doc[0].pos_

***품사 태그 상세***

In [0]:
doc[0].tag_

***의존 관계***

In [0]:
doc[0].dep_

***단어 대소문자, 기호, 숫자 여부***

In [0]:
doc[0].shape_

***단어가 알파벳만 포함되었는지 확인***

In [0]:
doc[0].is_alpha

***단어가 불용어(stopword)인지 확인***

In [0]:
doc[0].is_stop

## 텍스트 전처리(Pre-processing)

### 어간 추출(Stemming) - NLTK

In [0]:
import nltk
from nltk.stem.porter import *

In [0]:
stemmer = PorterStemmer()

In [0]:
tokens = ['compute', 'computer', 'computed', 'computing']

In [0]:
for token in tokens:
    print(token + ' --> ' + stemmer.stem(token))

### 표제어 추출(Lemmatization)

In [0]:
doc = nlp('compute computer computed computing')

In [0]:
for w in doc:
    print(w.text + ' ---> ' + w.lemma_)

In [0]:
doc = nlp('A letter has been written, asking him to be released')
for word in doc:
    print(word.text + ' --->', word.lemma_)

### 불용어(sotpwords) 제거

In [0]:
import spacy
spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS

In [0]:
print(len(spacy_stopwords))
print(list(spacy_stopwords)[:10])

In [0]:
doc = nlp('the horse galloped down the field and past the river.')

In [0]:
sentence =[]
for w in doc:
    if not w.is_stop and not w.is_punct and not w.like_num:
        sentence.append(w.lemma_)

In [0]:
print(sentence)

####불용어 용어집 수정

In [0]:
spacy.lang.en.stop_words.STOP_WORDS.add('kim')

In [0]:
print(len(spacy_stopwords))

In [0]:
print(list(spacy_stopwords).index('kim'))

In [0]:
print(list(spacy_stopwords)[147])