# 텍스트 마이닝 1 - 자연어 처리 기술 개요

자연어 처리의 목적은 비정형 텍스트 데이터에서 언어에 따른 단어의 의미를 이해할 수 있어야 한다. 자연어 처리 분야에서 이를 집대성한 WordNet 을 결과물로 사용할 수 있다. 

하지만 이런 방식은 다음 같은 문제가 있다.
 - 주관적이고 많은 노동력이 필요 - wordnet
 - 동의어, 반의어 등에 대한 처리가 부족 (similarity)
 - 언어는 문맥에 따라 의미가 달라지는데 그 부분이 반영이 안된다.

## 문서, 문단, 문장

![image.png](attachment:0ec81ece-82b3-4eec-b24d-f0eb6ffecb63.png)

## 문단, 어절, 형태소


![image.png](attachment:5fe01403-debb-41e7-8ccc-5f91a891abaf.png)

자연어 처리 과정

![image.png](attachment:b3ab8f33-c31a-4da2-a019-807fd81076ed.png)

참고 KDD Process 

<img src='https://www.researchgate.net/publication/334784343/figure/fig1/AS:786618394886146@1564555848887/Knowledge-Discovery-Database-KDD-Process.png'>

##  NLP 주요 용어
* Document (문서)
* Corpus (말뭉치), Corpora (말뭉치 모음)
* Token (토큰), Tokenizer (토크나이저)  
* Morphemes (형태소), 형태소 분석기
* POS, Part-of-speech (품사), POS Tagging (=토큰에 POS 정보 추가)

한국어 품사 https://goo.gl/s8W3hW


# NLP의 주요 연구 영역
1. Lexical Analysis (어휘분석)
2. Syntax Analysis (구문 분석)
3. Semantic Analysis (의미 분석)
4. Discourse Analysis (대담 분석)



### 1. Lexical Analysis (어휘분석)
문장을 잘 나누어 처리 효율을 높이기 위한 작업

* Morphology Analysis (형태소 분석): 가장작은 의미 단위
* Tokenizing: 토큰 분리, 띄어쓰기, 형태소 단위로 분리
* Stemming (어간 추출): "cats", "catlike", "catty" >> "cat"
    - 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것
* lemmatization (표제어 추출): 'files' >> ‘날다’ vs ‘파리’ (품사까지 고려) 
    -  '기본 사전형 단어' 정도의 의미로 단어들로부터 표제어를 찾아가는 과정.

### 2. Syntax Analysis (구문 분석)
규칙이나 문법을 사용하여 문장을 분석하거나 구성

* 어절 단위 분리, POS tagging (parsing tree 활용)
* Sentence structure, phrase, grammer

### 3. Semantic Analysis (의미 분석)
단어/문장 의미를 찾고 부여하는 작업
* Sematic = Syntatic + meaning

### 4. Discourse Analysis (대담 분석)
대화(문서)의 흐름을 파악하여 화자의 의도에 맞는 응답

* 문맥구조 분석 (문장들의 연관 관계)
* 대용어들(이것, 그것 등)이가리키는 것이 무엇인지
* 의도분석, 대화분석 : 전후 관계를 통한 실제의도, 화자 인식 

## NLP의 주요 기술
* Morphology Analysis (형태소 분석): 형태소, 어근, 접두사/접미사, 품사등 다양한 언어적 속성의 구조 파악
* POS tagging (품사 태깅): 뜻과 문맥을 고려하여 형태소에 정보를 추가
* NER (Named Entity Recognition): NE를 찾고, 타입을 식별
* WSD (Word-sense disambiguation, 단어의미분별): 중의성 해소
* SRL (Semantic Role Labeling, 의미론적 라벨링)
* Sentiment Analysis (감성분석): 주관적 인상, 감정 태도 측정 (=Opinion mining)
* Text Classification (텍스트 분류)
* Knowledge Extraction (지식 추출)

## Deep Learning and NLP
* CNN: 주로 이미지 처리, 최근 NLP에 적용
* RNN: 주로 squence 처리, 가변길이 sequence에 적합
* LSTM: 장거리 전달이 가능한 RNN 구조, 여러 문장 처리
* GAN: 데이터 자체에서 지식을 얻는 '비지도 학습', 대화를 통해 학습


### Deep Learning Applications in NLP
* Named Entity Recognition
* Syntactic Analysis
* Image Caption Generator
* Google Neural Machine Translation
* Sentiment Analysis; Text Classification
* Summarization
* End-to-end Dialog System

### DL의 이슈 (윤리가이드라인 자료 참고)

* 설명가능성(explainability) 부족
* 투명성(transparency) 부족
* 점진적 학습 불가능
* 법적 윤리적 책임소재 문제
* 의사결정도구로 사용하려면 사람이 이해하는 규칙 모델도 필요

# 텍스트 마이닝을 위한 파이썬 라이브러리
* NLTK : Natural Language Toolkit
* KoNLPy: Korean NLP in Python
* Gensim: vector space modeling + topic modeling toolkit 

## 영어 자연어 처리
 - NLTK: Python의 가장 오래되고 유명한 라이브러리. 한국어 미지원.
 - CoreNLP: 스탠포드 대학에서 개발. 다국어 지원. Java 기반
 - StanfordNLP: 딥러닝 기반(pytorch). 한국어 지원
 - spaCy: 딥러닝 기반. 다양한 기능. 다국어 지원(한국어 X)


### NLTK : Natural Language Toolkit
http://nltk.org

* 다양한 어간 추출(stemming) 알고리즘 지원(Porter, snowball, Lancaster 등)
* Chunking, NER, classification 알고리즘 지원
* 다양한 corpus (50+, 주로 영어)
* language free, platform free and free

### KoNLPy: Korean NLP in Python
http://konlpy.rtfd.org
    
* 형태소 분석기 + 코퍼스 + 자연어 처리
* 여러 형태소 분석기(현재 5개) 선택적으로 사용
* 오픈소스, 무료

### Gensim
http://radimrehurek.com/gensim/

* 토픽 모델링 (Topic modeling)
* 잠재 디리클레 할당 (Latent Dirichlet allocation, LDA)
* Latent semantic indexing (LSI)
* Hierarchical Dirichlet process (HDP)

Word embedding
* word2vec

---

# 참고자료

* 파이썬으로 영어와 한국어 텍스트 다루기 <br> https://www.lucypark.kr/courses/2015-dm/text-mining.html 
* Mining English and Korean text with Python <br> https://www.lucypark.kr/courses/2015-ba/text-mining.html
* Gensim : open-source vector space modeling and topic modeling toolkit <br>https://radimrehurek.com/gensim/

## 주요 말뭉치

* 국립국어원, 말뭉치 사전 https://ithub.korean.go.kr/user/guide/corpus/guide1.do
# 한국언 말뭉치 아카이브 Korpora: https://ko-nlp.github.io/Korpora/
