# 텍스트 분석 이해 - NLP와 텍스트 분석
- NLP(Natural Language Processing)
    - **인간의 언어를 이해하고 해석**하는 데 더 중점을 두고 기술이 발전해 옴
    - NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전했습니다.
- 텍스트 분석(텍스트 마이닝)
    - 텍스트 분석은 **머신러닝, 언어 이해, 통계** 등을 활용해 모델을 수립하고 정보를 추출해 **비즈니스 인텔리전스**나 **예측 분석** 등의 분석 작업을 주로 수행합니다.
    

# 텍스트 분석 주요 영역
- 텍스트 분류(Text Classification)
    - 지도 학습을 이용해 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭합니다. (ex : 특정 신문 카테고리 자동 분류, 스펨메일 검출) 
- 감성 분석(Sentiment Analysis)
    - 지도학습 뿐 아니라 비지도 학습을 이용해 텍스트에 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭합니다. (ex : 소셜미디어 감정분석, 영화나 제품의 긍정 리뷰, 여론조사 의견 분석)
- 텍스트 요약(Sumarization)
    - 텍스트 내에서 **중요한 주제**나 **중심 사상**을 추출하는 기법을 말합니다.
- 텍스트 군집화와 유사도 측정
    - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법입니다. 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용될 수 있습니다. 유사도 측정 역시 문서들간의 유사도를 측정해 **비슷한 문서끼리 모을 수 있는 방법**입니다.
    
    
# 텍스트 분석 머신러닝 수행 프로세스
![image.png](attachment:image.png)

# 파이썬 기반의 NLP, 텍스트 분석 패키지
- NLTK(National Language Toolkit for Python)
    - 파이썬의 가장 대표적인 NLP 패키지입니다. 방대한 데이터 세트와 서브 모듈을 가지고 있으며 NLP의 거의 모든 영역을 커버하고 있습니다. 많은 NLP 패키지가 NLTK의 영향을 받아 작성되고 있습니다. **수행 속도 측면에서 아쉬운 부분**이 있어서 실제 대량의 데이터 기반에서는 제대로 활용되지 못하고 있습니다.
- Gensim
    - **토픽 모델링** 분야에서 가장 두각을 나타내는 패키지입니다. 오래전부터 토픽 모델링을 쉽게 구현할 수 있는 기능을 제공해왔으며, Word2Vec 구현 등ㅇ의 다양한 신기능도 제공합니다. SpaCy와 함께 가장 많이 사용되는 NLP 패키지 입니다.
- SpaCy
    - **뛰어난 수행 성능**으로 최근 가장 주목을 받는 NLP 패키지입니다. 많은 NLP 애플리케이션에서 SpaCy를 사용하는 사례가 늘고있습니다.
    

# 텍스트 전처리 - 텍스트 정규화
- 클렌징(Cleansing)
    - 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제고하는 작업입니다. 예를 들어, HTML, XML 태그나 특정 기호 등을 사전에 제고합니다.
- 토큰화(Tokenization)
    - 문장 토큰화, 단어 토큰화
    - n-gram
        - 문장을 하나의 개별 단어로 토큰화 할 경우 **문맥적인 의미가 무시**되는 문제 발생하며 이러한 문제를 해결하고자 n-gram이 도입됩니다.
        - 연속된 **n개의 단어**를 하나의 토큰화 단위로 분리해 내는 것입니다. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행합니다.
        - "Agent Smith knocks the door"를 2-gram으로 만들면 (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)와 같이 연속적으로 2개의 단어들을 순차적으로 이동하면서 단어들을 토큰화 합니다.
- 필터링/stopword 제거/절차 수정
    - 불필요한 단어나 분석에 큰 의미가 없는 단어(a, the, will등) 그리고 잘못된 절차를 수정합니다.
- Stemming/Lemmatization
    - 어근(단어 원형) 추출
    - Lemmatization이 Stemming보다 정교하고 의미론적 기반에서 단어 원형을 찾아줍니다.
        - 표제어 추출(Lemmatization)
            - 단어들로 표제어(뿌리 단어)를 찾아가는 과정으로, am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 'be'라고 볼 수 있습니다.
        - 어간 추출(Stemming)
            - 어간(Stem)을 추출하는 작업이며, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업입니다.
            - formalize : formal과 같이 뒤의 'ize'를 자르는 식으로 어간추출이 이루어집니다.