## 자연어 처리
- 자연어(natural language) : 일상생활 속에서 사용하는 언어
- 자연어 처리 : 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일
    - 음성 인식, 내용 요약, 번역, 사용자의 감정 분석, 텍스트 분류 작업(스팸메일 분류, 뉴스기사 카테고리 분류), 질의 응답 시스템, 챗봇 등등
- 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에 있어서 가장 중요한 연구 분야

### 자연어 처리(NLP) 영역

1. Machine Translation : 자동 번역등의 분야에 응용

![image.png](attachment:image.png)

2. Sentiment Analysis : 문장의 감정상태 분석 --> 긍정/부정 또는 n개의 감정상태 분류.
    - 고객의 리뷰 텍스트등을 통해 감정분석

3. Spam Filtering : 스팸인지 아닌지 분류

4. Image Captioning 

5. Text Summarization : 텍스트에 대한 요약문

6. Question Answering : 질문에 대한 정답 텍스트를 찾아낸다

7. Dialogue Generation : 자동으로 텍스트 생성

8. Chatbot : 고객 상담을 진행

9. Recommendation System : 고객의 텍스트 로그를 토대로 고객에게 최적화된 품목 추천

### 자연어 처리 트렌드
- 기존 방식 : 규칙기반 (Rule-based)
    - 언어학을 기반. 통계기반(Statistical Machine Translation)
    - 말뭉치(Corpus) 기반으로 전통적 ML적용
<br><br>
- 최근 : Deep learning 이용 ==> 대규모 컴퓨팅 리소스를 사용하는 딥러닝 모델로 진화

    - word embedding을 기반으로 전체 입력 문장 단위로 처리
    - 어순, 단어의 의미, 문맥 파악등을 **스스로** 학습
    - 언어학 전문가 불필요
    - Word Embedding, Bidirectional Recurrent Neural Network, Encoder-decoder (seq2seq) model, Attention model, Transformer model, BERT/GPT-3, etc...
    - 대규모(BERT, GPT 등) Pre-trained 모델에 대한 Pre-training된 파라미터를 이용한 Transfer Learning(Fine-Tuning)이 주를 이룬다.

### 자연서 처리 용어 소개
- 코퍼스(Corpus, collection of Texts)
    - 말뭉치. 자연어 처리를 위해 모아놓은 텍스트 묶음을 의미
    - 소설, 뉴스기사, 위키피디아 등에서 수집한 텍스트
- 토큰(Token)
    - 전체 문자열을 분석하고자하는 단위로 나눈 것
    - 토큰은 상황에 따라 문장 단위가 될 수도 이있고 단어 단위가 될 수 도 있고 형태소 단위가 될 수 도
- 어휘 집합(Vocabulary Set)
    - 처리하는 문제영역의 전체 단어 집합을 의미
    - 어휘 집합에 포함되지 않은 단어는 < UNK >라는 특수 토큰으로 처리 (unknown)
    - 보통을 충분히 큰 개수의 어휘집합을 사용

### *데이터 전처리 순서*
1. 토큰화(Tokenization)

    - 문자열에서 단어로 분리
<br><br>
2. 불용어 제거(Stop Word elimination)

    - 전치사, 관사등 너무 많이 등장하는 단어등, 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제
<br><br>
3. 어간 추출(Stemming)

    - 단어의 기본 형태를 추출
<br><br>
4. 문서 표현(Representation)

    - 주어진 문서나 문장을 하나의 벡터로 표현
    - 단어들을 모두 인덱싱(indexing) 하고 주오진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현

### 자연어 처리를 위한 파이썬 라이브러리
- KoNLPy : 한국어 자연어 처리
    - Twitter, Komoran, Mecab등 다양한 형태소 분석기 내장
- NLTK : 영어로된 텍스트의 자연어처리
    - 말뭉치 분석, 품사 태깅, 형태소 분석
- Gensim 
    - 주로 topic modeling, corpus 및  Word embedding모델 지원
    - 한국어 및 다양한 언어 지원

### 단어와 문장의 숫자 표현
: 단어/문장(string)을 컴퓨터가 이해할 수 있는 숫자(vector)로 변환
- BOW : 모든 문장을 토큰화하고 문장에 토큰이 몇번 등장하는지 count
    - 각 토큰을 feature화 ==> Text Vetorization
    - 문서를 숫자 벡터로 변환하는 가장 기본적인 방법
    - min_df : 정수 또는 [0.0-1.0]사이의 실수. 디폴트 1
<br><br>
- scikit-learn의 문서 전처리 기능
    - DictVectorizer : 각 단어의 수를 세어놓은 사전에서 BOW 벡터 생성
    - CountVectorizer : 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩한 벡터 생성
    - TfidfVectorizer : countvectorizer와 비슷하지만 TF-IDF방식으로 단어의 가중치 조정한 BOW 벡터 생성
    - HashingVectorizer : 해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로 BOW 벡터 생성
    - 단어들 간의 순서를 유지할 수 없다. n-gram으로 일부 해결
    - 문제점 : feature개수가 기하급수적으로 증가
<br><br>
- TF-IDF : TF = 단어 빈도 DF = 문서 빈도 IDF = 역문서 빈도, DF의 역수
    - TF*IDF 
        - low = 전체 문서에서 공통으로 사용되는 단어
        - high = 모든 문서가 아닌 특정 문서에서 자주 사용되는 단어
<br><br>
- Word Embedding

***

### 임베딩
1. 단어/문장 간 관련도 계산
    - 단어를 벡터로 임베딩하는 순간 단어 벡터 사이의 유사도(similarity)를 계산하는 일이 가능
    - 예. L1 distane, L2 distance, cosine similarity

2. 의미/문법 정보 함축
    - 임베딩은 벡터인 만큼 사칙연산이 가능
    - 단어간 덧셈/뺄셈을 통해 단어사이의 의미적, 문법적 관계를 도출

3. 전이학습
    - 임베딩을 다른 딥러닝 모델의 입력값으로 쓴다
    - HOW?
        - 대규모 말뭉치를 활용해 임베딩을 미리 만들어 놓음
        - 임베딩에는 의미적, 문법적 정보들이 녹아있음
        - pre-reain/fine tuning
    - 임베딩이 중요한 이유
        - 임베딩의 품질이 좋으면 수행하려는 task의 성능이 올라감
        - 임베딩의 품질이 좋으면 모델의 수렴(converge)가 빨라짐
        
#### 임베딩의 역사와 종류
- \* 역사
- 통계 기반 --> 뉴렬 네트워크 기반
    - Latent Semantic Analysis, LSA
    - 단어 사용 빈도 등 말뭉치를 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소 
    - 뉴럴 네트워크
    - 이전 단어들이 주어졌을때 다음 단어가 뭐가 될지 예측, 문장내 일부분에 구멍을 뚫어놓고 뭐가 들어갈지(masking)
- 단어 수준 --> 문장 수준
    - 단어 수준 임베딜 (NLPM, Word2Vec, GloVe,...) 
        - 단점 : 동음이의어 분간 어려움
    - 문장 수준 임베딩 (ELmo, BERT, GPT,...) 
        - 개별 단어가 아닌 시퀀스 전체, 동음이의어 분간 가능
- 룰 --> 엔드 투 엔드 --> 프리 트레인/파인 튜닝
    - '90년대 : 사람이 피쳐를 뽑음
    - '00중반 이후 : 딥러닝 모델이 주목받기 시작
        - end-to-end: 데이터를 통체로 넣고 입출력간 관계를 사람의 개입없이
    - '18이후 : pre-train/fine tuning
        - pre-train : 우선 대규모 말뭉치로 임베딩 만듦
        - fine tuning : 임베딩을 입력으로 하는 새로운 딥러닝 모델을 만들고 우리가 풀고 싶은 구체적 문제에 맞는 소규모 데이터에 맞게 임베딩을 포함한 모델 전체를 업데이트
    - downstream task : 우리가 풀고 싶은 자연어 처리의 구체적 문제들
    - upstream task 

- \* 종류와 성능
    - 행렬분해 : 원래 행렬을 2개 이상의 작은 행렬로 분해 후 둘 중 하나의 행렬만 쓰거나 sum하거나 concat하여 사용
    - 예측
    - 토픽기반 :
    - 성능평가 : 다운스트림 태스크에 대한 임베딩 종류별 성능 분석
        - 임베딩 품질이 각종 다운스크림 태스크 성능에 크게 영향을 준다


#### 유통기간 관리
clova ocr api 
#### STT(Speech To Text) + Summarization
google STT api를 이용 (음성 파일 확장자 달라 mp3 --> wav 과정을 거침)
입력받은 한글을 sum
요약 후 streamlit라이브러리를 통해 웹으로 구현
개선 : 중복방지를 위한 음성 파일 삭제, 요약 결과 최대 길이 조절 (기본값 20 --> 20~100까지 선택 가능하도록 슬라이드 바 생성)

#### 재고관리
ROI를 활용해 입고(+ count) 출고(- count) 확인
