# NLP(Natural Language Processing)

## 자연어
- 사람이 일상적으로 사용하는 언어를 말한다.
    - 어떤 목적을 가지고 사람이 만든 것이 아니라 **자연적으로 만들어진 언어**를 말한다.
- **형식 언어(인공언어)**
    - 특정 목적을 위해 사람이 인위적으로 만든 언어로 자연어의 대척점에 있는 언어 개념.
    - 예: 프로그래밍 언어

## 자연어 처리 (NLP)
- 자연어 처리(Natural Language Process)는 컴퓨터가 인간의 언어를 이해하고 분석하는 분야를 말한다.
- 자연어 처리도 오래된 분야인데 딥러닝이 적용되면서 획기적인 발전을 이루었다.     

# Text to Vector(Text Vectorization)

1. **Text Vectorization의 정의**
   - 자연어(텍스트) 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환하는 과정.
   - 비정형 텍스트를 머신러닝 모델이 처리할 수 있는 수치 형태로 표현하며, 이 과정을 통해 컴퓨터는 단어와 문장, 문단을 수학적 표현으로 다룰 수 있다.
   
   ![nlp_text_to_vector_outline](figures/nlp_text_to_vector_outline.png)
2. **Feature 추출**
   - 자연어 텍스트에서 output을 계산하는데 필요한 **중요한 특징(특성-feature)들**을 뽑아내어 활용할 수 있게 한다.
   - 텍스트의 의미적, 문법적 특성을 수치화한다.
   - 단어나 문장 간의 관계를 벡터 공간에서 표현 할 수 있다.
   - 텍스트 데이터의 패턴을 발견하고 분석하는데 필수적인 전처리 과정이 feature 추출이다.

3. **활용 분야**
   - 벡터화된 텍스트는 머신러닝 알고리즘이나 딥러닝 모델에 입력되어 분류, 군집화, 감성 분석 등 다양한 자연어 처리 작업에 활용된다.
   - 벡터화된 데이터는 두 텍스트 간의 유사도를 비교하는 데에도 사용될 수 있다. 이를 통해 비슷한 문장, 단어, 문서 등을 효과적으로 찾을 수 있다.
## 주요 방법론
   1. **Count-Based Word Representation**
       - 단어가 나오는 횟수(출연 빈도수) 기반 표현방식
       - Bag of word, TF-IDF
   2. **Word Embedding**
       - 단어를 **고정된 Vector로 표현**한다. 고정됐다는 것은 문맥에 상관없이 같은 단어는 같은 값으로 표현한다.
       - Word2Vec, Fastext, Glove
   3. **Contextualized Word Embedding**
       - 문맥을 고려한 Word Embedding 방식. 단어가 문맥에 따라 의미가 바뀌는 **동적 Vector 표현방식**이다.
       - ELMo, BERT, GPT2, RoBERTa

# Count-Based Word Representation

- Bag Of Words(BoW)라고 한다.
- 주요 방식
    - DTM(Document Term Matrix)/TDM(Term Document Matrix)
    - TF-IDF


## Bag Of Words(BoW)

-   **단어의 출현 빈도에만 집중해 단어를 표현**(word representation) 하는 방법으로 단어의 순서는 전혀 고려하지 않는다.
    - Concept: **많이 나온 단어가 중요한 단어이다.**

### DTM/TDM

-   문서를 구성하는 단어들이 몇 번 나왔는지를 표현하는 행렬로 Vector화 한다.
-   DTM(Document-Term Matrix)
    -   행: 문서번호, 열: 모든 문서에 나온 단어
    -   값: 출연 빈도수
-   TDM(Term-Document Matrix)
    -   행: 단모든 문서에 나온 단어, 열: 문서번호
    -   값: 출연 빈도수
-   DTM과 TDM은 동일한 정보를 담고 있으며, 두 행렬은 행과 열의 역할만 서로 바뀐 형태이다

##### DTM 구조
|-|단어1|단어2|단어3|단어4|...|
|-|-|-|-|-|-|
|문서1|1|0|3|5|...|
|문서2|0|0|2|0|...|
|문서3|0|15|20|0|...|
|...|...|...|...|...|...|


#### 구현방법

1. 어휘 사전(vocabulary) 생성
    - 전체 문서에 나온 모든 단어들을 수집하고 각 단어들에 고유 정수 index를 부여한다.
2. 문장과 단어간의 DTM/TDM Matrix를 만든다.

#### scikit-learn CountVectorizer 이용

-   빈도수 기반 Vector화 지원 Text 전처리 클래스
-   **주요 생성자 매개변수**
    -   stop_word :stopword 지정
        -   str: "english" - 자체 제공 불용어는 제공됨
        -   list: stopword 리스트
    -   max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
        -   int(횟수), float(비율)
    -   min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    -   max_features: 최대 token 수
        -   빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
    -   ngram_range: n_gram 범위 지정
        -   n_gram:
        -   튜플 (범위 최소값, 범위 최대값)
        -   (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출
    -   tokenizer: 토큰화 처리 함수
-   **메소드/ 속성**
    -   fit(X)
        -   학습: 입력된 문서들을 바탕으로 token화에서 사용할 어휘사전(vocab)을 만든다.
        -   매개변수: raw document - 문서를 원소로 가지는 1차원 배열형태(list, ndarray)
        -   **Train(훈련) 데이터셋 으로 학습한다. Test 데이터셋은 Train 셋으로 학습한 CountVectorizer를 이용해 변환만 한다.**
    -   transform(X)
        -   DTM 변환
    -   fit_transform(X)
        -   학습/변환 한번에 처리
    -   vocabulary\_: 어휘 사전

> #### n-gram
>
> -   N 개의 단어(token)을 묶어서 하나의 토큰으로 처리하는 방식을 n-gram이라고 한다. (n은 몇개 토큰을 하나의 단위로 묶을지 개수)
>     -   uni-gram (n=1), bi-gram (n=2), tri-gram (n=3), 4개부터는 n-gram으로 표기(4-gram, 5-gram, ..)
>     -   Embedding이나 언어모델을 만들때 적용하는 기법이다.
> -   BoW에 n-gram을 적용하면 n개의 단어를 묶어서 하나의 tokne으로 처리한다.
> -   언어모델에 n-gram을 적용하면 이전/이후 n 개의 단어를 이용해 다음 단어를 유추한다.
> -   n-gram의 문제
>     -   n이 너무 크면 희소성(출현 빈도가 낮아진다)의 문제가 발생한다.
>         -   `나는 어제 밥을 먹으러 식당에 가려다가 마음을 바꾸었다.` 이런 token이 전체 corpus에 얼마나 있을까?
>     -   n이 너무 작으면 단어간의 관계성이 표현이 안되는 문제가 발생한다.


In [1]:
!uv pip install scikit-learn

[2mResolved [1m5 packages[0m [2min 228ms[0m[0m
[2mInstalled [1m4 packages[0m [2min 268ms[0m[0m
 [32m+[39m [1mjoblib[0m[2m==1.5.2[0m
 [32m+[39m [1mscikit-learn[0m[2m==1.7.2[0m
 [32m+[39m [1mscipy[0m[2m==1.16.3[0m
 [32m+[39m [1mthreadpoolctl[0m[2m==3.6.0[0m


In [1]:
# 각 원소가 문서
text = ["나는 야구를 좋아합니다. 나는 축구를 좋아하지 않습니다.", 
        "친구는 야구와 축구를 좋아합니다. 야구보다 축구를 더 좋아합니다.", 
        "나는 축구를 더 좋아합니다. 영국 축구 리그보다 이탈리아 축구 리그를 더 좋아합니다.", 
        "나는 농구를 좋아하지 않습니다. 배구도 좋아하지 않습니다.", 
        "나는 액션영화를 좋아합니다.", 
        "어제 비빕밥을 먹었습니다."]

print("문서개수:", len(text))

stop_words = list('은는이가을를도.,')
stop_words

문서개수: 6


['은', '는', '이', '가', '을', '를', '도', '.', ',']

In [10]:
from kiwipiepy import Kiwi
kiwi = Kiwi()

In [18]:
a = kiwi.tokenize(text[0])
a[0].form, a[0].lemma 
[token.lemma for token in a] # 토큰 원형
[token.lemma for token in a if token.form not in stop_words] # stop word는 제거

['나', '야구', '좋아하다', 'ᆸ니다', '나', '축구', '좋아하다', '지', '않다', '습니다']

In [3]:
# 형태소 분석 기반 토큰화
## 생성이 목적일 때는 원형복원보다 토큰 그대로 반환을 한다.
## 이해가 목적일 경우는 원형복원등 정규화를 통해 같은 의미의 단어는 같은 표현을 하도록 한다.
from kiwipiepy import Kiwi

kiwi = Kiwi()
def tokenizer(doc:str) -> list:
    tokens = kiwi.tokenize(doc)
    tokens =  [token.lemma for token in tokens if token.form not in stop_words]
    return tokens

In [4]:
tokenizer(text[0])

['나', '야구', '좋아하다', 'ᆸ니다', '나', '축구', '좋아하다', '지', '않다', '습니다']

In [19]:
text[0]

'나는 야구를 좋아합니다. 나는 축구를 좋아하지 않습니다.'

In [5]:
# CountVectorizer 를 이용해 전처리.
## 문서 -> DTM 으로 변환.
## fit() 어떻게 변환할 지 학습 (단어들 추출)
## transform() 변환작업
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(
    tokenizer=tokenizer, # 문서를 받아서 토큰화 처리하는 callable. 생략: 공백/구두점기준으로 토큰화
    token_pattern=None, # 토큰화 기준문자열의 패턴(정규표현식)지정. tokenizer설정시 무시됨.
    # stop_words=stop_word 리스트
)

cv.fit(text)  # 입력: list[str] - str: 문서

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,<function tok...0027FACDD4A40>
,stop_words,
,token_pattern,
,ngram_range,"(1, ...)"


In [6]:
# 어휘사전 (DTM을 구성하는 단어(term)들)
cv.vocabulary_

{'나': 1,
 '야구': 13,
 '좋아하다': 20,
 'ᆸ니다': 0,
 '축구': 22,
 '지': 21,
 '않다': 11,
 '습니다': 10,
 '친구': 23,
 '와': 18,
 '보다': 8,
 '더': 3,
 '영국': 16,
 '리그': 4,
 '이탈리아': 19,
 '농구': 2,
 '배구': 7,
 '액션': 12,
 '영화': 17,
 '어제': 14,
 '비빕': 9,
 '밥': 6,
 '먹다': 5,
 '었': 15}

In [22]:
cv.get_feature_names_out()

array(['ᆸ니다', '나', '농구', '더', '리그', '먹다', '밥', '배구', '보다', '비빕', '습니다',
       '않다', '액션', '야구', '어제', '었', '영국', '영화', '와', '이탈리아', '좋아하다', '지',
       '축구', '친구'], dtype=object)

In [8]:
## DTM 변환
dtm = cv.transform(text)  # cv.fit_transform(text) # fit/transform 대상이 같은 경우.
r = dtm.toarray()
# r[0]
print(r.shape)
r

(6, 24)


array([[1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1,
        1, 0],
       [2, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 2, 0,
        2, 1],
       [2, 1, 0, 2, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 2, 0,
        3, 0],
       [0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2,
        0, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
        0, 0],
       [0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
        0, 0]])

In [None]:
# !uv pip install pandas

[2mResolved [1m6 packages[0m [2min 115ms[0m[0m
[2mInstalled [1m2 packages[0m [2min 508ms[0m[0m
 [32m+[39m [1mpandas[0m[2m==2.3.3[0m
 [32m+[39m [1mpytz[0m[2m==2025.2[0m


In [9]:
import pandas as pd
dtm_df = pd.DataFrame(
    dtm.toarray(), 
    columns=cv.get_feature_names_out(),
    index=[f'문서-{i+1}' for i in range(len(text))]    
)

In [10]:
pd.options.display.max_columns=25

In [11]:
dtm_df.shape
# (6: 문서개수, 24: 전체문서를 구성하는 토큰의 개수)

(6, 24)

In [12]:
dtm_df

Unnamed: 0,ᆸ니다,나,농구,더,리그,먹다,밥,배구,보다,비빕,습니다,않다,액션,야구,어제,었,영국,영화,와,이탈리아,좋아하다,지,축구,친구
문서-1,1,2,0,0,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,2,1,1,0
문서-2,2,0,0,1,0,0,0,0,1,0,0,0,0,2,0,0,0,0,1,0,2,0,2,1
문서-3,2,1,0,2,2,0,0,0,1,0,0,0,0,0,0,0,1,0,0,1,2,0,3,0
문서-4,0,1,1,0,0,0,0,1,0,0,2,2,0,0,0,0,0,0,0,0,2,2,0,0
문서-5,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,1,0,0,0
문서-6,0,0,0,0,0,1,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0,0,0,0


In [13]:
tdm_df = dtm_df.T
tdm_df

Unnamed: 0,문서-1,문서-2,문서-3,문서-4,문서-5,문서-6
ᆸ니다,1,2,2,0,1,0
나,2,0,1,1,1,0
농구,0,0,0,1,0,0
더,0,1,2,0,0,0
리그,0,0,2,0,0,0
먹다,0,0,0,0,0,1
밥,0,0,0,0,0,1
배구,0,0,0,1,0,0
보다,0,1,1,0,0,0
비빕,0,0,0,0,0,1


In [14]:
### ngram 적용
cv2 = CountVectorizer(
    tokenizer=tokenizer,
    ngram_range=(1,3)   # 1-gram, 2-gram, 3-gram
)
dtm2 = cv2.fit_transform(text)
dtm2.shape



(6, 100)

In [15]:
cv2.get_feature_names_out()

array(['ᆸ니다', 'ᆸ니다 나', 'ᆸ니다 나 축구', 'ᆸ니다 야구', 'ᆸ니다 야구 보다', 'ᆸ니다 영국',
       'ᆸ니다 영국 축구', '나', '나 농구', '나 농구 좋아하다', '나 액션', '나 액션 영화', '나 야구',
       '나 야구 좋아하다', '나 축구', '나 축구 더', '나 축구 좋아하다', '농구', '농구 좋아하다',
       '농구 좋아하다 지', '더', '더 좋아하다', '더 좋아하다 ᆸ니다', '리그', '리그 더',
       '리그 더 좋아하다', '리그 보다', '리그 보다 이탈리아', '먹다', '먹다 었', '먹다 었 습니다', '밥',
       '밥 먹다', '밥 먹다 었', '배구', '배구 좋아하다', '배구 좋아하다 지', '보다', '보다 이탈리아',
       '보다 이탈리아 축구', '보다 축구', '보다 축구 더', '비빕', '비빕 밥', '비빕 밥 먹다', '습니다',
       '습니다 배구', '습니다 배구 좋아하다', '않다', '않다 습니다', '않다 습니다 배구', '액션',
       '액션 영화', '액션 영화 좋아하다', '야구', '야구 보다', '야구 보다 축구', '야구 와',
       '야구 와 축구', '야구 좋아하다', '야구 좋아하다 ᆸ니다', '어제', '어제 비빕', '어제 비빕 밥', '었',
       '었 습니다', '영국', '영국 축구', '영국 축구 리그', '영화', '영화 좋아하다', '영화 좋아하다 ᆸ니다',
       '와', '와 축구', '와 축구 좋아하다', '이탈리아', '이탈리아 축구', '이탈리아 축구 리그', '좋아하다',
       '좋아하다 ᆸ니다', '좋아하다 ᆸ니다 나', '좋아하다 ᆸ니다 야구', '좋아하다 ᆸ니다 영국', '좋아하다 지',
       '좋아하다 지 않다', '지', '지 않다', '지 않다 습니다', '축구', '축구 더', '축구 더 좋아하다',
       '

In [18]:
# dtm2.toarray()

### TF-IDF (Term Frequency - Inverse Document Frequency)

-   개별 문서에 많이 나오는 단어가 높은 값을 가지도록 하되 동시에 여러 문서에 자주 나오는 단어에는 페널티를 주는 방식
-   어떤 문서에 특정 단어가 많이 나오면 그 단어는 해당 문서를 설명하는 중요한 단어일 수 있다. 그러나 그 단어가 다른 문서에도 많이 나온다면 언어 특성이나 주제상 많이 사용되는 단어 일 수 있다.
-   각 문서의 길이가 길고 문서개수가 많은 경우 Count 방식 보다 TF-IDF 방식이 더 좋은 예측 성능을 내는 경우가 많다.

#### 구현방법

-   TF (Term Frequency) 정의: 해당 단어가 **해당 문서에** 몇번 나오는지를 나타내는 지표
-   DF (Document Frequency) 정의: 해당 단어가 **몇개의 문서에** 나오는지를 나타내는 지표
-   IDF (Inverse Document Frequency) 정의: DF에 역수
    - $$
        \cfrac{\text{전체 문서수}}{\text{해당 단어가 나오는 문서수}}
      $$

-   TF-IDF 정의:
    - $$
        TF * \left(\log \cfrac{\text{전체 문서수}}{\text{해당 단어가 나오는 문서수}} \right)
      $$
    -   log는 전체 문서의 수가 많으면 값의 단위가 너무 커지므로 log를 취한다.
    -   scikit-learn의 경우 분모가 0이 되는 것을 방지하기 위해 **분모에 1을 더하고** $\log(0)$도 계산이 안되므로 **분자에도 1을 더했으며** 그 계산 결과에 **1을 더하여 계산**함.
        -   $TF * \left(\log \cfrac{\text{전체 문서수 + 1}}{\text{해당 단어가 나오는 문서수 + 1}} + 1\right)$

#### scikit-learn TfidfVectorizer 이용

-   TF-IDF 기반 텍스트 벡터화 전처리 클래스

#### 주요 생성자 매개변수

-   stop_word :stopword 지정
    -   str: "english" - 영문 불용어는 제공됨
    -   list: stopword 리스트
-   max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    -   int(횟수), float(비율)
-   min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
-   max_features: 최대 token 수
    -   빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
-   ngram_range: n_gram 범위 지정
    -   n_gram:
    -   튜플 (범위 최소값, 범위 최대값)
    -   (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출
-   tokenizer: 토큰화 처리 함수

#### 메소드/Attribute

-   fit(X)
    -   학습: 입력된 문서들을 바탕으로 token화에서 사용할 어휘사전(vocab)을 만든다.
    -   매개변수: 문서를 원소로 가진 1차원 배열형태(list, ndarray)
-   transform(X)
    -   TF-IDF 변환
-   fit_transform(X)
    -   학습/변환 한번에 처리
-   vocabulary\_: 어휘 사전


In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

tiv = TfidfVectorizer(
    tokenizer=tokenizer
)

tiv.fit(text)  # [str, str, ..] str: 개별 문서



0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,<function tok...0027FACDD4A40>
,analyzer,'word'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'


In [21]:
tiv.vocabulary_

{'나': 1,
 '야구': 13,
 '좋아하다': 20,
 'ᆸ니다': 0,
 '축구': 22,
 '지': 21,
 '않다': 11,
 '습니다': 10,
 '친구': 23,
 '와': 18,
 '보다': 8,
 '더': 3,
 '영국': 16,
 '리그': 4,
 '이탈리아': 19,
 '농구': 2,
 '배구': 7,
 '액션': 12,
 '영화': 17,
 '어제': 14,
 '비빕': 9,
 '밥': 6,
 '먹다': 5,
 '었': 15}

In [23]:
columns = tiv.get_feature_names_out()
columns.shape

(24,)

In [25]:
# 변환
ti_result = tiv.transform(text)
ti_result.toarray()

array([[0.24664467, 0.49328934, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.2878256 , 0.34091705, 0.        , 0.34091705, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.4259948 , 0.34091705, 0.2878256 , 0.        ],
       [0.36775636, 0.        , 0.        , 0.25415999, 0.        ,
        0.        , 0.        , 0.        , 0.25415999, 0.        ,
        0.        , 0.        , 0.        , 0.50831998, 0.        ,
        0.        , 0.        , 0.        , 0.3099458 , 0.        ,
        0.31758703, 0.        , 0.42915865, 0.3099458 ],
       [0.2922292 , 0.1461146 , 0.        , 0.40392487, 0.49258271,
        0.        , 0.        , 0.        , 0.20196243, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.24629136, 0.        , 0.        , 0.24629136,
        0.25236329, 0.        , 0.51153169, 0.        ],
       [0.   

In [27]:
tiv_df = pd.DataFrame(
    ti_result.toarray(),
    columns=columns
)
tiv_df

Unnamed: 0,ᆸ니다,나,농구,더,리그,먹다,밥,배구,보다,비빕,습니다,않다,액션,야구,어제,었,영국,영화,와,이탈리아,좋아하다,지,축구,친구
0,0.246645,0.493289,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.287826,0.340917,0.0,0.340917,0.0,0.0,0.0,0.0,0.0,0.0,0.425995,0.340917,0.287826,0.0
1,0.367756,0.0,0.0,0.25416,0.0,0.0,0.0,0.0,0.25416,0.0,0.0,0.0,0.0,0.50832,0.0,0.0,0.0,0.0,0.309946,0.0,0.317587,0.0,0.429159,0.309946
2,0.292229,0.146115,0.0,0.403925,0.492583,0.0,0.0,0.0,0.201962,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.246291,0.0,0.0,0.246291,0.252363,0.0,0.511532,0.0
3,0.0,0.181378,0.305731,0.0,0.0,0.0,0.0,0.305731,0.0,0.0,0.423323,0.501408,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.313268,0.501408,0.0,0.0
4,0.344453,0.344453,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.580612,0.0,0.0,0.0,0.0,0.580612,0.0,0.0,0.297463,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.427206,0.427206,0.0,0.0,0.427206,0.29576,0.0,0.0,0.0,0.427206,0.427206,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [28]:
dtm_df

Unnamed: 0,ᆸ니다,나,농구,더,리그,먹다,밥,배구,보다,비빕,습니다,않다,액션,야구,어제,었,영국,영화,와,이탈리아,좋아하다,지,축구,친구
문서-1,1,2,0,0,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,2,1,1,0
문서-2,2,0,0,1,0,0,0,0,1,0,0,0,0,2,0,0,0,0,1,0,2,0,2,1
문서-3,2,1,0,2,2,0,0,0,1,0,0,0,0,0,0,0,1,0,0,1,2,0,3,0
문서-4,0,1,1,0,0,0,0,1,0,0,2,2,0,0,0,0,0,0,0,0,2,2,0,0
문서-5,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,1,0,0,0
문서-6,0,0,0,0,0,1,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0,0,0,0
