### 1. CountVectorizer 하이퍼파라미터

**CountVectorizer**는 텍스트 데이터에서 단어의 빈도를 세어 벡터로 변환하는 클래스입니다.

1. **`input`**: {'filename', 'file', 'content'}, default='content'
   - 입력 형식 지정: 'filename'(파일 이름), 'file'(파일 객체), 'content'(텍스트).
   
2. **`encoding`**: str, default='utf-8'
   - 텍스트 인코딩 방식 지정.

3. **`decode_error`**: {'strict', 'ignore', 'replace'}, default='strict'
   - 디코딩 오류 처리 방식 지정.

4. **`strip_accents`**: {'ascii', 'unicode', None}, default=None
   - 악센트를 제거할지 여부 및 방법.

5. **`lowercase`**: bool, default=True
   - 모든 텍스트를 소문자로 변환할지 여부.

6. **`preprocessor`**: callable or None, default=None
   - 사전 처리 함수를 사용자 정의 가능.

7. **`tokenizer`**: callable or None, default=None
   - 사용자 정의 토크나이저 함수.

8. **`stop_words`**: {'english'}, list, or None, default=None
   - 불용어를 제거할지 여부 및 불용어 리스트.

9. **`ngram_range`**: tuple (min_n, max_n), default=(1, 1)
   - n-그램의 범위 지정.

10. **`analyzer`**: {'word', 'char', 'char_wb'} or callable, default='word'
    - 특징 추출 수준: 단어, 문자, 문자 n-그램.

11. **`max_df`**: float or int, default=1.0
    - 최대 문서 빈도 비율 또는 빈도 수. 이 값보다 많이 나타나는 용어는 제외.

12. **`min_df`**: float or int, default=1
    - 최소 문서 빈도 비율 또는 빈도 수. 이 값보다 적게 나타나는 용어는 제외.

13. **`max_features`**: int or None, default=None
    - 선택할 최대 특징 수.

14. **`vocabulary`**: Mapping or iterable, default=None
    - 미리 정의된 용어 사전.

15. **`binary`**: bool, default=False
    - 출현 횟수가 아닌 출현 여부를 0과 1로 표시.

16. **`dtype`**: type, default=np.int64
    - 결과 배열의 자료형.

### 2. TfidfVectorizer 하이퍼파라미터

**TfidfVectorizer**는 단어의 빈도(TF)와 역문서 빈도(IDF)를 결합하여 단어의 중요도를 평가하는 클래스입니다.

1. **`input`**: {'filename', 'file', 'content'}, default='content'
   - 입력 형식 지정: 'filename', 'file', 'content'.

2. **`encoding`**: str, default='utf-8'
   - 텍스트 인코딩 방식 지정.

3. **`decode_error`**: {'strict', 'ignore', 'replace'}, default='strict'
   - 디코딩 오류 처리 방식 지정.

4. **`strip_accents`**: {'ascii', 'unicode', None}, default=None
   - 악센트를 제거할지 여부 및 방법.

5. **`lowercase`**: bool, default=True
   - 모든 텍스트를 소문자로 변환할지 여부.

6. **`preprocessor`**: callable or None, default=None
   - 사전 처리 함수를 사용자 정의 가능.

7. **`tokenizer`**: callable or None, default=None
   - 사용자 정의 토크나이저 함수.

8. **`stop_words`**: {'english'}, list, or None, default=None
   - 불용어를 제거할지 여부 및 불용어 리스트.

9. **`ngram_range`**: tuple (min_n, max_n), default=(1, 1)
   - n-그램의 범위 지정.

10. **`analyzer`**: {'word', 'char', 'char_wb'} or callable, default='word'
    - 특징 추출 수준: 단어, 문자, 문자 n-그램.

11. **`max_df`**: float or int, default=1.0
    - 최대 문서 빈도 비율 또는 빈도 수. 이 값보다 많이 나타나는 용어는 제외.

12. **`min_df`**: float or int, default=1
    - 최소 문서 빈도 비율 또는 빈도 수. 이 값보다 적게 나타나는 용어는 제외.

13. **`max_features`**: int or None, default=None
    - 선택할 최대 특징 수.

14. **`vocabulary`**: Mapping or iterable, default=None
    - 미리 정의된 용어 사전.

15. **`binary`**: bool, default=False
    - TF 대신 0과 1의 바이너리 값 사용 여부.

16. **`dtype`**: type, default=np.float64
    - 결과 배열의 자료형.

17. **`norm`**: {'l1', 'l2', None}, default='l2'
    - 출력 벡터를 정규화할 방법. None으로 설정 시 정규화하지 않음.

18. **`use_idf`**: bool, default=True
    - IDF를 사용하여 가중치를 부여할지 여부.

19. **`smooth_idf`**: bool, default=True
    - IDF 계산 시, 모든 문서에 1을 더해 계산할지 여부.

20. **`sublinear_tf`**: bool, default=False
    - TF 가중치를 1 + log(TF)로 적용할지 여부.

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 예시 리스트
corpus= [
    'This is the first corpus',
    'This corpus is the second corpus',
    'And this corpus is the third one',
    'Is this the first corpus?'
]

#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
----
내가 원하는 메트릭스를 보고 싶다! [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 1 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


In [3]:
## 한국어로 진행
corpus_ko=[
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 공부합니다'
    ]

In [4]:
#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' 'bda는' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일은' '매우' '모두' '모집합니다' '비가'
 '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [5]:
## 한국어로 진행
corpus_ko=[
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 내일또 공부합니다'
    ]

In [6]:
#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' 'bda는' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두'
 '모집합니다' '비가' '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [7]:
#불용어 추가하기!
stop_words = ['bda는']


In [8]:
#CountVectorizer
cv=CountVectorizer(stop_words = stop_words)

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두' '모집합니다' '비가'
 '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


### TF-IDF (Term Frequency - Inverse Document Frequency )

In [10]:
#TF-IDF 패키지 불러오기
from sklearn.feature_extraction.text import TfidfVectorizer

In [12]:
# 예시 리스트
corpus= [
    'This is the first corpus',
    'This corpus is the second corpus',
    'And this corpus is the third one',
    'Is this the first corpus?'
]

vectorizer = TfidfVectorizer()

X=vectorizer.fit_transform(corpus)

In [14]:

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',vectorizer.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
----
내가 원하는 메트릭스를 보고 싶다! [[0.         0.39896105 0.60276058 0.39896105 0.         0.
  0.39896105 0.         0.39896105]
 [0.         0.61221452 0.         0.30610726 0.         0.5865905
  0.30610726 0.         0.30610726]
 [0.49451206 0.25805691 0.         0.25805691 0.49451206 0.
  0.25805691 0.49451206 0.25805691]
 [0.         0.39896105 0.60276058 0.39896105 0.         0.
  0.39896105 0.         0.39896105]]


In [15]:
## 한국어로 진행
corpus_ko=[
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 공부합니다'
    ]

In [16]:
#불용어 추가하기!
stop_words = ['bda는']

In [17]:

vectorizer = TfidfVectorizer(stop_words=stop_words)
X=vectorizer.fit_transform(corpus_ko)

In [18]:

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',vectorizer.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일은' '매우' '모두' '모집합니다' '비가' '열심히'
 '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0.         0.         0.         0.45163515 0.         0.
  0.         0.45163515 0.         0.         0.         0.
  0.54408243 0.         0.         0.         0.54408243 0.
  0.        ]
 [0.         0.         0.         0.45163515 0.54408243 0.
  0.         0.45163515 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.54408243
  0.        ]
 [0.         0.60981929 0.         0.         0.         0.
  0.50620239 0.         0.         0.         0.60981929 0.
  0.         0.         0.         0.         0.         0.
  0.        ]
 [0.         0.         0.         0.         0.         0.
  0.43218152 0.         0.52064676 0.         0.         0.
  0.         0.         0.52064676 0.         0.         0.
  0.52064676]
 [0.57735027 0.         0.         0.      

In [22]:
#하이퍼파라미터를 좀 더 추가해서 다양하게 전처리 작업을 할 수 있다.
vectorizer = TfidfVectorizer(stop_words=stop_words,
                            min_df= 2,#최소 1회 이상은 나타나는 단어만 포함)
                            ngram_range=(1,2)) 
X=vectorizer.fit_transform(corpus_ko)

In [21]:

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',vectorizer.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['공부합니다' '날씨는' '내일은' '매우' '우리는']
----
내가 원하는 메트릭스를 보고 싶다! [[0.         0.70710678 0.         0.70710678 0.        ]
 [0.         0.70710678 0.         0.70710678 0.        ]
 [0.         0.         1.         0.         0.        ]
 [0.         0.         1.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.70710678 0.         0.         0.         0.70710678]
 [0.70710678 0.         0.         0.         0.70710678]]


In [23]:

# 변환 결과를 출력 ngram
print('corpus 사용한 피처는 무엇인지 확인하는 것!',vectorizer.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['공부합니다' '날씨는' '날씨는 매우' '내일은' '매우' '우리는']
----
내가 원하는 메트릭스를 보고 싶다! [[0.         0.57735027 0.57735027 0.         0.57735027 0.        ]
 [0.         0.57735027 0.57735027 0.         0.57735027 0.        ]
 [0.         0.         0.         1.         0.         0.        ]
 [0.         0.         0.         1.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.70710678 0.         0.         0.         0.         0.70710678]
 [0.70710678 0.         0.         0.         0.         0.70710678]]


## 텍스트 전처리를 통해 분석을 하자!


In [26]:
import pandas as pd
df=pd.read_csv('movie_rv.csv')

In [29]:
df_sp=df.iloc[:50000]

In [32]:
## 리뷰 데이터를 어떻게 분석하면 될까?!
import re 
from konlpy.tag import Okt

# Okt 형태소 분석기 생성
okt =Okt()

### 유사도  측정, LDA 토픽모델링

In [36]:
## 전처리 함수

def preprocess_text(text):
    #문자열 확인하고, 아니면 빈 문자열 반환
    if not isinstance(text,str):
        return ''
    #특수문자 제거
    text=re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]','',text)
    #형태소로 분석을 통해 추출 (명사만 추출)
    nouns=okt.nouns(text)
    return ' '.join(nouns)


df_sp['document_cleand']=df_sp['document'].apply(preprocess_text)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sp['document_cleand']=df_sp['document'].apply(preprocess_text)


In [37]:
print(df_sp[['document','document_cleand']])

                                                document  \
0                                    아 더빙.. 진짜 짜증나네요 목소리   
1                      흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나   
2                                      너무재밓었다그래서보는것을추천한다   
3                          교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정   
4      사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...   
...                                                  ...   
49995  "이게 소위 스페인식 Neo-realism 이란 건가? - 물론, ""아동 판타지"...   
49996                                   보지마셈 저 믿으세요 보지마셈   
49997                                               최고졸작   
49998                                  재밌고 좋았음 10자 쓰라고?!   
49999                               소박하지만 잔잔한 감동을 주는 영화.   

                                         document_cleand  
0                                              더빙 진짜 목소리  
1                                 흠 포스터 보고 초딩 영화 줄 오버 연기  
2                                         무재 밓었 다그 래서 추천  
3                                    교도소 이야

In [38]:
#CountVectorizer
cv=CountVectorizer()
X_cv_count=cv.fit_transform(df_sp['document_cleand'])

#tfidf
tfidf = TfidfVectorizer()
X_tfidf_count=tfidf.fit_transform(df_sp['document_cleand'])


## 코사인 유사도
- cosine_similarity 유사도를 측정하자!

In [43]:
## cosine_similarities
## sklearn에서 가지고 와서 학습

from sklearn.metrics.pairwise import cosine_similarity

cos_sim_count = cosine_similarity(X_cv_count)
cos_sim_tfidf = cosine_similarity(X_tfidf_count)

In [65]:
# 코사인 유사도를 통해 리뷰 10개 정도 추려서 
# 리뷰와 코사인유사도가 같은 3개 정도를 출력하는 코드

num_rvs = 10
for i in range(num_rvs):
    #cv
    simliar_indices_count = cos_sim_count[i].argsort()[::-1][1:11]
    similar_reviews_count = [(cos_sim_count[i][j], df_sp['document'][j]) for j in simliar_indices_count]
    
    #tfidf
    simliar_indices_tfidf = cos_sim_tfidf[i].argsort()[::-1][1:4]
    similar_reviews_tfidf = [(cos_sim_tfidf[i][j], df_sp['document'][j]) for j in simliar_indices_tfidf]
    
    print(f"\n Original Review {i+1}: {df_sp['document'][i]}")
    print("\n Top 3 similar reviews using countvectorizer:")
    for sim_score, reviews in similar_reviews_count:
        print(f"Similarity :{sim_score:.3f}, Reviews:{reviews}")
    
    print("\n Top 3 similar reviews using Tfidf:")
    for sim_score, reviews in similar_reviews_tfidf:
        print(f"Similarity :{sim_score:.3f}, Reviews:{reviews}")



 Original Review 1: 아 더빙.. 진짜 짜증나네요 목소리

 Top 3 similar reviews using countvectorizer:
Similarity :0.816, Reviews:더빙 진짜 못들어주겠다...
Similarity :0.674, Reviews:러시아 영화 진짜 재미없다. 내용전개 진짜 이상하고 이해안돼. 억지로 짜집기한거같아. 더빙도 왜 연예인인거야? 이수근 진짜 더빙 못한다. 한국측 더빙작가가 대본을 이상하게 짠거야, 뭐야? 진짜 이상하고 재미없었다. 아오 빡쳐 ㅡㅡ;;
Similarity :0.667, Reviews:진짜 더빙하지말라고 볼맛떨어지게
Similarity :0.667, Reviews:아 진짜 하하 더빙좀 안하면 안되냐....
Similarity :0.655, Reviews:아 진짜 더빙너무 역겹고ㅇ 극장에 애기들만 와서 진짜 짜증납니다. .
Similarity :0.577, Reviews:아 진짜 재밌게 봤습니다♥♥
Similarity :0.577, Reviews:진짜 짱이다~~~~~~~~~~~~~~~~~
Similarity :0.577, Reviews:진짜 많이 놀랬어요...
Similarity :0.577, Reviews:진짜 욕하고싶다.. 보지마라..
Similarity :0.577, Reviews:아 진짜!

 Top 3 similar reviews using Tfidf:
Similarity :0.735, Reviews:더빙 진짜 못들어주겠다...
Similarity :0.678, Reviews:그롬목소리
Similarity :0.630, Reviews:다좋은데..더빙이 너무 어색해..........

 Original Review 2: 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나

 Top 3 similar reviews using countvectorizer:
Similarity :0.577, Reviews:좋은 영화보고 갑니다.
Similarity :0.577, Reviews:

- LDA (Latent Dirichlet Allocation)
- 토픽 모델링 
- 텍스트 기반 문서에서 핵심 주제 (Topic)을 찾는다. 데이터 분석 방법론 
- 작동방법
    - 확률 기반으로 텍스트의 문서 내에 토픽들이 어떤 비율로 구성되어 있는지 확인
    - 임의 토픽을 분석가 정한 다음에, 해당 토픽에 대해서 카운팅을 해보고 ( 임의로 카운팅 )
    - 다른 리뷰들이 어떤 식으로 토픽이 분포되어 있는지 보고 맞춰가면서 새로운 리뷰 단어 대해서 토픽을 찾는다.
    

In [70]:
# 사이킷런에서 제공하는 패키지
from sklearn.decomposition import LatentDirichletAllocation

# LDA모델 학습
# 내가 원하는 토픽 주제는 분석가 정할 수 있다. 2개, 3개 
# 2개의 토픽을 정하는데, 이 토픽은 어떤 특정 값이 아니라 계산해서 유사하다고 판단되는 토픽들을 묶어서 보여주는 것
# 해석에 의미는 분석가가 진행해야 한다.
lda=LatentDirichletAllocation(n_components = 2, random_state=111)

lda.fit(X_cv_count)

In [75]:
# lda에 있는 값들을 출력해야 한다.
# 상위 몇 개 단어를 가지고 올 것인가?
n_top_words = 10

def print_top_words(model, feature_name, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print(f"Topic {topic_idx}:")
        print(" ".join([feature_name[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        
tf_feature_names=cv.get_feature_names_out()
print_top_words(lda, tf_feature_names, n_top_words)

Topic 0:
연기 평점 스토리 배우 내용 재미 진짜 주인공 시간 별로
Topic 1:
영화 정말 최고 진짜 감동 보고 드라마 생각 쓰레기 사람
