### 한국 영화 리뷰 데이터 감성 분석

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
train_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/ratings_train.txt'
test_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/ratings_test.txt'

In [3]:
df_train = pd.read_csv(train_path, sep='\t')
df_test = pd.read_csv(test_path, sep='\t')

# 결과 확인하기
print(f'학습용 데이터 : \n{df_train}')
print('-'*80)
print(f'평가용 데이터 : \n{df_test}')

학습용 데이터 : 
              id                                           document  label
0        9976970                                아 더빙.. 진짜 짜증나네요 목소리      0
1        3819312                  흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나      1
2       10265843                                  너무재밓었다그래서보는것을추천한다      0
3        9045019                      교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정      0
4        6483659  사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...      1
...          ...                                                ...    ...
149995   6222902                                인간이 문제지.. 소는 뭔죄인가..      0
149996   8549745                                      평점이 너무 낮아서...      1
149997   9311800                    이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?      0
149998   2376369                        청춘 영화의 최고봉.방황과 우울했던 날들의 자화상      1
149999   9619869                           한국 영화 최초로 수간하는 내용이 담긴 영화      0

[150000 rows x 3 columns]
--------------------------------------------------------------

In [4]:
### 누락 데이터 확인
# 학습용 데이터 --> 각 컬럼별 누락 데이터의 수 확인
nulls_train = df_train.isnull().sum()

# 평가용 데이터 --> 각 컬럼별 누락 데이터의 수 확인
nulls_test = df_test.isnull().sum()

# 결과 확인하기
print(f'학습용 데이터의 누락 : \n{nulls_train}')
print('-'*80)

print(f'평가용 데이터의 누락 : \n{nulls_test}')

학습용 데이터의 누락 : 
id          0
document    5
label       0
dtype: int64
--------------------------------------------------------------------------------
평가용 데이터의 누락 : 
id          0
document    3
label       0
dtype: int64


In [5]:
### 누락 데이터 제거 --> dropna() 사용

# 학습용 데이터
cleaned_train = df_train.dropna()

# 평가용 데이터
cleaned_test = df_test.dropna()

# 결과 확인하기
print(f'학습용 데이터에 대한 처리 결과 : \n{cleaned_train}')
print('-'*80)
print(f'평가용 데이터에 대한 처리 결과 : \n{cleaned_test}')

학습용 데이터에 대한 처리 결과 : 
              id                                           document  label
0        9976970                                아 더빙.. 진짜 짜증나네요 목소리      0
1        3819312                  흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나      1
2       10265843                                  너무재밓었다그래서보는것을추천한다      0
3        9045019                      교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정      0
4        6483659  사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...      1
...          ...                                                ...    ...
149995   6222902                                인간이 문제지.. 소는 뭔죄인가..      0
149996   8549745                                      평점이 너무 낮아서...      1
149997   9311800                    이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?      0
149998   2376369                        청춘 영화의 최고봉.방황과 우울했던 날들의 자화상      1
149999   9619869                           한국 영화 최초로 수간하는 내용이 담긴 영화      0

[149995 rows x 3 columns]
----------------------------------------------------

In [6]:
### index 재설정

# 학습용 데이터
cleaned_train.reset_index(drop=True, inplace=True)

# 평가용 데이터
cleaned_test.reset_index(drop=True, inplace=True)

# 결과 확인하기
print(f'학습용 데이터에 대한 처리 결과 : \n{cleaned_train}')
print('-'*80)

print(f'평가용 데이터에 대한 처리 결과 : \n{cleaned_test}')

학습용 데이터에 대한 처리 결과 : 
              id                                           document  label
0        9976970                                아 더빙.. 진짜 짜증나네요 목소리      0
1        3819312                  흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나      1
2       10265843                                  너무재밓었다그래서보는것을추천한다      0
3        9045019                      교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정      0
4        6483659  사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...      1
...          ...                                                ...    ...
149990   6222902                                인간이 문제지.. 소는 뭔죄인가..      0
149991   8549745                                      평점이 너무 낮아서...      1
149992   9311800                    이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?      0
149993   2376369                        청춘 영화의 최고봉.방황과 우울했던 날들의 자화상      1
149994   9619869                           한국 영화 최초로 수간하는 내용이 담긴 영화      0

[149995 rows x 3 columns]
----------------------------------------------------

In [7]:
### MeCab 형태소 분석기 설치
!pip install python-mecab-ko

Collecting python-mecab-ko
  Downloading python_mecab_ko-1.3.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (577 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m577.7/577.7 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting python-mecab-ko-dic (from python-mecab-ko)
  Downloading python_mecab_ko_dic-2.1.1.post2-py3-none-any.whl (34.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.5/34.5 MB[0m [31m19.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: python-mecab-ko-dic, python-mecab-ko
Successfully installed python-mecab-ko-1.3.5 python-mecab-ko-dic-2.1.1.post2


In [8]:
### 필요한 라이브러리 / 함수 임폴트
import re
from tqdm import tqdm # 진행률 표시
from mecab import MeCab as Mecab

In [9]:
# sample --> 리뷰 1개 추출
sample = cleaned_train.iloc[0, 1]
print(f'리뷰 1개 추출한 결과 확인 : \n{sample}')

리뷰 1개 추출한 결과 확인 : 
아 더빙.. 진짜 짜증나네요 목소리


In [48]:
# pattern : 한글(글자)와 공백을 제외한 나머지 제거
pattern = '[^가-힣 ]'
text = re.sub(pattern, "", sample)
print(f'정규표현식을 사용하여 처리한 결과 : \n{text}')

정규표현식을 사용하여 처리한 결과 : 
아 더빙 진짜 짜증나네요 목소리


In [11]:
# mecab 형태소 분석기 --> 형태소 분석
mecab = Mecab()
morphs_list = mecab.morphs(text)
print(f'mecab 형태소 분석기로 형태소 분석을 한 결과 : \n{morphs_list}')

mecab 형태소 분석기로 형태소 분석을 한 결과 : 
['아', '더', '빙', '진짜', '짜증', '나', '네요', '목소리']


In [12]:
# 불용어 처리 : 1글자 --> 제거
result = []
for morph in morphs_list:
    if len(morph) > 1:
        result.append(morph)
print(f'불용어를 제거한 결과 : \n{result}')

불용어를 제거한 결과 : 
['진짜', '짜증', '네요', '목소리']


In [13]:
# 불용어 처리 결과 --> 문자열 생성
cleaned_review = ' '.join(result)
print(f'모든 전처리가 완료된 문장 확인 : \n{cleaned_review}')

모든 전처리가 완료된 문장 확인 : 
진짜 짜증 네요 목소리


In [14]:
### 전처리 함수 정의
def preprocessing_review(review, tokenizer=mecab, remove_stopwords=True):
    # 1. 한글(글자)와 공백을 제외한 나머지 제거
    pattern = '[^가-힣 ]'
    cleaned_review = re.sub(pattern, "", review)

    # 2. mecab 형태소 분석기 --> 형태소 단위로 토큰화
    morphs_list = tokenizer.morphs(cleaned_review)
    if remove_stopwords:

        # 3. 불용어 제거
        result = []
        for morph in morphs_list:
            if len(morph) > 1:
                result.append(morph)

        # 4. 불용어 처리 결과 --> 문자열 생성
        cleaned_text = ' '.join(result)
    else:
        # 불용어 제거(X) --> 문자열 생성
        cleaned_text = ' '.join(morphs_list)

    return cleaned_text

In [15]:
### 학습용 데이터 --> 전처리 함수 실행 --> 대상 컬럼 : document

# 결과를 저장할 수 있는 리스트 생성
cleaned_train_reviews = []

# Mecab 형태소 분석기 객체 생성
mecab = Mecab()

# for문 + 전처리 함수 실행
for review in tqdm(cleaned_train.loc[:, 'document']):
  cleaned_text = preprocessing_review(review = review, tokenizer = mecab)
  cleaned_train_reviews.append(cleaned_text)

print(cleaned_train_reviews)

100%|██████████| 149995/149995 [00:50<00:00, 2953.15it/s]IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [16]:
### 평가용 데이터 --> 전처리 함수 실행 --> 대상 컬럼 : document

# 결과를 저장할 수 있는 리스트 생성
cleaned_test_reviews = []

# Mecab 형태소 분석기 객체 생성
mecab = Mecab()

# for문 + 전처리 함수 실행
for review in tqdm(cleaned_test.loc[:, 'document']):
    cleaned_text = preprocessing_review(review=review, tokenizer=mecab)
    cleaned_test_reviews.append(cleaned_text)

# 결과 확인하기 --> 첫번째 리뷰 확인
print(cleaned_test_reviews[0])

100%|██████████| 49997/49997 [00:14<00:00, 3561.93it/s]







In [17]:
print(cleaned_test_reviews[:10])

['', '', '평점 나쁘 지만 짜리 더더욱 아니 잖아', '지루 은데 완전 막장', '아니 어도 다섯 텐데 나와서 심기 불편', '음악 최고 음악 영화', '진정 쓰레기', '마치 미국 애니 에서 튀어나온 창의 로봇 디자인 부터 고개 한다', '갈수록 개판 중국 영화 유치 내용 무기 유치 남무 그립 동사서독 영화 이건 아류', '이별 아픔 찾아오 새로운 인연 기쁨 모든 사람 그렇']


In [18]:
### 학습용 데이터 --> 전처리 결과 --> 데이터프레임 생성

# 정답 label 컬럼 추출
labels = cleaned_train.loc[:, 'label'].values

# 파이썬 딕셔너리 자료형 데이터 생성
data = {'document':cleaned_train_reviews, 'label':labels}

# 데이터프레임 생성
df = pd.DataFrame(data=data)

# 결과 확인하기
print(df)

                                                 document  label
0                                            진짜 짜증 네요 목소리      0
1                             포스터 보고 초딩 영화 오버 연기 조차 가볍 구나      1
2                                       너무 밓었다그래서보는것을추천한다      0
3                                 교도소 이야기 구먼 솔직히 재미 평점 조정      0
4       사이몬페그 익살 스런 연기 돋보였 영화 스파이더맨 에서 보이 커스틴 던스트 너무나 ...      1
...                                                   ...    ...
149990                                          인간 문제지 인가      0
149991                                           평점 너무 아서      1
149992                             이게 한국인 거들먹거리 필리핀 혼혈 착하      0
149993                                청춘 영화 최고봉 방황 우울 자화상      1
149994                               한국 영화 최초 수간 내용 담긴 영화      0

[149995 rows x 2 columns]


In [19]:
### 평가용 데이터 --> 전처리 결과 --> 데이터프레임 생성

# 정답 label 컬럼 추출
labels = cleaned_test.loc[:, 'label'].values

# 파이썬 딕셔너리 자료형 데이터 생성
data = {'document':cleaned_test_reviews, 'label':labels}

# 데이터프레임 생성
df1 = pd.DataFrame(data=data)

# 결과 확인하기
print(df1)

                            document  label
0                                         1
1                                         0
2              평점 나쁘 지만 짜리 더더욱 아니 잖아      0
3                        지루 은데 완전 막장      0
4              아니 어도 다섯 텐데 나와서 심기 불편      0
...                              ...    ...
49992        오랜만 평점 킹왕짱 영화 만났 습니다 강렬      1
49993  의지 박약 이나 탈영 일단 주인공 김대희 이등병 찐따      0
49994            그림 완성도 지만 내내 불안 만든다      0
49995        절대 봐서 영화 재미 기분 잡치 세트 에서      0
49996                         마무리 이래      0

[49997 rows x 2 columns]


In [None]:
### 결과 저장하기

# 파일 경로 설정
train_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/df_train_mid.csv'
test_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/df_test_mid.csv'

# 저장
df.to_csv(train_path, index=False, encoding='utf8')
df1.to_csv(test_path, index=False, encoding='utf8')

In [20]:
### 결과 불러오기

# 파일 경로 설정
train_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/df_train_mid.csv'
test_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/df_test_mid.csv'

# 불러오기
df = pd.read_csv(train_path)
df1 = pd.read_csv(train_path)

In [21]:
### 데이터 전처리의 결과 --> 생성된 누락 제거

# 학습용 데이터에 대한 누락 제거
train_data = df.dropna()
# 학습용 데이터에 대한 행 인덱스 재설정
train_data.reset_index(drop=True, inplace=True)
# 평가용 데이터에 대한 누락 제거
test_data = df1.dropna()
# 평가용 데이터에 대한 행 인덱스 재설정
test_data.reset_index(drop=True, inplace=True)
# 결과 확인하기
print(f'누락 제거 후 학습용 데이터 확인 : \n{train_data}')
print('-'*80)
print(f'누락 제거 후 평가용 데이터 확인 : \n{test_data}')

누락 제거 후 학습용 데이터 확인 : 
                                                 document  label
0                                            진짜 짜증 네요 목소리      0
1                             포스터 보고 초딩 영화 오버 연기 조차 가볍 구나      1
2                                       너무 밓었다그래서보는것을추천한다      0
3                                 교도소 이야기 구먼 솔직히 재미 평점 조정      0
4       사이몬페그 익살 스런 연기 돋보였 영화 스파이더맨 에서 보이 커스틴 던스트 너무나 ...      1
...                                                   ...    ...
146000                                          인간 문제지 인가      0
146001                                           평점 너무 아서      1
146002                             이게 한국인 거들먹거리 필리핀 혼혈 착하      0
146003                                청춘 영화 최고봉 방황 우울 자화상      1
146004                               한국 영화 최초 수간 내용 담긴 영화      0

[146005 rows x 2 columns]
--------------------------------------------------------------------------------
누락 제거 후 평가용 데이터 확인 : 
                                                 document  label
0  

### CountVectorizer 모델을 이용한 문장 임베딩

In [22]:
from sklearn.feature_extraction.text import CountVectorizer

In [23]:
### 단어 사전 생성용 데이터 생성 --> 학습용 / 평가용 데이터 병합
df_concat = pd.concat([train_data, test_data], ignore_index=True)
# 결과 확인하기
print(df_concat)

                                                 document  label
0                                            진짜 짜증 네요 목소리      0
1                             포스터 보고 초딩 영화 오버 연기 조차 가볍 구나      1
2                                       너무 밓었다그래서보는것을추천한다      0
3                                 교도소 이야기 구먼 솔직히 재미 평점 조정      0
4       사이몬페그 익살 스런 연기 돋보였 영화 스파이더맨 에서 보이 커스틴 던스트 너무나 ...      1
...                                                   ...    ...
292005                                          인간 문제지 인가      0
292006                                           평점 너무 아서      1
292007                             이게 한국인 거들먹거리 필리핀 혼혈 착하      0
292008                                청춘 영화 최고봉 방황 우울 자화상      1
292009                               한국 영화 최초 수간 내용 담긴 영화      0

[292010 rows x 2 columns]


In [24]:
count = CountVectorizer(max_features = 2000)

In [25]:
### model.fit() 함수 --> 토큰화 + 단어 사전 생성

# document 컬럼 인덱싱 --> 값만 추출
input = df_concat.loc[:, 'document'].values
print(f'입력 데이터 확인 : \n{input}')
print('-'*80)

count.fit(input)

vocab = count.vocabulary_

print(vocab)
print('-'*80)
print(len(vocab))

입력 데이터 확인 : 
['진짜 짜증 네요 목소리' '포스터 보고 초딩 영화 오버 연기 조차 가볍 구나' '너무 밓었다그래서보는것을추천한다' ...
 '이게 한국인 거들먹거리 필리핀 혼혈 착하' '청춘 영화 최고봉 방황 우울 자화상' '한국 영화 최초 수간 내용 담긴 영화']
--------------------------------------------------------------------------------
{'진짜': 1709, '짜증': 1720, '네요': 308, '목소리': 653, '포스터': 1851, '보고': 788, '초딩': 1754, '영화': 1292, '오버': 1316, '연기': 1267, '조차': 1627, '가볍': 5, '구나': 140, '너무': 302, '이야기': 1458, '솔직히': 986, '재미': 1549, '평점': 1845, '스런': 1003, '에서': 1235, '보이': 797, '너무나': 303, '보였': 796, '부터': 835, '초등': 1752, '학교': 1885, '학년': 1886, '반개': 737, '아까움': 1087, '원작': 1370, '긴장감': 232, '제대로': 1605, '살려': 901, '못했': 666, '아깝': 1091, '나온다': 264, '생활': 937, '인지': 1488, '정말': 1592, '해도': 1915, '그것': 166, '보단': 791, '반복': 741, '드라마': 482, '가족': 11, '사람': 888, '액션': 1164, '는데': 352, '건데': 68, '한데': 1896, '헐리우드': 1941, '화려': 1962, '마다': 570, '눈물나': 331, '향수': 1935, '자극': 1511, '감성': 29, '멜로': 633, '면서': 634, '드럽': 483, '못해': 665, '담백': 395, '깔끔': 239, '해서': 1918, '보다': 790, '자꾸': 1513

In [26]:
embeddings = count.transform(input).toarray()
print(embeddings)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


#### 학습용 / 평가용 데이터 생성

In [27]:
### 문장 임베딩 실행 --> model.tranform(sentence).toarray()
embeddings = count.transform(input).toarray()

# 결과 확인하기
print(f'생성된 임베딩 행렬의 모양 : {embeddings.shape}')
print('-'*80)
print(f'첫번째 리뷰에 대한 임베딩 벡터 : \n{embeddings[0, :]}')

생성된 임베딩 행렬의 모양 : (292010, 2000)
--------------------------------------------------------------------------------
첫번째 리뷰에 대한 임베딩 벡터 : 
[0 0 0 ... 0 0 0]


In [28]:
### 전체 임베딩 행렬 --> 슬라이싱
"""
# embeddings --> X_data
"""

# 학습용 X_data 생성
row = len(train_data)
X_train = embeddings[0:row, :]

# 평가용 X_data 생성
X_test = embeddings[row:, :]

# 결과 확인하기
print(f'X_train의 모양 : \n{X_train.shape}')
print('-'*80)
print(f'X_test의 모양 : \n{X_test.shape}')

X_train의 모양 : 
(146005, 2000)
--------------------------------------------------------------------------------
X_test의 모양 : 
(146005, 2000)


In [29]:
### 정답 레이블 생성

# 전체 정답 레이블 추출
y_data = df_concat.loc[:, 'label']

# 학습용 y_data 생성 --> 전체 정답 레이블 --> 슬라이싱
y_train = y_data[0:row]

# 평가용 y_data 생성 --> 나머지
y_test = y_data[row:]

# 결과 확인하기
print(f'y_train의 모양 : {y_train.shape}')
print('-'*80)
print(f'y_test의 모양 : {y_test.shape}')

y_train의 모양 : (146005,)
--------------------------------------------------------------------------------
y_test의 모양 : (146005,)


#### DecisionTree 분류 모델을 이용한 감성 분석

In [30]:
# 필요한 함수 임폴트
from sklearn.tree import DecisionTreeClassifier

# 탐색할 조건 : max_depth --> [7,8,9,10] --> 최적의 조건 : max_depth=10

# 모델 생성
dt = DecisionTreeClassifier(max_depth=10, random_state=0)

In [31]:
# 모델 생성
dt1 = DecisionTreeClassifier(max_depth=10, random_state=0)
dt2 = DecisionTreeClassifier(max_depth=11, random_state=0)

In [32]:
dt1.fit(X_train, y_train)

In [33]:
dt2.fit(X_train, y_train)

In [34]:
pred1 = dt1.predict(X_test)
print(pred1)

[0 0 0 ... 0 0 0]


In [35]:
pred2 = dt2.predict(X_test)
print(pred2)

[0 0 0 ... 0 0 0]


In [36]:
from sklearn.metrics import classification_report

report1 = classification_report(y_test, pred1)
print(report1)
print('-'*80)

report2 = classification_report(y_test, pred2)
print(report2)

              precision    recall  f1-score   support

           0       0.58      0.96      0.72     73343
           1       0.89      0.28      0.43     72662

    accuracy                           0.63    146005
   macro avg       0.73      0.62      0.58    146005
weighted avg       0.73      0.63      0.58    146005

--------------------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.58      0.96      0.72     73343
           1       0.89      0.30      0.45     72662

    accuracy                           0.63    146005
   macro avg       0.73      0.63      0.59    146005
weighted avg       0.73      0.63      0.59    146005



#### RandomForest 분류 모델을 이용한 감성 분석

In [37]:
# 필요한 함수 임폴트
from sklearn.ensemble import RandomForestClassifier

# 탐색 조건 : n_estimators --> [50, 100, 200, 300] --> 최적 조건 : n_estimators=300

# 모델 생성
rf1 = RandomForestClassifier(n_estimators=300, random_state=0)
rf2 = RandomForestClassifier(n_estimators=400, random_state=0)

In [38]:
rf1.fit(X_train, y_train)

In [None]:
rf2.fit(X_train, y_train)

KeyboardInterrupt: 

In [39]:
pred1 = rf1.predict(X_test)
print(pred1)

[0 1 1 ... 0 1 0]


In [None]:
pred2 = rf2.predict(X_test)
print(pred2)

In [40]:
# 필요한 함수 임폴트
from sklearn.metrics import classification_report

# 평가용 데이터에 대한 성능 평가
performance1 = classification_report(y_test, pred1)
#performance2 = classification_report(y_test, pred2)

# 결과 확인하기
print(f'n_estimators 300인 모델의 성능 : \n{performance1}')
print('-'*80)
#print(f'n_estimators 400인 모델의 성능 : \n{performance2}')

n_estimators 300인 모델의 성능 : 
              precision    recall  f1-score   support

           0       0.95      0.97      0.96     73343
           1       0.97      0.95      0.96     72662

    accuracy                           0.96    146005
   macro avg       0.96      0.96      0.96    146005
weighted avg       0.96      0.96      0.96    146005

--------------------------------------------------------------------------------


#### LigthGBM 분류 모델을 이용한 감성 분석

In [43]:
from lightgbm import LGBMClassifier

# 필요한 함수 임폴트
from lightgbm import LGBMClassifier

# 최적화 --> n_estimators : [100, 200, 300, 400], learning_rate : [0.05, 0.1, 0.3]
# 최적의 성능 : n_estimators=400, learning_rate = 0.3

#  n_estimators=400, learning_rate = 0.3 조건의 모델 생성
lgbm = LGBMClassifier(learning_rate = 0.3, n_estimators = 400, random_state = 0,
                      bagging_seed = 0, feature_fraction_seed = 0, data_random_seed = 0,
                      drop_seed = 0, verbose = -1)

In [44]:
lgbm.fit(X_train, y_train)

In [45]:
y_pred=  lgbm.predict(X_test)
print(y_pred)

[0 0 0 ... 0 1 1]


In [46]:
# 필요한 함수 임폴트
from sklearn.metrics import classification_report

# 평가용 데이터에 대한 성능 평가
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       0.82      0.86      0.84     73343
           1       0.85      0.81      0.83     72662

    accuracy                           0.84    146005
   macro avg       0.84      0.84      0.84    146005
weighted avg       0.84      0.84      0.84    146005

