## 환경설정

In [None]:
project_name = "영화리뷰 감정 분석" # 프로젝트 이름
class_info = "3차수 A반" # 차수 정보
email = "" # 회사 이메일(본인의 회사 이메일 입력)

## 모듈 설치 및 데이터 다운로드

In [None]:
!pip install --upgrade mySUNI -q

import mySUNI
from mySUNI import cds, utils
import urllib.request
import zipfile


project = cds.Project(project_name, class_info, email)
project.edu_name = 'SUNI_딥러닝'

# 이메일 설정 확인
if not project.email:
    raise print("[이메일이 누락되었습니다] 이메일을 설정해 주세요↑↑↑")


print('===' * 15)
print(f'패키지버전: {mySUNI.__version__}')
print('===' * 15)
print(f'프로젝트명: {project_name}\n차수 정보 : {class_info}\n이  메  일: {email}')
print('===' * 15)

# 데이터셋 다운로드
cds.download_project(project_name, class_info, email)

## 필요한 모듈 import 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os
import tensorflow as tf

pd.set_option('display.max_colwidth', None)

# Data 경로 설정
DATA_DIR = 'data'

# 경고 무시
warnings.filterwarnings('ignore')

SEED=123
np.random.seed(SEED)
tf.random.set_seed(SEED)

## 데이터 로드

### 1. 데이터셋 로드

In [None]:
# train 데이터셋 로드 (train.csv)
train = pd.read_csv(os.path.join(DATA_DIR, project_name, 'train.csv'))
                                 
# test 데이터셋 로드 (test.csv)
test = pd.read_csv(os.path.join(DATA_DIR, project_name, 'test.csv'))

In [None]:
train.head()

In [None]:
test.head()

### 한글 형태소 분석기 로드

[도큐먼트 링크](https://konlpy.org/ko/latest/index.html)

아래 Cell을 실행하여 설치

In [None]:
!pip install konlpy

In [None]:
from konlpy.tag import Okt

# 형태소 분석기 로드
okt = Okt()

In [None]:
# morphs 적용시
okt.morphs('안녕하세요? 반갑습니다. 저는 파이썬을 사랑합니다')

In [None]:
# pos 적용시
okt.pos('안녕하세요? 반갑습니다. 저는 파이썬을 사랑합니다')

In [None]:
# 명사만 추출시
[word for word, tag in okt.pos('안녕하세요? 반갑습니다. 저는 파이썬을 사랑합니다') if tag == 'Noun']

In [None]:
# 조사는 제외시
[word for word, tag in okt.pos('안녕하세요? 반갑습니다. 저는 파이썬을 사랑합니다') if tag != 'Josa']

In [None]:
# 조사, 기호는 제외시
[word for word, tag in okt.pos('안녕하세요? 반갑습니다. 저는 파이썬을 사랑합니다') if not tag in ['Josa', 'Punctuation']]

In [None]:
# 한글, 영어, 숫자만 추출시
import re

sample = "abcdefㄱㄴㄷㄹㅁㅂ가나다라마바사12345[]{}().,!?'`~;:"

re.sub('[^A-Za-z0-9가-힣]', '', sample)

### 전처리 함수 형태로 생성

In [None]:
def preprocessing(x):
    # 형태소 분석기
    x = okt.morphs(x)
    # 기타 문장 전처리기 코드
    # 코드 입력
    
    return x

### 전처리기 apply

In [None]:
train_sentences = train['document'].apply(preprocessing)
test_sentences = test['document'].apply(preprocessing)

### 데이터셋 분할

In [None]:
from sklearn.model_selection import train_test_split

SEED = 123

x_train, x_test, y_train, y_test = 

### tensorflow 관련 모듈 import 

In [None]:
# Module Import




### 단어 사전 정의

In [None]:
# 단어사전의 개수, OOV 토큰 지정
vocab_size = # 코드입력
oov_token = # 코드입력

In [None]:
tokenizer = # 코드입력

In [None]:
# 단어사전 생성
tokenizer.# 코드입력

### 시퀀스 변환

In [None]:
# 분할한 x_train, x_test 시퀀스 변환
x_train_sequences = 
x_test_sequences = 

# test 데이터셋 변환
test_sequences = 

In [None]:
# 한 문장의 최대 단어 숫자
max_length = # 코드입력

# 잘라낼 문장의 위치
trunc_type = # 코드입력

# 채워줄 문장의 위치
padding_type = # 코드입력

### padding 적용

In [None]:
x_train_padded = # 코드입력
x_test_padded = # 코드입력
test_padded = # 코드입력

### 모델 생성

In [None]:
model = Sequential([
    # Embedding, LSTM, Dense, Dropout 등을 활용하여 자유롭게 모델링
    # 코드 입력
    
    
    # 출력층은 변경하지 않습니다.
    Dense(1, activation='sigmoid')
])

### 모델 요약

In [None]:
model.summary()

### 모델 컴파일

In [None]:
# 코드입력
model.

### 체크포인트 생성

In [None]:
checkpoint_path = # 코드입력
checkpoint = # 코드입력

### 학습

In [None]:
# 코드입력
model.

### 체크포인트 로드

In [None]:
# 코드입력
model.

### 결과 예측 (예측 코드는 수정하지 않습니다)

In [None]:
pred = model.predict(test_padded)
your_answer = pred.round().reshape(-1)
your_answer[:5]

## 결과 제출

### 순서대로 평가가 진행됩니다. 실행은 1회만 해주세요.

- 느리다고 중지 후 다시 평가 코드를 실행하는 경우 제출 과정에서 패널티가 발생할 수 있습니다. (제출 횟수 이슈 발생 가능)

- 전체 점수는 [평가시스템](http://manage.jaen.kr)에서 확인할 수 있습니다.
    - 프로젝트 > 영화리뷰 감정 분석 > 리더보드 > 같은 반 리더보드

아래 Cell을 실행하여 예측 결과 업데이트

In [None]:
# 예측 결과 업데이트
submission = pd.read_csv(os.path.join(DATA_DIR, project_name, 'submission.csv'))
submission['label'] = your_answer
display(submission)

# 제출
project.email = email
project.submit(submission)