<a href="https://colab.research.google.com/github/oJangInYoung/kosta-2470/blob/main/%EC%9E%A5%EC%9D%B8%EC%98%81_%5BBaseline%5D_Multi_Modal_(CNN%2BCountVectorizer)_%EB%B6%84%EB%A5%98_%EB%AA%A8%EB%8D%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Import

In [None]:
import random
import pandas as pd
import numpy as np
import os
import cv2

from sklearn import preprocessing
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

from tqdm.auto import tqdm

import albumentations as A # fast image augmentation library
from albumentations.pytorch.transforms import ToTensorV2 # 이미지 형 변환
import torchvision.models as models

from sklearn.metrics import f1_score, accuracy_score
from sklearn.metrics import classification_report

import warnings
warnings.filterwarnings(action='ignore')

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [None]:
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
# gpu 사용하기 위한 코드
# cuda가 설치되어 있으면 gpu

In [None]:
device

device(type='cpu')

In [None]:
cd /content/drive/Shareddrives/2022_dlstudy/dacon/2022_sight/

/content/drive/Shareddrives/2022_dlstudy/dacon/2022_sight


## Hyperparameter Setting

In [None]:
CFG = {
    'IMG_SIZE':128,
    'EPOCHS':5,
    'LEARNING_RATE':3e-4,
    'BATCH_SIZE':64,
    'SEED':41
}
# 이미지 사이즈, 이폭, 학습률, 배치사이즈, 시드 고정

## Fixed RandomSeed

In [None]:
def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = True

seed_everything(CFG['SEED']) # Seed 고정

## Data Load 

In [None]:
all_df = pd.read_csv('./train.csv')

Overview를 토큰화하기

In [None]:
from torchtext.data.utils import get_tokenizer

In [None]:
pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import konlpy
from konlpy.tag import *

tokenizer = Hannanum()

In [None]:
text = all_df['overview'][0]

In [None]:
test_tokenize = tokenizer.nouns(text)

In [None]:
test_tokenize

['소안항',
 '조용한',
 '인근해안',
 '청정해역',
 '양식',
 '소득',
 '바다낚시터',
 '유명',
 '항',
 '주변',
 '설치',
 '양식장들',
 '섬사람들',
 '부지런',
 '생활상',
 '고스',
 '란히',
 '일몰',
 '때',
 '섬',
 '정경',
 '바다',
 '아름다움',
 '각시',
 '전설',
 '도둑바위',
 '등',
 '설화',
 '정월',
 '풍어제',
 '풍속']

In [None]:
text = all_df['overview']

In [None]:
tokenize = all_df['overview']

In [None]:
for i in range(len(all_df['overview'])):
  tokenize[i] = tokenizer.nouns(text[i])

In [None]:
all_df['overview'] = tokenize

In [None]:
all_df.head(5)

Unnamed: 0,id,img_path,overview,cat1,cat2,cat3
0,TRAIN_00000,./image/train/TRAIN_00000.jpg,"[소안항, 조용한, 인근해안, 청정해역, 양식, 소득, 바다낚시터, 유명, 항, 주...",자연,자연관광지,항구/포구
1,TRAIN_00001,./image/train/TRAIN_00001.jpg,"[경기, 이천시, 모가면, 골프장, 대중제, 18홀, 회원제, 개장, 2016년, ...",레포츠,육상 레포츠,골프
2,TRAIN_00002,./image/train/TRAIN_00002.jpg,"[금오산성숯불갈비, 한우고기만, 전문적, 취급, 사용, 부식, 자재, 유기농법, 재...",음식,음식점,한식
3,TRAIN_00003,./image/train/TRAIN_00003.jpg,"[철판, 위, 요리, 안동찜닭, 수, 곳, 경상북, 안동시, 식, 전문점, 대표메뉴...",음식,음식점,한식
4,TRAIN_00004,./image/train/TRAIN_00004.jpg,"[※, 영업시간, 10, 30, 20, 30, 3대, 아귀만, 전문, 취급, 전통,...",음식,음식점,한식


In [None]:
all_df.to_csv('./train_v1.csv', index=False)

Train/Validation Split

In [None]:
train_df, val_df, _, _ = train_test_split(all_df, all_df['cat3'], test_size=0.2, random_state=CFG['SEED'])
# train set, validation set 구별

In [None]:
train_df

Unnamed: 0,id,img_path,overview,cat1,cat2,cat3
1786,TRAIN_01786,./image/train/TRAIN_01786.jpg,"[함평양서파충류생태공원, 남, 함평군, 광, 자리, 공원, 내, 양서류, 비롯, 파...",인문(문화/예술/역사),문화시설,박물관
16670,TRAIN_16670,./image/train/TRAIN_16670.jpg,"[국제수변레포츠, 내, 위치한, 충주, 탄금호, 캠핑, 리조트, 다양, 문화체험, ...",레포츠,육상 레포츠,"야영장,오토캠핑장"
3377,TRAIN_03377,./image/train/TRAIN_03377.jpg,"[경남, 함양군, 서하면, 위치한, 함양, 라온캠핑장, 마운틴뷰, 조용, 깨끗, 신...",레포츠,육상 레포츠,"야영장,오토캠핑장"
12814,TRAIN_12814,./image/train/TRAIN_12814.jpg,"[캠프바베큐, 충남, 천안시, 동남구, 자리, 천안시청, 기점, 약, 8㎞가량, 자...",레포츠,육상 레포츠,"야영장,오토캠핑장"
2607,TRAIN_02607,./image/train/TRAIN_02607.jpg,"[원수산습지생태원, 세종시, 연기, 세종리, 생태원, 내, 보존습지, 수생식물습지,...",자연,자연관광지,자연생태관광지
...,...,...,...,...,...,...
6819,TRAIN_06819,./image/train/TRAIN_06819.jpg,"[밤바다, 야경, 위, 데크, 산책로, 바다, 위, 조성, 742m, 해변산책로]",인문(문화/예술/역사),건축/조형물,다리/대교
15829,TRAIN_15829,./image/train/TRAIN_15829.jpg,"[남해비치텔, 한려해상, 국립공원, 중심지역, 남해, 설천면, 노량리, 위치해, 이...",숙박,숙박시설,모텔
8513,TRAIN_08513,./image/train/TRAIN_08513.jpg,"[장경리해변, 자갈모래, 형성, 해변, 백사장, 길, 1.5km, 정도, 백사장, ...",자연,자연관광지,해수욕장
931,TRAIN_00931,./image/train/TRAIN_00931.jpg,"[서울, 종로, 자리한, 낙원떡집은, ‘서울미래유산’으로, 선정, 만큼, 역사, 전...",음식,음식점,한식


In [None]:
train_df.isnull().sum()

id          0
img_path    0
overview    0
cat1        0
cat2        0
cat3        0
dtype: int64

In [None]:
val_df.isnull().sum()

id          0
img_path    0
overview    0
cat1        0
cat2        0
cat3        0
dtype: int64

In [None]:
target_check = np.unique(train_df['cat3'], return_counts=True)

Target의 종류와 분포 확인

In [None]:
for i in range(len(target_check[0])):
  print((i+1),". ",target_check[0][i],target_check[1][i])

1 .  5일장 130
2 .  ATV 3
3 .  MTB 1
4 .  강 90
5 .  게스트하우스 69
6 .  계곡 133
7 .  고궁 33
8 .  고택 75
9 .  골프 149
10 .  공연장 84
11 .  공예,공방 32
12 .  공원 214
13 .  관광단지 98
14 .  국립공원 16
15 .  군립공원 9
16 .  기념관 45
17 .  기념탑/기념비/전망대 123
18 .  기암괴석 43
19 .  기타 69
20 .  기타행사 61
21 .  농.산.어촌 체험 255
22 .  다리/대교 30
23 .  대중콘서트 2
24 .  대형서점 14
25 .  도립공원 12
26 .  도서관 74
27 .  동굴 19
28 .  동상 14
29 .  등대 17
30 .  래프팅 14
31 .  면세점 4
32 .  모텔 270
33 .  문 18
34 .  문화관광축제 18
35 .  문화원 90
36 .  문화전수시설 19
37 .  뮤지컬 2
38 .  미술관/화랑 163
39 .  민물낚시 93
40 .  민박 34
41 .  민속마을 59
42 .  바/까페 627
43 .  바다낚시 44
44 .  박람회 24
45 .  박물관 254
46 .  발전소 4
47 .  백화점 2
48 .  번지점프 3
49 .  복합 레포츠 19
50 .  분수 8
51 .  빙벽등반 3
52 .  사격장 9
53 .  사찰 378
54 .  산 190
55 .  상설시장 221
56 .  생가 34
57 .  서비스드레지던스 8
58 .  서양식 188
59 .  섬 93
60 .  성 67
61 .  수련시설 80
62 .  수목원 73
63 .  수상레포츠 9
64 .  수영 25
65 .  스노쿨링/스킨스쿠버다이빙 7
66 .  스카이다이빙 2
67 .  스케이트 10
68 .  스키(보드) 렌탈샵 51
69 .  스키/스노보드 5
70 .  승마 18
71 .  식음료 9
72 .  썰매장 25
73 .  안보관광 29
74 .  야

## Label-Encoding

In [None]:
le = preprocessing.LabelEncoder()
le.fit(train_df['cat3'].values)
# 카테고리형 데이터를 수치형으로 변환하는 labelencoder

LabelEncoder()

In [None]:
train_df['cat3'] = le.transform(train_df['cat3'].values)
val_df['cat3'] = le.transform(val_df['cat3'].values)
# cat3에 labelencoder를 적용하기

## Vectorizer

In [None]:
vectorizer = CountVectorizer(analyzer=lambda x: x)
# overview를 vectorize하는 vectorizer 선언, 최대 특성 수는 4096

In [None]:
train_vectors = vectorizer.fit_transform(train_df['overview'])
train_vectors = train_vectors.todense()

val_vectors = vectorizer.transform(val_df['overview'])
val_vectors = val_vectors.todense()

In [None]:
train_vectors.shape

In [None]:
val_vectors.shape

## CustomDataset

In [None]:
# Dataset 생성
class CustomDataset(Dataset):
    def __init__(self, img_path_list, text_vectors, label_list, transforms, infer=False):
        self.img_path_list = img_path_list
        self.text_vectors = text_vectors
        self.label_list = label_list
        self.transforms = transforms
        self.infer = infer
        
    def __getitem__(self, index):
        # NLP
        text_vector = self.text_vectors[index]
        
        # Image 읽기
        img_path = self.img_path_list[index]
        image = cv2.imread(img_path)
        
        if self.transforms is not None:
            image = self.transforms(image=image)['image'] # transforms(=image augmentation) 적용
        
        # Label
        if self.infer: # infer == True, test_data로부터 label "결과 추출" 시 사용
            return image, torch.Tensor(text_vector).view(-1)
        else: # infer == False
            label = self.label_list[index] # dataframe에서 label 가져와 "학습" 시 사용
            return image, torch.Tensor(text_vector).view(-1), label
        
    def __len__(self):
        return len(self.img_path_list)

In [None]:
train_transform = A.Compose([
                            A.Resize(CFG['IMG_SIZE'],CFG['IMG_SIZE']),
                            A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225), max_pixel_value=255.0, always_apply=False, p=1.0),
                            ToTensorV2()
                            ])

test_transform = A.Compose([
                            A.Resize(CFG['IMG_SIZE'],CFG['IMG_SIZE']),
                            A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225), max_pixel_value=255.0, always_apply=False, p=1.0),
                            ToTensorV2()
                            ])

- albumentations -> fast image augmentation library

- albumentations.Compose -> transform = A.Compose([])을 이용하여 이미지와 라벨 각각에 Augmentation을 적용하기 위한 객체를 생성

- albumentations.Resize(128, 128) -> 128*128 size로 resize
- albumentations.Normalize() -> 입력 받은 이미지 값의 범위를 (0, 255) → (-1, 1) 범위로 줄여주는 역할, 위에서는 평균값, 분산값, 최대 픽셀값으로 img = (img - mean * max_pixel_value) / (std * max_pixel_value)을 계산.
- ToTensorV2 -> tensor형 변환

In [None]:
# __init__(self, img_path_list, text_vectors, label_list, transforms, infer=False)
train_dataset = CustomDataset(train_df['img_path'].values, train_vectors, train_df['cat3'].values, train_transform)
train_loader = DataLoader(train_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=True, num_workers=0) # 6

val_dataset = CustomDataset(val_df['img_path'].values, val_vectors, val_df['cat3'].values, test_transform)
val_loader = DataLoader(val_dataset, batch_size=CFG['BATCH_SIZE'], shuffle=False, num_workers=0) # 6

- DataLoader: Dataset와 Sampler를 결합하고 지정된 데이터 세트에 대해 반복 가능한 기능을 제공.    
    - dataset (Dataset): 데이터를 로드할 데이터 집합.   
    - batch_size (int, optional): **how many samples** per batch to load (default: ``1``).   
    - num_workers (int, optional): **how many subprocesses** to use for data loading. ``0`` means that the data will be    loaded in the main process. (default: ``0``) -> 6으로 설정 시 안돌아감([Errno 32] Broken pipe). 0으로 변경해야 됨

## Model Define

In [None]:
class CustomModel(nn.Module):
    def __init__(self, num_classes=len(le.classes_)):
        super(CustomModel, self).__init__()
        # Image
        self.cnn_extract = nn.Sequential(
            nn.Conv2d(3, 8, kernel_size=3, stride=1, padding=1),
                # input_channel = 3 : RGB 3개의 채널이기 때문
                # out_channel = 8 : 출력하는 채널 8개
                # stride = 1 : stride 만큼 이미지 이동하면서 cnn 수행
                # padding = 1 : zero-padding할 사이즈
            nn.ReLU(), # 사용할 활성화 함수: Relu를 사용
            nn.MaxPool2d(kernel_size=2, stride=2), # 최댓값을 뽑아내는 맥스 풀링
            nn.Conv2d(8, 16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(32, 64, kernel_size=4, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        # Text
        self.nlp_extract = nn.Sequential(
            nn.Linear(4096, 2048), # 선형회귀. 4096개의 입력으로 2048개의 출력
            nn.ReLU(),
            nn.Linear(2048, 1024), # 선형회귀. 2048개의 입력으로 1024개의 출력
        )
        # Classifier
        self.classifier = nn.Sequential(
            nn.Linear(4160, num_classes)
            # 선형회귀. 4160개의 입력으로 num_classes, 즉 cat3의 종류 개수만큼의 출력
            # 근데 왜 4160개? "4160 - 1024 = 3136"이고 "3136 / 64 = 49". 즉 이미지는 "7*7*64"로 출력됨.
        )
            

    def forward(self, img, text):
        img_feature = self.cnn_extract(img) # cnn_extract 적용
        img_feature = torch.flatten(img_feature, start_dim=1) # 1차원으로 변환
        text_feature = self.nlp_extract(text) # nlp_extract 적용
        feature = torch.cat([img_feature, text_feature], axis=1) # 2개 연결(3136 + 1024)
        output = self.classifier(feature) # classifier 적용
        return output

결론:
- Image: conv -> ReLU -> MaxPooling -> conv -> relu -> maxpooling -> conv -> relu -> maxpooling -> conv -> relu -> maxpooling

- Text: linear -> relu -> linear

- classifier : linear

## Train

In [None]:
def train(model, optimizer, train_loader, val_loader, scheduler, device):
    model.to(device) # gpu(cpu)에 적용

    criterion = nn.CrossEntropyLoss().to(device) # CrossEntropyLoss: 다중분류를 위한 손실함수
    best_score = 0
    best_model = None # 최고의 모델을 추출하기 위한 파라미터
    
    for epoch in range(1,CFG["EPOCHS"]+1):
        model.train() # 학습시킴.
        train_loss = []
        for img, text, label in tqdm(iter(train_loader)): # train_loader에서 img, text, label 가져옴
            img = img.float().to(device)
            text = text.to(device)
            label = label.type(torch.LongTensor) # label type을 LongTensor로 형변환, 추가하여 에러 해결
            label = label.to(device)
            
            optimizer.zero_grad() # 이전 루프에서 .grad에 저장된 값이 다음 루프의 업데이트에도 간섭하는 걸 방지, 0으로 초기화

            model_pred = model(img, text) # 예측
            
            loss = criterion(model_pred, label) # 예측값과 실제값과의 손실 계산

            loss.backward() # .backward() 를 호출하면 역전파가 시작
            optimizer.step() # optimizer.step()을 호출하여 역전파 단계에서 수집된 변화도로 매개변수를 조정

            train_loss.append(loss.item())
            
        # 모든 train_loss 가져옴
        tr_loss = np.mean(train_loss)
            
        val_loss, val_score = validation(model, criterion, val_loader, device) # 검증 시작, 여기서 validation 함수 사용
            
        print(f'Epoch [{epoch}], Train Loss : [{tr_loss:.5f}] Val Loss : [{val_loss:.5f}] Val Score : [{val_score:.5f}]')
        
        if scheduler is not None:
            scheduler.step()
            # scheduler의 의미: Learning Rate Scheduler => learning rate를 조절한다. 
            # DACON에서는 CosineAnnealingLR 또는 CosineAnnealingWarmRestarts 를 주로 사용한다.
            
        if best_score < val_score: # 최고의 val_score을 가진 모델에 대해서만 최종적용을 시킴
            best_score = val_score
            best_model = model
    
    return best_model # val_score가 가장 높은 모델을 출력

In [None]:
def score_function(real, pred):
    return f1_score(real, pred, average="weighted")

def validation(model, criterion, val_loader, device):
    model.eval() # nn.Module에서 train time과 eval time에서 수행하는 다른 작업을 수행할 수 있도록 switching 하는 함수
    
    model_preds = [] # 예측값
    true_labels = [] # 실제값
    
    val_loss = []
    
    with torch.no_grad():
        for img, text, label in tqdm(iter(val_loader)): # val_loader에서 img, text, label 가져옴
            img = img.float().to(device)
            text = text.to(device)
            label = label.type(torch.LongTensor) # label type을 LongTensor로 형변환, 추가하여 에러 해결
            label = label.to(device)
            
            model_pred = model(img, text)
            
            loss = criterion(model_pred, label) # 예측값, 실제값으로 손실함수 적용 -> loss 추출
            
            val_loss.append(loss.item()) # loss 출력, val_loss에 저장
            
            model_preds += model_pred.argmax(1).detach().cpu().numpy().tolist()
            true_labels += label.detach().cpu().numpy().tolist()
        
    test_weighted_f1 = score_function(true_labels, model_preds) # 실제 라벨값들과 예측한 라벨값들에 대해 f1 점수 계산
    return np.mean(val_loss), test_weighted_f1 # 각각 val_loss, val_score에 적용됨

## Run!!

In [None]:
model = CustomModel()
model.eval()
optimizer = torch.optim.Adam(params = model.parameters(), lr = CFG["LEARNING_RATE"])
scheduler = None

infer_model = train(model, optimizer, train_loader, val_loader, scheduler, device)

## Inference

In [None]:
test_df = pd.read_csv('./test.csv')
test_vectors = vectorizer.transform(test_df['overview'])
test_vectors = test_vectors.todense()

In [None]:
test_dataset = CustomDataset(test_df['img_path'].values, test_vectors, None, test_transform, True)
test_loader = DataLoader(test_dataset, batch_size=CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

In [None]:
def inference(model, test_loader, device):
    model.to(device)
    model.eval()
    
    model_preds = []
    
    with torch.no_grad():
        for img, text in tqdm(iter(test_loader)):
            img = img.float().to(device)
            text = text.to(device)
            
            model_pred = model(img, text)
            model_preds += model_pred.argmax(1).detach().cpu().numpy().tolist()
    # img, text에 따른 예측값들을 model_preds 배열에 넣어 리턴
    return model_preds

In [None]:
preds = inference(infer_model, test_loader, device)

## Submission

In [None]:
submit = pd.read_csv('./sample_submission.csv')

In [None]:
submit['cat3'] = le.inverse_transform(preds)

In [None]:
submit.to_csv('./IY_submit_v2.csv', index=False)
# 제출 파일로 저장