# Load Data

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import numpy as np

data = pd.read_csv('train.csv')
test_original = pd.read_csv('test.csv')
sub = pd.read_csv('sample_submission.csv')

In [2]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
import re


# 언어 감지import fasttext
def FE(x):

  '''
  네, 다른 분류 체계 중 하나로는 Erik Erikson이 제안한 발달 심리학의 8단계 이론이 있습니다. 이 이론은 사람의 삶 전체를 8개의 단계로 구분하고 각 단계에서 나타나는 발달 과제와 이를 이루는데 필요한 심리적 발달을 설명합니다. 각 단계와 그 발달 과제는 아래와 같습니다.

  신생아기 (0-1세) - 신뢰 대 불신
  유아기 (1-3세) - 자율성 대 의지력
  유아기 후기 (3-6세) - 산업성 대 열등감
  학령기 (6-12세) - 적극성 대 열등감
  십대 초기 (12-18세) - 정체성 형성 대 혼돈
  젊은 성인기 (18-40세) - 친밀성 대 고립
  중년기 (40-65세) - 생산성 대 스타그네이션
  노년기 (65세 이상) - 자기완성 대 절망

  유치원 (Kindergarten): 5-6세 (일부 지역에서는 4세부터 가능)

  초등학교 (Elementary school): 6-11세 (1학년부터 6학년까지)

  중학교 (Middle school): 11-14세 (6학년/7학년부터 8학년까지)

  고등학교 (High school): 14-18세 (9학년부터 12학년까지)

  대학교 (College/University): 18세 이상 (일부 대학교에서는 17세도 입학 가능하며, 대학교 졸업 나이는 다양합니다.)

  초기 성인기 (18-25세): 대학교에 입학하여 직업과 삶의 방향성을 탐색하며, 자립적인 삶의 기초를 다지는 시기입니다.

  중반 성인기 (26-30세): 자신의 생활과 경력에 대한 방향성과 목표를 더욱 구체적으로 정립하고, 사회적 책임감이나 가족 등 새로운 책임들을 맡기 시작하는 시기입니다.

  후반 성인기 (31-40세): 이전의 삶에서 중요하게 생각했던 것들을 재평가하며, 현재의 삶의 방향성을 새롭게 재설정하는 시기입니다. 이 시기에는 가족 형성, 직업적인 안정성, 사회적 존경 등을 중요하게 생각하게 됩니다.
  
  초기 중년기 (40-50세): 직장에서의 경력과 성취를 더욱 중요시하며, 건강과 가족, 개인의 행복 등에 대한 책임을 더욱 느끼는 시기입니다.

  중반 중년기 (51-60세): 가족과 사회적인 지위를 중시하며, 가족과 친구들과 함께 시간을 보내는 것을 중요하게 생각합니다. 이 시기에는 많은 사람들이 자신의 인생을 다시 평가하고, 새로운 삶의 방향성을 모색하게 됩니다.

  후반 중년기 (61-65세): 자신의 남은 인생에 대한 계획과 목표를 더욱 구체적으로 설정하며, 건강과 재정적인 안정을 더욱 중요시하는 시기입니다. 이 시기에는 일부 사람들이 은퇴하며, 새로운 취미나 관심사를 찾는 등 새로운 경험을 쌓으며 삶을 즐기는 것을 추구하기도 합니다.
  
  일반 노인 (65-74세): 퇴직 후 휴식과 여가 생활을 즐기며, 가족과 친구들과 함께 시간을 보내는 것을 중요하게 생각합니다. 이 시기에는 건강에 대한 관심이 높아지며, 건강한 삶을 유지하기 위해 규칙적인 운동, 건강한 식습관 등을 유지하는 것이 중요합니다.

  안부 노인 (75-84세): 건강상의 문제로 인해 실제로 활동할 수 있는 시간이 줄어들며, 가족과 친구들과 함께 시간을 보내는 것을 더욱 중요시합니다. 이 시기에는 신체적인 기능이 떨어지기 때문에 건강 관리가 매우 중요합니다.

  고령 노인 (85세 이상): 건강상의 문제로 인해 일상 생활에 도움이 필요하게 되며, 대부분의 시간을 가족이나 간병인과 함께 보내게 됩니다. 이 시기에는 건강한 삶을 유지하기 위한 노력이 중요하지만, 이전 단계와 달리 적극적인 건강 관리가 어려울 수 있습니
  '''
  # 지역 split
  x['location1'] = x['Location'].str.split(',').str[0]
  x['location2'] = x['Location'].str.split(',').str[1]
  x['location3'] = x['Location'].str.split(',').str[2]

  x['location1'] = x['location1'].astype(str)
  x['location2'] = x['location2'].astype(str)
  x['location3'] = x['location3'].astype(str)
  
  x['location1'] = x['location1'].str.lower()
  x['location2'] = x['location2'].str.lower()
  x['location3'] = x['location3'].str.lower()

  
  x = x.replace({'no' : 'n/a'})

  # 정규표현식 패턴 설정
  pattern = r'[^\w\s\d]' # 알파벳과 공백을 제외한 모든 문자

  # 특정 컬럼의 모든 문자열에 대해 패턴에 맞지 않는 문자 제거

  x['location1'] = x['location1'].apply(lambda x: re.sub(pattern, '', x))
  x['location2'] = x['location2'].apply(lambda x: re.sub(pattern, '', x))
  x['location3'] = x['location3'].apply(lambda x: re.sub(pattern, '', x))
  
  x['location1'] = x['location1'].apply(lambda x:x.strip())
  x['location2'] = x['location2'].apply(lambda x:x.strip())
  x['location3'] = x['location3'].apply(lambda x:x.strip())
  
  x['location1'] = x['location1'].replace('\s+', ' ', regex=True)
  x['location2'] = x['location2'].replace('\s+', ' ', regex=True)
  x['location3'] = x['location3'].replace('\s+', ' ', regex=True)

  # 저자, 출판사 특수문자, 공백 제거
  x['Book-Author'] = x['Book-Author'].astype(str)
  x['Publisher'] = x['Publisher'].astype(str)
  x['Book-Author'] = x['Book-Author'].apply(lambda x: re.sub(pattern, '', x))
  x['Publisher'] = x['Publisher'].apply(lambda x: re.sub(pattern, '', x))
  x['Book-Author'] = x['Book-Author'].replace('\s+', ' ', regex=True)
  x['Publisher'] = x['Publisher'].replace('\s+', ' ', regex=True)
  x['Book-Author'] = x['Book-Author'].str.replace(' ', '')
  x['Publisher'] = x['Publisher'].str.replace(' ', '')
  x['Book-Author'] = x['Book-Author'].str.lower()
  x['Publisher'] = x['Publisher'].str.lower()
  
  # 책 언어 감지 (틀린 부분도 존재함. 실험적임)
  # x['Book-Title'] = x['Book-Title'].astype(str)
  # def detect_lang(text):
  #   lang = lang_model.predict(text)
  #   if lang[1] > 0.5:
  #     return lang[0][0].split('__')[-1]
  #   else:
  #     return 'dummy'
  
  # x['lang'] = x['Book-Title'].apply(detect_lang)

  # 책 타이틀도 공백제거, 문자열만 남기기.
  x['Book-Title'] = x['Book-Title'].apply(lambda x: re.sub(pattern, '', x))
  x['Book-Title'] = x['Book-Title'].replace('\s+', ' ', regex=True)
  x['Book-Title'] = x['Book-Title'].apply(lambda x:x.strip())
  x['Book-Title'] = x['Book-Title'].str.lower()
  

  x['Age_fe'] = np.NaN
  x.loc[x['Age'] < 4, 'Age_fe'] = 0 # 정상데이터가 있는지도 몰루
  x.loc[((4 <= x['Age']) & (x['Age'] < 6)), 'Age_fe'] = 1
  x.loc[((6 <= x['Age']) & (x['Age'] < 12)), 'Age_fe'] = 2
  x.loc[((12 <= x['Age']) & (x['Age'] < 15)), 'Age_fe'] = 3
  x.loc[((15 <= x['Age']) & (x['Age'] < 18)), 'Age_fe'] = 4
  x.loc[((18 <= x['Age']) & (x['Age'] < 25)), 'Age_fe']= 5
  x.loc[((25 <= x['Age']) & (x['Age'] < 30)), 'Age_fe'] = 6
  x.loc[((30 <= x['Age']) & (x['Age'] < 40)), 'Age_fe'] = 7
  x.loc[((40 <= x['Age']) & (x['Age'] < 50)), 'Age_fe'] = 8
  x.loc[((50 <= x['Age']) & (x['Age'] < 60)), 'Age_fe'] = 9
  x.loc[((60 <= x['Age']) & (x['Age'] < 65)), 'Age_fe'] = 10
  x.loc[((65 <= x['Age']) & (x['Age'] < 75)), 'Age_fe'] = 11
  x.loc[((75 <= x['Age']) & (x['Age'] < 85)), 'Age_fe'] = 12
  x.loc[85 <= x['Age'], 'Age_fe'] = 13
  # title_vectors = []

  # def apy(df):
  #   # 책 제목 토큰화
  #   tokenized_titles = [word_tokenize(title) for title in df]

  # # 책 제목을 FastText 벡터로 변환
  #   for title in tokenized_titles:
  #       title_vec = np.mean([fasttext_model.get_word_vector(word) for word in title], axis=0)
  #       title_vectors.append(title_vec)
  

  return x 
  
train = FE(data)
test = FE(test_original)


In [3]:
'''
학습 데이터에 한번 밖에 존재하지 않은 유저와 테스트데이터에 새롭게 등장한 유저는 New User로 라벨링해서 처리해보자.
책도 같이
'''
def label_new(train, test, col):
    train[f'{col}_copy'] = train[col]
    test[f'{col}_copy'] = test[col]
    
    train['new'] = 0
    test['new'] = 0
    id = train[col].value_counts().to_frame()
    train.loc[train[col].isin(id[id[col] == 1].index), 'new'] = 1

    test.loc[~test[col].isin(train[col].unique()), 'new'] = 1
    test.loc[test[col].isin(id[id[col] == 1].index), 'new'] = 1

    train.loc[train['new'] == 1, col] = 'New' 
    test.loc[test['new'] == 1, col] = 'New' 
    
    return train, test

train, test = label_new(train, test, 'User-ID')
# train, test = label_new(train, test, 'Book-ID')
# train, test = label_new(train, test, 'Book-Author')
# train, test = label_new(train, test, 'Publisher')


In [4]:
dum = train[train['User-ID'] != 'New']
dum = dum.groupby('User-ID')['Book-Rating'].value_counts().to_frame().rename(columns={'Book-Rating' : 'count'}).reset_index()
check = dum['User-ID'].value_counts().to_frame()
idx = check[check['User-ID'] == 1].index.to_list()

# train[train['User-ID'].isin(idx)].groupby('User-ID')['Book-Rating'].value_counts().to_frame().iloc[:50]
# new 유저 0, 나머지 사용한 점수 카운트 
train['rating-count'] = 0
train = train.set_index('User-ID')
train.loc[check.index.to_list(), 'rating-count'] = check['User-ID']
train

test['rating-count'] = 0
check_test_ver = check.loc[test.loc[test['User-ID'] != 'New', 'User-ID'].unique(), 'User-ID']
test = test.set_index('User-ID')
test.loc[check_test_ver.index.to_list(), 'rating-count'] = check_test_ver.to_frame()['User-ID']
test

for i in range(11):
    # 해당 점수를 매겼는지 안매겼는지
    train[f'{i}_rating'] = 0
    test[f'{i}_rating'] = 0
    
    # 해당 점수를 몇번 사용했는지
    train[f'{i}_rating_count'] = 0
    test[f'{i}_rating_count'] = 0
    
    # train 기준 해당 점수 매긴 데이터
    rate = dum[dum['Book-Rating'] == i]
    rate_test = rate[rate['User-ID'].isin(test.drop('New').index.to_list())].set_index('User-ID')
    rate = rate.set_index('User-ID')
    
    # 점수 바이너리 카운트
    train.loc[rate.index.to_list(), f'{i}_rating'] = 1
    test.loc[rate_test.index.to_list(), f'{i}_rating'] = 1
    
    # 점수 총 카운트
    train.loc[rate.index.to_list(), f'{i}_rating_count'] = rate['count']
    test.loc[rate_test.index.to_list(), f'{i}_rating_count'] = rate['count']
    
train = train.reset_index()
test = test.reset_index()

train_count = train['User-ID'].value_counts().to_frame().drop('New')
test_count = train_count.loc[test.loc[test['User-ID'] != 'New', 'User-ID'].unique(), 'User-ID'].to_frame()

train = train.set_index('User-ID')
test = test.set_index('User-ID')

train['id_count'] = 1
test['id_count'] = 1

train.loc[train_count.index, 'id_count'] = train_count['User-ID']
test.loc[test_count.index, 'id_count'] = test_count['User-ID']

train = train.reset_index()
test = test.reset_index()

train_count = train['Book-Title'].value_counts().to_frame()
test_count = train_count.reset_index().rename(columns={'Book-Title' : 'count'})
test_count = test_count[test_count['index'].isin(test['Book-Title'].unique())]
test_count = test_count.rename(columns={'index' : 'Book-Title'}).set_index('Book-Title')

train = train.set_index('Book-Title')
test = test.set_index('Book-Title')

train['book_count'] = 1
test['book_count'] = 1

train.loc[train_count.index, 'book_count'] = train_count['Book-Title']
test.loc[test_count.index, 'book_count'] = test_count['count']


train = train.reset_index()
test = test.reset_index()

train_count = train['Book-Author'].value_counts().to_frame()
test_count = train_count.reset_index().rename(columns={'Book-Author' : 'count'})
test_count = test_count[test_count['index'].isin(test['Book-Author'].unique())]
test_count = test_count.rename(columns={'index' : 'Book-Author'}).set_index('Book-Author')

train = train.set_index('Book-Author')
test = test.set_index('Book-Author')

train['Author_count'] = 1
test['Author_count'] = 1

train.loc[train_count.index, 'Author_count'] = train_count['Book-Author']
test.loc[test_count.index, 'Author_count'] = test_count['count']

train = train.reset_index()
test = test.reset_index()

train_count = train['location1'].value_counts().to_frame()
test_count = train_count.reset_index().rename(columns={'location1' : 'count'})
test_count = test_count[test_count['index'].isin(test['location1'].unique())]
test_count = test_count.rename(columns={'index' : 'location1'}).set_index('location1')

train = train.set_index('location1')
test = test.set_index('location1')

train['location1_count'] = 1
test['location1_count'] = 1

train.loc[train_count.index, 'location1_count'] = train_count['location1']
test.loc[test_count.index, 'location1_count'] = test_count['count']

train = train.reset_index()
test = test.reset_index()

train_count = train['location2'].value_counts().to_frame()
test_count = train_count.reset_index().rename(columns={'location2' : 'count'})
test_count = test_count[test_count['index'].isin(test['location2'].unique())]
test_count = test_count.rename(columns={'index' : 'location2'}).set_index('location2')

train = train.set_index('location2')
test = test.set_index('location2')

train['location2_count'] = 1
test['location2_count'] = 1

train.loc[train_count.index, 'location2_count'] = train_count['location2']
test.loc[test_count.index, 'location2_count'] = test_count['count']

train = train.reset_index()
test = test.reset_index()

train_count = train['location3'].value_counts().to_frame()
test_count = train_count.reset_index().rename(columns={'location3' : 'count'})
test_count = test_count[test_count['index'].isin(test['location3'].unique())]
test_count = test_count.rename(columns={'index' : 'location3'}).set_index('location3')

train = train.set_index('location3')
test = test.set_index('location3')

train['location3_count'] = 1
test['location3_count'] = 1

train.loc[train_count.index, 'location3_count'] = train_count['location3']
test.loc[test_count.index, 'location3_count'] = test_count['count']

def year(df):
    df.loc[(df['Year-Of-Publication'] > -1) & (df['Year-Of-Publication'] <= 1970), 'Year-Of-Publication'] = 1
    df.loc[df['Year-Of-Publication'] == -1, 'Year-Of-Publication'] = 0
    df.loc[df['Year-Of-Publication'] > 1970, 'Year-Of-Publication'] = 2
    
    return df

train = year(train)
test = year(test)

train = train.reset_index()
test = test.reset_index()

trainset = train.replace({'nan' : 'na', '' : 'na', 'none' : 'na'})
testset = test.replace({'nan' : 'na', '' : 'na', 'none' : 'na'})


    


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction import FeatureHasher
from keras.layers import Hashing

train_st = trainset.drop(['Location', 'ID', 'Book-ID', 'User-ID'], axis=1)
test_st = testset.drop(['Location', 'ID', 'Book-ID', 'User-ID'], axis=1)

tabluar_col = ['Age', 'Age_fe', 'rating-count', '0_rating_count', '1_rating_count','2_rating_count', '3_rating_count','4_rating_count', '5_rating_count',
               '6_rating_count', '7_rating_count','8_rating_count', '9_rating_count','10_rating_count', 'id_count', 'book_count', 'Author_count',
               'location1_count', 'location2_count', 'location3_count', 'Year-Of-Publication']

cat_col = ['location3', 'location2', 'location1', 'Book-Author', 'User-ID_copy', 'Publisher']

scaler = StandardScaler()
scaler.fit(train_st[tabluar_col])
train_st[tabluar_col] = scaler.transform(train_st[tabluar_col])
test_st[tabluar_col] = scaler.transform(test_st[tabluar_col])

train_st[cat_col] = train_st[cat_col].astype(str)
test_st[cat_col] = test_st[cat_col].astype(str)

def hashing(x, cat_columns):
    lst = []
    for col in cat_columns:
        lst.append(Hashing(num_bins=2**18)(x[col]))
        
    x[cat_columns] = np.concatenate(lst, axis=0).reshape(len(cat_columns), -1).T
    
    return x

train_st = hashing(train_st, cat_col)
test_st = hashing(test_st, cat_col)

# MODEL

In [9]:
import tensorflow as tf
from keras.layers import Input, Dense, Embedding, Concatenate, GlobalAveragePooling1D
from keras.models import Model
from keras.preprocessing.text import Tokenizer
from keras.utils import pad_sequences
from sklearn.model_selection import train_test_split
from keras.callbacks import EarlyStopping, ReduceLROnPlateau
from keras.metrics import RootMeanSquaredError
from keras.optimizers import Adam

class Recommender:
    def __init__(self, train, test):
        self.train = train
        self.test = test
        self.token_model = self.token()
        
    def token(self):
        tokenizer = Tokenizer(oov_token="<oov>")
        tokenizer.fit_on_texts(self.train['Book-Title'])
        
        return tokenizer

    def Embedding_layer(self, data):
        '''
        책 이름의 경우 텍스트 내부의 의미가 유의미할 것으로 판단하여 토큰화 -> 매핑 -> 임베딩
        저자, 출판사의 경우 텍스트 내부의 의미가 무의미할 것으로 판단하여 빈도수 기반 벡터화 TF-IDF
        '''
        # Book-Title Embedding
        tokenizer = self.token_model
        embedding_layer = tokenizer.texts_to_sequences(data['Book-Title'])
        embedding_layer = pad_sequences(embedding_layer)
        embedding_layer = Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100)(embedding_layer)
        embedding_layer = GlobalAveragePooling1D(embedding_layer)

        return embedding_layer
    
    
    
    
    def MODEL(self):
        # text layer
        text_input = Input(shape=(100,), name='book title input')
        text_layer = Dense(units=64, activation='relu')(text_input)
        text_layer = Dense(units=32, activation='relu')(text_input)

        # tabluar layer
        tabular_input = Input(shape=(self.test.shape[1]-1,))
        tabluar_layer = Dense(units=64, activation='relu')(tabular_input)
        tabluar_layer = Dense(units=32, activation='relu')(tabular_input)
        
        # concat layer
        concat_layer = Concatenate()[text_layer, tabluar_layer]
        
        # output
        output = Dense(units=16, activation='relu')(concat_layer)
        ## output 1 / classification - sigmoid
        output1 = Dense(units=1, activation='sigmoid')(output)
        ## output 2 / classification - sigmoid
        output2 = Dense(units=1, activation='linear')(output)
        
        # concat output
        output = output1 * output2
        
        model = Model(inputs=[text_input, tabular_input], outputs=output)
        
        return model
    
    
    def fit(self):
        X_train, X_valid, y_train, y_valid = train_test_split(self.train.drop(['Book-Rating'], axis=1),
                                                                self.train['Book-Rating'],
                                                                stratify=self.train['Book-Rating'],
                                                                shuffle=True,
                                                                test_size=0.2,
                                                                random_state=23
                                                                )
        train_text_input = self.Embedding_layer(X_train)
        valid_text_input = self.Embedding_layer(X_valid)
        
        train_tabular_input = X_train.drop('Book-Title', axis=1)
        valid_tabular_input = X_valid.drop('Book-Title', axis=1)
        
        model = self.MODEL()
        # Compile the model
        optimizer = Adam(learning_rate=0.01)  # Use initial learning rate of 0.01
        model.compile(optimizer=optimizer, loss='mean_squared_error', metrics=[RootMeanSquaredError()])

        # Define early stopping callback
        early_stopping = EarlyStopping(patience=50, restore_best_weights=True)

        # Define learning rate reduction callback
        reduce_lr = ReduceLROnPlateau(factor=0.1, patience=30, min_lr=0.0001)
        
        
        model.fit([train_text_input, train_tabular_input], y_train,
                    validation_data=([valid_text_input, valid_tabular_input], y_valid),
                    callbacks=[early_stopping, reduce_lr], 
                    epochs=1000, batch_size=32)
        
        return model

    def predict(self, model):
        test_text_input = self.Embedding_layer(self.test)
        test_tabular_input = self.test.drop('Book-Title', axis=1)
        
        pred = model.predict([test_text_input, test_tabular_input])
        
        return pred
        
   
            
        
            
            
            

        

In [10]:
dum = Recommender(train_st, test_st)

# dummy

In [7]:
# Book-Title Embedding
import tensorflow as tf
from keras.layers import Input, Dense, Embedding, Concatenate, GlobalAveragePooling1D
from keras.models import Model
from keras.preprocessing.text import Tokenizer
from keras.utils import pad_sequences
from sklearn.model_selection import train_test_split
from keras.callbacks import EarlyStopping, ReduceLROnPlateau
from keras.metrics import RootMeanSquaredError
from keras.optimizers import Adam
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction import FeatureHasher
from keras.layers import Hashing

train_st = trainset.drop(['Location', 'ID', 'Book-ID', 'User-ID'], axis=1)
test_st = testset.drop(['Location', 'ID', 'Book-ID', 'User-ID'], axis=1)

tabluar_col = ['Age', 'Age_fe', 'rating-count', '0_rating_count', '1_rating_count','2_rating_count', '3_rating_count','4_rating_count', '5_rating_count',
               '6_rating_count', '7_rating_count','8_rating_count', '9_rating_count','10_rating_count', 'id_count', 'book_count', 'Author_count',
               'location1_count', 'location2_count', 'location3_count', 'Year-Of-Publication']

cat_col = ['location3', 'location2', 'location1', 'Book-Author', 'User-ID_copy', 'Publisher']

scaler = StandardScaler()
scaler.fit(train_st[tabluar_col])
train_st[tabluar_col] = scaler.transform(train_st[tabluar_col])
test_st[tabluar_col] = scaler.transform(test_st[tabluar_col])

train_st[cat_col] = train_st[cat_col].astype(str)
test_st[cat_col] = test_st[cat_col].astype(str)

tokenizer = Tokenizer(oov_token="<oov>")
tokenizer.fit_on_texts(train_st['Book-Title'])
embedding_layer = tokenizer.texts_to_sequences(train_st['Book-Title'])
embedding_layer = pad_sequences(embedding_layer)
embedding_layer = Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=50)(embedding_layer)
embedding_layer = GlobalAveragePooling1D(embedding_layer)

ResourceExhaustedError: Exception encountered when calling layer "embedding" "                 f"(type Embedding).

{{function_node __wrapped__ResourceGather_device_/job:localhost/replica:0/task:0/device:GPU:0}} OOM when allocating tensor with shape[871393,44,50] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:ResourceGather]

Call arguments received by layer "embedding" "                 f"(type Embedding):
  • inputs=tf.Tensor(shape=(871393, 44), dtype=int32)

In [11]:
model = dum.fit()

ResourceExhaustedError: Exception encountered when calling layer "embedding" "                 f"(type Embedding).

{{function_node __wrapped__ResourceGather_device_/job:localhost/replica:0/task:0/device:GPU:0}} OOM when allocating tensor with shape[697114,44,100] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:ResourceGather]

Call arguments received by layer "embedding" "                 f"(type Embedding):
  • inputs=tf.Tensor(shape=(697114, 44), dtype=int32)

In [77]:
tf.keras.layers.GlobalAveragePooling1D()(ebd[0])

<tf.Tensor: shape=(871393, 100), dtype=float32, numpy=
array([[ 0.00968337,  0.04361459,  0.02367666, ..., -0.00580582,
         0.0332931 ,  0.01975575],
       [ 0.00528143,  0.03774878,  0.02215406, ..., -0.00579386,
         0.03129955,  0.01913115],
       [ 0.00855064,  0.04015414,  0.0217288 , ..., -0.00426652,
         0.03107002,  0.01968964],
       ...,
       [ 0.00552233,  0.03859084,  0.0168937 , ..., -0.00441807,
         0.02862495,  0.01511589],
       [ 0.00668328,  0.04030928,  0.02054643, ..., -0.00496224,
         0.02971707,  0.01611717],
       [ 0.00889421,  0.03972073,  0.01077963, ..., -0.00960714,
         0.02268681,  0.02000781]], dtype=float32)>

In [None]:
# tokenizer = Tokenizer()
# sequences = []
# for col in text_columns:
#     tokenizer.fit_on_texts(data[col])
#     col_sequences = tokenizer.texts_to_sequences(data[col])
#     sequences.append(col_sequences)

# # 시퀀스 길이 맞추기
# padded_sequences = []
# for col_sequences in sequences:
#     padded_sequences.append(pad_sequences(col_sequences, maxlen=max_length))

# # 임베딩 층 생성
# embedding_dim = 100  # 임베딩 차원
# embeddings = []
# for i, col_sequences in enumerate(padded_sequences):
#     vocab_size = len(tokenizer.word_index) + 1
#     embedding_layer = Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_length)(col_sequences)
#     embeddings.append(embedding_layer)

# # 특징 통합
# merged = Concatenate()(embeddings)
# global_avg_pool = GlobalAveragePooling1D()(merged)

# # 모델 구성
# output_size = 1  # 출력 크기 (이진 분류의 경우)
# output_layer = Dense(units=output_size, activation='sigmoid')(global_avg_pool)

# model = Model(inputs=[input_layer for input_layer in padded_sequences], outputs=output_layer)

# # 모델 컴파일 및 학습
# model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# model.fit(x=padded_sequences, y=data['label'], epochs=10, batch_size=16, validation_split=0.2)

In [23]:

# 연속형 변수 데이터
continuous_vars = np.array([0.1, 0.5, 0.8, 0.3])

# 타겟 변수 데이터 (0부터 10까지의 점수)
target = np.array([8, 9, 3, 7])

# 텍스트 데이터 전처리
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
padded_sequences = pad_sequences(sequences, maxlen=10)

# 텍스트 입력
text_input = Input(shape=(10,), name='text_input')
embedding_dim = 100
embedding_layer = Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=embedding_dim)(text_input)
text_output = tf.keras.layers.GlobalAveragePooling1D()(embedding_layer)

# 연속형 변수 입력
continuous_input = Input(shape=(1,), name='continuous_input')
continuous_output = Dense(units=10, activation='relu')(continuous_input)

# 텍스트와 연속형 변수를 연결하여 특징 통합
merged = Concatenate()([text_output, continuous_output])

# 회귀 모델 구성
output = Dense(units=1, activation='linear')(merged)

# 모델 생성
model = Model(inputs=[text_input, continuous_input], outputs=output)

# 모델 컴파일 및 학습
model.compile(optimizer='adam', loss='mean_squared_error')
model.fit([padded_sequences, continuous_vars], target, epochs=10, batch_size=1)

# 테스트 데이터 예측
test_text = ["This movie is amazing"]
test_sequence = tokenizer.texts_to_sequences(test_text)
test_padded_sequence = pad_sequences(test_sequence, maxlen=10)
test_continuous_var = np.array([0.7])
prediction = model.predict([test_padded_sequence, test_continuous_var])
print("Prediction:", prediction[0][0])

__main__.MyClass