In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import numpy as np

data = pd.read_csv('train.csv')
test_original = pd.read_csv('test.csv')
sub = pd.read_csv('sample_submission.csv')

In [2]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
import re


# 언어 감지import fasttext
def FE(x):

  '''
  네, 다른 분류 체계 중 하나로는 Erik Erikson이 제안한 발달 심리학의 8단계 이론이 있습니다. 이 이론은 사람의 삶 전체를 8개의 단계로 구분하고 각 단계에서 나타나는 발달 과제와 이를 이루는데 필요한 심리적 발달을 설명합니다. 각 단계와 그 발달 과제는 아래와 같습니다.

  신생아기 (0-1세) - 신뢰 대 불신
  유아기 (1-3세) - 자율성 대 의지력
  유아기 후기 (3-6세) - 산업성 대 열등감
  학령기 (6-12세) - 적극성 대 열등감
  십대 초기 (12-18세) - 정체성 형성 대 혼돈
  젊은 성인기 (18-40세) - 친밀성 대 고립
  중년기 (40-65세) - 생산성 대 스타그네이션
  노년기 (65세 이상) - 자기완성 대 절망

  유치원 (Kindergarten): 5-6세 (일부 지역에서는 4세부터 가능)

  초등학교 (Elementary school): 6-11세 (1학년부터 6학년까지)

  중학교 (Middle school): 11-14세 (6학년/7학년부터 8학년까지)

  고등학교 (High school): 14-18세 (9학년부터 12학년까지)

  대학교 (College/University): 18세 이상 (일부 대학교에서는 17세도 입학 가능하며, 대학교 졸업 나이는 다양합니다.)

  초기 성인기 (18-25세): 대학교에 입학하여 직업과 삶의 방향성을 탐색하며, 자립적인 삶의 기초를 다지는 시기입니다.

  중반 성인기 (26-30세): 자신의 생활과 경력에 대한 방향성과 목표를 더욱 구체적으로 정립하고, 사회적 책임감이나 가족 등 새로운 책임들을 맡기 시작하는 시기입니다.

  후반 성인기 (31-40세): 이전의 삶에서 중요하게 생각했던 것들을 재평가하며, 현재의 삶의 방향성을 새롭게 재설정하는 시기입니다. 이 시기에는 가족 형성, 직업적인 안정성, 사회적 존경 등을 중요하게 생각하게 됩니다.
  
  초기 중년기 (40-50세): 직장에서의 경력과 성취를 더욱 중요시하며, 건강과 가족, 개인의 행복 등에 대한 책임을 더욱 느끼는 시기입니다.

  중반 중년기 (51-60세): 가족과 사회적인 지위를 중시하며, 가족과 친구들과 함께 시간을 보내는 것을 중요하게 생각합니다. 이 시기에는 많은 사람들이 자신의 인생을 다시 평가하고, 새로운 삶의 방향성을 모색하게 됩니다.

  후반 중년기 (61-65세): 자신의 남은 인생에 대한 계획과 목표를 더욱 구체적으로 설정하며, 건강과 재정적인 안정을 더욱 중요시하는 시기입니다. 이 시기에는 일부 사람들이 은퇴하며, 새로운 취미나 관심사를 찾는 등 새로운 경험을 쌓으며 삶을 즐기는 것을 추구하기도 합니다.
  
  일반 노인 (65-74세): 퇴직 후 휴식과 여가 생활을 즐기며, 가족과 친구들과 함께 시간을 보내는 것을 중요하게 생각합니다. 이 시기에는 건강에 대한 관심이 높아지며, 건강한 삶을 유지하기 위해 규칙적인 운동, 건강한 식습관 등을 유지하는 것이 중요합니다.

  안부 노인 (75-84세): 건강상의 문제로 인해 실제로 활동할 수 있는 시간이 줄어들며, 가족과 친구들과 함께 시간을 보내는 것을 더욱 중요시합니다. 이 시기에는 신체적인 기능이 떨어지기 때문에 건강 관리가 매우 중요합니다.

  고령 노인 (85세 이상): 건강상의 문제로 인해 일상 생활에 도움이 필요하게 되며, 대부분의 시간을 가족이나 간병인과 함께 보내게 됩니다. 이 시기에는 건강한 삶을 유지하기 위한 노력이 중요하지만, 이전 단계와 달리 적극적인 건강 관리가 어려울 수 있습니
  '''
  # 지역 split
  x['location1'] = x['Location'].str.split(',').str[0]
  x['location2'] = x['Location'].str.split(',').str[1]
  x['location3'] = x['Location'].str.split(',').str[2]

  x['location1'] = x['location1'].astype(str)
  x['location2'] = x['location2'].astype(str)
  x['location3'] = x['location3'].astype(str)
  
  x['location1'] = x['location1'].str.lower()
  x['location2'] = x['location2'].str.lower()
  x['location3'] = x['location3'].str.lower()

  
  x = x.replace({'no' : 'n/a'})

  # 정규표현식 패턴 설정
  pattern = r'[^a-zA-Z\s]'  # 알파벳과 공백을 제외한 모든 문자

  # 특정 컬럼의 모든 문자열에 대해 패턴에 맞지 않는 문자 제거
  x['location1'] = x['location1'].apply(lambda x: re.sub(pattern, '', x))
  x['location2'] = x['location2'].apply(lambda x: re.sub(pattern, '', x))
  x['location3'] = x['location3'].apply(lambda x: re.sub(pattern, '', x))
  
  x['location1'] = x['location1'].apply(lambda x:x.strip())
  x['location2'] = x['location2'].apply(lambda x:x.strip())
  x['location3'] = x['location3'].apply(lambda x:x.strip())
  
  x['location1'] = x['location1'].replace('\s+', ' ', regex=True)
  x['location2'] = x['location2'].replace('\s+', ' ', regex=True)
  x['location3'] = x['location3'].replace('\s+', ' ', regex=True)

  # 저자, 출판사 특수문자, 공백 제거
  x['Book-Author'] = x['Book-Author'].astype(str)
  x['Publisher'] = x['Publisher'].astype(str)
  x['Book-Author'] = x['Book-Author'].apply(lambda x: re.sub(pattern, '', x))
  x['Publisher'] = x['Publisher'].apply(lambda x: re.sub(pattern, '', x))
  x['Book-Author'] = x['Book-Author'].replace('\s+', ' ', regex=True)
  x['Publisher'] = x['Publisher'].replace('\s+', ' ', regex=True)
  x['Book-Author'] = x['Book-Author'].str.replace(' ', '')
  x['Publisher'] = x['Publisher'].str.replace(' ', '')
  x['Book-Author'] = x['Book-Author'].str.lower()
  x['Publisher'] = x['Publisher'].str.lower()
  
  # 책 언어 감지 (틀린 부분도 존재함. 실험적임)
  # x['Book-Title'] = x['Book-Title'].astype(str)
  # def detect_lang(text):
  #   lang = lang_model.predict(text)
  #   if lang[1] > 0.5:
  #     return lang[0][0].split('__')[-1]
  #   else:
  #     return 'dummy'
  
  # x['lang'] = x['Book-Title'].apply(detect_lang)

  # 책 타이틀도 공백제거, 문자열만 남기기.
  x['Book-Title'] = x['Book-Title'].apply(lambda x: re.sub(pattern, '', x))
  x['Book-Title'] = x['Book-Title'].replace('\s+', ' ', regex=True)
  x['Book-Title'] = x['Book-Title'].apply(lambda x:x.strip())
  x['Book-Title'] = x['Book-Title'].str.lower()
  

  x['Age_fe'] = np.NaN
  x.loc[x['Age'] < 4, 'Age_fe'] = 0 # 정상데이터가 있는지도 몰루
  x.loc[((4 <= x['Age']) & (x['Age'] < 6)), 'Age_fe'] = 1
  x.loc[((6 <= x['Age']) & (x['Age'] < 12)), 'Age_fe'] = 2
  x.loc[((12 <= x['Age']) & (x['Age'] < 15)), 'Age_fe'] = 3
  x.loc[((15 <= x['Age']) & (x['Age'] < 18)), 'Age_fe'] = 4
  x.loc[((18 <= x['Age']) & (x['Age'] < 25)), 'Age_fe']= 5
  x.loc[((26 <= x['Age']) & (x['Age'] < 30)), 'Age_fe'] = 6
  x.loc[((30 <= x['Age']) & (x['Age'] < 40)), 'Age_fe'] = 7
  x.loc[((40 <= x['Age']) & (x['Age'] < 50)), 'Age_fe'] = 8
  x.loc[((50 <= x['Age']) & (x['Age'] < 60)), 'Age_fe'] = 9
  x.loc[((60 <= x['Age']) & (x['Age'] < 65)), 'Age_fe'] = 10
  x.loc[((65 <= x['Age']) & (x['Age'] < 75)), 'Age_fe'] = 11
  x.loc[((75 <= x['Age']) & (x['Age'] < 85)), 'Age_fe'] = 12
  x.loc[85 <= x['Age'], 'Age_fe'] = 13
  # title_vectors = []

  # def apy(df):
  #   # 책 제목 토큰화
  #   tokenized_titles = [word_tokenize(title) for title in df]

  # # 책 제목을 FastText 벡터로 변환
  #   for title in tokenized_titles:
  #       title_vec = np.mean([fasttext_model.get_word_vector(word) for word in title], axis=0)
  #       title_vectors.append(title_vec)
  

  return x 
  
train = FE(data)
test = FE(test_original)


In [3]:
'''
학습 데이터에 한번 밖에 존재하지 않은 유저와 테스트데이터에 새롭게 등장한 유저는 New User로 라벨링해서 처리해보자.
책도 같이
'''
def label_new(train, test, col):
    train['new'] = 0
    test['new'] = 0
    id = train[col].value_counts().to_frame()
    train.loc[train[col].isin(id[id[col] == 1].index), 'new'] = 1

    test.loc[~test[col].isin(train[col].unique()), 'new'] = 1
    test.loc[test[col].isin(id[id[col] == 1].index), 'new'] = 1

    train.loc[train['new'] == 1, col] = 'New' 
    test.loc[test['new'] == 1, col] = 'New' 
    
    return train, test

train, test = label_new(train, test, 'User-ID')
# train, test = label_new(train, test, 'Book-ID')
# train, test = label_new(train, test, 'Book-Author')
# train, test = label_new(train, test, 'Publisher')


In [4]:
train = train.replace({'nan' : 'na', '' : 'na', 'none' : 'na'})
test = test.replace({'nan' : 'na', '' : 'na', 'none' : 'na'})

In [13]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

def OE(x,y):
    oe = OneHotEncoder(sparse=True)
    oe.fit(x)
    x = oe.transform(x)
    y = oe.transform(y)
    
    return x, y

def LE(x,y):
    le = LabelEncoder()
    le.fit(x)
    x = le.transform(x)
    y = le.transform(y)
    
    return x, y
    

Unnamed: 0,ID,User-ID,Book-ID,Book-Rating,Age,Location,Book-Title,Book-Author,Year-Of-Publication,Publisher,location1,location2,location3,Age_fe,new,bbp
0,TRAIN_000000,USER_00000,BOOK_044368,8,23.0,"sackville, new brunswick, canada",road taken,ronajaffe,2001.0,mira,sackville,new brunswick,canada,5.0,0,road taken_ronajaffe_mira
1,TRAIN_000001,USER_00000,BOOK_081205,8,23.0,"sackville, new brunswick, canada",macbeth new penguin shakespeare,williamshakespeare,1981.0,penguinbooks,sackville,new brunswick,canada,5.0,0,macbeth new penguin shakespeare_williamshakesp...
2,TRAIN_000002,USER_00000,BOOK_086781,0,23.0,"sackville, new brunswick, canada",waverley penguin english library,walterscott,1981.0,penguinbooks,sackville,new brunswick,canada,5.0,0,waverley penguin english library_walterscott_p...
3,TRAIN_000003,USER_00000,BOOK_098622,0,23.0,"sackville, new brunswick, canada",mother earth father sky,sueharrison,1991.0,avon,sackville,new brunswick,canada,5.0,0,mother earth father sky_sueharrison_avon
4,TRAIN_000004,USER_00000,BOOK_180810,8,23.0,"sackville, new brunswick, canada",she who remembers,lindalayshuler,1989.0,signetbook,sackville,new brunswick,canada,5.0,0,she who remembers_lindalayshuler_signetbook
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
871388,TRAIN_871388,New,BOOK_081138,0,34.0,"minneapolis, minnesota, usa",healing words the power of prayer and the prac...,larrydossey,1993.0,harpercollins,minneapolis,minnesota,usa,7.0,1,healing words the power of prayer and the prac...
871389,TRAIN_871389,New,BOOK_258124,0,35.0,"temple, texas, usa",the salmon of doubt hitchhiking the galaxy one...,douglasadams,2002.0,harmony,temple,texas,usa,7.0,1,the salmon of doubt hitchhiking the galaxy one...
871390,TRAIN_871390,New,BOOK_071848,0,45.0,"ottawa, ontario, canada",harry potter and the prisoner of azkaban book,jkrowling,2000.0,thorndikepress,ottawa,ontario,canada,8.0,1,harry potter and the prisoner of azkaban book_...
871391,TRAIN_871391,New,BOOK_252599,8,43.0,"maple grove, minnesota, usa",heartbreak hill anatomy of a ryder cup,timrosaforte,1996.0,stmartinspr,maple grove,minnesota,usa,8.0,1,heartbreak hill anatomy of a ryder cup_timrosa...


In [5]:
train['bbp'] = train['Book-Title'] + '_' + train['Book-Author'] + '_' + train['Publisher']

In [9]:
train['bbp'].value_counts()

wild animus_richshapero_toofar                                                                                                           2502
the da vinci code_danbrown_doubleday                                                                                                      883
the lovely bones a novel_alicesebold_littlebrown                                                                                          768
divine secrets of the yaya sisterhood a novel_rebeccawells_perennial                                                                      732
the red tent bestselling backlist_anitadiamant_picadorusa                                                                                 723
                                                                                                                                         ... 
already dead a california gothic_denisjohnson_harpercollins                                                                                 1
letiti

In [12]:
train['Book-Author'].unique().shape

(88048,)