In [2]:
import pandas as pd
import numpy as np

In [11]:
from sklearn.decomposition import TruncatedSVD 

# Models Packages
from sklearn import metrics
from sklearn.metrics import mean_squared_error
from sklearn import feature_selection
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

# Gradient Boosting
# import lightgbm as lgb
from sklearn.linear_model import Ridge
from sklearn.model_selection import KFold as kfold

# Tf-Idf
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import FeatureUnion
from sklearn import linear_model
from scipy.sparse import vstack, hstack, csr_matrix, load_npz
from nltk.corpus import stopwords 
# from Levenshtein import  jaro_winkler

# Viz
import seaborn as sns
import matplotlib.pyplot as plt
import re
import string

In [31]:
# training = pd.read_csv('../hasil/5_train_data_1000_25_06122023.csv', index_col = "item_id", parse_dates = ["activation_date"])
training = pd.read_csv('../hasil/traindata_lexicon.csv')
# traindex = training.index
testing = pd.read_csv('../hasil/testdata_lexicon.csv')
# testdex = testing.index


In [32]:
training.head()

Unnamed: 0,clean_content
0,Bagus sekali pemandangan hari ini
1,aku bisa makan pagi enak kenyang mantab sehat
2,makanan ini sangat enak lezat mantab aku suka ...
3,aku sangat menginginkan ini jadi aku akan kemb...
4,saat ini aku sangat kesal dan sangat capek


In [33]:
spath = 'sentilex-id/'
# sentiment_id_n = pd.read_csv(spath + 'negative_words_id.txt').rename(columns={'время':'Words'})
sentiment_id_n = pd.read_csv(spath + 'negative_words_id.txt')
sentiment_id_n['Polarity'] = -1
sentiment_id_p = pd.read_csv(spath + 'positive_words_id.txt')
sentiment_id_p['Polarity'] = 1
sentiment_id = pd.concat([sentiment_id_n, sentiment_id_p], ignore_index=True)
sentiment_id_vect = CountVectorizer()
sentiment_id2 = sentiment_id_vect.fit_transform(sentiment_id['Words'])
sentiment_id_model = linear_model.LinearRegression(n_jobs=-1).fit(sentiment_id2, sentiment_id['Polarity'])

In [34]:
print(sentiment_id_model)

LinearRegression(n_jobs=-1)


In [35]:
def getSentiment(s):
    return sentiment_id_model.predict(sentiment_id_vect.transform([s]))[0]

In [36]:
senti_cols = ['clean_content']
for c in senti_cols:
    training[c + '_Pol'] = training[c].map(lambda x: getSentiment(str(x))) #getSentiment
    testing[c + '_Pol'] = testing[c].map(lambda x: getSentiment(str(x))) #getSentiment

In [38]:
# print(training[:1])
training.head(25)

Unnamed: 0,clean_content,clean_content_Pol
0,Bagus sekali pemandangan hari ini,0.258621
1,aku bisa makan pagi enak kenyang mantab sehat,1.517241
2,makanan ini sangat enak lezat mantab aku suka ...,4.034483
3,aku sangat menginginkan ini jadi aku akan kemb...,0.258621
4,saat ini aku sangat kesal dan sangat capek,-1.0
5,orang ini sangat menyebalkan karena dia telah ...,-3.224138
6,aku anak sehat tubuhku kuat karena ibuku rajin...,6.034483


In [57]:
df = pd.concat([training,testing],axis=0)

In [59]:
df.head(20)

Unnamed: 0,clean_content,clean_content_Pol
0,Bagus sekali pemandangan hari ini,0.258621
1,aku bisa makan pagi enak kenyang mantab sehat,1.517241
2,makanan ini sangat enak lezat mantab aku suka ...,4.034483
3,aku sangat menginginkan ini jadi aku akan kemb...,0.258621
4,saat ini aku sangat kesal dan sangat capek,-1.0
5,orang ini sangat menyebalkan karena dia telah ...,-3.224138
6,aku anak sehat tubuhku kuat karena ibuku rajin...,6.034483
0,Bagus sekali pemandangan hari ini,0.258621
1,aku bisa makan pagi enak kenyang mantab sehat,1.517241
2,makanan ini sangat enak lezat mantab aku suka ...,4.034483


In [60]:
print('\nAll Data shape: {} Rows, {} Columns'.format(*df.shape))


All Data shape: 14 Rows, 2 Columns


In [61]:
df['clean_punc'] = df['clean_content'].apply(lambda x: len([c for c in str(x) if c in string.punctuation]))


In [62]:
df.head()

Unnamed: 0,clean_content,clean_content_Pol,clean_punc
0,Bagus sekali pemandangan hari ini,0.258621,0
1,aku bisa makan pagi enak kenyang mantab sehat,1.517241,0
2,makanan ini sangat enak lezat mantab aku suka ...,4.034483,0
3,aku sangat menginginkan ini jadi aku akan kemb...,0.258621,0
4,saat ini aku sangat kesal dan sangat capek,-1.0,0


## Feature Engineering
Menambahkan fitur selain TFIDF

In [63]:
# Feature Engineering 

# Meta Text Features
textfeats = ["clean_content"]

In [64]:
for cols in textfeats:
    df[cols] = df[cols].astype(str) 
    df[cols] = df[cols].astype(str).fillna('missing') # FILL NA
    df[cols] = df[cols].str.lower() # Lowercase all text, so that capitalized words dont get treated differently
    df[cols + '_num_words'] = df[cols].apply(lambda comment: len(comment.split())) # Count number of Words
    df[cols + '_num_unique_words'] = df[cols].apply(lambda comment: len(set(w for w in comment.split())))
    df[cols + '_words_vs_unique'] = df[cols+'_num_unique_words'] / df[cols+'_num_words'] * 100 # Count Unique Words
    df[cols + '_num_letters'] = df[cols].apply(lambda comment: len(comment)) # Count number of Letters

# Extra Feature Engineering
# df['title_desc_len_ratio'] = df['title_num_letters']/df['description_num_letters'

In [65]:
df.head()

Unnamed: 0,clean_content,clean_content_Pol,clean_punc,clean_content_num_words,clean_content_num_unique_words,clean_content_words_vs_unique,clean_content_num_letters
0,bagus sekali pemandangan hari ini,0.258621,0,5,5,100.0,33
1,aku bisa makan pagi enak kenyang mantab sehat,1.517241,0,8,8,100.0,45
2,makanan ini sangat enak lezat mantab aku suka ...,4.034483,0,9,9,100.0,52
3,aku sangat menginginkan ini jadi aku akan kemb...,0.258621,0,13,12,92.307692,73
4,saat ini aku sangat kesal dan sangat capek,-1.0,0,8,7,87.5,43


In [86]:
print("\n[TF-IDF] Term Frequency Inverse Document Frequency Stage")
id_stop = set(stopwords.words('indonesian'))


[TF-IDF] Term Frequency Inverse Document Frequency Stage


In [68]:
tfidf_para = {
    "stop_words": id_stop,
    "analyzer": 'word',
    "token_pattern": r'\w{1,}',
    "sublinear_tf": True,
    "dtype": np.float32,
    "norm": 'l2',
    #"min_df":5,
    #"max_df":.9,
    "smooth_idf":False
}


In [70]:
def get_col(col_name): return lambda x: x[col_name]

In [82]:
vectorizer = FeatureUnion([
        ('clean_content',TfidfVectorizer(
            ngram_range=(1, 2),
            max_features=17000,
            **tfidf_para,
            preprocessor=get_col('clean_content'))),
        # ('title',CountVectorizer(
        #     ngram_range=(1, 2),
        #     stop_words = russian_stop,
        #     max_features=130000,
        #     preprocessor=get_col('title')))
    ])

In [83]:
vectorizer

In [84]:
#Fit my vectorizer on the entire dataset instead of the training rows
#Score improved by .0001
# df.to_dict
vectorizer.fit(df.to_dict())

InvalidParameterError: The 'stop_words' parameter of TfidfVectorizer must be a str among {'english'}, an instance of 'list' or None. Got {'bukan', 'kan', 'tampak', 'bila', 'tandas', 'terlihat', 'jangan', 'apalagi', 'termasuk', 'diibaratkan', 'sesudahnya', 'bersama', 'selalu', 'tersampaikan', 'tentunya', 'diperbuatnya', 'para', 'lah', 'tahu', 'keinginan', 'sepantasnyalah', 'pasti', 'memastikan', 'bawah', 'teringat', 'sudahkah', 'kelima', 'tutur', 'mengibaratkannya', 'memungkinkan', 'dimaksudkan', 'disinilah', 'sejenak', 'mengatakan', 'seolah-olah', 'tentu', 'bekerja', 'mirip', 'menanyai', 'walaupun', 'seringnya', 'bahwa', 'kembali', 'setempat', 'bagaikan', 'nyatanya', 'diminta', 'sekiranya', 'kapan', 'ketika', 'mana', 'itulah', 'diperlukannya', 'berturut', 'kesampaian', 'bolehkah', 'ujarnya', 'kiranya', 'disebutkannya', 'sela', 'tiba-tiba', 'entahlah', 'siap', 'kebetulan', 'sekurangnya', 'tadinya', 'sesampai', 'menanyakan', 'padahal', 'tentang', 'mengetahui', 'secara', 'sana', 'disampaikan', 'menegaskan', 'atas', 'setidak-tidaknya', 'sepanjang', 'meyakinkan', 'sesuatu', 'artinya', 'dibuatnya', 'sekadarnya', 'kemungkinan', 'meyakini', 'bertutur', 'bersiap-siap', 'menaiki', 'belakangan', 'hanyalah', 'menuturkan', 'balik', 'mengucapkannya', 'seperti', 'mempergunakan', 'benarkah', 'amat', 'seolah', 'dua', 'mendatangi', 'sebaik-baiknya', 'makin', 'berkata', 'dilihat', 'betulkah', 'apakah', 'ini', 'mempersiapkan', 'mampu', 'sinilah', 'kamulah', 'segalanya', 'maupun', 'ataupun', 'beginilah', 'kamu', 'masalah', 'selama-lamanya', 'berarti', 'diantara', 'dituturkan', 'tandasnya', 'menurut', 'bahwasanya', 'tidaklah', 'sampaikan', 'kami', 'diinginkan', 'sebuah', 'ditandaskan', 'ucap', 'saja', 'perlunya', 'bermacam', 'terdahulu', 'ungkap', 'semasih', 'wah', 'ditanyai', 'apa', 'dimulainya', 'sebenarnya', 'didapat', 'sesudah', 'lebih', 'sedikitnya', 'antaranya', 'ternyata', 'ingin', 'kepada', 'dalam', 'rupanya', 'sebab', 'hal', 'dijelaskan', 'biasanya', 'ditambahkan', 'demikianlah', 'bersama-sama', 'haruslah', 'jelaskan', 'lain', 'kemungkinannya', 'anda', 'dipersoalkan', 'mengingat', 'terkira', 'tambah', 'jelas', 'mulai', 'melakukan', 'ditegaskan', 'sesaat', 'sesegera', 'tinggi', 'bakal', 'rasanya', 'melihat', 'mengapa', 'kepadanya', 'kita', 'sebutnya', 'sehingga', 'berapakah', 'kenapa', 'memulai', 'tempat', 'jelasnya', 'pantas', 'sebaiknya', 'semampu', 'seseorang', 'ibarat', 'agar', 'keadaan', 'dimintai', 'ditujukan', 'setibanya', 'waktunya', 'kamilah', 'dialah', 'seluruhnya', 'memperbuat', 'guna', 'pihak', 'supaya', 'didatangkan', 'karenanya', 'diketahui', 'berawal', 'ingat', 'lama', 'meskipun', 'cukup', 'inikah', 'menyangkut', 'sebetulnya', 'dimaksud', 'berujar', 'kecil', 'tegasnya', 'tengah', 'setiba', 'terasa', 'sebabnya', 'teringat-ingat', 'baik', 'terbanyak', 'menunjuknya', 'tapi', 'dengan', 'betul', 'andalah', 'yakni', 'sekali', 'seterusnya', 'keduanya', 'jadi', 'panjang', 'bukanlah', 'diibaratkannya', 'jadilah', 'menyatakan', 'siapakah', 'tanya', 'semata-mata', 'begitupun', 'dimulailah', 'kalian', 'sekadar', 'sebelumnya', 'kalaupun', 'jika', 'siapa', 'bagian', 'melainkan', 'ingat-ingat', 'sejak', 'amatlah', 'tahun', 'umum', 'yaitu', 'diperkirakan', 'berapalah', 'ibaratnya', 'hendaklah', 'dirinya', 'sempat', 'justru', 'bilakah', 'selamanya', 'pastilah', 'jawab', 'rata', 'diperbuat', 'suatu', 'meski', 'sesama', 'berakhir', 'soalnya', 'lalu', 'memperlihatkan', 'persoalan', 'enggak', 'mempersoalkan', 'mengira', 'sesuatunya', 'bermacam-macam', 'menunjuki', 'punya', 'mereka', 'inginkah', 'dikerjakan', 'masing', 'gunakan', 'membuat', 'terhadapnya', 'dikatakan', 'cukupkah', 'sebisanya', 'bulan', 'kemudian', 'dimaksudkannya', 'terdiri', 'keseluruhan', 'bersiap', 'sewaktu', 'demikian', 'memisalkan', 'sebagai', 'berkenaan', 'ialah', 'keseluruhannya', 'semaunya', 'bisa', 'diberikan', 'tuturnya', 'ditanya', 'diantaranya', 'dijelaskannya', 'lainnya', 'kapankah', 'menyeluruh', 'berikut', 'begitu', 'mulanya', 'merasa', 'kira-kira', 'sedemikian', 'terakhir', 'terjadinya', 'nyaris', 'sedangkan', 'berapa', 'pula', 'adapun', 'sudah', 'sebagian', 'kurang', 'seorang', 'dimaksudnya', 'dari', 'seharusnya', 'diri', 'menambahkan', 'dilalui', 'wong', 'menjawab', 'mula', 'hingga', 'lagian', 'sekitar', 'lanjutnya', 'tertuju', 'melalui', 'pun', 'disini', 'sedikit', 'mengatakannya', 'menunjuk', 'merekalah', 'mempunyai', 'malah', 'sama-sama', 'misalkan', 'pertama-tama', 'terutama', 'janganlah', 'menyampaikan', 'sangat', 'dikarenakan', 'katakan', 'kala', 'awalnya', 'memerlukan', 'sebut', 'menyebutkan', 'sebagaimana', 'dimisalkan', 'manalagi', 'bukankah', 'kira', 'agak', 'dipastikan', 'bermula', 'macam', 'semacam', 'mengakhiri', 'perlu', 'begitukah', 'diberikannya', 'diucapkannya', 'mendapat', 'dipertanyakan', 'dikatakannya', 'namun', 'ibaratkan', 'sejauh', 'sekurang-kurangnya', 'sedang', 'belakang', 'minta', 'sendiri', 'sepertinya', 'sepihak', 'antara', 'inginkan', 'tidakkah', 'saling', 'kasus', 'keterlaluan', 'itu', 'mau', 'luar', 'memperkirakan', 'dan', 'dimungkinkan', 'diperlukan', 'tiba', 'naik', 'ikut', 'berakhirlah', 'berikan', 'saat', 'tanyanya', 'katakanlah', 'dahulu', 'tepat', 'nah', 'sejumlah', 'walau', 'sekaligus', 'datang', 'apaan', 'sendirinya', 'bung', 'entah', 'oleh', 'segala', 'mulailah', 'ditunjuki', 'rasa', 'serta', 'agaknya', 'hendaknya', 'dipunyai', 'beginian', 'berdatangan', 'semata', 'tiap', 'ke', 'bisakah', 'mendatang', 'berupa', 'juga', 'jawaban', 'berikutnya', 'dilakukan', 'sebegitu', 'dulu', 'waduh', 'dapat', 'sudahlah', 'merupakan', 'demi', 'ia', 'sekalian', 'telah', 'disebutkan', 'perlukah', 'hampir', 'diucapkan', 'sebesar', 'semisalnya', 'memberikan', 'berapapun', 'selain', 'mengucapkan', 'setelah', 'baru', 'selaku', 'beberapa', 'karena', 'sebaik', 'sebegini', 'ada', 'setidaknya', 'berkehendak', 'seperlunya', 'menghendaki', 'hendak', 'ungkapnya', 'kelihatan', 'keluar', 'pihaknya', 'sendirian', 'jumlah', 'seenaknya', 'menanti', 'terlalu', 'mungkinkah', 'ujar', 'diingat', 'cuma', 'sampai-sampai', 'berjumlah', 'terdapat', 'akhiri', 'olehnya', 'apabila', 'jangankan', 'menggunakan', 'dituturkannya', 'kelihatannya', 'kitalah', 'meminta', 'melihatnya', 'kok', 'benarlah', 'berlangsung', 'diketahuinya', 'menjadi', 'secukupnya', 'semua', 'padanya', 'menanya', 'ataukah', 'bakalan', 'berada', 'besar', 'mengungkapkan', 'cukuplah', 'menandaskan', 'hari', 'dia', 'masalahnya', 'jauh', 'semampunya', 'seusai', 'akankah', 'pentingnya', 'bermaksud', 'selama', 'buat', 'mendapatkan', 'berlalu', 'depan', 'ditunjukkannya', 'khususnya', 'sepantasnya', 'umumnya', 'mengerjakan', 'sebaliknya', 'sajalah', 'begini', 'memberi', 'kini', 'setinggi', 'tiga', 'lamanya', 'berbagai', 'inilah', 'penting', 'pak', 'pertanyaan', 'memintakan', 'mengenai', 'tidak', 'biasa', 'dipergunakan', 'lagi', 'pertanyakan', 'percuma', 'tersebut', 'bapak', 'berakhirnya', 'kalau', 'turut', 'dibuat', 'mempertanyakan', 'beri', 'mendatangkan', 'bagaimanapun', 'dijawab', 'bolehlah', 'sampai', 'ucapnya', 'menginginkan', 'misal', 'ditanyakan', 'hanya', 'masih', 'saatnya', 'pukul', 'akhirnya', 'diakhirinya', 'masa', 'saya', 'terjadilah', 'se', 'usai', 'sebelum', 'diakhiri', 'usah', 'manakala', 'itukah', 'sebutlah', 'dini', 'lima', 'wahai', 'begitulah', 'adalah', 'benar', 'yakin', 'caranya', 'segera', 'asal', 'diungkapkan', 'dimulai', 'seluruh', 'jumlahnya', 'enggaknya', 'banyak', 'berkeinginan', 'bahkan', 'kalaulah', 'memang', 'aku', 'semula', 'beginikah', 'kelamaan', 'seingat', 'toh', 'mengibaratkan', 'menjelaskan', 'terus', 'tanyakan', 'setiap', 'bertanya-tanya', 'sekitarnya', 'sayalah', 'akulah', 'ditunjuknya', 'kapanpun', 'sekecil', 'seberapa', 'tentulah', 'semakin', 'paling', 'pernah', 'soal', 'berturut-turut', 'digunakan', 'terjadi', 'tersebutlah', 'satu', 'sama', 'sekarang', 'bagai', 'katanya', 'ditunjukkan', 'jawabnya', 'pada', 'bertanya', 'menanti-nanti', 'malahan', 'jikalau', 'sekali-kali', 'nantinya', 'mengingatkan', 'tak', 'tegas', 'dekat', 'disebut', 'belum', 'misalnya', 'semasa', 'adanya', 'daripada', 'tadi', 'diingatkan', 'tampaknya', 'tetapi', 'diperlihatkan', 'akan', 'empat', 'sini', 'terlebih', 'setengah', 'tunjuk', 'bukannya', 'cara', 'kinilah', 'mampukah', 'tambahnya', 'tanpa', 'harusnya', 'makanya', 'sekalipun', 'serupa', 'sebagainya', 'dong', 'menuju', 'bagaimanakah', 'menyiapkan', 'belumlah', 'tetap', 'atau', 'sangatlah', 'jadinya', 'akhir', 'antar', 'menantikan', 'sebanyak', 'semuanya', 'siapapun', 'untuk', 'tertentu', 'diberi', 'dikira', 'lanjut', 'memihak', 'bagaimana', 'ibu', 'asalkan', 'sesekali', 'maka', 'berlainan', 'semisal', 'yang', 'awal', 'apatah', 'menunjukkan', 'per', 'lewat', 'sementara', 'berlebihan', 'ditunjuk', 'kedua', 'mungkin', 'sering', 'jelaslah', 'selanjutnya', 'waktu', 'masihkah', 'bagi', 'harus', 'pertama', 'berkali-kali', 'seketika', 'kata', 'sambil', 'di', 'terhadap', 'nanti', 'masing-masing', 'boleh'} instead.