In [31]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
import pandas as pd

def categorize_comment(row):
  comment = row['comment']

  # Tokenisasi komentar menjadi kata-kata
  words = nltk.word_tokenize(comment)

  # Menggunakan Porter Stemmer untuk mengubah kata-kata menjadi bentuk dasar
  stemmer = nltk.PorterStemmer()
  stemmed_words = [stemmer.stem(word) for word in words]

  # Menggunakan part-of-speech tagging untuk mengidentifikasi jenis kata
  pos_tags = nltk.pos_tag(words)

  # Cek apakah komentar merupakan pertanyaan saham
  if 'apa' in stemmed_words or \
     'kenapa' in stemmed_words or \
     'bagaimana' in stemmed_words or \
     'gimana' in stemmed_words or \
     'kapan' in stemmed_words or \
     'dimana' in stemmed_words or \
     'siapa' in stemmed_words:
    return "Reject"

  # Cari subjek komentar
  subject = None
  for word, pos in pos_tags:
    if pos == 'NN' or pos == 'NNP':
      subject = word
      break

  # Jika tidak ada subjek komentar, maka ACCEPT
  if subject is None:
    return "Accept"

  # Cari symbol pertama dari subjek komentar
  # for symbol in symbols:
  if stemmer.stem(row['symbol']) == stemmer.stem(subject):
    return "Accept"

  # Jika tidak ditemukan symbol yang cocok, maka REJECT
  return "Reject"

# Contoh penggunaan fungsi
# symbols = [
#         'ICBP', 'CPIN', 'INDF', 'MYOR', 'CMRY', 'GOOD', 'MLBI',
#         'PANI', 'JPFA', 'AALI', 'ULTJ', 'FAPA', 'SMAR', 'SSMS',
#         'STAA', 'STTP', 'ROTI', 'LSIP', 'TLDN', 'SIMP', 'PALM',
#         'CLEO', 'DSNG', 'ADES', 'WMPP', 'TBLA', 'CPRO', 'SGRO', 'BISI',
#         'FISH', 'PSGO', 'JARR', 'DLTA', 'MGRO', 'ANJT', 'BWPT', 'KEJU', 
#         'TRGU', 'CAMP', 'WMUU', 'MAIN', 'CEKA', 'CSRA', 'AISA', 'HOKI'
# ]

df = pd.read_csv('../ICBP_MLBI_labeled.csv')

df = df[df['label 2'] == 0].copy()
df['label 1_rule'] = df.apply(lambda row: categorize_comment(row), axis=1)
# df[['symbol', 'label 1', 'label 1_rule']].value_counts()

with pd.option_context('display.max_colwidth', None, 'display.max_rows', None):
  display(df[['symbol', 'comment', 'label 1', 'label 1_rule']])

[nltk_data] Downloading package punkt to /Users/jason/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/jason/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Unnamed: 0,symbol,comment,label 1,label 1_rule
0,ICBP,POLL\nSusu paling enak apa gan? Vox Populi Vox Dei $ULTJ $ICBP $CMRY $DMND $MYOR,0,Reject
1,ICBP,$ICBP,0,Accept
2,ICBP,"$GOTO main di 90 an aja ya kamu g usah kemana2, biar $ASII $TLKM $ADRO $ICBP dan bluechip yg lain bisa ngasih windress.",0,Reject
3,ICBP,"Info Singkat saham untuk 15 Desember 2022 (bukan rekomendasi jual-beli) :\n\n$MDKA : rangenya pendek yakni Rp 4.300,- (support) s/d Rp 4.490,- (resistance). Posisi bandar masi didalam senilai Rp 143,51 milliar di harga Rp 4.210 selama seminggu terakhir. Untuk MDKA perhatikan area Rp 4.490 jika ini berhasil ditembus maka potensi melanjutkan kenaikan.\n\n$BMRI : Rangenya masi sama yakni Rp 9.750,- (support) s/d Rp 10.325,- (resistance) Posisi bandar masi keluar sebesar Rp 343,51 milliar selama seminggu terakhir. BMRI area krusialnya ada di Rp 9.750, jika support ini ditembus berpotensi koreksi lanjutan ke Rp 9,375.\n\n: Rangenya Rp 7.700,- (support ) s/d Rp 8.050,- (resistance). Posisi bandar masi keluar Rp 28,4 milyar selama seminggu terakhir. Untuk TKIM masid dalam fase technical rebound dengan target Rp 8.050.\n\nIngin mendapatkan informasi lengkap saham , , SCMA dan ikut polling saham-saham yang ingin dibahas setiap harinya ? yuk gabung ke grub seirine, link grub ada di profile seirine investama ya.\n\nHarus diingat:\n1. Jangan trading dengan brutal mentang-mentang melihat bandar ada didalam, gunakan money management yang baik.\n\n2. ini hanyalah info singkat dan bukan rekomendasi jual-beli.\n\nDISCLAIMER ON\n\n""Semoga informasi ini berguna bagi teman-teman sekalian, support terus kami dengan ""LIKE"" dan ""FOLLOW"" akun stockbit.",0,Reject
4,ICBP,"@godbless @handusene sejak periode lockup open YU memang paling kenceng buang barang. Tapi hari ini YU gak manggung, CC jadi pemain utama.\n\n@godbless Apa sudah bisa short sell di bursa? 🤔\n\n@AdrianGiri belum tertarik dengan perusahaan yang saya saja kurang paham, juga sedang down trend walaupun pbv <1.\n\nSemoga tidak banyak yang fomo $GOTO kemarin naik tinggi hari ini di banting lagi 😢 🚩\n-------",1,Reject
5,ICBP,$ULTJ fix tambah nyungsep liat chart kaya gini 🤯🤯\n\n$CMRY $MYOR $ICBP $UNVR,1,Reject
6,ICBP,"$HOKI yang merevolusi untuk menjadi $SRTG dikemudian hari, rasanya.\n\nTag : $INDF $ICBP $MYOR",2,Reject
7,ICBP,"Risiko saham\nAda 4 jenis risiko ketika berinvestasi di bursa saham, yakni\n\n1. Capital Loss,\nPenurunan harga saham yang bisa disebabkan karena penurunan kinerja perusahaan, atau memang keadaan market yang tidak kondusif\n\n2. Suspensi\nyakni penghentian sementara aktivitas perdagangan suatu saham oleh Bursa Efek Indonesia. Jika kamu memiliki saham yang masuk daftar suspensi, kamu hanya bisa menunggu hingga bursa efek mengijinkan kembali saham untuk diperdagangkan.Saham yang terkena suspensi dikarenakan pergerakan harga saham yang tidak wajar bahasa kerennya Unusual Market Activity atau UMA. Seperti ARA atau ARB terus menerus. Walau demikian, bukan berarti saham yang masuk daftar UMA akan disuspensi. Jika akhirnya pergerakan saham kembali normal maka saham tersebut masih bisa diperdagangkan\n\nSuspensi saham juga dapat terjadi karena kewajiban yang tidak dipenuhi oleh emiten. Contohnya melewatkan deadline laporan keuangan, belum membayar denda keterlambatan, atau adanya tindakan korporasi yang tidak diberitahukan ke Bursa , dst. Tujuan suspensi agar aktivitas perdagangan saham dapat berlangsung dengan teratur, wajar dan efisien .Investor dan emiten tidak bisa mengetahui kapan suspensi akan dibuka karena sepenuhnya ada kendali di Bursa Efek Indonesia. Bisa harian hingga bulanan.\nUntuk mengetahui saham yang disuspensi, bisa cek ke . Pilih menu berita, kemudian pilih suspensi.\n\n3. Likuidasi\nDimana emiten kurang memiliki dana segar untuk memenuhi kewajiban pembayaran hutang kepada kreditor. Aset mereka bisa saja banyak, namun sulit untuk diubah ke kas karena tidak ada pihak yang bersedia membeli aset perusahaan tersebut.\nApabila suatu perusahaan sedang mengalami masalah likuidasi, maka investor hanya bisa menunggu hingga keadaan membaik. Karena emiten tersebut harus mengutamakan pembayaran hutang kepada para kreditor terlebih dahulu. Sisa dana baru diserahkan kepada pemegang saham\n\n4. DELISTING\nyakni penghapusan emiten dari Bursa Efek . Proses delisting ini dibagi menjadi dua yakni delisting sukarela (Voluntary delisting) dan terpaksa (Force Delisting)\nDelisting sukarela, maka emiten mengajukan kepada BEI untuk keluar dari bursa efek. Para pemegang saham akan menerima haknya karena ada kewajiban emiten untuk menyerap saham di publik pada harga yang wajar\nDelisting terpaksa terjadi ketika emiten gagal memenuhi kewajiban yang diminta oleh bursa hingga sering mendapat peringatan. Jika sudah diputuskan oleh bursa, maka emiten wajib membeli kembali seluruh saham dari pemegang saham\nNamun, apabila emiten memiliki masalah likuidasi yang berujung gagal bayar hingga dinyatakan bangkrut, maka posisi pemegang saham akan cukup sulit.\nPasalnya, emiten tersebut wajib menjual seluruh aset untuk membayar hutang kepada kreditor terlebih dahulu. Baru jika ada sisa dana akan diserahkan kepada pemegang saham .\n\n---",1,Reject
8,ICBP,"Ko saya rada skeptis ya gaiss dengan kenaikan $GOTO hari ini. i mean, anjerr kalo beban yauda beban aja gt loo gausa ngesok naik segala terus besok2annya malah turun terus lagi..\n\nMending sekalian ae ya parkir di gocap biar saham lain g terpengaruh dgn dampak penurunan GOTO yg membuat IHSG cenderung turun jg dan bikin positive vibes dari Window Dressing & January Effect tahun ini berpotensi rusak wkwkw\n\n*just my innocent opinion guys as a newbie, sorry kalo ada bahasa yg gaenak. Gada maksud apa2 🙏\n\nRandom Tag",1,Reject
9,ICBP,$ICBP $INDF tes ombak ah...,1,Accept
