# Information Retrieval Pertemuan 2

In [2]:
import os, re
from spacy.lang.id import Indonesian
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

## Percobaan Information Retrieval pada Data Type Python

In [2]:
doc1 = "pengembangan sistem informasi penjadwalan mata kuliah information retrieval"
doc1_term = ["pengembangan", "sistem", "informasi", "penjadwalan", "mata", "kuliah", "information", "retrieval"]
doc2 = "pengembangan model analisis sentimen berita"
doc2_term = ["pengembangan", "model", "analisis", "sentimen",  "berita"]
doc3 = "pengembangan analisis sistem input output dalam information retrieval"
doc3_term = ["pengembangan", "analisis", "sistem", "input", "output", "dalam", "information", "retrieval"]

corpus = [doc1, doc2, doc3]
corpus_term = [doc1_term, doc2_term, doc3_term]
[doc1],[doc2],[doc3]

In [3]:
voc = {}

for d in corpus_term:
    for term in d:
        if term not in voc:
            voc[term] = 1
        else:
            voc[term] += 1
print(voc)

{'pengembangan': 3, 'sistem': 2, 'informasi': 1, 'penjadwalan': 1, 'mata': 1, 'kuliah': 1, 'information': 2, 'retrieval': 2, 'model': 1, 'analisis': 2, 'sentimen': 1, 'berita': 1, 'input': 1, 'output': 1, 'dalam': 1}


## Tokenisasi Sebuah Dokumen

### Manual

In [27]:
def tokenization(corpus):
    for text in corpus:
        tokens = text.split(" ")
        print(tokens)

In [28]:
tokenization(corpus)

['pengembangan', 'sistem', 'informasi', 'penjadwalan']
['pengembangan', 'model', 'analisis', 'sentimen', 'berita']
['pengembangan', 'analisis', 'sistem', 'input', 'output']


### Menggunakan Library Spacy

In [40]:
nlp = Indonesian()
for doc in corpus:
    spacy_id = nlp(doc)
    token_kata = [token.text for token in spacy_id]
    print(token_kata)

['pengembangan', 'sistem', 'informasi', 'penjadwalan']
['pengembangan', 'model', 'analisis', 'sentimen', 'berita']
['pengembangan', 'analisis', 'sistem', 'input', 'output']


## Pengkapitalan Dokumen

In [42]:
# Kapitalisasi Dokumen Menjadi Huruf Besar
for doc in corpus:
    text_up = doc.upper()
    print(text_up)

PENGEMBANGAN SISTEM INFORMASI PENJADWALAN
PENGEMBANGAN MODEL ANALISIS SENTIMEN BERITA
PENGEMBANGAN ANALISIS SISTEM INPUT OUTPUT


In [43]:
# Kapitalisasi Dokumen Menjadi Huruf Kecil
for doc in corpus:
    text_low = doc.lower()
    print(text_low)

pengembangan sistem informasi penjadwalan
pengembangan model analisis sentimen berita
pengembangan analisis sistem input output


## Penggunaan Stopwords

In [48]:
doc_new = "Pengembangan sistem IR yang akan dilakukan pada waktu dekat ini menggunakan metode input output"

stopwords = nlp.Defaults.stop_words
spacy_new = nlp(doc_new)
token_new = [token.text for token in spacy_new]
tokens_stopwords = [w for w in token_new if w not in stopwords]
print(tokens_stopwords)

['Pengembangan', 'sistem', 'IR', 'metode', 'input', 'output']


## Normalisasi Tata Bahasa sebuah Dokumen

In [51]:
normal_list = {"gue": "saya", "gua": "saya", "aku": "saya", "aq": "saya", "lagi": "sedang"}
text = "gua lagi di jalan nih"
text_normal = []
for t in text.split(" "):
    text_normal.append(normal_list[t] if t in normal_list else t)
print(text_normal)

['saya', 'sedang', 'di', 'jalan', 'nih']


## Implementasi Stemming pada Sebuah Dokumen

In [54]:
stemmer = StemmerFactory().create_stemmer()
for doc in corpus:
    stemming_text = stemmer.stem(doc)
    print(stemming_text)

kembang sistem informasi jadwal
kembang model analisis sentimen berita
kembang analisis sistem input output


## Penugasan

In [29]:
text_p = "Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru). Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman.\nDicky menyebut pembatasan mobilitas memang akan memiliki dampak dalam mencegah penularan COVID-19. Tapi, kata dia, dampaknya signifikan atau tidak akan bergantung pada konsistensi yang mendasar yakni testing, tracing, treatment (3T) hingga vaksinasi COVID-19."
text_s = "Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru).Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman"

In [30]:
def tokenisasi_p(text):
    token_paragraf = text.split("\n")
    print(f"List paragraf: \n\np1: {token_paragraf[0]} \n\np2: {token_paragraf[1]}")

In [31]:
def tokenisasi_s(text):
    token_kalimat = text.split(".")
    print(f"\n\nList kalimat: \n\ns1: {token_kalimat[0]}.\n\ns2: {token_kalimat[1]}.")

In [32]:
tokenisasi_p(text_p)
tokenisasi_s(text_s)

List paragraf: 

p1: Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru). Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman. 

p2: Dicky menyebut pembatasan mobilitas memang akan memiliki dampak dalam mencegah penularan COVID-19. Tapi, kata dia, dampaknya signifikan atau tidak akan bergantung pada konsistensi yang mendasar yakni testing, tracing, treatment (3T) hingga vaksinasi COVID-19.


List kalimat: 

s1: Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru).

s2: Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman.


In [5]:
path = "C:/Users/bilva/Information Retrieval/berita"

nlp_tugas = Indonesian()
stp_words_tugas = nlp_tugas.Defaults.stop_words
corpus = []
for file in os.listdir(path):
    with open(os.path.join(path, file), 'r') as f:
        clean_txt = re.sub("http\S+", '', f.read())
        clean_txt = re.sub("[\n\n]", ' ', clean_txt)
        corpus.append(clean_txt)
# 1. Tokenization
for doc in corpus:
    token_txt = [token.text for token in nlp_tugas(doc)]
    print(token_txt)

['Wilayah', 'Kamu', 'Sudah', "'", 'Bebas', "'", 'COVID', '-', '19', '?', 'Cek', '34', 'Kab', '/', 'Kota', 'Zona', 'Hijau', 'Terbaru', ' ', 'Jakarta', '-', 'Pemerintah', 'rencananya', 'bakal', 'menerapkan', 'Pemberlakuan', 'Pembatasan', 'Kegiatan', 'Masyarakat', '(', 'PPKM', ')', 'level', '3', 'terhitung', '24', 'Desember', '2021', 'hingga', '2', 'Januari', '2021', '.', 'Namun', ',', 'Kementerian', 'Kesehatan', 'RI', 'memastikan', 'kebijakan', 'PPKM', 'level', '3', 'ini', 'masih', 'dalam', 'tahap', 'kajian', '.', 'Menurut', 'Direktur', 'Pencegahan', 'dan', 'Pengendalian', 'Penyakit', 'Menular', 'Langsung', '(', 'P2PML', ')', 'Kemenkes', 'RI', 'dr', 'Siti', 'Nadia', 'Tarmizi', ',', 'PPKM', 'level', '3', 'bakal', 'diterapkan', 'jika', 'kasus', 'COVID', '-', '19', 'naik', 'signifikan', '.', 'Hal', 'ini', 'umumnya', 'dipicu', 'dengan', 'peningkatan', 'mobilitas', 'dan', 'pelonggaran', 'protokol', 'kesehatan', '.', ' ']
['Vaksin', 'COVID', '-', '19', 'Bakal', 'Rutin', 'Setiap', 'Tahun', '?',

In [89]:
# 2. Stopwords Elimination
for doc in corpus:
    nlp_doc = nlp_tugas(doc)
    token_doc = [token.text for token in nlp_doc]
    token_stpwords_tugas = [w for w in token_doc if w not in stp_words_tugas]
    print(token_stpwords_tugas)

['Wilayah', 'Kamu', 'Sudah', "'", 'Bebas', "'", 'COVID', '-', '19', '?', 'Cek', '34', 'Kab', '/', 'Kota', 'Zona', 'Hijau', 'Terbaru', ' ', 'Jakarta', '-', 'Pemerintah', 'rencananya', 'menerapkan', 'Pemberlakuan', 'Pembatasan', 'Kegiatan', 'Masyarakat', '(', 'PPKM', ')', 'level', '3', 'terhitung', '24', 'Desember', '2021', '2', 'Januari', '2021', '.', 'Namun', ',', 'Kementerian', 'Kesehatan', 'RI', 'kebijakan', 'PPKM', 'level', '3', 'tahap', 'kajian', '.', 'Menurut', 'Direktur', 'Pencegahan', 'Pengendalian', 'Penyakit', 'Menular', 'Langsung', '(', 'P2PML', ')', 'Kemenkes', 'RI', 'dr', 'Siti', 'Nadia', 'Tarmizi', ',', 'PPKM', 'level', '3', 'diterapkan', 'COVID', '-', '19', 'signifikan', '.', 'Hal', 'dipicu', 'peningkatan', 'mobilitas', 'pelonggaran', 'protokol', 'kesehatan', '.', ' ']
['Vaksin', 'COVID', '-', '19', 'Bakal', 'Rutin', 'Setiap', 'Tahun', '?', 'Tergantung', ',', 'Ini', 'Penjelasannya', ' ', 'Jakarta', '-', 'Pemberian', 'booster', 'dosis', 'ketiga', 'vaksin', 'COVID', '-', '1

In [92]:
# 3. Case-Foldings
# 3.1. Upper Case
print("Uper Case:")
for doc in corpus:
    doc_upper = doc.upper()
    print(f"{doc_upper}\n")
    
# 3.2. Lower Case
print("\nLower Case:")
for doc in corpus:
    doc_lower = doc.lower()
    print(f"{doc_lower}\n")

Uper Case:
WILAYAH KAMU SUDAH 'BEBAS' COVID-19? CEK 34 KAB/KOTA ZONA HIJAU TERBARU  JAKARTA - PEMERINTAH RENCANANYA BAKAL MENERAPKAN PEMBERLAKUAN PEMBATASAN KEGIATAN MASYARAKAT (PPKM) LEVEL 3 TERHITUNG 24 DESEMBER 2021 HINGGA 2 JANUARI 2021. NAMUN, KEMENTERIAN KESEHATAN RI MEMASTIKAN KEBIJAKAN PPKM LEVEL 3 INI MASIH DALAM TAHAP KAJIAN. MENURUT DIREKTUR PENCEGAHAN DAN PENGENDALIAN PENYAKIT MENULAR LANGSUNG (P2PML) KEMENKES RI DR SITI NADIA TARMIZI, PPKM LEVEL 3 BAKAL DITERAPKAN JIKA KASUS COVID-19 NAIK SIGNIFIKAN. HAL INI UMUMNYA DIPICU DENGAN PENINGKATAN MOBILITAS DAN PELONGGARAN PROTOKOL KESEHATAN.  

VAKSIN COVID-19 BAKAL RUTIN SETIAP TAHUN? TERGANTUNG, INI PENJELASANNYA  JAKARTA - PEMBERIAN BOOSTER ATAU DOSIS KETIGA VAKSIN COVID-19 DI INDONESIA DIRENCANAKAN BAKAL BERLANGSUNG JANUARI 2022. LANTAS ADAKAH KEMUNGKINAN VAKSINASI COVID-19 BAKAL HARUS DILAKUKAN SETIAP TAHUN SEPERTI VAKSINASI INFLUENZA? KETUA SATGAS COVID-19 IKATAN DOKTER INDONESIA (IDI) PROF ZUBAIRI DJOERBAN MENJELASKAN HI

In [91]:
# 4. Stemming
stemmer_tugas = StemmerFactory().create_stemmer()
for doc in corpus:
    stem_tugas = stemmer_tugas.stem(doc.lower())
    print(stem_tugas + "\n")

wilayah kamu sudah bebas covid-19 cek 34 kab kota zona hijau baru jakarta - perintah rencana bakal terap laku batas giat masyarakat ppkm level 3 hitung 24 desember 2021 hingga 2 januari 2021 namun menteri sehat ri pasti bijak ppkm level 3 ini masih dalam tahap kaji turut direktur cegah dan kendali sakit tular langsung p2pml kemenkes ri dr siti nadia tarmizi ppkm level 3 bakal terap jika kasus covid-19 naik signifikan hal ini umum picu dengan tingkat mobilitas dan longgar protokol sehat

vaksin covid-19 bakal rutin tiap tahun gantung ini jelas jakarta - beri booster atau dosis tiga vaksin covid-19 di indonesia rencana bakal langsung januari 2022 lantas ada mungkin vaksinasi covid-19 bakal harus laku tiap tahun seperti vaksinasi influenza ketua satgas covid-19 ikat dokter indonesia idi prof zubairi djoerban jelas hingga kini belum ada pasti kait hal sebut turut masih ada mungkin vaksin covid-19 harus beri tiap tahun ada juga mungkin cukup booster beri sekali kemudian vaksinasi covid-19 t