### A. Struktur Data List dan Dictionary pada Python

In [34]:
list1 = ["Wilayah", "Kamu","Sudah","Bebas","Covid-19","?"]
print(list1[1])

Kamu


In [35]:
list2 = [1,2,"Tiga","Empat",5]
print(list2)

[1, 2, 'Tiga', 'Empat', 5]


In [36]:
# Menampilkan semua anggota list
for i in range(len(list1)):
    print(list1[i])

print("\nAtau\n")


for list in list2:
    print(list)

Wilayah
Kamu
Sudah
Bebas
Covid-19
?

Atau

1
2
Tiga
Empat
5


In [37]:
dict = {1:"Wilayah",2:"Kamu",3:"Sudah",4:"Bebas",5:"COVID-19",6:"?"}

for key in dict:
    print(dict[key])

Wilayah
Kamu
Sudah
Bebas
COVID-19
?


### B. Implementasi Struktur Data Python untuk Information Retrieval

In [38]:
doc1 = "Pengembangan sistem informasi penjadwalan"
doc1_term = ["pengembangan","sistem","informasi","penjadwalan"]
doc2 = "pengembangan model analisis sentimen berita"
doc2_term = ["pengembangan","model","analisi","sentimen","berita"]
doc3 = "pengembangan analisis sistem input output"
doc3_term = ["pengembangan","analisis","sistem","input","output"]

corpus = [doc1,doc2,doc3]
corpus_term = [doc1_term,doc2_term,doc3_term]

In [39]:
vocabulary = {}

for d in corpus_term:
    for term in d:
        if term not in vocabulary:
            vocabulary[term] = 1
        else:
            vocabulary[term] = vocabulary[term] + 1
print(vocabulary)

{'pengembangan': 3, 'sistem': 2, 'informasi': 1, 'penjadwalan': 1, 'model': 1, 'analisi': 1, 'sentimen': 1, 'berita': 1, 'analisis': 1, 'input': 1, 'output': 1}


### C. Tokenisasi

In [40]:
def tokenisasi(text):
    tokens=text.split(" ")
    return tokens

In [41]:
for d in corpus:
    token_kata = tokenisasi(d)
    print(token_kata)

['Pengembangan', 'sistem', 'informasi', 'penjadwalan']
['pengembangan', 'model', 'analisis', 'sentimen', 'berita']
['pengembangan', 'analisis', 'sistem', 'input', 'output']


In [42]:
import nltk
import spacy

In [43]:
from spacy.lang.id import Indonesian

nlp = Indonesian()
# nlp = spacy.blank('id')

for d in corpus:
    spacy_id = nlp(d)
    token_kata = [token.text for token in spacy_id]
    print(token_kata)


['Pengembangan', 'sistem', 'informasi', 'penjadwalan']
['pengembangan', 'model', 'analisis', 'sentimen', 'berita']
['pengembangan', 'analisis', 'sistem', 'input', 'output']


### D. Capitalization/Case-Folding

In [44]:
text = "Wilayah Kamu Sudah 'Bebas' COVID-19? Cek 34 Kab/Kota Zona Hijau Terbaru"

text_capital = text.upper()
print(text_capital)

text_lower = text.lower()
print(text_lower)

WILAYAH KAMU SUDAH 'BEBAS' COVID-19? CEK 34 KAB/KOTA ZONA HIJAU TERBARU
wilayah kamu sudah 'bebas' covid-19? cek 34 kab/kota zona hijau terbaru


In [45]:
stopwords = ["Yang", "Dari","Sudah","Dan"]
text = "Wilayah Kamu Sudah 'Bebas' COVID-19? Cek 34 Kab/Kota Zona Hijau Terbaru"

tokens = ["Wilayah","Kamu","sudah","Bebas","COVID-19","?","Cek","34","Kab","/","Kota","Zona","Hijau","Terbaru"]

tokens_nostopword = [w for w in tokens if not w in stopwords]
print(tokens_nostopword)

['Wilayah', 'Kamu', 'sudah', 'Bebas', 'COVID-19', '?', 'Cek', '34', 'Kab', '/', 'Kota', 'Zona', 'Hijau', 'Terbaru']


### F. Normalisasi

In [46]:
normal_list = {"gue": "saya","gua":"saya","aku":"saya","aq":"saya","lagi":"sedang"}
text = "aq lagi di jalan nih"
text_normal = []

for t in text.split(" "):
    text_normal.append(normal_list[t] if t in normal_list else t)
print(text_normal)

['saya', 'sedang', 'di', 'jalan', 'nih']


### G. Stemming

In [47]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Stemming process
text = "Wilayah Kamu Sudah 'Bebas' COVID-19? Cek 34 Kab/Kota Zona Hijau Terbaru"
output = stemmer.stem(text)
print(output)

wilayah kamu sudah bebas covid-19 cek 34 kab kota zona hijau baru


### Penugasan


1. Diketahui suatu dokumen berikut terdiri dari beberapa paragraf dan setiap paragraf
terdiri dari beberapa kalimat. Paragraf yang berbeda dipisahkan dengan Enter,
sedangkan kalimat dipisahkan dengan titik, tanda tanya, atau tanda seru. Buat kode
fungsi python untuk memisahkan dokumen sehingga menghasilkan variabel
list_paragraf (nama fungsi: paragraph_parsing), dan masing-masing paragraf
menjadi variabel list_kalimat (nama fungsi: sentence_parsing)

In [56]:
def paragraph_parser(text):
    paragraf = text.split('\n')

    parsed_paragraf = []

    for indeks, paragraf in enumerate(paragraf):
        label = f"p{indeks+1}"
        parsed_paragraf.append(f"{label}:{paragraf}") # untuk pemberian label "p1" "p2" dll. f itu f-string di python untuk include expression di dalam string.

    return "\n\n".join(parsed_paragraf)

In [49]:
import re

def sentence_parser(paragraph):
    sentences = re.split(r'[.!?]', paragraph)  #re.split untuk split dari suatu teks berdasarkan expression.
    
    parsed_output = []
    for index, sentence in enumerate(sentences):
        if sentence.strip():  
            label = f"s{index + 1}"  
            parsed_output.append(f"{label} : {sentence.strip()}")
            
    return parsed_output

In [58]:
teks = """
Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru). Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman.
Dicky menyebut pembatasan mobilitas memang akan memiliki dampak dalam mencegah penularan COVID-19. Tapi, kata dia, dampaknya signifikan atau tidak akan bergantung pada konsistensi yang mendasar yakni testing, tracing, treatment, (3T) hingga vaksinasi COVID-19.
"""

# Paragraf parser
paragraphs = paragraph_parser(teks.strip())
print("List paragraf : \n")
print(paragraphs, "\n")


# Kalimat parser
paragraphs = teks.strip().split('\n')  # paragraf parser

for index, paragraph in enumerate(paragraphs):
    sentence_list = sentence_parser(paragraph)
    print(f"List kalimat pada paragraf {index+ 1} :\n")
    print('\n'.join(sentence_list))
    print()


List paragraf : 

p1:Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru). Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman.

p2:Dicky menyebut pembatasan mobilitas memang akan memiliki dampak dalam mencegah penularan COVID-19. Tapi, kata dia, dampaknya signifikan atau tidak akan bergantung pada konsistensi yang mendasar yakni testing, tracing, treatment, (3T) hingga vaksinasi COVID-19. 

List kalimat pada paragraf 1 :

s1 : Mobilitas warga bakal diperketat melalui penerapan PPKM level 3 se-Indonesia di masa libur Natal dan tahun baru (Nataru)
s2 : Rencana kebijakan itu dikritik oleh Epidemiolog dari Griffith University Dicky Budiman

List kalimat pada paragraf 2 :

s1 : Dicky menyebut pembatasan mobilitas memang akan memiliki dampak dalam mencegah penularan COVID-19
s2 : Tapi, kata dia, dampaknya signifikan atau tidak akan bergantung pada konsistensi yang mendasar yakni testing, t

2. Lakukan case-folding (upper case dan lower case), tokenisasi, eliminasi stopword dan stemming pada dokumen di folder “berita” menggunakan library yang sudah tersedia (nltk, spacy, sastrawi, etc).

NLTK

In [3]:
import os
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer


# Path folder berita
path = "C:/Users/FEZA/My Drive/00. Drive PC/1.STIS/5. Semester 5/Information Retrieval [IR] P/Pertemuan 1/berita"

# Stopwords pada library NLTK

stop_words = set(stopwords.words('indonesian'))

# Stemmer pada library NLTK
stemmer = PorterStemmer()

# Iterate through the files
for file in os.listdir(path):
    if os.path.isfile(os.path.join(path, file)):
        with open(os.path.join(path, file), 'r', encoding='utf-8') as f:
            content = f.read().lower()  # Casefolding pada NLTK
            
            # Tokenisasi
            words = word_tokenize(content)
            
            # menghilangkan stopwords sekaligus stemming
            # memeriksa apakah kata saat ini adalah alfanumerik (terdiri dari huruf dan/atau angka) dan apakah
            # kata tersebut bukan termasuk dalam daftar stopwords.
            filtered_words = [stemmer.stem(word) for word in words if word.isalnum() and word not in stop_words] 
        
            
            # print hasil akhir 
            print(filtered_words)


['terinfeksi', 'viru', 'corona', 'melonjak', 'negara', 'pemerintah', 'kera', 'mengatasi', 'penyebaran', 'viru']
['mencuci', 'tangan', 'rutin', 'mencegah', 'penularan', 'penyakit', 'penelitian', 'mencuci', 'tangan', 'mengurangi', 'risiko', 'infeksi']
['pandemi', 'corona', 'mengubah', 'aspek', 'kehidupan', 'mencari', 'solusi', 'mengatasi', 'negatifnya']
['hasil', 'survei', 'tingkat', 'kepuasan', 'masyarakat', 'layanan', 'kesehatan', 'menurun', 'pandemi', 'perbaikan', 'diambil']
['pemerintah', 'mengumumkan', 'kebijakan', 'terkait', 'pembatasan', 'sosial', 'mengendalikan', 'penyebaran', 'viru', 'warga', 'diharapkan', 'mematuhi', 'aturan']
['file']


SPACY

Spacy tidak mempunyai model untuk bahasa indonesia, jadi pada penugasan kali ini saya menggunakan spacy model untuk bahasa inggris

In [17]:
import os
import spacy

# Load spaCy model untuk bahasa inggris. 

nlp = spacy.load("en_core_web_sm")

# Path to the "berita" folder
path = "C:/Users/FEZA/My Drive/00. Drive PC/1.STIS/5. Semester 5/Information Retrieval [IR] P/Pertemuan 1/berita/english"

# Iterate through the files
for file in os.listdir(path):
    if os.path.isfile(os.path.join(path, file)):
        with open(os.path.join(path, file), 'r', encoding='utf-8') as f:
            content = f.read().lower()  # Convert to lowercase
            
            # Process text using spaCy
            doc = nlp(content)
            
            # Lemmatize and remove stopwords
            processed_words = [token.lemma_ for token in doc if token.is_alpha and not token.is_stop]
            
            # Print the processed words
            print(processed_words)


['iconresource', 'file']
['powerful', 'earthquake', 'strike', 'indonesia', 'thursday', 'kill', 'people', 'injure', 'hundred', 'earthquake', 'magnitude', 'strike', 'island', 'sumatra', 'local', 'time', 'epicenter', 'locate', 'mile', 'city', 'padang']
['nasa', 'thursday', 'unveil', 'new', 'space', 'telescope', 'james', 'webb', 'space', 'telescope', 'telescope', 'powerful', 'build', 'design', 'study', 'universe', 'unprecedented', 'detail']
['new', 'study', 'publish', 'thursday', 'find', 'climate', 'change', 'worsen', 'study', 'conduct', 'team', 'scientist', 'university', 'oxford', 'find', 'earth', 'climate', 'warm', 'alarming', 'rate']


SASTRAWI

In [3]:
import os
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.tokenize import word_tokenize

# path ke folder berita
path = "C:/Users/FEZA/My Drive/00. Drive PC/1.STIS/5. Semester 5/Information Retrieval [IR] P/Pertemuan 1/berita"

# methode sastrawi stemmer dan stopword remover
stemmer_factory = StemmerFactory()
stemmer = stemmer_factory.create_stemmer()

stopword_factory = StopWordRemoverFactory()
stopword_remover = stopword_factory.create_stop_word_remover()

# Iterai ke semua file di folder berita
for file in os.listdir(path):
    if os.path.isfile(os.path.join(path, file)):
        with open(os.path.join(path, file), 'r', encoding='utf-8') as f:
            content = f.read().lower()  # case folding
            
            # Tokenization
            words = word_tokenize(content)
            
            # mennghilangkan stopword dan dilakukan stemming sekaligus
            filtered_words = [stemmer.stem(stopword_remover.remove(word)) for word in words]
            
            # Print hasil akhir
            print(filtered_words)


['kasus', 'baru', 'infeksi', 'virus', 'corona', 'lonjak', '', 'beberapa', 'negara', '', 'perintah', 'sedang', 'kerja', 'keras', '', 'atas', 'sebar', 'virus', '', '']
['penting', 'cuci', 'tangan', '', 'rutin', '', 'cegah', 'tular', 'sakit', '', 'teliti', 'tunjuk', '', 'cuci', 'tangan', '', 'kurang', 'risiko', 'infeksi', '']
['pandemi', 'corona', '', 'ubah', 'banyak', 'aspek', 'hidup', '', '', '', 'perlu', 'sama', 'cari', 'solusi', '', 'atas', 'dampak', 'negatif']
['hasil', 'survei', 'tunjuk', '', 'tingkat', 'puas', 'masyarakat', '', 'layan', 'sehat', '', 'turun', 'lama', 'pandemi', '', 'langkah', 'baik', 'perlu', 'segera', 'ambil']
['perintah', 'umum', 'bijak', 'baru', 'kait', 'batas', 'sosial', '', 'kendali', 'sebar', 'virus', '', 'semua', 'warga', 'harap', 'patuh', 'atur', 'sebut', '']
['', 'shellclassinfo', '', 'iconresource c', '', 'program', 'files google drive', 'file', 'stream 79 0 2 0 googledrivefs exe 23']
