## **Pertemuan 1**

### **Python**

Python akan digunakan sebagai bahasa pemrograman dalam praktikum **Pemrosesan Bahasa Alami** ini. Untuk memastikan kelancaran praktikum, pastikan Python sudah terinstal di perangkat masing-masing. Disarankan untuk menggunakan versi Python *3.9* atau yang lebih baru, karena versi ini mendukung pustaka dan fitur terbaru yang dibutuhkan dalam pemrosesan bahasa alami. Jika Python belum terinstal, Anda dapat mengunduhnya dari situs resmi Python dan mengikuti petunjuk instalasi sesuai dengan sistem operasi yang digunakan.

<h3>Why Python ?</h3>

Python dipilih untuk praktikum ini karena beberapa alasan berikut:
- Kemudahan Penggunaan: Sintaksis Python yang sederhana dan mudah dipahami memungkinkan penerapan berbagai teknik pemrosesan bahasa alami (NLP).
- Ekosistem Pustaka yang Kuat: Python memiliki banyak pustaka seperti NLTK, spaCy, dan scikit-learn yang sangat mendukung pengolahan teks. Pustaka-pustaka ini mempermudah implementasi tugas-tugas NLP, seperti tokenisasi, analisis sentimen, dan ekstraksi entitas.
- Komunitas yang Aktif: Python memiliki komunitas besar yang aktif berbagi pengetahuan, solusi, dan sumber daya pembelajaran.
- Kecepatan Pengembangan: Python memungkinkan pengembangan yang cepat berkat sintaks yang mudah dan pustaka yang sudah teroptimasi.
- Dukungan untuk Pembelajaran Mesin: Python menawarkan berbagai algoritma pembelajaran mesin yang sudah siap pakai dan dioptimalkan untuk NLP.

<br>

<div style="text-align: center;">
    <img src="img/python-libraries-ACTE.png" />
</div>


### **Data Collecting**

Selanjutnya, kita akan memasuki tahap berikutnya, yaitu mempelajari dan mendemonstrasikan berbagai metode pengumpulan data dalam NLP. Pengumpulan data merupakan langkah awal yang penting, karena kualitas serta variasi data akan mempengaruhi hasil analisis dan pengembangan model. Pada bagian ini, kita akan mengeksplorasi berbagai sumber data dan teknik yang dapat diterapkan untuk mengumpulkan informasi yang diperlukan dalam pemrosesan bahasa alami.

#### Mengambil Data dari X menggunakan tweepy

Twitter menyimpan sejumlah besar data yang penuh dengan informasi berharga. Para pemasar media sosial memanfaatkan data ini untuk mendukung strategi mereka. Setiap hari, jutaan tweet diposting, masing-masing menyimpan cerita unik. Ketika data tersebut dikumpulkan dan dianalisis, hal ini dapat memberikan wawasan yang sangat berguna bagi perusahaan mengenai produk, layanan, dan berbagai aspek operasional mereka.

Pada bagian ini, kita akan mempelajari cara mengakses dan mengambil data dari Twitter menggunakan pustaka `tweepy`. Dengan `tweepy`, kita dapat terhubung ke API Twitter dan mengumpulkan tweet sesuai dengan kriteria yang ditentukan. Berikut adalah demonstrasi mengenai cara menggunakan `tweepy` dalam kode program untuk mengambil data dari Twitter.

In [1]:
# Instalasi library tweepy
%pip install tweepy

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [51]:
# Mengimpor pustaka-pustaka yang diperlukan
import numpy as np
import json
import tweepy
import pandas as pd

# Kredensial API
consumer_key = "your_consumer_key"
consumer_secret = "your_consumer_secret"
access_token = "your_access_token"
access_token_secret = "your_access_token_secret"
bearer_token = 'your_bearer_token'

# Membuat client API Twitter V2
client = tweepy.Client(bearer_token=bearer_token, consumer_key=consumer_key, consumer_secret=consumer_secret, access_token=access_token, access_token_secret=access_token_secret)

Untuk menarik tweet berdasarkan kata kunci tertentu, kita dapat menggunakan kode berikut:

In [65]:
result = client.search_recent_tweets(query="covid19", max_results=20)
for tweet in result.data:
    print(tweet.text)

RT @Dukesno1: @Granite77777 這就是有組織的輿論戰內容，應對需要明確幾個事實：
1、NIH資助的是防止病毒大流行項目、Baric教授的是生物醫學技術，被中共軍事醫學科學院、武漢病毒所利用製造Covid19病毒
2、中共從2019年12月初至2020年1…
RT @JamesSentacnoly: @uaRM3CDQBGDIJm7 コロナウイルスは目からも感染し、逆に血管、神経から目にも到達し、障害を起こします
網膜血管は心血管の抹消　眼科的症状との関連
https://t.co/wmq80VgSgP
目からの感染だけではなく体液…
RT @Incorrectibles: 🔴💥 LES RÉVÉLATIONS EXPLOSIVES DE PIERRE CHAILLOT (@decoder_l) SUR LE #COVID19 !

« Il n’y a pas la moindre étude scient…
RT @sarahmarsham: @SadiqKhan @RichardWatts01 @CarolineLucas @CarolineRussell @jeremycorbyn @TheGreenParty  @IslingtonLabour @Clive_Carter @…
RT @Incorrectibles: 🔴💥 LES RÉVÉLATIONS EXPLOSIVES DE PIERRE CHAILLOT (@decoder_l) SUR LE #COVID19 !

« Il n’y a pas la moindre étude scient…
RT @SenNenadiParody: She walking free.

No charges.

Legend of our democracy

Sadiya Farouq, Frm Humanitarian Disaster.

₦37.1bn Gone

N500…
@bysisa_isah @MarioNawfal No, because they create solutions looking for a problem, and by doing it they create problems, such as covid19, or overblow prob

Penjelasan Kode:
- Kode di atas akan menarik 10 tweet teratas saat kata kunci 'ABC' dicari.
- API ini akan mengambil tweet dalam bahasa Indonesia (dengan lang='id'), dan mengecualikan tweet yang merupakan retweet.

#### Membaca Data dari PDF

Pada bagian ini, kita akan mempelajari cara mengambil teks dari file PDF, sehingga informasi yang ada di dalamnya dapat digunakan untuk analisis lebih lanjut dalam pemrosesan bahasa alami.

Demonstrasi berikut akan memanfaatkan pustaka Python `PyPDF2` untuk mengekstraksi teks dari file PDF. Dengan menggunakan `PyPDF2`, kita dapat dengan mudah mengakses konten dokumen PDF.

Pertama, install terlebih dahulu pustaka `PyPDF2` dan mengimpornya dalam kode program:

In [1]:
# Instalasi library PyPDF2
%pip install PyPDF2

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [3]:
import PyPDF2
from PyPDF2 import PdfReader

Selanjutnya, Gunakan kode berikut untuk membuka file PDF, membaca isinya, dan mengekstrak teks dari halaman pertama:

In [4]:
# Membuka file PDF
pdf = open("pertemuan_1.pdf", "rb")

# Membuat objek pembaca PDF
pdf_reader = PyPDF2.PdfReader(pdf)

# Mengecek jumlah halaman dalam file PDF
print(pdf_reader.pages)

# Membuat objek halaman
page = pdf_reader.pages[0]

# Mengekstrak teks dari halaman
print(page.extract_text())

# Menutup file PDF setelah selesai
pdf.close()

<PyPDF2._page._VirtualList object at 0x7f604d5d0590>
Modul 1 Praktikum Natural Language Processing
Modul 1 Praktikum Natural Language Processing
Pengenalan Pengolahan Data Teks menggunakan Python
Deskripsi Singkat
Modul ini akan membahas pengenalan pengolahan data teks menggunakan ba-
hasa Python. Modul ini terdiri dari 5 materi yang akan membahas pengumpu-
lan data menggunakan API, membaca data dari berbagai format file yang ada
seperti PDF, Word, JSON, dan HTML.
Tujuan
1. Dapat mengumpulkan data menggunakan melalui API yang tersedia di
internet.
2. Dapat membaca data dari berbagai format file yang ada seperti PDF,
Word, JSON, dan HTML.
Materi 1 - Pengumpulan Data
Studi Kasus
Anda ingin mengumpulkan data menggunakan API Twitter
Langkah-langkah
1. Mendapatkan Bearer Token pada halaman Portal Developer Twitter
https://developer.x.com/en/portal/
2. Menginstall library tweepy
pip install tweepy
3. Import library yang dibutuhkan
1import tweepy
4. Memasukkan bearer token sebagai akses token

Penjelasan Kode:
- Pertama, file PDF dibuka dalam mode rb (read-binary).
- Objek `PdfFileReader` digunakan untuk membaca file PDF dan mengecek jumlah halaman dengan `pdf_reader.numPages`.
- Untuk mengekstrak teks, kita menggunakan metode `extractText()` pada objek halaman.
- Terakhir, file PDF ditutup setelah teks berhasil diambil.

#### Membaca Data dari file Word (Microsoft Word)

Pada bagian ini, kita akan mempelajari cara membaca data dari file Microsoft Word. File Word sering digunakan untuk menyimpan dokumen teks yang berisi informasi yang bisa dianalisis lebih lanjut dalam pemrosesan bahasa alami. Dengan menggunakan pustaka Python, kita dapat mengekstrak teks dari file Word dan memanfaatkannya untuk berbagai tujuan analisis.

Anda perlu menginstal pustaka python-docx dan mengimpornya:

In [5]:
# Instalasi pustaka python-docx
%pip install python-docx

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [6]:
# Mengimpor pustaka yang diperlukan
import docx

Setelah pustaka diimpor, Anda dapat membuka file Word dan mengekstrak teksnya:

In [8]:
# Membuka file Word
doc = docx.Document("contoh-docx.docx")

# Membuat string kosong untuk menampung hasil ekstraksi
docu = ""

# Melakukan iterasi pada setiap paragraf dalam dokumen
for para in doc.paragraphs:
    docu += para.text + "\n"  # Menambahkan setiap paragraf ke string

# Menampilkan hasil ekstraksi teks
print(docu)

Aktifitas 1: (Menuju tur 360)
Pertanyaan: Bagaimana pengguna menuju halaman tur 360?
Uraian: Pengguna bisa menuju halaman tur 360.
Langkah-langkah: 
Pengguna meng-klik tombol pada beranda.
Klik tombol pada NavBar.
Scroll halaman ke bawah.
Data yang dikumpulkan:
Komentar tampilan dengan menanyakan diakhir pengujian.
Bisa melakukan aktifitas (sukses/gagal).
Waktu melakukan aktifitas pakai stopwatch sampai selesai.

Aktifitas 2: (Mengganti bahasa)
Pertanyaan: Apakah pengguna mengetahui bahwa situs tersebut bisa menggunakan multi language?
Uraian: Pengguna mengetahui situs memiliki fungsi multi language.
Langkah-langkah: 
Pengguna meng-klik tombol di pojok kanan atas pada NavBar.
Pilih bahasa yang diinginkan (ID/EN)
Data yang dikumpulkan:
Komentar tampilan dengan menanyakan diakhir pengujian.
Bisa melakukan aktifitas (sukses/gagal).
Waktu melakukan aktifitas pakai stopwatch sampai selesai.

Aktifitas 3: (Menggunakan halaman tur 360)
Pertanyaan: Bagaimana cara menggunakan halaman tur 360?
U

Penjelasan Kode:
- `Document("file.docx")`: Membuka file `.docx`.
- `for para in doc.paragraphs`: Melakukan iterasi pada setiap paragraf dalam dokumen Word.
- `docu += para.text`: Menambahkan teks setiap paragraf ke dalam string docu.
- `print(docu)`: Menampilkan hasil ekstraksi teks.

#### Membaca Data dari file JSON

Pada bagian ini, kita akan mempelajari cara membaca data dari file JSON. JSON sering digunakan untuk menyimpan data terstruktur dalam format teks.

Anda perlu menginstal pustaka yang diperlukan dan mengimpor pustaka tersebut:

In [9]:
# Instalasi library yang diperlukan
%pip install requests

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [10]:
# Mengimpor pustaka
import requests
import json

Kemudian, kita akan mengambil data dari file JSON menggunakan pustaka `requests` dan kemudian menampilkan hasilnya:

In [11]:
# Fetch data dari API
r = requests.get("https://jsonplaceholder.typicode.com/todos")
res = r.json()

# Cetak hasil fetch data dari API
print(res)

[{'userId': 1, 'id': 1, 'title': 'delectus aut autem', 'completed': False}, {'userId': 1, 'id': 2, 'title': 'quis ut nam facilis et officia qui', 'completed': False}, {'userId': 1, 'id': 3, 'title': 'fugiat veniam minus', 'completed': False}, {'userId': 1, 'id': 4, 'title': 'et porro tempora', 'completed': True}, {'userId': 1, 'id': 5, 'title': 'laboriosam mollitia et enim quasi adipisci quia provident illum', 'completed': False}, {'userId': 1, 'id': 6, 'title': 'qui ullam ratione quibusdam voluptatem quia omnis', 'completed': False}, {'userId': 1, 'id': 7, 'title': 'illo expedita consequatur quia in', 'completed': False}, {'userId': 1, 'id': 8, 'title': 'quo adipisci enim quam ut ab', 'completed': True}, {'userId': 1, 'id': 9, 'title': 'molestiae perspiciatis ipsa', 'completed': False}, {'userId': 1, 'id': 10, 'title': 'illo est ratione doloremque quia maiores aut', 'completed': True}, {'userId': 1, 'id': 11, 'title': 'vero rerum temporibus dolor', 'completed': True}, {'userId': 1, 'i

Setelah mendapatkan data JSON, kita dapat mengekstrak informasi spesifik dari struktur data tersebut, seperti kutipan dan penulis:

In [12]:
# Mengekstrak kutipan dari data JSON
q = res[0]['title']
q
# Menampilkan kutipan dan penulis
# print(q['quote'], '\n--', q['author'])

'delectus aut autem'

#### Membaca text dari file HTML

In [13]:
%pip install beautifulsoup4

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [14]:
from bs4 import BeautifulSoup   
import urllib.request as urllib2

In [15]:
response = urllib2.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')
html_doc = response.read()

In [16]:
#Parsing
soup = BeautifulSoup(html_doc, 'html.parser')
# Formating the parsed html file
strhtm = soup.prettify()

# Mengambil data
print(soup.title)
print(soup.title.string)
print(soup.a.string)
print(soup.b.string)

# Mengambil semua tag tertentu
for x in soup.find_all('a'): print(x.string)

<title>Natural language processing - Wikipedia</title>
Natural language processing - Wikipedia
Jump to content
None
Jump to content
Main page
Contents
Current events
Random article
About Wikipedia
Contact us
Help
Learn to edit
Community portal
Recent changes
Upload file
None
None
Donate
Create account
Log in
Donate
None
None
learn more
Contributions
Talk
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
Afrikaans
العربية
Արեւմտահայերէն
Azərbaycanca
বাংলা
閩南語 / Bân-lâm-gú
Беларуская
Беларуская (тарашкевіца)
Български
Bosanski
Brezhoneg
Català
Čeština
Cymraeg
Dansk
Deutsch
Eesti
Ελληνικά
Español
Esperanto
Euskara
فارسی
Français
Gaeilge
Galego
한국어
Հայերեն
हिन्दी
Hrvatski
Bahasa Indonesia
IsiZulu
Íslenska
Italiano
עברית
ಕನ್ನಡ
ქართული
Latviešu
Lietuvių
Македонски
मराठी
مصرى
Монгол
မြန်မာဘာသာ
Nederlands
日本語
ଓଡ଼ିଆ
پښتو
Picard
Piemontèis
Polski
Português
Qaraqalpaqsha
Română
Runa Simi
Русский
Shqip
Simple English
کوردی
Српски / srpski
Srps