## **Pertemuan 1**

### **Python**

Python akan digunakan sebagai bahasa pemrograman dalam praktikum **Pemrosesan Bahasa Alami** ini. Untuk memastikan kelancaran praktikum, pastikan Python sudah terinstal di perangkat masing-masing. Disarankan untuk menggunakan versi Python *3.9* atau yang lebih baru, karena versi ini mendukung pustaka dan fitur terbaru yang dibutuhkan dalam pemrosesan bahasa alami. Jika Python belum terinstal, Anda dapat mengunduhnya dari situs resmi Python dan mengikuti petunjuk instalasi sesuai dengan sistem operasi yang digunakan.

<h3>Why Python ?</h3>

Python dipilih untuk praktikum ini karena beberapa alasan berikut:
- Kemudahan Penggunaan: Sintaksis Python yang sederhana dan mudah dipahami memungkinkan penerapan berbagai teknik pemrosesan bahasa alami (NLP).
- Ekosistem Pustaka yang Kuat: Python memiliki banyak pustaka seperti NLTK, spaCy, dan scikit-learn yang sangat mendukung pengolahan teks. Pustaka-pustaka ini mempermudah implementasi tugas-tugas NLP, seperti tokenisasi, analisis sentimen, dan ekstraksi entitas.
- Komunitas yang Aktif: Python memiliki komunitas besar yang aktif berbagi pengetahuan, solusi, dan sumber daya pembelajaran.
- Kecepatan Pengembangan: Python memungkinkan pengembangan yang cepat berkat sintaks yang mudah dan pustaka yang sudah teroptimasi.
- Dukungan untuk Pembelajaran Mesin: Python menawarkan berbagai algoritma pembelajaran mesin yang sudah siap pakai dan dioptimalkan untuk NLP.

<br>

<div style="text-align: center;">
    <img src="img/python-libraries-ACTE.png" />
</div>


### **Data Collecting**

Selanjutnya, kita akan memasuki tahap berikutnya, yaitu mempelajari dan mendemonstrasikan berbagai metode pengumpulan data dalam NLP. Pengumpulan data merupakan langkah awal yang penting, karena kualitas serta variasi data akan mempengaruhi hasil analisis dan pengembangan model. Pada bagian ini, kita akan mengeksplorasi berbagai sumber data dan teknik yang dapat diterapkan untuk mengumpulkan informasi yang diperlukan dalam pemrosesan bahasa alami.

#### Mengambil Data dari X menggunakan tweepy

Twitter menyimpan sejumlah besar data yang penuh dengan informasi berharga. Para pemasar media sosial memanfaatkan data ini untuk mendukung strategi mereka. Setiap hari, jutaan tweet diposting, masing-masing menyimpan cerita unik. Ketika data tersebut dikumpulkan dan dianalisis, hal ini dapat memberikan wawasan yang sangat berguna bagi perusahaan mengenai produk, layanan, dan berbagai aspek operasional mereka.

Pada bagian ini, kita akan mempelajari cara mengakses dan mengambil data dari Twitter menggunakan pustaka `tweepy`. Dengan `tweepy`, kita dapat terhubung ke API Twitter dan mengumpulkan tweet sesuai dengan kriteria yang ditentukan. Berikut adalah demonstrasi mengenai cara menggunakan `tweepy` dalam kode program untuk mengambil data dari Twitter.

In [2]:
# Instalasi library tweepy
%pip install tweepy

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [3]:
# Mengimpor pustaka-pustaka yang diperlukan
import numpy as np
import json
import tweepy
import pandas as pd
from tweepy import OAuthHandler

# Kredensial API
consumer_key = "adjbiejfaaoeh" 
consumer_secret = "had73haf78af"
access_token = "jnsfb5yu4yauwahfjeh"
access_token_secret = "jhdfgay76847r6"

# Memanggil API Twitter
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)

Untuk menarik tweet berdasarkan kata kunci tertentu, kita dapat menggunakan kode berikut:

In [4]:
# Mengambil tweet
Tweets = api.search(query, count = 10, lang='id', exclude='retweets', tweet_mode='extended')

AttributeError: 'API' object has no attribute 'search'

Penjelasan Kode:
- Kode di atas akan menarik 10 tweet teratas saat kata kunci 'ABC' dicari.
- API ini akan mengambil tweet dalam bahasa Indonesia (dengan lang='id'), dan mengecualikan tweet yang merupakan retweet.

#### Membaca Data dari PDF

Pada bagian ini, kita akan mempelajari cara mengambil teks dari file PDF, sehingga informasi yang ada di dalamnya dapat digunakan untuk analisis lebih lanjut dalam pemrosesan bahasa alami.

Demonstrasi berikut akan memanfaatkan pustaka Python `PyPDF2` untuk mengekstraksi teks dari file PDF. Dengan menggunakan `PyPDF2`, kita dapat dengan mudah mengakses konten dokumen PDF.

Pertama, install terlebih dahulu pustaka `PyPDF2` dan mengimpornya dalam kode program:

In [5]:
# Instalasi library PyPDF2
%pip install PyPDF2

Defaulting to user installation because normal site-packages is not writeable
Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
Installing collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1
Note: you may need to restart the kernel to use updated packages.


In [6]:
import PyPDF2
from PyPDF2 import PdfFileReader

Selanjutnya, Gunakan kode berikut untuk membuka file PDF, membaca isinya, dan mengekstrak teks dari halaman pertama:

In [7]:
# Membuka file PDF
pdf = open("file.pdf", "rb")

# Membuat objek pembaca PDF
pdf_reader = PyPDF2.PdfFileReader(pdf)

# Mengecek jumlah halaman dalam file PDF
print(pdf_reader.numPages)

# Membuat objek halaman
page = pdf_reader.getPage(0)

# Mengekstrak teks dari halaman
print(page.extractText())

# Menutup file PDF setelah selesai
pdf.close()

FileNotFoundError: [Errno 2] No such file or directory: 'file.pdf'

Penjelasan Kode:
- Pertama, file PDF dibuka dalam mode rb (read-binary).
- Objek `PdfFileReader` digunakan untuk membaca file PDF dan mengecek jumlah halaman dengan `pdf_reader.numPages`.
- Untuk mengekstrak teks, kita menggunakan metode `extractText()` pada objek halaman.
- Terakhir, file PDF ditutup setelah teks berhasil diambil.

#### Membaca Data dari file Word (Microsoft Word)

Pada bagian ini, kita akan mempelajari cara membaca data dari file Microsoft Word. File Word sering digunakan untuk menyimpan dokumen teks yang berisi informasi yang bisa dianalisis lebih lanjut dalam pemrosesan bahasa alami. Dengan menggunakan pustaka Python, kita dapat mengekstrak teks dari file Word dan memanfaatkannya untuk berbagai tujuan analisis.

Anda perlu menginstal pustaka python-docx dan mengimpornya:

In [9]:
# Instalasi pustaka python-docx
%pip install docx

Defaulting to user installation because normal site-packages is not writeable
Collecting docx
  Downloading docx-0.2.4.tar.gz (54 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Building wheels for collected packages: docx
  Building wheel for docx (pyproject.toml) ... [?25ldone
[?25h  Created wheel for docx: filename=docx-0.2.4-py3-none-any.whl size=54005 sha256=332439fa4a56e7e870af736e676736d2c524c33cbd011af7d562302399ecac2a
  Stored in directory: /home/rin1412/.cache/pip/wheels/eb/12/a3/0ba9b921d62f8f5253e74a59caa5c11a116bcf497e97eca94c
Successfully built docx
Installing collected packages: docx
Successfully installed docx-0.2.4
Note: you may need to restart the kernel to use updated packages.


In [None]:
# Mengimpor pustaka yang diperlukan
from docx import Document

Setelah pustaka diimpor, Anda dapat membuka file Word dan mengekstrak teksnya:

In [10]:
# Membuka file Word
doc = Document("file.docx")

# Membuat string kosong untuk menampung hasil ekstraksi
docu = ""

# Melakukan iterasi pada setiap paragraf dalam dokumen
for para in doc.paragraphs:
    docu += para.text + "\n"  # Menambahkan setiap paragraf ke string

# Menampilkan hasil ekstraksi teks
print(docu)

NameError: name 'Document' is not defined

Penjelasan Kode:
- `Document("file.docx")`: Membuka file `.docx`.
- `for para in doc.paragraphs`: Melakukan iterasi pada setiap paragraf dalam dokumen Word.
- `docu += para.text`: Menambahkan teks setiap paragraf ke dalam string docu.
- `print(docu)`: Menampilkan hasil ekstraksi teks.

#### Membaca Data dari file JSON

Pada bagian ini, kita akan mempelajari cara membaca data dari file JSON. JSON sering digunakan untuk menyimpan data terstruktur dalam format teks.

Anda perlu menginstal pustaka yang diperlukan dan mengimpor pustaka tersebut:

In [11]:
# Instalasi library yang diperlukan
%pip install requests

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [12]:
# Mengimpor pustaka
import requests
import json

Kemudian, kita akan mengambil data dari file JSON menggunakan pustaka `requests` dan kemudian menampilkan hasilnya:

In [13]:
# Mengambil data dari URL JSON
url = "https://quotes.rest/qod.json"
r = requests.get(url)
res = r.json()

# Menampilkan data JSON dalam format yang lebih mudah dibaca
print(json.dumps(res, indent=4))

{
    "message": "Not authenticated"
}


Setelah mendapatkan data JSON, kita dapat mengekstrak informasi spesifik dari struktur data tersebut, seperti kutipan dan penulis:

In [14]:
# Mengekstrak kutipan dari data JSON
q = res['contents']['quotes'][0]

# Menampilkan kutipan dan penulis
print(q['quote'], '\n--', q['author'])

KeyError: 'contents'

Program ini akan mengeluarkan output seperti berikut:

# Output
```
It wasn't raining when Noah built the ark....
-- Howard Ruff
```

Penjelasan:
- Kita mengambil data dari URL JSON menggunakan requests.get().
- Setelah itu, data yang diterima dikonversi menjadi format JSON dengan r.json().
- Kemudian, data kutipan dan penulis diambil dari objek JSON dan ditampilkan.