# alodokter cleaning

In [1]:
import os
import string
import nltk
from nltk.tokenize import word_tokenize
from tqdm import tqdm

# Download NLTK resources jika belum dilakukan sebelumnya
nltk.download('punkt')

# Daftar folder untuk dilakukan looping
folders = ['hidup-sehat', 'keluarga', 'kesehatan', 'obat-a-z', 'penyakit-a-z']

# Path dasar untuk direktori sumber dan tujuan
src_base_path = 'dataset/data_ex_3/alodokter/'
dest_base_path = 'dataset/data_ex_3_cleaning/alodokter/'

# Fungsi untuk membersihkan teks dari tanda baca menggunakan NLTK
def clean_text(text):
    text = text.lower().strip()  # Mengubah menjadi huruf kecil dan menghapus spasi di awal dan akhir
    translator = str.maketrans('', '', string.punctuation)  # Membuat translator untuk menghapus tanda baca
    text = text.translate(translator)  # Menghapus tanda baca
    return text

for folder in folders:
    src_folder_path = os.path.join(src_base_path, folder)
    
    # Buat folder tujuan jika belum ada
    dest_folder_path = os.path.join(dest_base_path, folder)
    if not os.path.exists(dest_folder_path):
        os.makedirs(dest_folder_path)

    # Lakukan looping pada semua file .txt dalam folder sumber
    file_list = os.listdir(src_folder_path)
    progress_bar = tqdm(file_list, desc=f'Processing {folder}', unit='file')

    for filename in progress_bar:
        if filename.endswith('.txt'):
            src_file_path = os.path.join(src_folder_path, filename)
            dest_file_path = os.path.join(dest_folder_path, filename)

            # Baca konten dari file sumber
            with open(src_file_path, 'r', encoding='utf-8') as src_file:
                content = src_file.read()

                # Membersihkan teks dari tanda baca, membuat huruf kecil, dan menghapus spasi di awal dan akhir
                cleaned_content = clean_text(content)

                # Menulis konten yang sudah dibersihkan ke file tujuan
                with open(dest_file_path, 'w', encoding='utf-8') as dest_file:
                    dest_file.write(cleaned_content)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gufra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
Processing hidup-sehat: 100%|██████████| 3012/3012 [00:19<00:00, 151.97file/s]
Processing keluarga: 100%|██████████| 2386/2386 [00:15<00:00, 150.73file/s]
Processing kesehatan: 100%|██████████| 2215/2215 [00:14<00:00, 149.74file/s]
Processing obat-a-z: 100%|██████████| 1348/1348 [00:09<00:00, 137.22file/s]
Processing penyakit-a-z: 100%|██████████| 1233/1233 [00:08<00:00, 137.27file/s]


# Halodoc Cleaning

In [2]:
import os
import string
import nltk
from tqdm import tqdm

# Download NLTK resources jika belum dilakukan sebelumnya
nltk.download('punkt')

# Fungsi untuk membersihkan teks dari tanda baca menggunakan NLTK
def clean_text(text):
    text = text.lower().strip()  # Mengubah menjadi huruf kecil dan menghapus spasi di awal dan akhir
    translator = str.maketrans('', '', string.punctuation)  # Membuat translator untuk menghapus tanda baca
    text = text.translate(translator)  # Menghapus tanda baca
    return text

# Folder untuk dilakukan looping
folder = 'halodoc'

# Path dasar untuk direktori sumber dan tujuan
src_base_path = 'dataset/data_ex_3/'
dest_base_path = 'dataset/data_ex_3_cleaning/'

src_folder_path = os.path.join(src_base_path, folder)

# Buat folder tujuan jika belum ada
dest_folder_path = os.path.join(dest_base_path, folder)
if not os.path.exists(dest_folder_path):
    os.makedirs(dest_folder_path)

# Lakukan looping pada semua file .txt dalam folder sumber
file_list = os.listdir(src_folder_path)
progress_bar = tqdm(file_list, desc=f'Processing {folder}', unit='file')

for filename in progress_bar:
    if filename.endswith('.txt'):
        src_file_path = os.path.join(src_folder_path, filename)
        dest_file_path = os.path.join(dest_folder_path, filename)

        # Baca konten dari file sumber
        with open(src_file_path, 'r', encoding='utf-8') as src_file:
            content = src_file.read()

            # Membersihkan teks dari tanda baca, membuat huruf kecil, dan menghapus spasi di awal dan akhir
            cleaned_content = clean_text(content)

            # Menulis konten yang sudah dibersihkan ke file tujuan
            with open(dest_file_path, 'w', encoding='utf-8') as dest_file:
                dest_file.write(cleaned_content)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gufra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
Processing halodoc: 100%|██████████| 1419/1419 [00:10<00:00, 140.58file/s]


# News Health Cleaning

In [3]:
import os
import pandas as pd
import nltk
import string

# Download NLTK resources jika belum dilakukan sebelumnya
nltk.download('punkt')

from nltk.tokenize import word_tokenize

# Fungsi untuk membersihkan teks dari tanda baca menggunakan NLTK
def clean_text(text):
    text = text.lower().strip()  # Mengubah menjadi huruf kecil dan menghapus spasi di awal dan akhir
    translator = str.maketrans('', '', string.punctuation)  # Membuat translator untuk menghapus tanda baca
    text = text.translate(translator)  # Menghapus tanda baca
    return text

# Lokasi file CSV
csv_file = 'dataset/data_ex_3/news_health/cnn_indonesia_health.csv'

# Baca file CSV
df = pd.read_csv(csv_file)

# Path dasar untuk direktori tujuan
dest_base_path = 'dataset/data_ex_3_cleaning/news_health/'

# Buat folder tujuan jika belum ada
if not os.path.exists(dest_base_path):
    os.makedirs(dest_base_path)

# Lakukan looping pada setiap baris dalam DataFrame
for index, row in df.iterrows():
    # Ambil judul dan konten
    title = row['judul']
    content = row['content']

    # Check if title is a string
    if isinstance(title, str):
        # Bersihkan judul menggunakan NLTK
        title = clean_text(title)

        # Buat nama file dari judul
        filename = f"{title}.txt"
        file_path = os.path.join(dest_base_path, filename)

        # Check if content is a string before writing to file
        if isinstance(content, str):
            # Bersihkan konten menggunakan NLTK
            content = clean_text(content)

            # Tulis konten ke file
            with open(file_path, 'w', encoding='utf-8') as file:
                file.write(content)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gufra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# QNA Cleaning

In [12]:
import pandas as pd
from bs4 import BeautifulSoup
import os

# Baca file CSV
df = pd.read_csv('dataset/data_ex_3/qna_alodokter/chat_health.csv')

# Bersihkan data HTML dan ubah ke huruf kecil
df['jawab'] = df['jawab'].apply(lambda x: BeautifulSoup(x, 'html.parser').get_text().lower().strip())

# Pastikan folder 'cleaning' ada
if not os.path.exists('dataset/data_ex_3_cleaning/qna_alodokter/'):
    os.makedirs('dataset/data_ex_3_cleaning/qna_alodokter/')

# Simpan ke file TXT dengan encoding 'utf-8'
with open('dataset/data_ex_3_cleaning/qna_alodokter/data_bersih.txt', 'w', encoding='utf-8') as file:
    for index, row in df.iterrows():
        file.write(row['jawab'] + '\n')
        file.write('==================' + '\n')

print('Data telah dibersihkan dan disimpan di folder cleaning.')

Data telah dibersihkan dan disimpan di folder cleaning.


# Merge Data

In [4]:
# ALODOKTER ARTICLE

import os

# Tentukan path ke direktori utama di mana subfolder 'alodokter' berada
root_dir = 'dataset/data_ex_3_cleaning/'

# Path ke subfolder 'alodokter'
alodokter_dir = os.path.join(root_dir, 'alodokter')

# Mencari semua subfolder di dalam direktori 'alodokter'
subfolders = [os.path.join(alodokter_dir, o) for o in os.listdir(alodokter_dir) 
              if os.path.isdir(os.path.join(alodokter_dir, o))]

# File tempat semua konten akan digabungkan
output_file = os.path.join(root_dir, 'alodokter_article.txt')

# Membuka file output untuk menulis
with open(output_file, 'w', encoding='utf-8') as outfile:
    # Iterasi melalui setiap subfolder
    for folder in subfolders:
        # Iterasi melalui setiap file dalam subfolder
        for filename in os.listdir(folder):
            if filename.endswith('.txt'):
                # Path ke file txt
                file_path = os.path.join(folder, filename)
                
                # Membuka file txt dengan encoding 'utf-8' dan menulis isinya ke file output
                with open(file_path, 'r', encoding='utf-8') as readfile:
                    outfile.write(f"file {filename}\n\n")
                    outfile.write(readfile.read())
                    outfile.write("\n\n=========================\n\n")

print(f"Semua file telah digabungkan ke dalam {output_file}")

Semua file telah digabungkan ke dalam dataset/data_ex_3_cleaning/alodokter_article.txt


In [5]:
import os

# Tentukan path ke direktori 'halodoc'
halodoc_dir = 'dataset/data_ex_3_cleaning/halodoc'

# File tempat semua konten akan digabungkan
output_file = os.path.join(halodoc_dir, 'halodoc_article.txt')

# Membuka file output untuk menulis
with open(output_file, 'w', encoding='utf-8') as outfile:
    # Iterasi melalui setiap file dalam direktori 'halodoc'
    for filename in os.listdir(halodoc_dir):
        if filename.endswith('.txt'):
            # Path ke file txt
            file_path = os.path.join(halodoc_dir, filename)
            
            # Membuka file txt dengan encoding 'utf-8' dan menulis isinya ke file output
            with open(file_path, 'r', encoding='utf-8') as readfile:
                outfile.write(f"file {filename}\n\n")
                outfile.write(readfile.read())
                outfile.write("\n\n=========================\n\n")

print(f"Semua file telah digabungkan ke dalam {output_file}")

Semua file telah digabungkan ke dalam dataset/data_ex_3_cleaning/halodoc\halodoc_article.txt


In [6]:
import os

# Tentukan path ke direktori 'news_cnn'
news_cnn_dir = 'dataset/data_ex_3_cleaning/news_health'

# File tempat semua konten akan digabungkan
output_file = os.path.join("dataset/data_ex_3_cleaning/", 'news_cnn.txt')

# Membuka file output untuk menulis
with open(output_file, 'w', encoding='utf-8') as outfile:
    # Iterasi melalui setiap file dalam direktori 'news_cnn'
    for filename in os.listdir(news_cnn_dir):
        if filename.endswith('.txt'):
            # Path ke file txt
            file_path = os.path.join(news_cnn_dir, filename)
            
            # Membuka file txt dengan encoding 'utf-8' dan menulis isinya ke file output
            with open(file_path, 'r', encoding='utf-8') as readfile:
                outfile.write(f"file {filename}\n\n")
                outfile.write(readfile.read())
                outfile.write("\n\n=========================\n\n")

print(f"Semua file telah digabungkan ke dalam {output_file}")

Semua file telah digabungkan ke dalam dataset/data_ex_3_cleaning/news_cnn.txt


# Embeddings

In [1]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from itertools import chain

In [2]:
loader = TextLoader("dataset/data_ex_3_cleaning/alodokter/alodokter_article.txt", encoding="utf-8")
docs = loader.load()

loader2 = TextLoader("dataset/data_ex_3_cleaning/halodoc/halodoc_article.txt", encoding="utf-8")
docs2 = loader2.load()

loader3 = TextLoader("dataset/data_ex_3_cleaning/news_health/news_cnn.txt", encoding="utf-8")
docs3 = loader3.load()

In [3]:
from itertools import chain
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=250,
    separators=[""])

texts = text_splitter.split_documents(docs)
texts2 = text_splitter.split_documents(docs2)
texts3 = text_splitter.split_documents(docs3)

list_data = list(chain(texts, texts2, texts3))

len(list_data)

117898

In [4]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.vectorstores import Chroma

embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key="AIzaSyDpEh8S4jo__bjNtJy2hN9cX838FZyF4Ww")

persist_directory = "db_V2_noQA"
vectordb = Chroma.from_documents(documents=list_data,
                                 embedding=embeddings,
                                 persist_directory= persist_directory)

  from .autonotebook import tqdm as notebook_tqdm
