<a href="https://colab.research.google.com/github/rezaldii/Analyzing-Wikipedia-Pages/blob/main/Analyzing_Wikipedia_Pages.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyzing Wikipedia Pages

In [None]:
# Instalasi Library Requests dan BeautifulSoup
!pip install requests beautifulsoup4



## Mengunduh dan Menyimpan 1000 Halaman Wikipedia Acak dengan Validasi Duplikat

Kode ini digunakan untuk mengunduh **1000 halaman acak dari Wikipedia** tanpa duplikat dan menyimpannya di folder lokal bernama `wiki`. Berikut penjelasan sederhananya:

---

1. **`get_article_title(html_content)`**:
   - Mengekstrak judul halaman Wikipedia dari HTML.
   - Membersihkan judul dari karakter ilegal dan mengubahnya menjadi nama file yang valid (contoh: `Judul_Halaman.html`).

---

2. **`get_random_wikipedia_pages(num_pages)`**:
   - Mengunduh halaman acak dari Wikipedia menggunakan URL khusus (`https://en.wikipedia.org/wiki/Special:Random`).
   - Menggunakan **set** (`unique_urls`) untuk memastikan tidak ada halaman yang diunduh lebih dari sekali.
   - Menambahkan jeda **1 detik** antara setiap unduhan untuk menghormati batasan API Wikipedia.
   - Menyimpan setiap halaman yang berhasil diunduh sebagai tuple berisi URL dan konten HTML.

---

3. **`save_pages_to_folder(pages, folder_name="wiki")`**:
   - Menyimpan halaman yang diunduh ke folder `wiki`. Jika folder belum ada, kode akan membuatnya.
   - Nama file diambil dari judul halaman yang sudah dibersihkan.
   - Jika file dengan nama yang sama sudah ada, file tersebut dilewati untuk menghindari duplikasi.

---

4. **Proses Utama**:
   - Mengunduh 1000 halaman acak dari Wikipedia.
   - Mencetak status pengunduhan (misalnya, "Berhasil mengunduh Halaman ke-X" atau "Halaman sudah ada. Melewati...").
   - Menyimpan semua halaman ke folder `wiki` dan mencetak jumlah total halaman yang berhasil disimpan.

---

In [None]:
import requests
from bs4 import BeautifulSoup
import os
import time

# Fungsi untuk mendapatkan judul Pages dari halaman HTML
def get_article_title(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    title_tag = soup.find('h1', {'id': 'firstHeading'})
    if title_tag:
        title = title_tag.text.strip()
        # Membersihkan karakter ilegal dari nama file
        clean_title = "".join([c for c in title if c.isalpha() or c.isdigit() or c in (' ', '-', '_')]).rstrip()
        return clean_title.replace(" ", "_") + ".html"
    return None

# Fungsi untuk mendapatkan Pages acak dari Wikipedia
def get_random_wikipedia_pages(num_pages):
    pages = []
    unique_urls = set()  # Set untuk menyimpan URL unik

    while len(pages) < num_pages:
        # URL untuk mendapatkan Pages acak
        url = "https://en.wikipedia.org/wiki/Special:Random"
        response = requests.get(url)

        # Dapatkan konten HTML dari Pages tersebut
        if response.status_code == 200:
            if response.url not in unique_urls:  # Cek apakah URL sudah ada di set
                unique_urls.add(response.url)  # Tambahkan URL ke set
                pages.append((response.url, response.text))
                print(f"Berhasil mengunduh Pages ke-{len(pages)}")
            else:
                print(f"Pages dengan URL {response.url} sudah diunduh sebelumnya. Mencoba lagi...")
        else:
            print(f"Gagal mengambil Pages dari {url}. Mencoba lagi...")

        # Menghormati batasan API dengan menunggu 1 detik
        time.sleep(1)

    return pages

# Fungsi untuk menyimpan Pages ke folder wiki dengan nama asli Pages
def save_pages_to_folder(pages, folder_name="wiki"):
    # Membuat folder jika belum ada
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

    for article_url, article_html in pages:
        # Dapatkan nama file berdasarkan judul Pages
        file_name = get_article_title(article_html)
        if file_name:
            file_path = os.path.join(folder_name, file_name)
            if not os.path.exists(file_path):  # Cek apakah file sudah ada
                with open(file_path, "w", encoding="utf-8") as file:
                    file.write(article_html)
                print(f"Pages disimpan: {file_path}")
            else:
                print(f"Pages dengan judul {file_name} sudah ada. Melewati...")
        else:
            print(f"Gagal mendapatkan judul Pages dari {article_url}")

# Jumlah Pages yang ingin diunduh
num_pages = 1000

# Mendapatkan Pages acak
print("Mengunduh Pages...")
pages = get_random_wikipedia_pages(num_pages)

# Menyimpan Pages ke folder wiki
print("Menyimpan Pages ke folder wiki...")
save_pages_to_folder(pages)

print(f"Selesai! {len(pages)} Pages telah disimpan dalam folder 'wiki'.")

Mengunduh Pages...
Berhasil mengunduh Pages ke-1
Berhasil mengunduh Pages ke-2
Berhasil mengunduh Pages ke-3
Berhasil mengunduh Pages ke-4
Berhasil mengunduh Pages ke-5
Berhasil mengunduh Pages ke-6
Berhasil mengunduh Pages ke-7
Berhasil mengunduh Pages ke-8
Berhasil mengunduh Pages ke-9
Berhasil mengunduh Pages ke-10
Berhasil mengunduh Pages ke-11
Berhasil mengunduh Pages ke-12
Berhasil mengunduh Pages ke-13
Berhasil mengunduh Pages ke-14
Berhasil mengunduh Pages ke-15
Berhasil mengunduh Pages ke-16
Berhasil mengunduh Pages ke-17
Berhasil mengunduh Pages ke-18
Berhasil mengunduh Pages ke-19
Berhasil mengunduh Pages ke-20
Berhasil mengunduh Pages ke-21
Berhasil mengunduh Pages ke-22
Berhasil mengunduh Pages ke-23
Berhasil mengunduh Pages ke-24
Berhasil mengunduh Pages ke-25
Berhasil mengunduh Pages ke-26
Berhasil mengunduh Pages ke-27
Berhasil mengunduh Pages ke-28
Berhasil mengunduh Pages ke-29
Berhasil mengunduh Pages ke-30
Berhasil mengunduh Pages ke-31
Berhasil mengunduh Pages ke-3

## Menghitung Jumlah File dalam Folder Dataset Wiki

In [1]:
import os

# Path ke folder dataset Wikipedia
dataset_path = "/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki"

# Memastikan folder dataset ada
if not os.path.exists(dataset_path):
    raise FileNotFoundError(f"Folder tidak ditemukan: {dataset_path}")

# Mendapatkan daftar nama file dalam folder dataset
file_names = os.listdir(dataset_path)

# Menampilkan jumlah file yang ditemukan
print(f"Jumlah file dalam folder '{dataset_path}': {len(file_names)}")

Jumlah file dalam folder '/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki': 1000


## Membaca dan Menampilkan Seluruh Konten File Pertama dari Dataset Wiki

Kode ini digunakan untuk **membaca dan menampilkan seluruh isi file pertama** dari folder dataset Wikipedia yang disimpan di Google Drive. Berikut penjelasan singkatnya:

1. **`dataset_path`**:  
   - Menyimpan lokasi folder dataset di Google Drive.

2. **Cek Folder dan File**:  
   - Kode memeriksa apakah folder dataset ada. Jika tidak, muncul pesan error (`FileNotFoundError`).  
   - Kode juga memastikan folder tidak kosong. Jika kosong, muncul pesan error (`ValueError`).

3. **Baca File Pertama**:  
   - Kode mengambil file pertama di folder, lalu membacanya dengan encoding `utf-8` agar bisa membaca karakter khusus.

4. **Tampilkan Konten File**:  
   - Seluruh isi file ditampilkan tanpa batasan karakter.  
   - Jika ada error saat membaca file (misalnya file rusak), kode akan menampilkan pesan error.

---

In [2]:
# Memastikan ada file dalam folder
if not file_names:
    raise ValueError("Tidak ada file dalam folder dataset.")

# Membuka dan membaca file pertama dalam folder
first_file_path = os.path.join(dataset_path, file_names[0])

try:
    with open(first_file_path, "r", encoding="utf-8") as f:
        file_content = f.read()
        print("Konten dari file pertama:")
        print(file_content)
except Exception as e:
    print(f"Gagal membaca file '{first_file_path}': {e}")

Konten dari file pertama:
<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="en" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Asdorf - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-e

## Implementasi MapReduce dengan Multiprocessing

  Kode ini adalah implementasi **MapReduce** menggunakan **multiprocessing** untuk memproses data secara paralel.  

1. **`make_chunks(data, num_chunks)`**:  
   Fungsi ini membagi data menjadi beberapa bagian (chunks) berdasarkan jumlah proses yang diinginkan. Ukuran setiap chunk dihitung menggunakan `math.ceil`.

2. **`map_reduce(data, num_processes, mapper, reducer)`**:  
   - Data dibagi menjadi chunks menggunakan `make_chunks`.  
   - Setiap chunk diproses secara paralel oleh fungsi `mapper` menggunakan `multiprocessing.Pool`.  
   - Hasil dari semua proses digabungkan menggunakan fungsi `reducer` dengan bantuan `functools.reduce`.  

In [3]:
import math
from multiprocessing import Pool
from functools import reduce

def make_chunks(data, num_chunks):
    """Membagi data menjadi beberapa bagian (chunks) berdasarkan jumlah proses."""
    chunk_size = math.ceil(len(data) / num_chunks)
    return [data[i:i + chunk_size] for i in range(0, len(data), chunk_size)]

def map_reduce(data, num_processes, mapper, reducer):
    """
    Melakukan MapReduce pada data menggunakan multiprocessing.
    - `data`: Data yang akan diproses.
    - `num_processes`: Jumlah proses paralel.
    - `mapper`: Fungsi untuk memetakan data.
    - `reducer`: Fungsi untuk menggabungkan hasil pemetaan.
    """
    # Membagi data menjadi chunks
    chunks = make_chunks(data, num_processes)

    # Membuat pool proses dan menjalankan mapper
    with Pool(num_processes) as pool:
        chunk_results = pool.map(mapper, chunks)

    # Menggabungkan hasil menggunakan reducer
    return reduce(reducer, chunk_results)

## Menghitung Total Baris di Semua File Wikipedia dengan Pemrosesan Paralel

  Kode ini bertujuan untuk **menghitung total jumlah baris dari semua file dalam folder dataset Wikipedia** menggunakan **pemrosesan paralel** untuk mempercepat proses.  

1. **`map_line_count(file_info_list)`**: Menghitung jumlah baris dari daftar file yang diberikan, dengan penanganan kesalahan jika file tidak dapat dibaca.  
2. **`reduce_line_count(count1, count2)`**: Menggabungkan hasil perhitungan baris dari berbagai proses.  
3. **`count_lines_in_wiki_files(dataset_path, num_processes=8)`**:  
   - Memeriksa keberadaan folder dataset.  
   - Mengambil semua file dalam folder dan membaginya menjadi bagian-bagian untuk diproses secara paralel.  
   - Menggunakan `multiprocessing.Pool` untuk memproses file secara bersamaan.  
   - Menggabungkan hasil dari semua proses untuk mendapatkan total baris.  

In [15]:
def map_line_count(file_info_list):
    """Menghitung jumlah baris dalam file menggunakan path lengkap."""
    total = 0
    for filepath in file_info_list:
        try:
            with open(filepath, 'r', encoding='utf-8') as file:
                total += len(file.readlines())
        except Exception as e:
            print(f"Gagal memproses {filepath}: {e}")
    return total

def reduce_line_count(count1, count2):
    """Menggabungkan jumlah baris dari beberapa proses."""
    return count1 + count2

def count_lines_in_wiki_files(dataset_path, num_processes=8):
    """Menghitung total baris di semua file wiki menggunakan pemrosesan paralel.

    Args:
        dataset_path (str): Path lengkap ke direktori file wiki.
        num_processes (int): Jumlah proses paralel yang digunakan.

    Returns:
        int: Jumlah total baris di semua file.
    """
    # Cek apakah direktori ada
    if not os.path.exists(dataset_path):
        raise FileNotFoundError(f"Direktori tidak ditemukan: {dataset_path}")

    # Dapatkan path lengkap semua file dalam direktori
    file_paths = [
        os.path.join(dataset_path, f)
        for f in os.listdir(dataset_path)
        if os.path.isfile(os.path.join(dataset_path, f))
    ]

    # Jika tidak ada file yang ditemukan
    if not file_paths:
        print(f"Tidak ada file yang ditemukan di {dataset_path}")
        return 0

    # Bagi file menjadi bagian untuk pemrosesan paralel
    chunks = [file_paths[i::num_processes] for i in range(num_processes)]

    # Proses secara paralel
    with Pool(num_processes) as pool:
        results = pool.map(map_line_count, chunks)

    # Gabungkan hasil
    total_lines = reduce(reduce_line_count, results)
    return total_lines


dataset_path = "/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki"

try:
    total_lines = count_lines_in_wiki_files(dataset_path)
    print(f"Total baris di semua file wiki: {total_lines}")
except Exception as e:
    print(f"Terjadi kesalahan: {e}")


Total baris di semua file wiki: 1062604


## Pencarian Paralel Kata Kunci di Dataset Wikipedia

Kode ini digunakan untuk **mencari kemunculan kata kunci (`target`) di semua file dalam folder dataset Wikipedia** menggunakan pendekatan **MapReduce** dan **pemrosesan paralel**.

1. **`map_grep(file_names, target)`**:  
   - Membaca setiap file dalam daftar `file_names`.  
   - Mencari baris yang mengandung kata kunci `target` dan menyimpan indeks baris tersebut.  
   - Mengembalikan hasil dalam bentuk dictionary, dengan nama file sebagai kunci dan indeks baris sebagai nilai.

2. **`reduce_grep(lines1, lines2)`**:  
   - Menggabungkan hasil dari beberapa proses menjadi satu dictionary.

3. **`mapreduce_grep(path, target, num_processes)`**:  
   - Memeriksa keberadaan folder dataset.  
   - Mengambil daftar file di folder dan membaginya menjadi bagian-bagian untuk diproses secara paralel.  
   - Menggunakan `multiprocessing.Pool` untuk menjalankan `map_grep` secara bersamaan.  
   - Menggabungkan hasil dari semua proses menggunakan `reduce_grep`.

In [18]:
# Fungsi mapper untuk mencari target di setiap file
def map_grep(file_names, target):
    """
    Mencari kemunculan target di setiap file.
    Mengembalikan dictionary dengan nama file sebagai kunci dan indeks baris sebagai nilai.
    """
    results = {}
    for fn in file_names:
        try:
            with open(fn, "r", encoding="utf-8") as f:
                matches = [line_index for line_index, line in enumerate(f) if target in line]
                if matches:
                    results[fn] = matches
        except Exception as e:
            print(f"Gagal membaca file '{fn}': {e}")
    return results

# Fungsi reducer untuk menggabungkan hasil dari beberapa proses
def reduce_grep(lines1, lines2):
    """
    Menggabungkan dua dictionary hasil pencarian.
    """
    lines1.update(lines2)
    return lines1

# Fungsi utama MapReduce untuk mencari target di semua file dalam folder
def mapreduce_grep(path, target, num_processes=8):
    """
    Melakukan pencarian target di semua file dalam folder menggunakan MapReduce.
    Args:
        path (str): Path ke folder yang berisi file.
        target (str): Kata kunci yang dicari.
        num_processes (int): Jumlah proses paralel.
    Returns:
        dict: Dictionary dengan nama file sebagai kunci dan indeks baris sebagai nilai.
    """
    # Validasi folder
    if not os.path.exists(path):
        raise FileNotFoundError(f"Folder tidak ditemukan: {path}")

    # Mendapatkan daftar file di folder
    file_names = [
        os.path.join(path, fn)
        for fn in os.listdir(path)
        if os.path.isfile(os.path.join(path, fn))
    ]

    # Jika tidak ada file yang ditemukan
    if not file_names:
        print(f"Tidak ada file yang ditemukan di {path}")
        return {}

    # Membagi file menjadi chunks untuk pemrosesan paralel
    chunks = [file_names[i::num_processes] for i in range(num_processes)]

    # Proses secara paralel
    with Pool(num_processes) as pool:
        chunk_results = pool.starmap(map_grep, [(chunk, target) for chunk in chunks])

    # Menggabungkan hasil dari semua proses
    final_result = {}
    for result in chunk_results:
        final_result.update(result)

    return final_result

# Target pencarian
target = "data"

# Path ke folder dataset
dataset_path = "/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki"

# Jalankan MapReduce untuk mencari target di folder dataset
try:
    data_occurrences = mapreduce_grep(dataset_path, target)
    print(f"Kemunculan kata '{target}' ditemukan di:")
    for file, line_indices in data_occurrences.items():
        print(f"  - File: {file}, Baris: {line_indices}")
except Exception as e:
    print(f"Terjadi kesalahan: {e}")

Kemunculan kata 'data' ditemukan di:
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Asdorf.html, Baris: [6, 53, 66, 67, 68, 69, 72, 73, 135, 180, 213, 215, 217, 229, 288, 293, 294, 299, 300, 348, 366, 377, 379, 403, 446, 457, 458, 459, 460, 463, 464, 518, 547, 548, 549, 550, 553, 554, 564, 567, 576, 577, 584, 591, 598, 599, 637, 638, 678, 688, 707, 725, 729, 733, 737, 741, 745, 749, 755, 759, 774]
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Turki_urban-type_settlement.html, Baris: [6, 44, 57, 58, 59, 60, 63, 64, 126, 171, 204, 206, 208, 220, 279, 284, 285, 290, 291, 327, 345, 356, 358, 382, 425, 436, 437, 438, 439, 442, 443, 497, 526, 527, 528, 529, 532, 533, 543, 546, 554, 555, 556, 560, 562, 564, 568, 570, 573, 663, 693, 701, 702, 742, 752, 771, 789, 793, 797, 801, 805, 809, 813, 819, 823, 837, 838]
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Franz_Schlik.html, Bari

Output yang dihasilkan menunjukkan **daftar file dan nomor baris di mana kata kunci "data" ditemukan**. Setiap file yang berisi kata "data" dicantumkan dengan indeks baris spesifik di mana kata tersebut muncul.

Output ini berguna untuk:
1. **Analisis Data**: Mengetahui di mana kata "data" muncul dalam dataset Wikipedia, sehingga memudahkan analisis konten terkait.
2. **Pencarian Informasi**: Membantu pengguna menemukan file dan lokasi spesifik (baris) yang relevan dengan topik tertentu.

## Pencarian Paralel Case-Insensitive di Dataset Wiki

Kode ini digunakan untuk **mencari kemunculan kata kunci (`target`) secara case-insensitive di semua file dalam folder dataset Wikipedia** menggunakan pendekatan **MapReduce** dan **pemrosesan paralel**.

1. **`map_grep_insensitive(file_names, target)`**:  
   - Membaca setiap file dalam daftar `file_names`.  
   - Mengonversi semua baris ke huruf kecil untuk memastikan pencarian case-insensitive.  
   - Mencari baris yang mengandung kata kunci `target` (dikonversi ke huruf kecil) dan menyimpan indeks baris tersebut.  
   - Mengembalikan hasil dalam bentuk dictionary, dengan nama file sebagai kunci dan indeks baris sebagai nilai.

2. **`reduce_grep(lines1, lines2)`**:  
   - Menggabungkan hasil dari beberapa proses menjadi satu dictionary.

3. **`mapreduce_grep_insensitive(path, target, num_processes)`**:  
   - Memeriksa keberadaan folder dataset.  
   - Mengambil daftar file di folder dan membaginya menjadi bagian-bagian untuk diproses secara paralel.  
   - Menggunakan `multiprocessing.Pool` untuk menjalankan `map_grep_insensitive` secara bersamaan.  
   - Menggabungkan hasil dari semua proses menggunakan `reduce_grep`.

4. **Output**:  
   - Menampilkan file dan indeks baris di mana kata kunci `target` ditemukan, tanpa memperhatikan besar/kecil huruf.

In [20]:
# Fungsi mapper untuk pencarian case-insensitive
def map_grep_insensitive(file_names, target):
    """
    Mencari kemunculan target (case-insensitive) di setiap file.
    Mengembalikan dictionary dengan nama file sebagai kunci dan indeks baris sebagai nilai.
    """
    results = {}
    for fn in file_names:
        try:
            with open(fn, "r", encoding="utf-8") as f:
                lines = [line.lower() for line in f.readlines()]
                matches = [
                    line_index for line_index, line in enumerate(lines) if target.lower() in line
                ]
                if matches:
                    results[fn] = matches
        except Exception as e:
            print(f"Gagal membaca file '{fn}': {e}")
    return results

# Fungsi reducer untuk menggabungkan hasil dari beberapa proses
def reduce_grep(lines1, lines2):
    """
    Menggabungkan dua dictionary hasil pencarian.
    """
    lines1.update(lines2)
    return lines1

# Fungsi utama MapReduce untuk pencarian case-insensitive
def mapreduce_grep_insensitive(path, target, num_processes=8):
    """
    Melakukan pencarian target (case-insensitive) di semua file dalam folder menggunakan MapReduce.
    Args:
        path (str): Path ke folder yang berisi file.
        target (str): Kata kunci yang dicari (case-insensitive).
        num_processes (int): Jumlah proses paralel.
    Returns:
        dict: Dictionary dengan nama file sebagai kunci dan indeks baris sebagai nilai.
    """
    # Validasi folder
    if not os.path.exists(path):
        raise FileNotFoundError(f"Folder tidak ditemukan: {path}")

    # Mendapatkan daftar file di folder
    file_names = [
        os.path.join(path, fn)
        for fn in os.listdir(path)
        if os.path.isfile(os.path.join(path, fn))
    ]

    # Jika tidak ada file yang ditemukan
    if not file_names:
        print(f"Tidak ada file yang ditemukan di {path}")
        return {}

    # Membagi file menjadi chunks untuk pemrosesan paralel
    chunks = [file_names[i::num_processes] for i in range(num_processes)]

    # Proses secara paralel
    with Pool(num_processes) as pool:
        chunk_results = pool.starmap(
            map_grep_insensitive, [(chunk, target) for chunk in chunks]
        )

    # Menggabungkan hasil dari semua proses
    final_result = {}
    for result in chunk_results:
        final_result.update(result)

    return final_result

# Target pencarian (case-insensitive)
target = "data"

# Jalankan MapReduce untuk mencari target di folder "wiki"
try:
    new_data_occurrences = mapreduce_grep_insensitive(dataset_path, target)
    print(f"Kemunculan kata '{target}' (case-insensitive) ditemukan di:")
    for file, line_indices in new_data_occurrences.items():
        print(f"  - File: {file}, Baris: {line_indices}")
except Exception as e:
    print(f"Terjadi kesalahan: {e}")

Kemunculan kata 'data' (case-insensitive) ditemukan di:
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Asdorf.html, Baris: [6, 53, 66, 67, 68, 69, 72, 73, 135, 180, 213, 215, 217, 229, 288, 293, 294, 299, 300, 348, 366, 377, 379, 403, 446, 457, 458, 459, 460, 463, 464, 518, 547, 548, 549, 550, 553, 554, 564, 567, 576, 577, 584, 591, 598, 599, 637, 638, 678, 688, 707, 725, 729, 733, 737, 741, 745, 749, 755, 759, 773, 774]
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Turki_urban-type_settlement.html, Baris: [6, 44, 57, 58, 59, 60, 63, 64, 126, 171, 204, 206, 208, 220, 279, 284, 285, 290, 291, 327, 345, 356, 358, 382, 425, 436, 437, 438, 439, 442, 443, 497, 526, 527, 528, 529, 532, 533, 543, 546, 554, 555, 556, 560, 562, 564, 568, 570, 573, 663, 693, 701, 702, 742, 752, 771, 789, 793, 797, 801, 805, 809, 813, 819, 823, 837, 838]
  - File: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki

## Membandingkan Hasil Pencarian Baru dengan Hasil Sebelumnya

Kode ini digunakan untuk **membandingkan hasil pencarian kata kunci antara data baru (`new_data_occurrences`) dan data sebelumnya (`data_occurrences`)**. Jika ditemukan file baru atau tambahan kemunculan kata kunci di file yang sudah ada, kode akan mencetak informasi tentang jumlah kecocokan baru yang ditemukan.

- **File baru**: Jika file tidak ada di hasil sebelumnya, cetak total kecocokan baru.
- **File lama dengan kecocokan tambahan**: Jika file sudah ada tetapi memiliki lebih banyak kecocokan baru, cetak jumlah tambahan kecocokan.

In [21]:
# Membandingkan hasil pencarian baru dengan hasil sebelumnya
for file_name in new_data_occurrences:
    if file_name not in data_occurrences:
        # Jika file baru ditemukan dalam hasil pencarian
        print(f"Found {len(new_data_occurrences[file_name])} new matches in file: {file_name}")
    elif len(new_data_occurrences[file_name]) > len(data_occurrences[file_name]):
        # Jika ada lebih banyak kemunculan di file yang sudah ada
        new_matches = len(new_data_occurrences[file_name]) - len(data_occurrences[file_name])
        print(f"Found {new_matches} additional matches in file: {file_name}")

Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Asdorf.html
Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Hamamelis_japonica.html
Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Christchurch_Catholic_Cathedral.html
Found 2 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Dependency_injection.html
Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Wyoming_station_SEPTA.html
Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Heydarabad_Sufian.html
Found 1 additional matches in file: /content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki/Unfolding_Rhythms.html
Found 1 additional matches in file: /content/drive/

Output ini menunjukkan hasil perbandingan antara **data pencarian baru** (`new_data_occurrences`) dan **data pencarian sebelumnya** (`data_occurrences`). Setiap baris mencatat file yang memiliki **kecocokan tambahan** (kemunculan kata kunci baru atau lebih banyak dibandingkan dengan data sebelumnya). Informasi yang ditampilkan berupa nama file dan jumlah kecocokan tambahan yang ditemukan.

---

### Outputnya Untuk Apa:
Output ini berguna untuk:
1. **Identifikasi Perubahan**: Mengetahui file mana saja yang mengandung lebih banyak kemunculan kata kunci dibandingkan hasil pencarian sebelumnya.
2. **Pemantauan Data Baru**: Memastikan bahwa data baru yang dianalisis benar-benar relevan dan memberikan informasi tambahan.

## Mencari Semua Indeks Kemunculan Substring dalam String

Kode ini digunakan untuk **mencari semua indeks awal kemunculan sebuah substring (`target`) dalam sebuah string (`line`)**. Fungsi ini berguna untuk analisis teks, seperti menemukan lokasi spesifik kata tertentu dalam dokumen atau kalimat.

- **Input**: Sebuah string (`line`) dan substring yang ingin dicari (`target`).
- **Output**: Daftar indeks awal setiap kemunculan substring dalam string.
- Kata `"data"` ditemukan pada indeks `0`, `27`, dan `65` dalam string `s`.

In [22]:
def find_match_indexes(line, target):
    """
    Mencari semua indeks kemunculan kata target dalam sebuah string.

    Args:
        line (str): String yang akan dicari.
        target (str): Kata atau substring yang ingin dicari.

    Returns:
        list: Daftar indeks awal setiap kemunculan target dalam line.
    """
    results = []
    i = line.find(target)
    while i != -1:
        results.append(i)
        i = line.find(target, i + len(target))  # Lanjutkan pencarian dari posisi setelah kemunculan sebelumnya
    return results

# Test implementation
s = "Data science is related to data mining, machine learning and big data.".lower()
print(find_match_indexes(s, "data"))

[0, 27, 65]
