In [2]:
# Mengimpor library yang dibutuhkan
import requests  # untuk mengambil data dari website
import sqlite3   # untuk berinteraksi dengan database SQLite
import pandas as pd  # untuk memanipulasi data dalam bentuk DataFrame
from bs4 import BeautifulSoup  # untuk memproses data HTML

# Mengatur URL target, nama database SQLite, nama tabel, dan jalur file CSV
url = 'https://web.archive.org/web/20230902185655/https://en.everybodywiki.com/100_Most_Highly-Ranked_Films'
db_name = 'Movies.db'  # nama database
table_name = 'Top_50'  # nama tabel yang akan digunakan dalam database
csv_path = 'top_50_films.csv'  # jalur file CSV tempat data akan disimpan

# Membuat DataFrame kosong dengan kolom untuk menyimpan data film
df = pd.DataFrame(columns=["Average Rank", "Film", "Year"])
count = 0  # variabel untuk menghitung jumlah film yang sudah diproses

# Mengambil halaman HTML dari URL menggunakan requests
html_page = requests.get(url).text

# Memproses HTML yang diambil dengan BeautifulSoup
data = BeautifulSoup(html_page, 'html.parser')

# Mencari semua tabel pada halaman HTML
tables = data.find_all('tbody')

# Mencari semua baris pada tabel pertama (indeks 0) yang ditemukan
rows = tables[0].find_all('tr')

# Memulai iterasi untuk memproses setiap baris dalam tabel
for row in rows:
    if count < 50:  # hanya memproses 50 baris pertama
        col = row.find_all('td')  # mencari semua kolom dalam baris
        
        # Memastikan baris memiliki data (kolom tidak kosong)
        if len(col) != 0:
            # Membuat dictionary data dari baris
            data_dict = {
                "Average Rank": int(col[0].contents[0]),  # mengonversi data ranking ke integer
                "Film": str(col[1].contents[0]),  # mengonversi judul film ke string
                "Year": int(col[2].contents[0])  # mengonversi tahun rilis ke integer
            }
            
            # Membuat DataFrame sementara dari dictionary untuk baris ini
            df1 = pd.DataFrame(data_dict, index=[0])
            
            # Menggabungkan DataFrame sementara dengan DataFrame utama
            df = pd.concat([df, df1], ignore_index=True)
            count += 1  # menambah hitungan setelah berhasil menambahkan data
    else:
        break  # berhenti jika sudah ada 50 film

# Menampilkan DataFrame yang berisi 50 film teratas
print(df)

# Menyimpan DataFrame ke file CSV
df.to_csv(csv_path)

# Membuka koneksi ke database SQLite
conn = sqlite3.connect(db_name)

# Menyimpan DataFrame sebagai tabel di database SQLite
df.to_sql(table_name, conn, if_exists='replace', index=False)

# Menutup koneksi ke database setelah selesai
conn.close()


   Average Rank                                               Film  Year
0             1                                      The Godfather  1972
1             2                                       Citizen Kane  1941
2             3                                         Casablanca  1942
3             4                             The Godfather, Part II  1974
4             5                                Singin' in the Rain  1952
5             6                                             Psycho  1960
6             7                                        Rear Window  1954
7             8                                     Apocalypse Now  1979
8             9                              2001: A Space Odyssey  1968
9            10                                      Seven Samurai  1954
10           11                                            Vertigo  1958
11           12                                        Sunset Blvd  1950
12           13                                    