In [1]:
import requests
from bs4 import BeautifulSoup
import json

In [11]:

def scrape_faqs(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Charset": "utf-8"
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'  
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        faq_items = soup.find_all('div', class_='question-and-answer')
        faq_list = []
        
        for item in faq_items:
            try:
                
                question_div = item.find('div', class_='text-indigo-800')
                question = question_div.get_text(strip=True) if question_div else ""
                
                
                answer_div = item.find('dd', class_='mt-2')
                answer = answer_div.get_text(' ', strip=True) if answer_div else ""
                
                if question and answer:
                    
                    faq_list.append({
                        "instruction": "Answer the following banking FAQ question", 
                        "input": question,
                        "output": answer,
                        "source": "Commercial Bank of Eth",
                        "language": "አማርኛ" if any('\u1200' <= c <= '\u137F' for c in question) else "English"
                    })
                    
            except Exception as e:
                print(f"Error processing item: {str(e)}")
                continue
                
        return faq_list
        
    except Exception as e:
        print(f"Scraping failed: {str(e)}")
        return []


url = "https://combanketh.et/en/faq/"
faqs = scrape_faqs(url)


with open('Commercial_bank.json', 'w', encoding='utf-8') as f:
    json.dump(faqs, f, indent=2, ensure_ascii=False)  
if faqs:
    print(f"Scraped {len(faqs)} FAQs")
    print("Sample:")
    print(json.dumps(faqs[0], indent=2, ensure_ascii=False))
else:
    print("No FAQs found")

Scraped 12 FAQs
Sample:
{
  "instruction": "Answer the following banking FAQ question",
  "input": "ዕድሜያቸው 18 ዓመት እና ከዚያ በላይ ለሆኑ ልጆች for account ለመክፈት የባንኩ አሠራር ይፈቅዳል? ካልፈቀደ ምክንያቱ ምንድነው?",
  "output": "For account ከዚህ በፊትም በልምድ የተጀመረ እንጂ በመመሪያ ተደግፎ እንደአሠራር የተጀመረ ነገር አልነበረም፡፡ አሁን ባለው መመሪያ ይህ አሠራር የተፈቀደ አይደለም፡፡ ምክንያቱም፤\nFor account ሒሳቡ የተከፈተለትን ግለሰብ መብት የሚያስጠብቅ አይደለም፡፡ ለምሳሌ፣ ለልጁ ወይም ለሠራተኛው እንዲህ ዓይነት ሒሳብ የከፈተ ሰው ቢሞት፣ የተከፈተለት ሰው ባለመብት ሆኖ ሊጠይቅ አይችልም፡፡\nበሕጉ መሠረት 18 ዓመት እና ከዚያ በላይ ለሆኑ ልጆች በራሳቸው ሒሳብ ከፍተው የማንቀሳቀስ መብት ስላላቸው፤ ሞግዚት (“ስለ” ብሎ የሚከፍትላቸው ሰው) አያስፈልጋቸውም\nዕድሜያቸው ከ18 ዓመት በታች ለሆኑት ግን “ያልደረሱ” (minor) በመሆናቸው minor ሒሳብ ወላጅ/አሳዳጊ ወይም ሌላ የሚመለከተው ሰው ሊከፍትላቸው ይችላል፡፡ በ minor ሒሳብ ውስጥ ሒሳብ ከፋቹ ፈራሚ (ሒሳቡን የሚያንቀሳቅስ) እንጂ የሒሳቡ ባለቤት አይደለም፡፡",
  "source": "Commercial Bank of Eth",
  "language": "አማርኛ"
}


In [12]:
faqs

[{'instruction': 'Answer the following banking FAQ question',
  'input': 'ዕድሜያቸው 18 ዓመት እና ከዚያ በላይ ለሆኑ ልጆች for account ለመክፈት የባንኩ አሠራር ይፈቅዳል? ካልፈቀደ ምክንያቱ ምንድነው?',
  'output': 'For account ከዚህ በፊትም በልምድ የተጀመረ እንጂ በመመሪያ ተደግፎ እንደአሠራር የተጀመረ ነገር አልነበረም፡፡ አሁን ባለው መመሪያ ይህ አሠራር የተፈቀደ አይደለም፡፡ ምክንያቱም፤\nFor account ሒሳቡ የተከፈተለትን ግለሰብ መብት የሚያስጠብቅ አይደለም፡፡ ለምሳሌ፣ ለልጁ ወይም ለሠራተኛው እንዲህ ዓይነት ሒሳብ የከፈተ ሰው ቢሞት፣ የተከፈተለት ሰው ባለመብት ሆኖ ሊጠይቅ አይችልም፡፡\nበሕጉ መሠረት 18 ዓመት እና ከዚያ በላይ ለሆኑ ልጆች በራሳቸው ሒሳብ ከፍተው የማንቀሳቀስ መብት ስላላቸው፤ ሞግዚት (“ስለ” ብሎ የሚከፍትላቸው ሰው) አያስፈልጋቸውም\nዕድሜያቸው ከ18 ዓመት በታች ለሆኑት ግን “ያልደረሱ” (minor) በመሆናቸው minor ሒሳብ ወላጅ/አሳዳጊ ወይም ሌላ የሚመለከተው ሰው ሊከፍትላቸው ይችላል፡፡ በ minor ሒሳብ ውስጥ ሒሳብ ከፋቹ ፈራሚ (ሒሳቡን የሚያንቀሳቅስ) እንጂ የሒሳቡ ባለቤት አይደለም፡፡',
  'source': 'Commercial Bank of Eth',
  'language': 'አማርኛ'},
 {'instruction': 'Answer the following banking FAQ question',
  'input': 'አንድ ሰው PAYEE ONLY የተመታበት ቼክ በስሙ ተፅፎ ቢሰጠው ቼኩን በ & OR በተከፈተ አካውንት ማስገባት ይችላል? ለምሳሌ፣ ቼኩ ለአበበ በቀለ ተብሎ ቢፃፍ አበበ በቀለ እና/ወይም አየለ በቀለ ተብሎ ወደተከፈተ አካውንት ማስገባት ይችላል?',
  'out