***web scraping***


In [73]:
import json
import requests
from bs4 import BeautifulSoup
from langdetect import detect

In [61]:
def load_file(file_path='ar_links.json'):
    with open(file_path, 'r',encoding='utf-8') as file:
        return json.load(file)

In [62]:
file_path='ar_links.json'

with open(file_path, 'r', encoding='utf-8') as file:
    links= json.load(file)
    print('links:',len(links))
    for l in links:
        print(l)

links: 23
{'title': 'الجزائر - ويكيبيديا', 'link': 'https://ar.wikipedia.org/wiki/الجزائر', 'type': 'html'}
{'title': 'ثورة التحرير الجزائرية', 'link': 'https://ar.wikipedia.org/wiki/ثورة_التحرير_الجزائرية', 'type': 'html'}
{'title': 'اللباس التقليدي الجزائري', 'link': 'https://ar.wikipedia.org/wiki/لباس_تقليدي_جزائري', 'type': 'html'}
{'title': 'التراث الثقافي اللامادي', 'link': 'https://ar.wikipedia.org/wiki/قائمة_التراث_الثقافي_اللامادي_في_الجزائر', 'type': 'html'}
{'title': 'الثقافة الجزائرية', 'link': 'https://mawdoo3.com/الثقافة_الجزائرية', 'type': 'html'}
{'title': 'فنون وثقافة - وزارة الخارجية', 'link': 'https://www.mfa.gov.dz/ar/discover-algeria/arts-and-culture', 'type': 'html'}
{'title': 'ثورة التحرير الجزائرية - الجزيرة', 'link': 'https://www.aljazeera.net/encyclopedia/2022/10/31/ثورة-التحرير-الجزائرية', 'type': 'html'}
{'title': 'قصة المروحة التي أوقعت الجزائر في الاستعمار', 'link': 'https://www.bbc.com/arabic/articles/cpvz4l17vg3o', 'type': 'html'}
{'title': 'اليوم الوطني

In [63]:
def scrape_web(link):
    headers = {"User-Agent": "Mozilla/5.0"}
    reponse = requests.get(link, headers=headers)

    if reponse.status_code!= 200:
        print('link error ⚠️')
        return None

    soup = BeautifulSoup(reponse.text, 'html.parser')
    paragraphs = soup.find_all('p')
    text = '\n'.join([p.get_text() for p in paragraphs if p.get_text()])
    return text
    

In [64]:
def scrape(data):
    scraped=[]

    for d in data:
        print(' 🔍 scraping ..:', d["title"], d["link"])
        if d["type"] =="html":
            text = scrape_web(d["link"])
        
        if text:
            scraped.append({"title": d['title'], "link": d['link'], "text": text})

    return scraped   

In [65]:
data = load_file()

In [66]:
scraped_data= scrape(data)
print ('✅ data scraped ')

 🔍 scraping ..: الجزائر - ويكيبيديا https://ar.wikipedia.org/wiki/الجزائر
 🔍 scraping ..: ثورة التحرير الجزائرية https://ar.wikipedia.org/wiki/ثورة_التحرير_الجزائرية
 🔍 scraping ..: اللباس التقليدي الجزائري https://ar.wikipedia.org/wiki/لباس_تقليدي_جزائري
 🔍 scraping ..: التراث الثقافي اللامادي https://ar.wikipedia.org/wiki/قائمة_التراث_الثقافي_اللامادي_في_الجزائر
 🔍 scraping ..: الثقافة الجزائرية https://mawdoo3.com/الثقافة_الجزائرية
 🔍 scraping ..: فنون وثقافة - وزارة الخارجية https://www.mfa.gov.dz/ar/discover-algeria/arts-and-culture
 🔍 scraping ..: ثورة التحرير الجزائرية - الجزيرة https://www.aljazeera.net/encyclopedia/2022/10/31/ثورة-التحرير-الجزائرية
link error ⚠️
 🔍 scraping ..: قصة المروحة التي أوقعت الجزائر في الاستعمار https://www.bbc.com/arabic/articles/cpvz4l17vg3o
 🔍 scraping ..: اليوم الوطني للشهيد https://cnerh-nov54.dz/article/53
 🔍 scraping ..: بحث حول الثورة الجزائرية https://www.selsabil.com/2017/12/2017_31.html
 🔍 scraping ..: Culture algérienne - Wikipedia https:/

In [67]:
scraped_data[1]

{'title': 'ثورة التحرير الجزائرية',
 'link': 'https://ar.wikipedia.org/wiki/ثورة_التحرير_الجزائرية',
 'text': 'هذه نسخة متحقق منها من هذه الصفحة\nالمستوىمنظورة\nدعم من: \n\nدعم من:\n\n\nثورة التحرير الجزائرية أو حرب الجزائر أو حرب الاستقلال الجزائرية[4][5][6] هو نزاع مسلح اندلع بين فرنسا وجبهة التحرير الوطني الجزائرية من عام 1954 إلى 1962، وأدى في النهاية إلى نيل الجزائر استقلالها عن فرنسا.[7] كانت هذه الحرب مهمة لإنهاء الاستعمار وصراعًا معقدًا تميز بحرب العصابات وارتكاب جرائم الحرب. تحول الصراع أيضًا إلى حرب أهلية بين المجتمعات المختلفة. دارت الحرب بشكل رئيسي على أراضي الجزائر وكان لها تداعيات في فرنسا الأوروبية.[8]\n\nشارك في الحرب حوالي 1200 مجاهد كان بحوزتهم 400 قطعة سلاح وبضع قنابل تقليدية، فسارعت حكومة «منداز فرانس» إلى سجن كثير من الجزائريين في محاولة فاشلة لإحباط الثورة من مخططات عسكرية كبرى.\n\nفي الرابع من نوفمبر قُتِل رمضان بن عبد المالك، أحد القادة 22، قُرب مستغانم. وفي 05 نوفمبر 1954 بدأت فرنسا بإرسال إمدادات عسكرية إلى الجزائر لإخماد الثورة في مهدها؛ فتوالت المعارك، ليسجل

In [68]:
def save_data(data, path='scraped_data.json'):
    with open(path, 'w',encoding='utf-8') as file:
        json.dump(data, file, ensure_ascii=False, indent=4)  

In [69]:
if scraped_data:
    save_data(scraped_data)
    print("✅ scaped data saved ")

✅ scaped data saved 


***data preprocessing***

In [74]:
def detect_language(text):
    return detect(text)

In [75]:
detect_language('bonjour tout le monde')

'fr'

In [None]:
def clean_text(text, language):
    text = re.sub(