In [None]:
pip install transformers


Note: you may need to restart the kernel to use updated packages.


In [None]:
from transformers import pipeline
import json
import re

def extract_birth_info(text):
    model_name = "HuggingFaceH4/zephyr-7b-beta"

    pipe = pipeline(
        "text-generation",
        model=model_name,
        tokenizer=model_name,
        torch_dtype="auto",
        device_map="auto"
    )

    prompt = f"""حلل النص العربي التالي واستخرج المعلومات التالية بصيغة JSON بدقة، دون اختراع أو تكرار معلومات من الأمثلة السابقة.

⚠️ استخرج فقط من هذا النص. لا تستخدم أي معلومة من الأمثلة التالية.

المطلوب:
{{
  "nom": "اسم العائلة فقط",
  "prenom": "الاسم الشخصي فقط",
  "date_naissance": "كما هو مكتوب بالنص",
  "lieu_naissance": "البلدية والولاية فقط",
  "nom_pere": "الاسم الكامل للأب",
  "nom_mere": "الاسم الكامل للأم"
}}

🔹 مثال 1:
النص:
في يوم الرابع عشر مارس ألفين وأربعة على الساعة الواحدة صباحا ولد(ت) ب حيدرة بلدية حيدرة ولاية الجزائر المسمى (ة) عكوشي يونس الجنس ذكر ابن(ة) كمال و عليتوش حكيمة

الإجابة:
{{
  "nom": "عكوشي",
  "prenom": "يونس",
  "date_naissance": "الرابع عشر مارس ألفين وأربعة",
  "lieu_naissance": "حيدرة، الجزائر",
  "nom_pere": "كمال",
  "nom_mere": "عليتوش حكيمة"
}}

🔹 مثال 2:
النص:
في يوم الثاني سبتمبر ألف و تسعمائة و اثنان و خمسون ولد(ت) ب سيدي عيش بلدية سيدي عيش ولاية بجاية المسمى (ة) سكور محند صادق الجنس ذكر ابن(ة) سكور برمطان و حمني تياقوت

الإجابة:
{{
  "nom": "سكور",
  "prenom": "محند صادق",
  "date_naissance": "الثاني سبتمبر ألف و تسعمائة و اثنان و خمسون",
  "lieu_naissance": "سيدي عيش، بجاية",
  "nom_pere": "سكور برمطان",
  "nom_mere": "حمني تياقوت"
}}

🔹 النص الحقيقي:
{text}

الجواب بصيغة JSON فقط:
"""

    output = pipe(
        prompt,
        max_new_tokens=256,
        temperature=0.1,
        do_sample=False,
        return_full_text=False
    )

    try:
        json_str = re.search(r'\{.*?\}', output[0]['generated_text'], re.DOTALL).group()
        return json.loads(json_str)
    except Exception as e:
        return {"error": "Échec de l'extraction", "exception": str(e), "raw_output": output}


# Exemple d’utilisation
if __name__ == "__main__":
    texte_arabe = """في يوم الخامس جانفي ألف وتسعمائة وستة وثمانون، وُلِد(ت) بسيدي عيش بلدية سيدي عيش ولاية بجاية المسمى(ة) سكور ماسين، الجنس ذكر، ابن(ة) محند صادق و حدّار فديلة."""
    resultat = extract_birth_info(texte_arabe)
    print(json.dumps(resultat, indent=2, ensure_ascii=False))


2025-06-16 14:07:40.978459: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1750082861.220841      35 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1750082861.291921      35 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


config.json:   0%|          | 0.00/638 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 8 files:   0%|          | 0/8 [00:00<?, ?it/s]

model-00006-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00007-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00001-of-00008.safetensors:   0%|          | 0.00/1.89G [00:00<?, ?B/s]

model-00005-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00003-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00004-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00002-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00008-of-00008.safetensors:   0%|          | 0.00/816M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

Device set to use cuda:0


{
  "nom": "سكور",
  "prenom": "ماسين",
  "date_naissance": "الخامس جانفي ألف وتسعمائة وستة وثمانون",
  "lieu_naissance": "سيدي عيش، بجاية",
  "nom_pere": "سكور ماسين",
  "nom_mere": "حدّار فديلة"
}


In [None]:
from transformers import pipeline
import json
import re

def extract_birth_info(text):
    model_name = "HuggingFaceH4/zephyr-7b-beta"

    pipe = pipeline(
        "text-generation",
        model=model_name,
        tokenizer=model_name,
        torch_dtype="auto",
        device_map="auto"
    )

    prompt = f"""حلل النص العربي التالي واستخرج المعلومات التالية بصيغة JSON بدقة، دون اختراع أو تكرار معلومات من الأمثلة السابقة.

⚠️ استخرج فقط من هذا النص. لا تستخدم أي معلومة من الأمثلة التالية.

المطلوب:
{{
  "nom": "اسم العائلة فقط",
  "prenom": "الاسم الشخصي فقط",
  "date_naissance": "كما هو مكتوب بالنص",
  "lieu_naissance": "البلدية والولاية فقط",
  "nom_pere": "الاسم الكامل للأب",
  "nom_mere": "الاسم الكامل للأم"
}}

🔹 مثال 1:
النص:
في يوم الرابع عشر مارس ألفين وأربعة على الساعة الواحدة صباحا ولد(ت) ب حيدرة بلدية حيدرة ولاية الجزائر المسمى (ة) عكوشي يونس الجنس ذكر ابن(ة) كمال و عليتوش حكيمة

الإجابة:
{{
  "nom": "عكوشي",
  "prenom": "يونس",
  "date_naissance": "الرابع عشر مارس ألفين وأربعة",
  "lieu_naissance": "حيدرة، الجزائر",
  "nom_pere": "كمال",
  "nom_mere": "عليتوش حكيمة"
}}

🔹 مثال 2:
النص:
في يوم الثاني سبتمبر ألف و تسعمائة و اثنان و خمسون ولد(ت) ب سيدي عيش بلدية سيدي عيش ولاية بجاية المسمى (ة) سكور محند صادق الجنس ذكر ابن(ة) سكور برمطان و حمني تياقوت

الإجابة:
{{
  "nom": "سكور",
  "prenom": "محند صادق",
  "date_naissance": "الثاني سبتمبر ألف و تسعمائة و اثنان و خمسون",
  "lieu_naissance": "سيدي عيش، بجاية",
  "nom_pere": "سكور برمطان",
  "nom_mere": "حمني تياقوت"
}}

🔹 النص الحقيقي:
{text}

الجواب بصيغة JSON فقط:
"""

    output = pipe(
        prompt,
        max_new_tokens=256,
        temperature=0.1,
        do_sample=False,
        return_full_text=False
    )

    try:
        json_str = re.search(r'\{.*?\}', output[0]['generated_text'], re.DOTALL).group()
        return json.loads(json_str)
    except Exception as e:
        return {"error": "Échec de l'extraction", "exception": str(e), "raw_output": output}


# Exemple d’utilisation
if __name__ == "__main__":
    texte_arabe = """نسحة الخبرونية
يبري الخامس جانفي ألف و تسعمائةو سستةو ثمانون

على الساعق, للإن)ب سيدي عيش
بللبت سيدي عيش .«لابسن. بجاية

المسى )6 سكور ماسين

الس ذكو

أبن ).محند صادق . ‎٠‏ اعمرة //2.مبنطم //
ب. حدار فديلة 00 . ‎٠.‏ .نسرها// بهنها /'
الأكين, ب تيغزراتين بلدية تينبدار"""
    resultat = extract_birth_info(texte_arabe)
    print(json.dumps(resultat, indent=2, ensure_ascii=False))


2025-06-16 14:19:43.723068: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1750083583.914549      35 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1750083583.970712      35 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


config.json:   0%|          | 0.00/638 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 8 files:   0%|          | 0/8 [00:00<?, ?it/s]

model-00002-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00001-of-00008.safetensors:   0%|          | 0.00/1.89G [00:00<?, ?B/s]

model-00003-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00005-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00007-of-00008.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00006-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00004-of-00008.safetensors:   0%|          | 0.00/1.95G [00:00<?, ?B/s]

model-00008-of-00008.safetensors:   0%|          | 0.00/816M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

Device set to use cuda:0


{
  "nom": "سكور",
  "prenom": "محند صادق",
  "date_naissance": "نسحة الخامس جانفي ألف و تسعمائةو سستةو ثمانون",
  "lieu_naissance": "سيدي عيش.«لابسن. بجاية",
  "nom_pere": "بللبت سيدي عيش",
  "nom_mere": "الأكين, ب تيغزراتين بلدية تينبدار"
}
