# "Fine-Tuning GPT-Neo for Text Classification and Generation"
***This project leverages a pretrained language model, GPT-Neo, to perform text-based tasks such as classification or generation. The workflow involves preprocessing a dataset with tokenization, training the model with PyTorch and Hugging Face's Transformers library, and evaluating its performance using metrics like accuracy. Key functionalities include fine-tuning the model on custom datasets, optimizing hyperparameters, and generating predictions. The project integrates modern machine learning techniques and tools to streamline model training, evaluation, and deployment.***

![diagram-export-12-22-2024-10_54_14-AM.png](attachment:d17ee219-0e33-492f-a417-1359bfa93ae0.png)

In [1]:
!pip install language-tool-python

Collecting language-tool-python
  Downloading language_tool_python-2.8.1-py3-none-any.whl.metadata (12 kB)
Downloading language_tool_python-2.8.1-py3-none-any.whl (35 kB)
Installing collected packages: language-tool-python
Successfully installed language-tool-python-2.8.1


In [2]:
!pip install transformers datasets bitsandbytes accelerate sentencepiece language-tool-python evaluate


Collecting bitsandbytes
  Downloading bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl.metadata (2.9 kB)
Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Downloading bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl (69.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.1/69.1 MB[0m [31m25.9 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hDownloading evaluate-0.4.3-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.0/84.0 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes, evaluate
Successfully installed bitsandbytes-0.45.0 evaluate-0.4.3


In [3]:
import os
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from sklearn.model_selection import train_test_split
from bs4 import BeautifulSoup
from IPython.display import display, HTML
import requests

## Data loading 

In [4]:
# Read train.csv and test.csv
print("Loading data...")
train_df = pd.read_csv("/kaggle/input/juridia-hackhaton-fine-tuning-llm-v/train.csv")
test_df = pd.read_csv("/kaggle/input/juridia-hackhaton-fine-tuning-llm-v/test.csv")

# Display first few rows of the train and test dataframes
print("\nTrain Data Shape:", train_df.shape)
print("Test Data Shape:", test_df.shape)
print("\nTrain Data Sample:")
display(train_df.head())
print("\nTest Data Sample:")
display(test_df.head())

Loading data...

Train Data Shape: (5000, 5)
Test Data Shape: (500, 1)

Train Data Sample:


Unnamed: 0,file_name,long_title,date,doc_type,Id
0,8293.html,Décret n° 2-04-534 du 16 kaada 1425 (29 décemb...,2004-12-29,Décret,0d5401c3-6d59-4a9f-bbe8-4313b599e94b
1,9003.html,Décret n° 2-72-513 du 3 rebia I 1393 (7 avril ...,1973-04-07,Décret,fea3e4a6-7535-425f-bdf2-b792f6052cd5
2,11506.html,Dahir n° 1-03-300 du 2 rabii I 1425 (22 avril ...,2004-04-22,Dahir,b67a1c82-9fc7-4a4b-8c67-10f45f5b9dd2
3,22837.html,Arrêté du ministre de l’économie et des financ...,2019-05-30,Arrêté,7bace715-97c7-47d5-a321-d17e1bee26a8
4,7066.html,Dahir n° 1-17-15 du 28 ramadan 1438 (23 juin 2...,2017-06-23,Dahir,5590ac6b-aa88-4b0d-af35-633fbbeb0bbf



Test Data Sample:


Unnamed: 0,question
0,Quels sont les critères d'éligibilité à la ret...
1,Quelle est la durée maximale d'un contrat de t...
2,Quelle est la définition légale d'une donation ?
3,Comment fonctionne la médiation dans un litige...
4,Quelles sont les étapes d'une procédure de div...


# I- Data Preparation

### Azure Data Loading Function

In [5]:
def read_html_file_from_azure(file_name):
    # Azure Blob Storage details
    base_url = "https://juridiahackhaton.blob.core.windows.net/fine-tuning"
    sas_token = "?sp=r&st=2024-12-18T14:00:31Z&se=2024-12-23T22:00:31Z&skoid=84f95543-1f4f-468b-88b0-7ba29b72fff8&sktid=75319ac2-1960-4be6-b7bf-49f186bd8d73&skt=2024-12-18T14:00:31Z&ske=2024-12-23T22:00:31Z&sks=b&skv=2022-11-02&spr=https&sv=2022-11-02&sr=c&sig=G1chY5U9%2BocqupQtO%2FPZ0i4V4hxWUUD%2B09tYqZUAw2M%3D"
    file_name = "documents/" + file_name
    # Construct the complete blob URL with SAS token
    blob_url = f"{base_url}/{file_name}{sas_token}"

    # Fetch the HTML file
    response = requests.get(blob_url)

    if response.status_code == 200:
        # Display the HTML file content
        html_content = response.text
        return html_content
    else:
        print(f"Failed to fetch the HTML file: HTTP {response.status_code}")
        print(f"Error details: {response.text}")
        return False

# Example usage
html_content = read_html_file_from_azure("10361.html")
# def read_html_file_from_azure(file_name):
#     """Read HTML file from Azure Blob Storage"""
#     base_url = "https://juridiahackhaton.blob.core.windows.net/fine-tuning"
#     sas_token = "?sp=r&st=2024-12-18T14:00:31Z&se=2024-12-23T22:00:31Z&skoid=84f95543-1f4f-468b-88b0-7ba29b72fff8&sktid=75319ac2-1960-4be6-b7bf-49f186bd8d73&skt=2024-12-18T14:00:31Z&ske=2024-12-23T22:00:31Z&sks=b&skv=2022-11-02&spr=https&sv=2022-11-02&sr=c&sig=G1chY5U9%2BocqupQtO%2FPZ0i4V4hxWUUD%2B09tYqZUAw2M%3D"
#     file_name = "documents/" + file_name
#     blob_url = f"{base_url}/{file_name}{sas_token}"
    
#     try:
#         response = requests.get(blob_url)
#         if response.status_code == 200:
#             return response.text
#         print(f"Failed to fetch the HTML file: HTTP {response.status_code}")
#         return None
#     except Exception as e:
#         print(f"Error: {e}")
#         return None


### Test HTML file Loading

In [6]:
print("Testing HTML file loading...")
sample_html = read_html_file_from_azure("10361.html")
if sample_html:
    print("Successfully loaded HTML file")
    display(HTML(sample_html))


Testing HTML file loading...
Successfully loaded HTML file


0
Bulletin officiel n° 4800 du 1er juin 2000
EDITION DE TRADUCTION OFFICIELLE
"Dahir n° 1-00-203 du 15 safar 1421 (19 mai 2000) portant promulgation de la loi n° 07-00 créant les académies régionales d'éducation et de formation (AREF). LOUANGE A DIEU SEUL ! (Grand Sceau de Sa Majesté Mohammed VI) Que l'on sache par les présentes - puisse Dieu en élever et en fortifier la teneur ! Que Notre Majesté Chérifienne, Vu la Constitution, notamment ses articles 26 et 58, A Décidé ce qui suit : Est promulguée et sera publiée au Bulletin officiel, à la suite du présent dahir, la loi n° 07-00 créant les académies régionales d'éducation et de formation (AREF), adoptée par la Chambre des représentants et la Chambre des conseillers. Fait à Rabat, le 15 safar 1421 (19 mai 2000). Pour contreseing : Le Premier ministre,  Abderrahman Youssoufi. * * * Loi n° 07-00 créant les académies régionales d'éducation et de formation (AREF) Titre Premier : Création, missions et attributions Article Premier : Il est créé dans chaque région du Royaume sous la dénomination « Académie régionale d'éducation et de formation », un établissement public doté de la personnalité morale et de l'autonomie financière. L'Académie régionale d'éducation et de formation, dénommée « Académie » dans la suite du texte, est soumise à la tutelle de l'Etat, laquelle a pour objet de faire respecter par ses organes compétents les dispositions de la présente loi, en particulier celles relatives aux missions qui lui sont dévolues et de manière générale, de veiller en ce qui la concerne à l'application de la législation et de la réglementation concernant les établissements publics. Cette tutelle a également pour objet de veiller au respect par les académies de l'application des textes relatifs aux établissements d'éducation et de formation, à l'organisation de la scolarité et aux conditions de nomination aux fonctions de l'administration scolaire. La tutelle de l'Etat est exercée par l'autorité gouvernementale compétente en vertu du dahir portant nomination des membres du gouvernement et des textes pris pour son application. L'Académie est également soumise au contrôle financier de l'Etat applicable aux établissements publics conformément à la législation en vigueur. Article 2 : Dans les limites de son ressort territorial et dans le cadre des attributions qui lui sont dévolues ci-après, l'Académie est chargée de la mise en œuvre de la politique éducative et de formation, compte tenu des priorités et des objectifs nationaux établis par l'autorité de tutelle. A ce titre elle a pour missions : 1 - d'élaborer un projet de développement de l'Académie, composé d'un ensemble de mesures et actions prioritaires au niveau de la scolarisation conformément aux orientations et objectifs nationaux et d'intégrer en matière pédagogique les spécificités et les données socio-économiques et culturelles régionales dont l'amazigh ; 2 - d'établir, en coordination avec les parties concernées et en concertation avec les collectivités locales et les délégations régionales de la formation professionnelle, les cartes éducatives prévisionnelles régionales. A cet effet ces délégations tiennent informées les Académies de leur programme de formation professionnelle ; 3 - de veiller à l'élaboration de la carte scolaire régionale et à la mise en réseau des établissements d'enseignement et de formation professionnelle de la région en coordination avec la délégation régionale de la formation professionnelle ; 4 - de contribuer à la définition des besoins en formation professionnelle des jeunes, en tenant compte des réalités économiques régionales, et de les proposer à la délégation régionale de la formation professionnelle ; 5 - d'établir et de développer les formations techniques initiales à finalité professionnelle sous statut scolaire ainsi que les formations professionnelles en apprentissage ou en alternance mises en œuvre par les collèges et les lycées ; 6 - d'établir le programme prévisionnel pluri-annuel des investissements relatifs aux établissements d'éducation et de formation sur la base de la carte éducative prévisionnelle ; 7 - de définir les opérations annuelles de construction, d'extension, de grosses réparations et d'équipement des établissements d'éducation et de formation ; 8 - de réaliser ou d'assurer le suivi des projets de construction, d'extension, de grosses réparations et d'équipement des établissements d'éducation et de formation en en délégant la réalisation, le cas échéant à d'autres organismes dans le cadre de conventions ; 9 - de veiller au contrôle sur les lieux, de l'état des établissements d'éducation et de formation, de la qualité de leur entretien et de la disponibilité des moyens de travail nécessaires ; elle doit à cet effet intervenir immédiatement pour corriger toute anomalie entravant le bon fonctionnement des établissements précités et de leurs équipements, ou qui porte atteinte à leur environnement, à leur esthétique ou à leur climat éducationnel ; 10 - d'exercer les attributions qui lui sont déléguées par l'autorité gouvernementale de tutelle en matière de gestion des ressources humaines ; 11 - de superviser la recherche pédagogique au niveau provincial et local ainsi que les examens, évaluer les apprentissages relevant du niveau régional et contrôler ceux relevant du niveau provincial et local et veiller, en coordination avec les services compétents, au développement de l'éducation physique et du sport scolaire ; 12 - d'entreprendre toute action de partenariat avec les organisations et les institutions administratives, économiques, sociales ou culturelles régionales pour la mise en œuvre de projets visant l'essor de l'éducation et de la formation dans la région ; 13 - d'élaborer toute étude relative à l'éducation et à la formation, de superviser l'édition de la documentation éducative à caractère régional et de contribuer aux enquêtes et recensements statistiques régionaux ou nationaux ; 14 - d'élaborer et de mettre en œuvre la politique de formation continue du personnel enseignant et administratif ; 15 - de délivrer les autorisations d'ouverture, d'extension ou de modification des établissements préscolaires et scolaires privés conformément à la législation et la réglementation en vigueur ; 16 - de présenter aux autorités gouvernementales concernées toutes recommandations concernant les questions dépassant le cadre régional, en vue de l'adaptation des dispositifs et des programmes d'éducation et de formation aux besoins de la région ; 17 - fournir des services dans tous les domaines d'éducation et de formation. Titre II : Administration et gestion Article 3 : L'Académie est administrée par un conseil et gérée par un directeur. Article 4 : Par dérogation aux dispositions du dahir portant loi n° 1-77-185 du 5 chaoual 1397 (19 septembre 1977) relatif à la présidence des conseils d'administration des établissements publics nationaux et régionaux, le conseil de l'académie est présidé par l'autorité gouvernementale de tutelle. Il comprend : - les représentants des administrations concernées ; - le président du conseil régional ; - le wali de la région ; - les gouverneurs des provinces et préfectures de la région ; - les présidents des communautés urbaines ; - les présidents des assemblées préfectorales et provinciales ; - le président du conseil des Uléma de la région ; - le ou les présidents des universités se trouvant dans la région ; - le délégué régional de la formation professionnelle ; - les présidents des chambres professionnelles de la région à raison d'un représentant par secteur ; - le représentant du comité olympique dans la région ; - six représentants du personnel enseignant membres des commissions paritaires au niveau de la région, à raison de deux représentants par niveau d'enseignement, et deux représentants du personnel administratif et technique ; - trois représentants des associations des parents d'élèves à raison d'un représentant pour chaque niveau d'enseignement ; - un représentant des associations du secteur de l'enseignement scolaire privé de la région ; - un représentant de l'enseignement pré-scolaire. Le président du conseil de l'académie peut convoquer aux réunions du conseil à titre consultatif toute personne dont il juge l'avis utile. Le mode de désignation des représentants du personnel enseignant, du représentant du personnel administratif et technique, des représentants des associations de parents d'élèves, du représentant des associations de l'enseignement pré-scolaire et du représentant des associations de l'enseignement scolaire privé sera fixé par décret. Article 5 : Le conseil de l'académie est investi de tous les pouvoirs et attributions nécessaires à l'administration de l'Académie, notamment en ce qui concerne : - le programme prévisionnel régional de formation des enseignants et des personnels administratif et technique ; - le programme prévisionnel de construction, d'extension ou de grosses réparations des établissements d'éducation et de formation ; - le fonctionnement des établissements d'éducation et de formation ; - la constitution de réseaux des établissements d'éducation et de formation. Il délibère valablement lorsque la moitié au moins de ses membres sont présents à la première réunion. Si ce quorum n'est pas atteint, il est procédé à la convocation d'une deuxième réunion qui se tiendra quel que soit le nombre des membres présents. Le conseil prend ses décisions à la majorité des voix. En cas de partage égal des voix celle du président est prépondérante. Il se réunit, sur convocation du président aussi souvent que les circonstances l'exigent et au moins deux fois par an : - pour faire le bilan des réalisations, contrôler l'exécution des décisions et arrêter les états de synthèse de l'exercice clos ; - pour arrêter le programme prévisionnel et le budget de l'exercice suivant. Le directeur de l'Académie assure le secrétariat des travaux du conseil. Article 6 : Le conseil de l'Académie peut décider la création de tous comités ou commissions dont il fixe la composition et les modalités de fonctionnement. Toutefois, le conseil doit obligatoirement créer une commission chargée de la coordination avec l'enseignement supérieur, une commission chargée de la coordination avec la formation professionnelle et une commission pour les affaires financières et économiques. Article 7 : L'organisation et les attributions des services de l'Académie, y compris les services provinciaux, sont fixées par voie réglementaire. Article 8 : (modifié par 1er article du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) يعين مدير الأكاديمية طبقا لأحكام النصوص التشريعية والتنظيمية الجاري بها العمل. [1] [1] Le directeur de l'académie est nommé conformément aux dispositions des textes législatifs et réglementaires en vigueur. Le directeur de l'Académie détient tous les pouvoirs et attributions nécessaires à la gestion de cette dernière. Il exécute les décisions du conseil de l'Académie. Il peut recevoir délégation du conseil de l'Académie pour le règlement d'affaires déterminées. Il peut déléguer sous sa responsabilité une partie de ses pouvoirs et attributions au personnel relevant de son autorité. Article 9 : Le budget de l'Académie comprend : En ressources : - les subventions et dotations du budget de l'Etat ; - les subventions et participations, reçues dans le cadre de partenariat, des collectivités locales et leurs groupements et de tout autre organisme public ou privé ; - les avances remboursables du Trésor et d'organismes publics ou privés ainsi que les emprunts autorisés conformément à la législation en vigueur ; - les dons, legs et produits divers ; - les revenus provenant de ses prestations en rapport avec ses activités ; - toutes autres recettes qui peuvent lui être attribuées ultérieurement par les dispositions législatives et réglementaires. En dépenses : - les dépenses d'équipement et de fonctionnement ; - les remboursements des avances et emprunts ; - toute autre dépense en rapport avec son activité. Article 10 : Le personnel enseignant, administratif et technique, en fonction dans les services et établissements d'éducation et de formation du secteur public de la région demeure soumis aux dispositions du statut général de la fonction publique ainsi qu'aux dispositions de ses statuts particuliers. المادة 11 . (نسخ وعوض بالمادة الأولى من قرار رقم 2.23.781 صادر في 19 من ربيع الأول 1445 (5 أكتوبر 2023)( (نسخ وعوض بالمادة الأولى من ظهير رقم 1.24.09 صادر في 28 من رجب 1445) (9 فبراير 2024)) - يتكون موظفو الأكاديمية من الفئات التالية : -موظفون يسري عليهم، خلافا لأحكام المادة 7 من القانون رقم 69.00 المتعلق بالمراقبة المالية للدولة على المنشآت العامة وهيئات أخرى، النظام الأساسي الخاص بموظفي قطاع التربية الوطنية. يوجد هؤلاء الموظفون في وضعية قانونية ونظامية إزاء الأكاديمية، ويتم توظيفهم وتعيينهم وترسيمهم في إحدى الدرجات المنصوص عليها في النظام الأساسي المذكور وفق الشروط والكيفيات التي يحددها ؛ -موظفون يتم توظيفهم وفق الأنظمة المطبقة على الهيئات المشتركة بين الوزارات ؛ - موظفون في وضعية إلحاق. لا تطبق، فيما يتعلق بتسيير الموظفين المذكورين، أحكام الفقرة الرابعة من المادة 9 بالقانون السالف الذكر رقم.69.00 Article 11 : (abrogé et remplacé par l'article premier de l'arrêté n° 2.23.781 du 19 rabii I 1445 (5 octobre 2023)) (abrogé et remplacé par l'article premier du dahir n° 1.24.09 du 28 de rejeb 1445) 9 février 2024)) - Les fonctionnaires de l'académie se composent des catégories suivantes : - des fonctionnaires soumis، contrairement aux dispositions de l'article 7 de la loi n° 69.00 relative au contrôle financier de l'Etat sur les entreprises publiques et autres organisme، au statut propre des fonctionnaires du secteur de l'éducation nationale. Ces fonctionnaires sont dans une position légale et réglementaire à l'égard de l'académie et sont recrutés, nommés et titularisés à l'un des grades prévus dans le statut susvisé selon les conditions et modalités qu'il précise ; -des fonctionnaires recrutés selon les régimes appliqués aux organismes interministériels ; - des fonctionnaires en situation de rattachement. En ce qui concerne la gestion des fonctionnaires précités, les dispositions de l'alinéa 4 de l'article 9 de la loi n° 69.00 précitée ne sont pas applicables. المادة 11 مكررة. : (أضيفت بالمادة الأولى من ظهير شريف رقم 1.16.04 صادر في 15 من ربيع الآخر 1437 (26 يناير 2016) ينقل الموظفون المرسمون والمتدربون المزاولون عملهم بإدارة الأكاديميات الجهوية للتربية والتكوين القائمة في التاريخ المشار إليه في المادة 15 أدناه، بناء على طلب يعبرون فيه عن رغبتهم، يقدمونه داخل أجل أقصاه ثلاثة (3) أشهر، إلى إدارة الأكاديميات الجهوية للتربية والتكوين المحدثة وفق التقسيم الجهوي الجاري به العمل أو إلى مصالحها الإقليمية، أو إلى المؤسسات التعليمية التابعة لها. غير أنه في حالة عدم تقديم المعنيين بالأمر لطلبهم، يتم نقلهم تلقائيا لحاجات المصلحة وتعد الخدمات المنجزة من قبل المعنيين بالأمر بما في ذلك مدة العمل في الأكاديميات الجهوية للتربية والتكوين التي كانوا يعملون بها، كما لو أنجزت بالأكاديمية الجهوية للتربية والتكوين التي تم نقلهم إليها. Article 11bis. : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les fonctionnaires titulaires et stagiaires exerçant leur travail dans les administrations des académies régionales d'éducation et de formation existantes à la date visée à l'article 15 ci-après, sont mutés, sur demande exprimant leur désir, qu'ils soumettent dans un délai maximum de trois (3) mois, à l'administration des académies régionales d'éducation et de formation créées selon le découpage régionale en vigueur ou à leurs services provinciaux, ou aux établissements d'enseignement qui en dépendent. Toutefois, dans le cas où les personnes concernées ne présentent pas leur demande, elles sont automatiquement mutées aux besoins du service. Les services rendus par les intéressés, y compris la durée de travail dans les académies régionales d'éducation et de formation où ils travaillaient, sont considérés comme ayant été rendus à l'académie régionale d'éducation et de formation vers laquelle ils ont été mutés. Article 12 : Sous réserve des dispositions des articles 7 et 10 de la présente loi, relèvent désormais de chaque Académie, les délégations provinciales et préfectorales de l'éducation nationale situées dans son ressort territorial. Sous la même réserve, les établissements d'enseignement et de formation situés dans le ressort territorial de chaque Académie sont placés sous l'autorité de cette dernière. Article 13 : Les biens meubles et immeubles relevant du domaine privé de l'Etat, nécessaires à l'accomplissement des missions dévolues à l'Académie en vertu de la présente loi, sont mis gratuitement à la disposition de cette dernière. المادة 13 مكررة : (أضيفت بالمادة الأولى من ظهير شريف رقم 1.16.04 صادر في 15 من ربيع الآخر 1437 (26 يناير 2016) تحل الأكاديميات الجهوية للتربية والتكوين المحدثة وفق التقسيم الجهوي الجاري به العمل في تاريخ نشر هذا القانون بالجريدة الرسمية والمحددة قائمتها ومقراتها ودوائر نفوذها الترابي بنص تنظيمي، محل الأكاديميات الجهوية للتربية والتكوين القائمة في التاريخ المذكور، في جميع الحقوق والالتزامات، وذلك وفق الكيفيات المحددة بنص تنظيمي. Article 13 bis : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les académies régionales d'éducation et de formation créées selon le découpage régional en vigueur à la date de publication de la présente loi au Bulletin Officiel et dont les listes, sièges et compétence territoriale sont fixés par texte règlementaire, remplacent les académies régionales d'éducation et de formation existantes à ladite date, en tous droits et obligations, et ce selon les modalités fixées par texte règlementaire. المادة 13 مكررة مرتين : (أضيفت بالمادة الأولى من ظهير شريف رقم 1.16.04 صادر في 15 من ربيع الآخر 1437 (26 يناير 2016) تنقل بدون عوض الممتلكات والمنقولات والقيم الموجودة في ملكية الأكاديميات الجهوية للتربية والتكوين القائمة إلى ملكية الأكاديميات الجهوية للتربية والتكوين المحدثة وفقا للتقسيم الجهوي الجاري به العمل التي تحل محلها بكامل حقوق ملكيتها، وذلك في حدود دائرة النفوذ الترابي لكل أكاديمية. لا يترتب على نقل الملكية المذكورة أعلاه، أداء أي رسم للوكالة الوطنية للمحافظة العقارية والمسح العقاري والخرائطية. تحدد كيفيات تطبيق أحكام هذه المادة، كلما اقتضى الأمر ذلك، بمرسوم يتخذ باقتراح من السلطتين الحكوميتين المكلفتين بالتربية الوطنية والمالية. Article 13 ter : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les biens, meubles et valeurs en possession des académies régionales d'éducation et de formation existants sont transférés à titre onéreux à la propriété des académies régionales d'éducation et de formation créées selon le découpage régional en vigueur, qui se substituent à elles en plein droit de leur propriété, et ce dans les limites de la compétence territoriale de chaque académie. Le transfert de propriété susvisé n'entraîne le paiement d'aucune redevance à l'Agence nationale de la conservation foncière, du cadastre et de la cartographie. Les modalités d'application des dispositions du présent article, chaque fois que cela est nécessaire, sont fixées par décret pris sur proposition des deux autorités gouvernementales chargées de l'éducation nationale et des finances. Article 14 : Les écoles, lycées et centres d'instruction militaires ne sont pas soumis aux dispositions de la présente loi. Es demeurent régis par les textes les organisant. المادة 15 : (نسخ وعوض بالمادة 3 من ظهير شريف رقم 1.16.04 صادر في 15 من ربيع الآخر 1437 (26 يناير 2016) يدخل هذا القانون حيز التنفيذ ابتداء من تاريخ نشره «بالجريدة الرسمية.» Article 15 : (abrogé et remplacé par l'article 3 du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe La présente loi entre en vigueur à compter de sa date de sa publication au « Bulletin officiel«. _____ Le texte en langue arabe a été publié dans l'édition générale du « Bulletin officiel » n° 4798 du 21 safar 1421 (25 mai 2000)."
[1] Le directeur de l'académie est nommé conformément aux dispositions des textes législatifs et réglementaires en vigueur.
"Article 11 : (abrogé et remplacé par l'article premier de l'arrêté n° 2.23.781 du 19 rabii I 1445 (5 octobre 2023)) (abrogé et remplacé par l'article premier du dahir n° 1.24.09 du 28 de rejeb 1445) 9 février 2024)) - Les fonctionnaires de l'académie se composent des catégories suivantes : - des fonctionnaires soumis، contrairement aux dispositions de l'article 7 de la loi n° 69.00 relative au contrôle financier de l'Etat sur les entreprises publiques et autres organisme، au statut propre des fonctionnaires du secteur de l'éducation nationale. Ces fonctionnaires sont dans une position légale et réglementaire à l'égard de l'académie et sont recrutés, nommés et titularisés à l'un des grades prévus dans le statut susvisé selon les conditions et modalités qu'il précise ; -des fonctionnaires recrutés selon les régimes appliqués aux organismes interministériels ; - des fonctionnaires en situation de rattachement. En ce qui concerne la gestion des fonctionnaires précités, les dispositions de l'alinéa 4 de l'article 9 de la loi n° 69.00 précitée ne sont pas applicables."
"Article 11bis. : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les fonctionnaires titulaires et stagiaires exerçant leur travail dans les administrations des académies régionales d'éducation et de formation existantes à la date visée à l'article 15 ci-après, sont mutés, sur demande exprimant leur désir, qu'ils soumettent dans un délai maximum de trois (3) mois, à l'administration des académies régionales d'éducation et de formation créées selon le découpage régionale en vigueur ou à leurs services provinciaux, ou aux établissements d'enseignement qui en dépendent. Toutefois, dans le cas où les personnes concernées ne présentent pas leur demande, elles sont automatiquement mutées aux besoins du service. Les services rendus par les intéressés, y compris la durée de travail dans les académies régionales d'éducation et de formation où ils travaillaient, sont considérés comme ayant été rendus à l'académie régionale d'éducation et de formation vers laquelle ils ont été mutés."
"Article 13 bis : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les académies régionales d'éducation et de formation créées selon le découpage régional en vigueur à la date de publication de la présente loi au Bulletin Officiel et dont les listes, sièges et compétence territoriale sont fixés par texte règlementaire, remplacent les académies régionales d'éducation et de formation existantes à ladite date, en tous droits et obligations, et ce selon les modalités fixées par texte règlementaire."
"Article 13 ter : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les biens, meubles et valeurs en possession des académies régionales d'éducation et de formation existants sont transférés à titre onéreux à la propriété des académies régionales d'éducation et de formation créées selon le découpage régional en vigueur, qui se substituent à elles en plein droit de leur propriété, et ce dans les limites de la compétence territoriale de chaque académie. Le transfert de propriété susvisé n'entraîne le paiement d'aucune redevance à l'Agence nationale de la conservation foncière, du cadastre et de la cartographie. Les modalités d'application des dispositions du présent article, chaque fois que cela est nécessaire, sont fixées par décret pris sur proposition des deux autorités gouvernementales chargées de l'éducation nationale et des finances."
Article 15 : (abrogé et remplacé par l'article 3 du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe La présente loi entre en vigueur à compter de sa date de sa publication au « Bulletin officiel«.

0
[1] Le directeur de l'académie est nommé conformément aux dispositions des textes législatifs et réglementaires en vigueur.

0
"Article 11 : (abrogé et remplacé par l'article premier de l'arrêté n° 2.23.781 du 19 rabii I 1445 (5 octobre 2023)) (abrogé et remplacé par l'article premier du dahir n° 1.24.09 du 28 de rejeb 1445) 9 février 2024)) - Les fonctionnaires de l'académie se composent des catégories suivantes : - des fonctionnaires soumis، contrairement aux dispositions de l'article 7 de la loi n° 69.00 relative au contrôle financier de l'Etat sur les entreprises publiques et autres organisme، au statut propre des fonctionnaires du secteur de l'éducation nationale. Ces fonctionnaires sont dans une position légale et réglementaire à l'égard de l'académie et sont recrutés, nommés et titularisés à l'un des grades prévus dans le statut susvisé selon les conditions et modalités qu'il précise ; -des fonctionnaires recrutés selon les régimes appliqués aux organismes interministériels ; - des fonctionnaires en situation de rattachement. En ce qui concerne la gestion des fonctionnaires précités, les dispositions de l'alinéa 4 de l'article 9 de la loi n° 69.00 précitée ne sont pas applicables."

0
"Article 11bis. : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les fonctionnaires titulaires et stagiaires exerçant leur travail dans les administrations des académies régionales d'éducation et de formation existantes à la date visée à l'article 15 ci-après, sont mutés, sur demande exprimant leur désir, qu'ils soumettent dans un délai maximum de trois (3) mois, à l'administration des académies régionales d'éducation et de formation créées selon le découpage régionale en vigueur ou à leurs services provinciaux, ou aux établissements d'enseignement qui en dépendent. Toutefois, dans le cas où les personnes concernées ne présentent pas leur demande, elles sont automatiquement mutées aux besoins du service. Les services rendus par les intéressés, y compris la durée de travail dans les académies régionales d'éducation et de formation où ils travaillaient, sont considérés comme ayant été rendus à l'académie régionale d'éducation et de formation vers laquelle ils ont été mutés."

0
"Article 13 bis : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les académies régionales d'éducation et de formation créées selon le découpage régional en vigueur à la date de publication de la présente loi au Bulletin Officiel et dont les listes, sièges et compétence territoriale sont fixés par texte règlementaire, remplacent les académies régionales d'éducation et de formation existantes à ladite date, en tous droits et obligations, et ce selon les modalités fixées par texte règlementaire."

0
"Article 13 ter : (Ajouté par l'article premier du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe) Les biens, meubles et valeurs en possession des académies régionales d'éducation et de formation existants sont transférés à titre onéreux à la propriété des académies régionales d'éducation et de formation créées selon le découpage régional en vigueur, qui se substituent à elles en plein droit de leur propriété, et ce dans les limites de la compétence territoriale de chaque académie. Le transfert de propriété susvisé n'entraîne le paiement d'aucune redevance à l'Agence nationale de la conservation foncière, du cadastre et de la cartographie. Les modalités d'application des dispositions du présent article, chaque fois que cela est nécessaire, sont fixées par décret pris sur proposition des deux autorités gouvernementales chargées de l'éducation nationale et des finances."

0
Article 15 : (abrogé et remplacé par l'article 3 du dahir n° 1-16-04 du 15 rabii II 1437 (26 janvier 2016) publié en langue arabe La présente loi entre en vigueur à compter de sa date de sa publication au « Bulletin officiel«.


In [7]:
from bs4 import BeautifulSoup

def add_extracted_content_to_dataframe(df):
    """Add extracted visible content from HTML to DataFrame."""
    print("Adding extracted visible content to DataFrame...")
    
    def extract_visible_text(html):
        """Extract visible text from HTML."""
        if not html:
            return ""
        soup = BeautifulSoup(html, "html.parser")
        return soup.get_text(separator="\n").strip()
    
    # Extract and store visible content directly
    df['extracted_content'] = df['file_name'].apply(
        lambda file_name: extract_visible_text(read_html_file_from_azure(file_name))
    )
    
    return df

# Process training data
print("Processing training data...")
train_df = add_extracted_content_to_dataframe(train_df)

# Display processed data with visible content
print("\nProcessed Train Data Sample (with visible content):")
display(train_df.head())


Processing training data...
Adding extracted visible content to DataFrame...

Processed Train Data Sample (with visible content):


Unnamed: 0,file_name,long_title,date,doc_type,Id,extracted_content
0,8293.html,Décret n° 2-04-534 du 16 kaada 1425 (29 décemb...,2004-12-29,Décret,0d5401c3-6d59-4a9f-bbe8-4313b599e94b,Bulletin officiel n° 6570 du 18 mai 2017\n \n ...
1,9003.html,Décret n° 2-72-513 du 3 rebia I 1393 (7 avril ...,1973-04-07,Décret,fea3e4a6-7535-425f-bdf2-b792f6052cd5,Bulletin officiel n° 3155 du 7 avril 1973\n \n...
2,11506.html,Dahir n° 1-03-300 du 2 rabii I 1425 (22 avril ...,2004-04-22,Dahir,b67a1c82-9fc7-4a4b-8c67-10f45f5b9dd2,Bulletin officiel n° 5210 du 16 rabii I 1425 (...
3,22837.html,Arrêté du ministre de l’économie et des financ...,2019-05-30,Arrêté,7bace715-97c7-47d5-a321-d17e1bee26a8,Bulletin Officiel n° 6784 bis du 3 chaoual 144...
4,7066.html,Dahir n° 1-17-15 du 28 ramadan 1438 (23 juin 2...,2017-06-23,Dahir,5590ac6b-aa88-4b0d-af35-633fbbeb0bbf,Bulletin officiel n° 6662 du 5 avril 2018\n \n...


In [8]:
# display(HTML(train_df.html_content[0]))

In [10]:
# Set up the tokenizer with proper padding token
# tokenizer.pad_token = tokenizer.eos_token
# model.config.pad_token_id = tokenizer.pad_token_id

In [11]:
# Prepare the dataset for fine-tuning
from datasets import Dataset
from transformers import Trainer, TrainingArguments
from transformers import DataCollatorForLanguageModeling
import evaluate
import numpy as np
import time

# Prepare Unified Text Representation


In [29]:
from datasets import Dataset

# Combine text fields for training
def prepare_dataset(df):
    df['combined_text'] = df.apply(lambda x: f"""Title: {x['long_title']}
Type: {x['doc_type']}
Date: {x['date']}
Content: {x['extracted_content']}""", axis=1)
    return Dataset.from_pandas(df[['combined_text']])

train_dataset = prepare_dataset(train_df)


# Dataset Tokenization

In [31]:
from transformers import AutoTokenizer

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")

# Add a padding token if it doesn't exist
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})

# Tokenization function
def tokenize_function(examples):
    return tokenizer(
        examples['combined_text'], 
        padding="max_length", 
        truncation=True, 
        max_length=512
    )

# Resize model embeddings to account for the new padding token if needed
# This step ensures the model can handle the new padding token if you train or fine-tune it later
# Only required if you're modifying an existing model
# model.resize_token_embeddings(len(tokenizer))

# Tokenize dataset
train_dataset = train_dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=train_dataset.column_names
)


Map:   0%|          | 0/5000 [00:00<?, ? examples/s]

# Verifying the padding token

In [32]:
print("Padding token:", tokenizer.pad_token)
print("Padding token ID:", tokenizer.pad_token_id)


Padding token: [PAD]
Padding token ID: 50257


# Model and Training Setup

In [None]:
from transformers import AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling

# Load model
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")

# Define training arguments
training_args = TrainingArguments(
    output_dir="./juridia_model",
    num_train_epochs=3,
    per_device_train_batch_size=1,
    save_steps=50,
    evaluation_strategy="steps",
    eval_steps=50,
    logging_dir='./logs',
    logging_steps=10,
    learning_rate=2e-5,
    fp16=True,
    gradient_checkpointing=True
)

# Data collator
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    data_collator=data_collator
)

# Train model
trainer.train()


  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


# Evaluation

In [None]:
# Evaluation Metrics
def evaluate_relevance(pred, ref):
    pred_words = set(pred.lower().split())
    ref_words = set(ref.lower().split())
    intersection = len(pred_words & ref_words)
    union = len(pred_words | ref_words)
    return intersection / union if union > 0 else 0.0

def evaluate_completeness(pred, ref):
    return min(len(pred.split()) / max(len(ref.split()), 1), 1.0)

def evaluate_legal_soundness(pred):
    legal_terms = {'loi', 'article', 'code', 'juridique'}
    return sum(1 for term in legal_terms if term in pred.lower())

# Load test data
test_dataset = prepare_dataset(test_df)

# Predict and evaluate
test_predictions = trainer.predict(test_dataset)
predictions = tokenizer.batch_decode(test_predictions.predictions, skip_special_tokens=True)

# Evaluate metrics
test_df['predictions'] = predictions
test_df['relevance'] = test_df.apply(lambda x: evaluate_relevance(x['predictions'], x['combined_text']), axis=1)
test_df['completeness'] = test_df.apply(lambda x: evaluate_completeness(x['predictions'], x['combined_text']), axis=1)
test_df['legal_soundness'] = test_df['predictions'].apply(evaluate_legal_soundness)

print("Evaluation Complete")
display(test_df[['predictions', 'relevance', 'completeness', 'legal_soundness']].head())


# Submission

In [None]:
# Prepare the submission DataFrame
submission_df = test_df[['id', 'predictions']].copy()
submission_df.rename(columns={'predictions': 'extracted_content'}, inplace=True)

# Save to a CSV file
submission_file_path = "submission.csv"
submission_df.to_csv(submission_file_path, index=False)

# Verify the submission format
print("Submission File Saved!")
print(submission_df.head())


In [None]:
# Print submission statistics
print("\nSubmission Statistics:")
print(submission_df.describe())

In [None]:
# Verify submission format
print("\nVerifying submission format...")
required_columns = ['Id', 'relevance', 'completeness', 'legal_soundness', 'fluency', 'latency']
missing_columns = [col for col in required_columns if col not in submission_df.columns]

if missing_columns:
    print(f"Warning: Missing required columns: {missing_columns}")
else:
    print("All required columns present in submission file.")

print("\nSample predictions:")
print(submission_df.head())