# Tâche 1 - Extraire des informations d'un document à l'aide d'expressions régulières

Pour cette tâche, on vous demande de construire un programme qui permet d’extraire le mieux possible les informations de l'offre de cours du Département d’informatique et génie logiciel. 

L'exemple utilisé provient à l'origine d'un fichier PDF pour la session d'automne 2023 disponible avec le lien suivant: https://www.ift.ulaval.ca/fileadmin/ift/documents/PDF/AUTOMNE_2023.pdf

Vous travaillerez avec une version texte de ce fichier obtenue avec la librairie Textract. 

La fonction principale à programmer pour cette tâche est *extract_course_informations* qui produit en sortie la structure suivante: 

<pre>
[
  {"Sigle": "GIF-1001", "Section": "H", "Titre": "Ordinateurs: structures et applications", "Credit": "3"},     
  {"Sigle": "GIF-1003", "Section": "A", "Titre": "Programmation avancée en C++ pour ingénieurs", "Credit": "3"},    
     ...    

  {"Sigle": "IFT-7201", "Section": "Z3", "Titre": "Apprentissage par renforcement", "Credit": "3"}    
]
</pre>

ce qui correspond à une liste de cours offert où chacun est décrit par un dictionnaire Python contenant le sigle du cours, le type de section, son titre et son nombre de crédits.  

On vous demande de documenter votre notebook pour nous permettre de comprendre votre démarche, c.-à-d. expliquer comment vous procédez pour extraire et/ou retirer et/ou assembler les informations. Vous pouvez ajouter des cellules au notebook lorsque vous le jugez nécessaire. 

Vous devez utiliser des expressions régulières pour extraire les informations de cours et détecter les textes non pertinents (si vous utilisez cette approche). Le reste des opérations (par ex. l'assemblage des infos) est effectué avec du code Python.  

Vous pouvez ajouter autant de fonctions utilitaires que vous voulez pour cette tâche. Cependant on demande DE NE PAS MODIFIER la signature des 2 fonctions suivantes: 
- *extract_course_informations(text_list)* , retourne une liste de cours en sortie.
- *read_course_information(text_filename)* , retourne une liste de textes (des strings). 

Des modifications à ces fonctions pourraient nuire à notre correction et des pénalités seront appliquées le cas échéant. 

## Section 1 - Lecture du fichier d'offre de cours

In [1]:
def read_course_information(text_filename):
    """Retourne une liste de lignes de textes (des strings)."""
    with open(text_filename, 'r', encoding='utf-8') as f:
        text_lines = f.readlines()
    return text_lines

In [2]:
course_fn = "./data/cours_A2023.txt"

course_info = read_course_information(course_fn)
course_info

['Cours de 1er cycle \n',
 '\n',
 'AUTOMNE 2023 \n',
 '\n',
 'Cours  Sect.  Titre \n',
 'GIF-1001 \n',
 'GIF-1003 \n',
 'GLO-1111 \n',
 'GLO-2000 \n',
 'GLO-2004 \n',
 'GLO-2100 \n',
 'GLO-3100 \n',
 'GLO-3101 \n',
 'GLO-3102 \n',
 'GLO-4001 \n',
 'GLO-4002 \n',
 'GLO-4003 \n',
 'GLO-4008 \n',
 'GLO-4035 \n',
 'IFT-1000 \n',
 'IFT-1003 \n',
 'IFT-1004 \n',
 'IFT-1004 \n',
 'IFT-1006 \n',
 'IFT-1111 \n',
 'IFT-1701 \n',
 'IFT-2001 \n',
 'IFT-2002 \n',
 'IFT-2003 \n',
 'IFT-2004 \n',
 'IFT-2007 \n',
 'IFT-2008 \n',
 'IFT-2103 \n',
 'IFT-3001 \n',
 'IFT-3101 \n',
 'IFT-3201 \n',
 'IFT-4001 \n',
 'IFT-4022 \n',
 'IFT-4030 \n',
 'IFT-4201 \n',
 'MAT-1919 \n',
 'MAT-1919 \n',
 '\n',
 'Ordinateurs : structures et applications\n',
 'Programmation avancée en C++ pour ingénieurs\n',
 'Pratique du génie logiciel\n',
 'Réseaux pour ingénieurs\n',
 'Génie logiciel orienté objet\n',
 'Algorithmes et structures de données pour ingénieurs\n',
 'Cryptographie et sécurité informatique\n',
 'Gestion de p

## Section 2 - Extraction des informations de cours à partir du fichier 

On vous demande de mettre toutes les expressions régulières que vous utilisez dans la première cellule. 

Par la suite, vous pouvez ajouter toutes les fonctions utilitaires dont vous avez besoin. Et vous terminez en finalisant la fonction principale *extract_course_informations*. Vous pouvez ajouter des cellules dans le notebook. 

Expliquer comment vous procédez pour extraire les informations et construire la liste de cours. Une part importante de point est allouée aux explications.

In [3]:
# Mettre dans cette partie les expressions régulières que vous utilisez

import re

# Mettre vos regex ici...


### Fonctions utilitaires

À compléter si cette section vous est utile...

### Fonction principale d'extraction d'informations

À compléter...

In [4]:
def extract_course_informations(text_list):
    # Cette fonction construit la liste de cours à partir du texte en entrée (une liste de lignes de textes).
    # Chaque coursest un dictionnaire qui contient les informations pertinentes (sigle, section, titre, crédit).
    #
    # Insérez ici votre code pour la production de la liste de cours...

    #------ Retirez à partir d'ici pour votre remise.---- 
    # Exemple de liste de cours qui ressemble à ce que la fonction doit construire.  
    courses = [
        {"Sigle": "GIF-1001", "Section": "H", "Titre": "Ordinateurs: structures et applications", "Credit": "3"},     
        {"Sigle": "GIF-1003", "Section": "A", "Titre": "Programmation avancée en C++ pour ingénieurs", "Credit": "3"}, 
        {"Sigle": "MAT-1019", "Section": "Z3", "Titre": "Mathématiques pour informaticien", "Credit": "3"},
        {"Sigle": "GLO-7008", "Section": "A", "Titre": "Applications infonuagiques natives et DevOps", "Credit": "3"}, 
        {"Sigle": "IFT-7201", "Section": "Z3", "Titre": "Apprentissage par renforcement", "Credit": "3"}    
    ]
    #------------ Retirez ce qui précède -----------------
    
    return courses

## Section 3 - Visualisation des résultats de l'extraction d'informations

In [5]:
courses = extract_course_informations(course_info)   # La liste de cours extraites à partir du texte

In [6]:
import pandas as pd

def get_dataframe(course_info):
    return pd.DataFrame.from_dict(course_info, orient='columns', dtype=None, columns=None)

df = get_dataframe(courses)
df

Unnamed: 0,Sigle,Section,Titre,Credit
0,GIF-1001,H,Ordinateurs: structures et applications,3
1,GIF-1003,A,Programmation avancée en C++ pour ingénieurs,3
2,MAT-1019,Z3,Mathématiques pour informaticien,3
3,GLO-7008,A,Applications infonuagiques natives et DevOps,3
4,IFT-7201,Z3,Apprentissage par renforcement,3


## Section 4 - Évaluation de performance

Évaluez la performance de votre programme dans cette section. Ceci peut être fait à la main ou par programmation selon ce qui vous convient le mieux.

Résultats à présenter :
- Nombre de sigles correctement extraits 
- Nombre de sections correctement extraites et associées au bon sigle de cours
- Nombre de titres corrects, c.-à-d. un texte complet sans commentaires additionnels sur la nouveauté ou le jumelage
- Nombre de titres correctement associés au sigle de cours
- Nombre de crédits correctement associés au sigle de cours 
- Nombre de bonnes descriptions complètes de cours. Par exemple, pour l'automne 2023, il y a un total de 48 cours dans le fichier. Indiquez le nombre de cours dont tous les attributs extraits sont corrects. 

Analyser les erreurs effectuées par votre programme. Vous pouvez ajouter au besoin des cellules dans cette section du notebook. 

## Section 5 - Section réservée pour nos tests