# Tâche 1 - Extraire des informations d'un document à l'aide d'expressions régulières

Pour cette tâche, on vous demande de construire un programme qui permet d’extraire le mieux possible les informations de l'offre de cours du Département d’informatique et génie logiciel.

L'exemple utilisé provient à l'origine d'un fichier PDF pour la session d'automne 2023 disponible avec le lien suivant: https://www.ift.ulaval.ca/fileadmin/ift/documents/PDF/AUTOMNE_2023.pdf

Vous travaillerez avec une version texte de ce fichier obtenue avec la librairie Textract.

La fonction principale à programmer pour cette tâche est *extract_course_informations* qui produit en sortie la structure suivante:

<pre>
[
  {"Sigle": "GIF-1001", "Section": "H", "Titre": "Ordinateurs: structures et applications", "Credit": "3"},     
  {"Sigle": "GIF-1003", "Section": "A", "Titre": "Programmation avancée en C++ pour ingénieurs", "Credit": "3"},    
     ...    

  {"Sigle": "IFT-7201", "Section": "Z3", "Titre": "Apprentissage par renforcement", "Credit": "3"}    
]
</pre>

ce qui correspond à une liste de cours offert où chacun est décrit par un dictionnaire Python contenant le sigle du cours, le type de section, son titre et son nombre de crédits.  

On vous demande de documenter votre notebook pour nous permettre de comprendre votre démarche, c.-à-d. expliquer comment vous procédez pour extraire et/ou retirer et/ou assembler les informations. Vous pouvez ajouter des cellules au notebook lorsque vous le jugez nécessaire.

Vous devez utiliser des expressions régulières pour extraire les informations de cours et détecter les textes non pertinents (si vous utilisez cette approche). Le reste des opérations (par ex. l'assemblage des infos) est effectué avec du code Python.  

Vous pouvez ajouter autant de fonctions utilitaires que vous voulez pour cette tâche. Cependant on demande DE NE PAS MODIFIER la signature des 2 fonctions suivantes:
- *extract_course_informations(text_list)* , retourne une liste de cours en sortie.
- *read_course_information(text_filename)* , retourne une liste de textes (des strings).

Des modifications à ces fonctions pourraient nuire à notre correction et des pénalités seront appliquées le cas échéant. \

    ## Section 1 - Lecture du fichier d'offre de cours

In [255]:
def read_course_information(text_filename):
    """Retourne une liste de lignes de textes (des strings)."""
    with open(text_filename, 'r', encoding='utf-8') as f:
        text_lines = f.readlines()
    return text_lines

In [256]:
course_fn = "./data/cours_A2023.txt"

course_info = read_course_information(course_fn)

## Section 2 - Extraction des informations de cours à partir du fichier

On vous demande de mettre toutes les expressions régulières que vous utilisez dans la première cellule.

Par la suite, vous pouvez ajouter toutes les fonctions utilitaires dont vous avez besoin. Et vous terminez en finalisant la fonction principale *extract_course_informations*. Vous pouvez ajouter des cellules dans le notebook.

Expliquer comment vous procédez pour extraire les informations et construire la liste de cours. Une part importante de point est allouée aux explications.

In [257]:
# Mettre dans cette partie les expressions régulières que vous utilisez

#import re

# Mettre vos regex ici...


### Fonctions utilitaires

À compléter si cette section vous est utile...

In [258]:
import re
def split_txt(text, pattern):
  result = []
  for i in range(0,len(text)):
    rs = re.findall(pattern, text[i])
    if(len(rs) != 0):
      #print(rs)
      result.append(rs.pop())
  return result

def add_course(course, courses):
  courses.append(course)

In [259]:
#Crédit
credit = split_txt(course_info, "^(\d) ?$")
#Sigla
sigla = split_txt(course_info, "^([A-Z]{3}-\d{4}) $")
#section
section = split_txt(course_info, "^([A-Z]\w?) $")
#Titre
titre = split_txt(course_info, "^(.{10,})$")

In [260]:
print(f"titre {len(titre)} credit {len(credit)} sigla {len(sigla)} section {len(section)}")

titre 61 credit 48 sigla 48 section 48


In [261]:
tr = []
for i in range (0,len(titre)):
  if  not((i >= 53 and i <= 60 ) or (i >= 0 and i <= 2) or i == 40):
    tr.append(titre[i])
tr[46] = tr[46]+ ' ' + tr[47]
tr.remove(tr[47])
titre = tr

In [262]:
for i in range (0,len(titre)):
  print(f"{sigla[i]} {section[i]} {titre[i]} {credit[i]}")

GIF-1001 H Ordinateurs : structures et applications 3
GIF-1003 A Programmation avancée en C++ pour ingénieurs 3
GLO-1111 ZA Pratique du génie logiciel 0
GLO-2000 A Réseaux pour ingénieurs 3
GLO-2004 Z3 Génie logiciel orienté objet 3
GLO-2100 A Algorithmes et structures de données pour ingénieurs 3
GLO-3100 Z3 Cryptographie et sécurité informatique 3
GLO-3101 ZA Gestion de projets informatiques : méthodes et outils 3
GLO-3102 Z3 Développement d'applications Web 3
GLO-4001 A Introduction à la robotique mobile 3
GLO-4002 Z3 Qualité et métriques du logiciel 3
GLO-4003 A Architecture logicielle 3
GLO-4008 A Applications infonuagiques natives et DevOps 3
GLO-4035 Z3 Bases de données avancées 3
IFT-1000 Z3 Logique et techniques de preuve 3
IFT-1003 Z3 Analyse et conception de systèmes d’information 3
IFT-1004 A Introduction à la programmation 3
IFT-1004 Z3 Introduction à la programmation 3
IFT-1006 Z3 Programmation avancée en C++ 3
IFT-1111 ZA Pratique de l’informatique 0
IFT-1701 A Introduct

In [263]:
def fill_camp(courses):
  for i in range(0,48):
    course = {}
    course["Sigle"]=sigla[i]
    course["Section"]=section[i]
    course["Titre"]=titre[i]
    course["Credit"]=credit[i]
    add_course(course, courses)



In [264]:
courses = []
fill_camp(courses)

courses

[{'Sigle': 'GIF-1001',
  'Section': 'H',
  'Titre': 'Ordinateurs : structures et applications',
  'Credit': '3'},
 {'Sigle': 'GIF-1003',
  'Section': 'A',
  'Titre': 'Programmation avancée en C++ pour ingénieurs',
  'Credit': '3'},
 {'Sigle': 'GLO-1111',
  'Section': 'ZA',
  'Titre': 'Pratique du génie logiciel',
  'Credit': '0'},
 {'Sigle': 'GLO-2000',
  'Section': 'A',
  'Titre': 'Réseaux pour ingénieurs',
  'Credit': '3'},
 {'Sigle': 'GLO-2004',
  'Section': 'Z3',
  'Titre': 'Génie logiciel orienté objet',
  'Credit': '3'},
 {'Sigle': 'GLO-2100',
  'Section': 'A',
  'Titre': 'Algorithmes et structures de données pour ingénieurs',
  'Credit': '3'},
 {'Sigle': 'GLO-3100',
  'Section': 'Z3',
  'Titre': 'Cryptographie et sécurité informatique',
  'Credit': '3'},
 {'Sigle': 'GLO-3101',
  'Section': 'ZA',
  'Titre': 'Gestion de projets informatiques : méthodes et outils',
  'Credit': '3'},
 {'Sigle': 'GLO-3102',
  'Section': 'Z3',
  'Titre': "Développement d'applications Web",
  'Credit':

### Fonction principale d'extraction d'informations

À compléter...

In [265]:
def extract_course_informations(text_list):
    # Cette fonction construit la liste de cours à partir du texte en entrée (une liste de lignes de textes).
    # Chaque coursest un dictionnaire qui contient les informations pertinentes (sigle, section, titre, crédit).
    #
    # Insérez ici votre code pour la production de la liste de cours...

    #------ Retirez à partir d'ici pour votre remise.----
    # Exemple de liste de cours qui ressemble à ce que la fonction doit construire.
    courses = [
        {"Sigle": "GIF-1001", "Section": "H", "Titre": "Ordinateurs: structures et applications", "Credit": "3"},
        {"Sigle": "GIF-1003", "Section": "A", "Titre": "Programmation avancée en C++ pour ingénieurs", "Credit": "3"},
        {"Sigle": "MAT-1019", "Section": "Z3", "Titre": "Mathématiques pour informaticien", "Credit": "3"},
        {"Sigle": "GLO-7008", "Section": "A", "Titre": "Applications infonuagiques natives et DevOps", "Credit": "3"},
        {"Sigle": "IFT-7201", "Section": "Z3", "Titre": "Apprentissage par renforcement", "Credit": "3"}
    ]
    #------------ Retirez ce qui précède -----------------

    return courses

## Section 3 - Visualisation des résultats de l'extraction d'informations

In [266]:
#courses = extract_course_informations(course_info)   # La liste de cours extraites à partir du texte

In [267]:
import pandas as pd

def get_dataframe(course_info):
    return pd.DataFrame.from_dict(course_info, orient='columns', dtype=None, columns=None)

df = get_dataframe(courses)
df

Unnamed: 0,Sigle,Section,Titre,Credit
0,GIF-1001,H,Ordinateurs : structures et applications,3
1,GIF-1003,A,Programmation avancée en C++ pour ingénieurs,3
2,GLO-1111,ZA,Pratique du génie logiciel,0
3,GLO-2000,A,Réseaux pour ingénieurs,3
4,GLO-2004,Z3,Génie logiciel orienté objet,3
5,GLO-2100,A,Algorithmes et structures de données pour ingé...,3
6,GLO-3100,Z3,Cryptographie et sécurité informatique,3
7,GLO-3101,ZA,Gestion de projets informatiques : méthodes et...,3
8,GLO-3102,Z3,Développement d'applications Web,3
9,GLO-4001,A,Introduction à la robotique mobile,3


## Section 4 - Évaluation de performance

Évaluez la performance de votre programme dans cette section. Ceci peut être fait à la main ou par programmation selon ce qui vous convient le mieux.

Résultats à présenter :
- Nombre de sigles correctement extraits
- Nombre de sections correctement extraites et associées au bon sigle de cours
- Nombre de titres corrects, c.-à-d. un texte complet sans commentaires additionnels sur la nouveauté ou le jumelage
- Nombre de titres correctement associés au sigle de cours
- Nombre de crédits correctement associés au sigle de cours
- Nombre de bonnes descriptions complètes de cours. Par exemple, pour l'automne 2023, il y a un total de 48 cours dans le fichier. Indiquez le nombre de cours dont tous les attributs extraits sont corrects.

Analyser les erreurs effectuées par votre programme. Vous pouvez ajouter au besoin des cellules dans cette section du notebook.

## Section 5 - Section réservée pour nos tests