<a href="https://colab.research.google.com/github/fredlarochelle/Canada-Ham-Pool/blob/main/Parsing_the_IC_files.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Parsing

We parse the comma delimited text file found on the *Innovation, Science and Economic Development Canada* [website](https://ic.gc.ca/eic/site/025.nsf/eng/h_00004.html) that contain the question for the radio amateur exams...

They are using ISO-8859-1 encoding, we will convert to JSON to make it easier to work it.

In [1]:
import pandas as pd

# these files were downloaded manually from the IC website
file_basic = '/content/amat_basic_quest_delim.txt'
file_advanced = '/content/amat_adv_quest_delim.txt'

df_basic = pd.read_csv(file_basic, sep=';', encoding='ISO-8859-1')
df_advanced = pd.read_csv(file_advanced, sep=';', encoding='ISO-8859-1')

In [2]:
df_basic.head()

Unnamed: 0,question_id,question_english,correct_answer_english,incorrect_answer_1_english,incorrect_answer_2_english,incorrect_answer_3_english,question_french,correct_answer_french,incorrect_answer_1_french,incorrect_answer_2_french,incorrect_answer_3_french
0,B-001-001-001,Authority to make regulations governing radioc...,the Radiocommunication Act,the Radiocommunication Regulations,the Standards for the Operation of Radio Stati...,the ITU Radio Regulations,Le pouvoir d'établir des règlements sur la rad...,la Loi sur la radiocommunication,le Règlement sur la radiocommunication,les Normes sur l'exploitation de stations radi...,le Règlement des radiocommunications de l'UIT
1,B-001-001-002,"Authority to make ""Standards for the Operation...",the Radiocommunication Act,the Radiocommunication Regulations,the Standards for the Operation of Radio Stati...,the ITU Radio Regulations,"Le pouvoir d'établir des ""Normes sur l'exploit...",la Loi sur la radiocommunication,le Règlement sur la radiocommunication,les Normes sur l'exploitation de stations radi...,le Règlement des radiocommunications de l'UIT
2,B-001-001-003,The Department that is responsible for the adm...,"Innovation, Science and Economic Development C...",Transport Canada,Communications Canada,National Defence,Quel est le ministère responsable de l'applica...,"Innovation, Sciences et Développement économiq...",Transports Canada,Communications Canada,Défense nationale
3,B-001-001-004,"The ""amateur radio service"" is defined in:",the Radiocommunication Regulations,the Radiocommunication Act,the Standards for the Operation of Radio Stati...,the FCC's Part 97 rules,Le service de radioamateur est défini dans :,le Règlement sur la radiocommunication,la Loi sur la radiocommunication,les Normes sur l'exploitation de stations radi...,la Partie 97 des règlements de la Commission d...
4,B-001-002-001,What must you do to notify your mailing addres...,"Contact Innovation, Science and Economic Devel...","Telephone your local club, and give them your ...",Contact an accredited examiner and provide det...,Write amateur organizations advising them of y...,Que devez-vous faire lorsque vous changez d'ad...,"Communiquer avec Innovation, Sciences et Dével...",Téléphoner à votre club local pour donner votr...,Communiquer avec un examinateur accrédité et f...,Faire parvenir votre nouvelle adresse aux orga...


In [3]:
df_advanced.head()

Unnamed: 0,question_id,question_english,correct_answer_english,incorrect_answer_1_english,incorrect_answer_2_english,incorrect_answer_3_english,question_french,correct_answer_french,incorrect_answer_1_french,incorrect_answer_2_french,incorrect_answer_3_french
0,A-001-001-001,"What is the meaning of the term ""time constant...",The time required for the current in the circu...,The time required for the current in the circu...,The time required for the voltage in the circu...,The time required for the voltage in the circu...,Comment se définit la constante de temps dans ...,Le temps requis pour que le courant du circuit...,Le temps requis pour que le courant du circuit...,Le temps requis pour que la tension du circuit...,Le temps requis pour que la tension du circuit...
1,A-001-001-002,What is the term for the time required for the...,One time constant,An exponential rate of one,A time factor of one,One exponential period,Quel terme décrit le temps que prend un conden...,Une constante de temps,Un taux exponentiel de valeur 1,Un facteur de temps de valeur 1,Une période exponentielle
2,A-001-001-003,What is the term for the time required for the...,One time constant,An exponential period of one,A time factor of one,One exponential rate,Quel terme décrit le temps que prend le couran...,Une constante de temps,Une période exponentielle de valeur 1,Un facteur de temps de valeur 1,Un taux exponentiel
3,A-001-001-004,What is the term for the time it takes for a c...,One time constant,A discharge factor of one,An exponential discharge of one,One discharge period,Quel terme est employé pour décrire le temps q...,Une constante de temps,Un facteur de décharge de valeur 1,Une décharge exponentielle de valeur 1,Une période de décharge
4,A-001-001-005,"What is meant by ""back EMF""?",A voltage that opposes the applied EMF,A current that opposes the applied EMF,An opposing EMF equal to R times C percent of ...,A current equal to the applied EMF,Comment se définit la force contre-électromotr...,Une tension qui s'oppose à la force électromot...,Un courant qui s'oppose à la force électromotr...,Une force électromotrice opposée et égale à R ...,Un courant égal à la force électromotrice appl...


## Adding categories

We add the category of each question to the dataframe

In [4]:
categories = {
    "A-001": ["Advanced Theory", "Théorie avancée"],
    "A-002": ["Advanced Components and Circuits", "Notions avancées sur les composants et les circuits"],
    "A-003": ["Measurements", "Mesures"],
    "A-004": ["Power Supplies", "Alimentation"],
    "A-005": ["Transmitters, Modulation and Processing", "Émetteurs, modulation et traitement"],
    "A-006": ["Receivers", "Récepteurs"],
    "A-007": ["Feedlines - Matching and Antenna Systems", "Descentes d'antenne - adaptation et systèmes d'antenne"],
    "B-001": ["Regulation and Policies", "Règlements et politiques"],
    "B-002": ["Operating and Procedures", "Exploitation and procédures"],
    "B-003": ["Station Assembly, Practice and Safety", "Montage d'une station, pratique et sécurité"],
    "B-004": ["Circuit Components", "Composants des circuits"],
    "B-005": ["Basic Electronics and Theory", "Éléments et théorie de l'électronique"],
    "B-006": ["Feedlines and Antenna Systems", "Descentes d'antenne et systèmes d'antenne"],
    "B-007": ["Radio Wave Propagation", "Propagation des ondes radioélectriques"],
    "B-008": ["Interference and Suppression", "Brouillage et suppression"]
}

In [5]:
df_basic["category_english"] = ' '
df_basic["category_french"] = ' '
df_advanced["category_english"] = ' '
df_advanced["category_french"] = ' '

In [6]:
for ind in df_basic.index:
  for key in categories:
    if df_basic['question_id '][ind].startswith(key):
      df_basic['category_english'][ind] = categories[key][0]
      df_basic['category_french'][ind] = categories[key][1]

for ind in df_advanced.index:
  for key in categories:
    if df_advanced['question_id '][ind].startswith(key):
      df_advanced['category_english'][ind] = categories[key][0]
      df_advanced['category_french'][ind] = categories[key][1]

## Export to JSON

In [7]:
df_basic.to_json('/content/amateur_basic_question.json')
df_advanced.to_json('/content/amateur_advanced_question.json')