# Conversion de questions à la forme affirmative
Voici un exemple où l'on tente de convertir des questions de la forme interrogative à la forme affirmative.

Par exemple, on voudrait convertir la question :

  En quelle année New Jersey a-t-il remporté sa dernière Coupe Stanley?

sous la forme affirmative

  New Jersey a remporté sa dernière Coupe Stanley en 2000.

Comme on ne connaît pas les réponses, on utilise des informations par défaut pour compléter les phrases:

* Une quantité = 1000
* Une marque temporelle (par ex. une année) = 2000
* Un lieu = Québec
* Une personne = Luc Lamontagne
* Autre information = X
La particularité de cet exemple est qu'on applique une cascade d'expressions régulières afin de faire la conversion. Si une expression fonctionne, on l'applique et le traitement s'arrête. Sinon on essaie avec les autres expressions. Ainsi l'ordre dans lequel on applique les expressions régulières est important.

Voici une liste d'expressions régulières pour cet exemple. L'ordre dans lequel on applique les regex est déterminée par la variable all_regex. Une application réelle nécessiterait un plus grand nombre d'expressions.

In [2]:
pattern_date_1 = "Quand ([\s\w'\.]+)-(il|elle|ils|elles) ([\s\w'\.]+)\?"
sub_date_1 = "\\1 \\3 en 2000."
pattern_date_2 = "En quelle année ([\s\w]+)-t-il ([\s\w']+)\?"
sub_date_2 = "\\1 \\2 en 2000."

regex_quantity_4 = "Quelle est (le |la |l')(espérance|hauteur|quantité|distance|température|vitesse) ([\s\w'-']+)\?"  # sub_quantity_1
sub_quantity_4 = "\\1\\2 \\3 est 1000."
regex_quantity_5 = "(À|A) quelle ([\s\w'-']+)\?"
sub_quantity_2 = "1000 \\1."

pattern_definition_1 = "Qui (est|était) ([A-Z][\s\w'-]+)\?"
sub_definition_1 = "\\2 \\1 X."
pattern_definition_2 = "Qu'est-ce qu['e]\s?([\s\w'-]+)\?"
sub_definition_2 = "\\1 est X."
pattern_definition_3 = "Pourquoi ([\s\w']+)-\w+ ([\s\w'-]+)\?"
sub_definition_3 = "\\1 \\2 parce que X."
pattern_definition_7 = "(Qui|Que|Quel|Quelle) (est|sont|était) ([\s\w'-]+)\?"
sub_definition_7 = "\\3 \\2 X."

pattern_person_1 = "Qui (est|était) ([\s\w'-]+)\?"
sub_person_1 = "\\2 \\1 Luc Lamontagne."
pattern_person_2 = "Qui (a|a été|avait) ([\s\w'-]+)\?"
sub_person_2 = "Luc Lamontagne \\1 \\2."

regex_location_2 = "Dans (quel|quelle) (ville|pays) (est|sont) ([\s\w'-]+)\?"
sub_location_2 = "\\4 \\3 à Québec."
regex_location_3 = "Où (est|sont) ([\s\w'-]+)\?"
sub_location_3 = "\\2 \\1 à Québec."

all_regex = [("date1", pattern_date_1, sub_date_1),
             ("date2", pattern_date_2, sub_date_2),
             ("quantity4", regex_quantity_4, sub_quantity_4),
             ("quantity5", regex_quantity_5, sub_quantity_2),

             ("location2", regex_location_2, sub_location_2),

             ("definition1", pattern_definition_1, sub_definition_1),
             ("definition2", pattern_definition_2, sub_definition_2),
             ("definition3", pattern_definition_3, sub_definition_3),
             ("definition7", pattern_definition_7, sub_definition_7),

             ("person1", pattern_person_1, sub_person_1),
             ("person1", pattern_person_2, sub_person_2),

             ("location3", regex_location_3, sub_location_3)]

Seulement 3 petites fonctions pour cet exemple car presque tout le travail est fait par les expressions régulières.

* convert_all: convertis une liste de questions
* convert: convertis une seule question
* print_results: ça dit ce que ça fait

In [3]:
import re

def convert_all(questions):
    results = []
    for question in questions:
        sentence = convert(question)
        results.append((question, sentence))
    print_results(results)

def convert(question):
    for tag, regex, substitution in all_regex:
        x = re.match(regex, question)
        if x :
            return re.sub(regex, substitution, question)
    return "Désolé! Match pas..."

def print_results(results):
    for question, sentence in results:
        print("Q: " + question)
        print("A: " + sentence + "\n")

Quelques questions pour illustrer ce que fait l'exemple.



In [4]:
questions = [
     "Quelle est la distance entre Denver et Aspen?",
     "Quelle est la hauteur du bâtiment Sears?",
     "Quelle est l'espérance de vie des criquets?",
     "Quand Hawaii est-elle devenue un état?",
     "Quand l'Idaho est-il devenu un état?",
     "En quelle année le Titanic a-t-il coulé?",
     "Dans quelle ville est la tour Eiffel?",
     "Où est le Colisée de Rome?",
     "Qu'est-ce que la biosphère?",
     "Qu'est-ce qu'un atome?",
     "Quelle est la fleur nationale de l'Australie?",
     "Pourquoi la lune devient-elle orange?",
     "Qui a été le premier homme à marcher sur la Lune?",
     "Qui était Galilée?",
     "Qui a développé l'ordinateur Macintosh?"]

Et les conversions qu'on obtient sur ces questions :



In [5]:
convert_all(questions)


Q: Quelle est la distance entre Denver et Aspen?
A: la distance entre Denver et Aspen est 1000.

Q: Quelle est la hauteur du bâtiment Sears?
A: la hauteur du bâtiment Sears est 1000.

Q: Quelle est l'espérance de vie des criquets?
A: l'espérance de vie des criquets est 1000.

Q: Quand Hawaii est-elle devenue un état?
A: Hawaii est devenue un état en 2000.

Q: Quand l'Idaho est-il devenu un état?
A: l'Idaho est devenu un état en 2000.

Q: En quelle année le Titanic a-t-il coulé?
A: le Titanic a coulé en 2000.

Q: Dans quelle ville est la tour Eiffel?
A: la tour Eiffel est à Québec.

Q: Où est le Colisée de Rome?
A: le Colisée de Rome est à Québec.

Q: Qu'est-ce que la biosphère?
A: la biosphère est X.

Q: Qu'est-ce qu'un atome?
A: un atome est X.

Q: Quelle est la fleur nationale de l'Australie?
A: la fleur nationale de l'Australie est X.

Q: Pourquoi la lune devient-elle orange?
A: la lune devient orange parce que X.

Q: Qui a été le premier homme à marcher sur la Lune?
A: Luc Lamontag

On reproche souvent aux expressions régulières d'être fragiles (brittle). En voici un exemple ici où une question légèrement reformulée ne peut pas être prise en compte par notre liste de regex. Dans ce cas, il faudrait ajouter des expressions supplémentaires pour chaque nouvelle question qui ne peut être convertie.

In [6]:
convert("Quand Jonathan est-il né?")


'Jonathan est né en 2000.'

In [7]:
convert("Quand est né Jonathan?")


'Désolé! Match pas...'

Pour terminer, parfois le hasard fait bien les choses...



In [8]:
convert("En quelle année New Jersey a-t-il remporté sa dernière coupe Stanley?")


'New Jersey a remporté sa dernière coupe Stanley en 2000.'

In [9]:
convert("Quand les caméras sont-elle apparues sur les téléphones?")


'les caméras sont apparues sur les téléphones en 2000.'

In [10]:
convert("En quelle année le Bluetooth a-t-il été créé?")


'le Bluetooth a été créé en 2000.'

In [11]:
convert("Qui est le prof de ce cours?")


'le prof de ce cours est X.'