### Création du dataset TEST pour le modèle NLP (CamemBERT)

Création du dataset pour le premier modèle qui détermine si la phrase est au bon format ou phrase
créer un grand dataset (que tu sépare ensuite entre entraînement et test)

In [1]:
import pandas as pd
import random

In [2]:
cities_df = pd.read_csv('communes-departement-region.csv')
cities = cities_df['nom_commune_complet'].tolist()
print(cities[:10])

["L'Abergement-Clémenciat", "L'Abergement-de-Varey", 'Ambérieu-en-Bugey', 'Ambérieux-en-Dombes', 'Ambléon', 'Ambronay', 'Ambutrix', 'Andert-et-Condon', 'Anglefort', 'Apremont']


In [3]:
valid_sentences_template = [
    "Je cherche un billet de {start} à {end}.",
    "Comment puis-je me rendre à {end} depuis {start} ?",
    "Je veux aller à {end} depuis {start}.",
    "Pouvez-vous me trouver un train de {start} à {end} ?",
    "Je voudrais un billet {start} {end}.",
    "Me rendre à {end} avec une étape à {etape}, en partant de {start}.",
    "Comment rejoindre {end} via {etape}, en partant de {start} ?",
    "Trajet avec une escale à {etape} entre {start} et {end}.",
    "Départ de {start}, avec un arrêt à {etape} avant {end}.",
    "Comment aller à {end}, en passant par {etape}, depuis {start} ?",
    "J'ai prévu de quitter {start} pour se rendre à {end} via {etape}.",
    "J'ai prévu de prendre le train à {start} pour aller à {end}."
]

invalid_sentences_template = [
    "Je voudrais un billet.",
    "Les spécialités culinaires régionales de {end} sont à découvrir.",
    "How can I travel from {start} to {end} ?",
    "Les musées de {start} abritent des œuvres d'art célèbres.",
    "Je veux voyager à.",
    "Pouvez-vous me trouver un train depuis {start} ?",
    "Les vignobles de {start} sont réputés dans le monde entier.",
    "I want to go to {end} from {start}.",
    "Les maisons à colombages sont typiques de la région.",
    "Je veux prendre le train pour {end}.",
    "J'ai prévu de {start} se rendre à {end} via."
]


In [4]:
def generate_questions(templates, num_questions=2000):
    questions = []
    for _ in range(num_questions):
        start = random.choice(cities)
        end = random.choice(cities)
        if start != end:
            template = random.choice(templates)
            if '{etape}' in template:
                etape = random.choice(cities)
                while etape == start or etape == end:
                    etape = random.choice(cities)
                question = template.format(start=start, end=end, etape=etape)
            else:
                question = template.format(start=start, end=end)
            questions.append(question)
    return questions

#### Créer des phrases au bon format

In [5]:
valid_sentences = generate_questions(valid_sentences_template, 500) # 1200

In [6]:
data = {
    'sentence': valid_sentences,
    'label': 1
}
df = pd.DataFrame(data)
sample_df = df.sample(n=50, random_state=42)
print(sample_df)

                                              sentence  label
361  Comment puis-je me rendre à Luxeuil-les-Bains ...      1
73   Pouvez-vous me trouver un train de Verrue à Adé ?      1
374  Comment rejoindre Saint-Méard-de-Drône via Hen...      1
155  Comment rejoindre Montourtier via Eycheil, en ...      1
104  J'ai prévu de quitter Saint-Didier-en-Donjon p...      1
394  J'ai prévu de quitter Montbazon pour se rendre...      1
377  Comment rejoindre Reygade via Varennes-Saint-H...      1
124  Trajet avec une escale à Moulins-la-Marche ent...      1
68   J'ai prévu de prendre le train à Aussillon pou...      1
450  Comment rejoindre Rochemaure via Aubry-le-Pant...      1
9     Je voudrais un billet Montigny-en-Gohelle Nance.      1
194  Trajet avec une escale à Roumazières-Loubert e...      1
406  J'ai prévu de prendre le train à Bonneuil-en-V...      1
84   Comment puis-je me rendre à Vergonnes depuis S...      1
371    Je cherche un billet de Sanary-sur-Mer à Assay.      1
388  Je 

In [7]:
df.to_csv('valid_sentences_test_dataset.csv', index=False, encoding='utf-8')

#### Créer des phrases au mauvais format

In [8]:
invalid_sentences = generate_questions(invalid_sentences_template, 500) # 1200

In [9]:
data = {
    'sentence': invalid_sentences,
    'label': 0
}
df = pd.DataFrame(data)
print(df.head())

                                            sentence  label
0  Les musées de Sorges et Ligueux en Périgord ab...      0
1                                 Je veux voyager à.      0
2  How can I travel from Quévreville-la-Poterie t...      0
3  Pouvez-vous me trouver un train depuis La Vern...      0
4  Les spécialités culinaires régionales de Vigne...      0


In [10]:
df.to_csv('invalid_sentences_test_dataset.csv', index=False, encoding='utf-8')