# Répartition du corpus en train, dev et test

Dans le but d'entrainer un modèle, nous devons au préalable découper notre corpus entre trois parties : 
- __train__ : 70% du coprus pour entrainer le modèle
- __test__ : 20% du corpus pour tester le modèle
- __dev__ : 10% du corpus pour affiner les paramètres et améliorer les résultats

Afin de découper notre corpus comme ci-dessus, nous allons utiliser la librairie _scikit-learn_.

In [1]:
!pip install scikit-learn



In [12]:
import pandas as pd

corpus_df = pd.read_csv('../data/clean/clean_datas_chat.csv', sep=',')

# on stocke le tableau dans la variable corpus
# ce format est celui manipuler avec la fonction train_test_split()
corpus = corpus.values

In [24]:
from sklearn.model_selection import train_test_split

# remainder = le reste des données qui seront ensuite divisées en train et dev
# test = 20% du corpus qui constitue les données de test du modèle
remainder, test = train_test_split(corpus, test_size = 0.20, random_state = 0)

print("Il y a 20% du corpus pour la partie test, ce qui représente", len(test),"données.\n")
print("Il reste 80% du corpus à diviser en train et dev, ce qui correspond à", len(remainder), "données.\n")


Il y a 20% du corpus pour la partie test, ce qui représente 10 données.

Il reste 80% du corpus à diviser en train et dev, ce qui correspond à 36 données.



In [26]:
# dans les 80% du corpus restant, on souhaite que 10% soit pour le dev
# produit en croix pour connaitre ce que représente 10% de 80% sur 100% : 
# (10*100)/80 = 12.5

# le dev correspond à test_size ici, on applique le split sur le reste cette fois-ci : 
train, dev = train_test_split(remainder, test_size = 0.125, random_state = 0)

print("Il y a 10% du corpus en dev, ce qui correspond à un total de", len(dev), "données.\n")
print("Il y a 70% du corpus en train, ce qui correspond à un total de", len(train), "données.\n")


Il y a 10% du corpus en dev, ce qui correspond à un total de 5 données.

Il y a 70% du corpus en train, ce qui correspond à un total de 31 données.



### Affichage de nos trois parties train, test et dev dans des dataframes : 

In [30]:
# Partie de train : 
pd.DataFrame(train)

Unnamed: 0,0,1,2,3,4
0,36,robe,"Pour les articles homonymes, voir Robe . Cet ...",Par quel pigments est influencé la couleur de ...,"{'text': 'la mélanine et la phéomélanine', 'an..."
1,44,habitats,"Pour les articles homonymes, voir Habitat . L...",Dans quel domaine est utilisé le concept d'hab...,"{'text': ""l' écologie"", 'answer_start': 99}"
2,47,ronronnement,Vous lisez un « article de qualité » labellisé...,Quel est l'onomatopée du ronronnement ?,"{'text': 'ronron', 'answer_start': 104}"
3,9,animaux_de_compagnie,Un animal de compagnie est un animal recev...,Qu'est ce qui est attendu d'un animal de compa...,"{'text': 'sa présence, de sa beauté, de sa jov..."
4,20,Espèce,Cet article concerne le sens biologique du mot...,Quelles sont les origines latines du mot espèce ?,"{'text': 'du latin species , «type» ou «appare..."
5,40,griffes,"Pour les articles homonymes, voir Griffe . Un...",Chez quels espèces les griffes se trouvent au ...,"{'text': 'certains mammifères , des oiseaux ..."
6,49,bon_article,En résumé: un bon article doit faire honneu...,"C'est quoi un label ""Bon article""",{'text': 'les articles qui ont été reconnus co...
7,4,races,«Racial» redirige ici. Pour l’article homophon...,Que désigne le mot «race» ?,"{'text': ""des groupes d'une même espèce animal..."
8,22,Synonymes,"Pour les articles homonymes, voir Synonymie ....",Qu'est ce qu'on synonyme dans la nomenclature ...,{'text': 'des noms scientifiques différents po...
9,48,argot,"Pour les articles ayant des titres homophones,...",Qu'est-ce qu'un argot ?,{'text': 'une variété linguistique spécifique ...


In [31]:
# Partie de test : 
pd.DataFrame(test)

Unnamed: 0,0,1,2,3,4
0,26,vue,"Pour les articles homonymes, voir Vue (homony...",Grâce à quoi est-il possible d'interagir avec ...,"{'text': 'rayonnements lumineux', 'answer_star..."
1,23,bas_latin,Cet article est une ébauche concernant la R...,De quelle époque vient le bas latin ?,"{'text': 'Antiquité tardive', 'answer_start': ..."
2,30,chats_harets,"Le chat haret , ou chat errant , est un cha...",A quoi est lié la différence entre le chat har...,"{'text': 'éthologique', 'answer_start': 554}"
3,5,toilette,"Pour les toiletteurs, voir Toiletteur . Le t...",Quand est apparue la tondeuse pour chien ?,"{'text': 'en 1850', 'answer_start': 648}"
4,11,rural,"Pour les articles homonymes, voir Campagne (h...",Quel terme est associé au mot rural ?,"{'text': 'campagne', 'answer_start': 62}"
5,34,glandes_sudoripares,Cet article est une ébauche concernant l’ an...,Quelle est la fonction première des glandes su...,"{'text': 'la transpiration', 'answer_start': -1}"
6,31,City_University_of_London,modifier - modifier le code - modifier Wik...,Quand a été fondée la City Université of London ?,"{'text': 'en 1894', 'answer_start': -1}"
7,12,déjections,Cet article est une ébauche concernant la b...,Quel forme peuvent avoir les déjections ?,"{'text': 'forme solide ou liquide', 'answer_st..."
8,21,Chat_(animal),"Pour les articles homonymes, voir Chat (homon...",De quelles taille est le cha t?,"{'text': 'de taille moyenne ou petite', 'answe..."
9,35,carnivore,"Pour les articles homonymes, voir Carnivore (...",Quelle est la forme des canines des carnivores ?,"{'text': 'en crocs', 'answer_start': 490}"


In [32]:
# Partie de dev : 
pd.DataFrame(dev)

Unnamed: 0,0,1,2,3,4
0,43,organe_vestibulaire,Le système vestibulaire est un organe senso...,A quoi peut-on comparer l'oreille interne ?,"{'text': 'à une centrale inertielle', 'answer..."
1,2,félidés,Félidés • Félins «Félin» redirige ici. Pour l...,Quel est le denier encêtre commun des félins m...,"{'text': 'Pseudaelurus', 'answer_start': 1238}"
2,15,ouïe,"Pour les articles homonymes, voir Ouïe . Cet ...",Que permet de percevoir l'ouïe ?,"{'text': 'des sons', 'answer_start': -1}"
3,10,miaulement,Le miaulement est une vocalisation émise pa...,Quel est l'onomatopée du miaulement en français ?,"{'text': 'miaou', 'answer_start': 127}"
4,13,vénéré_par_les_Égyptiens,Le chat était l'un des nombreux animaux dont...,Quel animal était vénéré dans l'Egypte antique ?,"{'text': 'Le chat', 'answer_start': -1}"
