# Imports

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Chargement des données

In [None]:
# Création d'un dossier appelé data
!mkdir data
# Téléchargement du fichier fanfictions dans le dossier data
!wget -P data https://gitlab.unistra.fr/paulinemoreau/memoire/-/raw/main/data/vrac/pretraitements/valide/fanfics_min.csv

--2025-03-28 23:04:31--  https://gitlab.unistra.fr/paulinemoreau/memoire/-/raw/main/data/vrac/pretraitements/valide/fanfics_min.csv
Resolving gitlab.unistra.fr (gitlab.unistra.fr)... 130.79.254.48
Connecting to gitlab.unistra.fr (gitlab.unistra.fr)|130.79.254.48|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 609987613 (582M) [text/plain]
Saving to: ‘data/fanfics_min.csv’


2025-03-28 23:05:38 (8.80 MB/s) - ‘data/fanfics_min.csv’ saved [609987613/609987613]



In [None]:
df_fanfics = pd.read_csv("data/fanfics_min.csv")

In [None]:
df_fanfics.head()

Unnamed: 0,work_id,tag,title,author,rating,category,fandom,relationship,character,additional tags,...,all_bookmarks,body,body_clean,nb_caracteres,characters_clean,body_no_chara,tokenised_body,tokenised_no_chara,lemmatised_body,lemmatised_no_chara
0,63563206,Fluff,Nuit etoile,['Lady_Meg_666'],General Audiences,M/M,Harry Potter - J. K. Rowling,Sirius Black/Remus Lupin,"Sirius Black, Remus Lupin","Established Relationship, Fluff, Domestic Fluf...",...,[],"<< Regarde, murmure Sirius en montrant le ciel...","<< Regarde, murmure Sirius en montrant le ciel...",1413,"['Remus', 'Black', 'Sirius', 'Lupin']","<< Regarde, murmure en montrant le ciel de mi...","< < Regarde , murmure Sirius montrant ciel min...","< < Regarde , murmure montrant ciel minuit p...","< < regarde , murmure Sirius en montrer le cie...","< < regarde , murmure en montrer le ciel de ..."
1,63528274,Fluff,Je le deteste,['wilk'],Not Rated,M/M,Hawaii Five-0 (2010),"Steve McGarrett/Danny ""Danno"" Williams","Danny ""Danno"" Williams, Steve McGarrett",Fluff,...,[],Danny deteste vraiment Steve : a peine deux jo...,Danny deteste vraiment Steve : a peine deux jo...,600,"['Steve', 'Williams', 'Danny', 'McGarrett', 'D...",deteste vraiment : a peine deux jours apres ...,Danny deteste vraiment Steve : peine jours ren...,"deteste vraiment : peine jours rencontre ,...",Danny detest vraiment steve : avoir peine deux...,detest vraiment : avoir peine deux jour ap...
2,63513724,Fluff,Camomille,['MyLovelyKitchenSinkDrama'],General Audiences,M/M,Guns N' Roses,Axl Rose/Izzy Stradlin,"Izzy Stradlin, Axl Rose","Domestic Fluff, Self-Indulgent, Trans Male Cha...",...,[],Izzy n'entend aucun bruit venir de l'appart qu...,Izzy n'entend aucun bruit venir de l'appart qu...,1742,"['Rose', 'Axl', 'Stradlin', 'Izzy']",n'entend aucun bruit venir de l'appart quand ...,Izzy entend aucun bruit venir appart tourne cl...,entend aucun bruit venir appart tourne clef ...,Izzy ne entendre aucun bruit venir de le appar...,ne entendre aucun bruit venir de le appart q...
3,63507442,Fluff,Le Sel sur ses Levres,['Kayukiya'],Explicit,M/M,Captive Prince - C. S. Pacat,Damen/Laurent (Captive Prince),"Damen (Captive Prince), Laurent (Captive Prince)","POV Damen (Captive Prince), Caring Damen (Capt...",...,[],\n\nLa jument a la superbe robe isabelle se d...,La jument a la superbe robe isabelle se dressa...,35140,"['Laurent', 'Damen']",La jument a la superbe robe isabelle se dressa...,jument superbe robe isabelle dressait fieremen...,jument superbe robe isabelle dressait fieremen...,le jument avoir le superbe rob isabelle se dre...,le jument avoir le superbe rob isabelle se dre...
4,63508948,Fluff,L'heureux destinataire,['Lady_Meg_666'],General Audiences,M/M,Teen Wolf (TV),Liam Dunbar/Theo Raeken,"Liam Dunbar, Theo Raeken","Letter, love letter, Romantic Fluff",...,[],"""Je ne sais pas vraiment quoi faire. Depuis ma...","""Je ne sais pas vraiment quoi faire. Depuis ma...",2412,"['Theo', 'Liam', 'Raeken', 'Dunbar']","""Je ne sais pas vraiment quoi faire. Depuis ma...",""" sais vraiment faire . , coeur . oublier voud...",""" sais vraiment faire . , coeur . oublier voud...",""" je ne savoir pas vraiment quoi faire . depui...",""" je ne savoir pas vraiment quoi faire . depui..."


In [None]:
len(df_fanfics)

3425

# Création des corpus dev et test pour la classification automatique

### Séparation des auteurs

Je fais en sorte qu'un même auteur ne se retrouve pas dans les deux sous-corpus.

In [None]:
# Récupérer la liste des auteurs (sans doublons)
auteurs_uniq = df_fanfics["author"].unique()

In [None]:
# Séparer les auteurs en Dev (80%) et Test (20%)
auteurs_dev, auteurs_test = train_test_split(auteurs_uniq, test_size=0.2, random_state=42)

In [None]:
# Étape 3 : Assigner les fanfictions en fonction des auteurs
df_dev = df_fanfics[df_fanfics["author"].isin(auteurs_dev)]
df_test = df_fanfics[df_fanfics["author"].isin(auteurs_test)]

# Vérification
print(f"Nombre de fanfics en Dev: {len(df_dev)}, Nombre de fanfics en Test: {len(df_test)}")
print(f"Nombre d'auteurs en Dev: {df_dev['author'].nunique()}, Nombre d'auteurs en Test: {df_test['author'].nunique()}")

Nombre de fanfics en Dev: 2591, Nombre de fanfics en Test: 834
Nombre d'auteurs en Dev: 828, Nombre d'auteurs en Test: 208


###Vérification de la répartition des tags

In [None]:
# Vérification de la répartition des tags
tags_dev = df_dev["tag"].value_counts(normalize=True)
tags_test = df_test["tag"].value_counts(normalize=True)

print("Distribution des tags dans le sous-corpus Dev:")
print(tags_dev)

print("\nDistribution des tags dans le sous-corpus Test:")
print(tags_test)

Distribution des tags dans le sous-corpus Dev:
tag
Fluff                0.265535
Hurt/Comfort         0.264377
Angst                0.222308
Friends to lovers    0.160556
Enemies to lovers    0.087225
Name: proportion, dtype: float64

Distribution des tags dans le sous-corpus Test:
tag
Angst                0.424460
Hurt/Comfort         0.296163
Fluff                0.134293
Friends to lovers    0.093525
Enemies to lovers    0.051559
Name: proportion, dtype: float64


On remarque que le fait de séparer en fonction des auteurs cause un déséquilibre dans la représentation qu'occupe chaque tag dans dev et dans test.
Par exemple, Fluff représente 27 % de dev mais seulement 13 % de test, à l'inverse Angst est deux fois plus représenté dans test qu'il ne l'est dans dev.

J'essaye de rééquilibrer cette répartition en prenant en compte les proportions initiales de chaque tag.

In [None]:
# Récupérer les proportions globales des tags
proportions = df_fanfics["tag"].value_counts(normalize=True)

# Séparer les auteurs en fonction de ces proportions
auteurs_uniques = df_fanfics["author"].unique()

# Créer un DataFrame pour stocker chaque auteur et les tags qu'il a écrit
author_tag_counts = df_fanfics.groupby("author")["tag"].value_counts().unstack(fill_value=0)

# Normaliser les tags pour chaque auteur
author_tag_counts = author_tag_counts.div(author_tag_counts.sum(axis=1), axis=0)

# Séparer les auteurs en gardant un équilibre des tags
auteurs_dev, auteurs_test = train_test_split(
    author_tag_counts.index, test_size=0.2, random_state=42)

# Assigner les fanfictions aux sous-corpus
df_dev = df_fanfics[df_fanfics["author"].isin(auteurs_dev)]
df_test = df_fanfics[df_fanfics["author"].isin(auteurs_test)]

# Vérification
print(f"Nombre de fanfics en Dev: {len(df_dev)}, Nombre de fanfics en Test: {len(df_test)}")
print(f"Nombre d'auteurs en Dev: {df_dev['author'].nunique()}, Nombre d'auteurs en Test: {df_test['author'].nunique()}")

# Vérifier la répartition des tags après séparation
print("Distribution des tags dans Dev :")
print(df_dev["tag"].value_counts(normalize=True))

print("Distribution des tags dans Test :")
print(df_test["tag"].value_counts(normalize=True))


Nombre de fanfics en Dev: 2831, Nombre de fanfics en Test: 594
Nombre d'auteurs en Dev: 828, Nombre d'auteurs en Test: 208
Distribution des tags dans Dev :
tag
Angst                0.263511
Hurt/Comfort         0.263511
Fluff                0.237725
Friends to lovers    0.153303
Enemies to lovers    0.081950
Name: proportion, dtype: float64
Distribution des tags dans Test :
tag
Hurt/Comfort         0.313131
Angst                0.309764
Fluff                0.213805
Friends to lovers    0.101010
Enemies to lovers    0.062290
Name: proportion, dtype: float64


La répartition des tags est mieux équlibrée mais dev et test ne représentent plus 80 % et 20 %, la taille de test est un peu faible.

J'essaye d'augmenter le test-size légèrement pour voir si cela permet d'obtenir un dev et test plus proche des 80-20 %.

In [None]:
# Séparer les auteurs en gardant un équilibre des tags
auteurs_dev, auteurs_test = train_test_split(
    author_tag_counts.index, test_size=0.23, random_state=42)

# Assigner les fanfictions aux sous-corpus
df_dev = df_fanfics[df_fanfics["author"].isin(auteurs_dev)]
df_test = df_fanfics[df_fanfics["author"].isin(auteurs_test)]

# Vérification
print(f"Nombre de fanfics en Dev: {len(df_dev)}, Nombre de fanfics en Test: {len(df_test)}")
print(f"Nombre d'auteurs en Dev: {df_dev['author'].nunique()}, Nombre d'auteurs en Test: {df_test['author'].nunique()}")

# Vérifier la répartition des tags après séparation
print("Distribution des tags dans Dev :")
print(df_dev["tag"].value_counts(normalize=True))

print("Distribution des tags dans Test :")
print(df_test["tag"].value_counts(normalize=True))


Nombre de fanfics en Dev: 2556, Nombre de fanfics en Test: 869
Nombre d'auteurs en Dev: 797, Nombre d'auteurs en Test: 239
Distribution des tags dans Dev :
tag
Angst                0.284429
Hurt/Comfort         0.280125
Fluff                0.241393
Friends to lovers    0.125587
Enemies to lovers    0.068466
Name: proportion, dtype: float64
Distribution des tags dans Test :
tag
Hurt/Comfort         0.248562
Angst                0.233602
Fluff                0.210587
Friends to lovers    0.199079
Enemies to lovers    0.108170
Name: proportion, dtype: float64


On obtient une répartition dev - test d'environ 75 - 25 %, ce qui me semble acceptable.
Les tags sont mieux répartis, avec un léger déséquilibre pour Angst qui occupe 28 % de dev contre 23 % de test.

In [None]:
print("Distribution des tags dans Dev :")
print(df_dev["tag"].value_counts())

print("Distribution des tags dans Test :")
print(df_test["tag"].value_counts())

Distribution des tags dans Dev :
tag
Angst                727
Hurt/Comfort         716
Fluff                617
Friends to lovers    321
Enemies to lovers    175
Name: count, dtype: int64
Distribution des tags dans Test :
tag
Hurt/Comfort         216
Angst                203
Fluff                183
Friends to lovers    173
Enemies to lovers     94
Name: count, dtype: int64


In [None]:
#Enregistrement
df_dev.to_csv("data/fanfics_dev.csv", index=False)
df_test.to_csv("data/fanfics_test.csv", index=False)