In [1]:
import pandas as pd

In [2]:
# Specify the file path
file_path_training = "data/unlabelled_test_data.csv"

# Read the CSV file
training_data = pd.read_csv(file_path_training, index_col=0)

training_data.head()

Unnamed: 0_level_0,sentence
id,Unnamed: 1_level_1
0,Nous dûmes nous excuser des propos que nous eû...
1,Vous ne pouvez pas savoir le plaisir que j'ai ...
2,"Et, paradoxalement, boire froid n'est pas la b..."
3,"Ce n'est pas étonnant, car c'est une saison my..."
4,"Le corps de Golo lui-même, d'une essence aussi..."


DIVERSITE (POURCENTAGE DE MOT DIFFERENT - sans stepwords)

In [3]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
import string

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /Users/phil/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/phil/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Mesure la diversité lexicale en calculant le rapport entre le nombre de mots uniques et le nombre total de mots, et elle tient compte de la longueur moyenne des mots et des phrases.
Le score de complexité renvoyé par cette fonction est basé sur ces mesures liées à la diversité lexicale et à la longueur des mots et des phrases.

In [4]:
# Charger la liste des stopwords
stopwords_french = set(stopwords.words('french'))

def preprocess_text(texte, remove_stopwords=True):
    if not isinstance(texte, str):
        raise ValueError("Le texte doit être une chaîne de caractères.")

    mots = word_tokenize(texte, language='french')
    mots_low = [mot.lower() for mot in mots if mot.isalpha()]  # Filtrer les mots qui ne sont que des lettres

    if remove_stopwords:
        mots_low = [mot for mot in mots_low if mot not in stopwords_french]

    return mots_low

def diversite_lexicale_complexite(texte, remove_stopwords=True):
    phrases = sent_tokenize(texte, language='french')
    mots_low = preprocess_text(texte, remove_stopwords)
    
    if not mots_low or not phrases:
        return float(0)  # Ou 0, selon ce qui est le plus approprié pour votre analyse
    
    nb_mots = len(mots_low)
    nb_phrases = len(phrases)
    longueur_moyenne_mot = sum(len(mot) for mot in mots_low) / nb_mots
    longueur_moyenne_phrase = sum(len(phrase.split()) for phrase in phrases) / nb_phrases

    lexical_diversity = len(set(mots_low)) / nb_mots

    # Facteur de complexité basé sur la longueur moyenne des mots et des phrases
    complexite = lexical_diversity * (1 + (longueur_moyenne_mot / 5)) * (1 + (longueur_moyenne_phrase / 10))
    
    return complexite

# Exemple d'utilisation
training_data['lexical_complexite'] = training_data['sentence'].apply(diversite_lexicale_complexite)

In [5]:
training_data.sort_values(by=['lexical_complexite'], ascending=False).head(50)

Unnamed: 0_level_0,sentence,lexical_complexite
id,Unnamed: 1_level_1,Unnamed: 2_level_1
355,Au XIXe siècle la querelle du féminisme devien...,34.697699
259,Le départ de Mlle Swann qui - en m'ôtant la ch...,31.742686
143,Car souvent dans l'une on trouve égaré un jour...,30.369515
697,Et les mèches de ses cheveux roux crespelés pa...,25.83409
1149,"Tôt dans l'année 1880, en dépit d'un doute bie...",25.663776
413,"Autour d'elles, sous elles, coulait un grand r...",24.755455
255,"Et les étoffes vivaient, dans cette passion du...",23.704762
25,L'homme fait regarder son sexe comme un symbol...,22.190926
670,Et se précipitant sur un livre de messe relié ...,21.774545
1197,Il n'était pas comme tant de gens qui par pare...,19.68892


In [6]:
training_data.sort_values(by=['lexical_complexite'], ascending=True).head(50)

Unnamed: 0_level_0,sentence,lexical_complexite
id,Unnamed: 1_level_1,Unnamed: 2_level_1
27,Il est 17h,0.0
715,Pouvez-vous m'aidez ?,0.0
984,Que se passe-t-il?,0.0
54,Et toi ?,0.0
172,D'où viens-tu ?,0.0
1170,Où habites-tu ?,1.82
21,"Si six scies scient six cyprès, six cent six s...",1.899733
70,N'importe quoi.,2.16
209,Es-tu prêt?,2.16
840,Quoi !,2.16


VERIFICATION ORTHOGRAPHE (POURCENTAGE DE MOT DIFFERENT)

In [7]:
import spacy
from spellchecker import SpellChecker
from spellchecker import SpellChecker

spacy.cli.download("fr_core_news_sm")
nlp = spacy.load("fr_core_news_sm")

Collecting fr-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.5.0/fr_core_news_sm-3.5.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m12.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


In [8]:
import language_tool_python

# Initialisation des outils
tool = language_tool_python.LanguageTool('fr')

def evaluer_orthographe_syntaxe(texte):
    # Vérification avec LanguageTool
    erreurs_language_tool = tool.check(texte)

    # Compter les différents types d'erreurs
    erreurs_orthographe = sum(1 for erreur in erreurs_language_tool if 'ORTHOGRAPH' in erreur.ruleId)
    erreurs_grammaire = sum(1 for erreur in erreurs_language_tool if 'GRAMMAR' in erreur.ruleId)

    # Analyse syntaxique avec spaCy
    doc = nlp(texte)
    erreurs_syntaxe = sum(1 for token in doc if token.dep_ == "nsubj" and token.head.pos_ != 'VERB')

    # Calcul de la note
    seuil_minimal_mots = 5
    nombre_mots = max(len(texte.split()), seuil_minimal_mots)
    poids_orthographe = 1.0  # Ajuster selon l'importance relative
    poids_grammaire = 1.5  # Les erreurs grammaticales peuvent être plus graves
    note_globale = max(1 - ((erreurs_orthographe * poids_orthographe + erreurs_grammaire * poids_grammaire + erreurs_syntaxe) / nombre_mots), 0)

    return note_globale

# Exemple d'utilisation
training_data['note_orthographe'] = training_data['sentence'].apply(evaluer_orthographe_syntaxe)

In [9]:
training_data.sort_values(by=['note_orthographe'], ascending=True).head(50)

Unnamed: 0_level_0,sentence,lexical_complexite,note_orthographe
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
990,"Le paradis, je vous le dis.",3.2,0.666667
658,Les maths font-elles peur aux femmes ?,3.4,0.714286
157,Ce qui est faux.,2.52,0.8
889,Je suis débutante.,3.64,0.8
905,C'était un saint homme.,2.8,0.8
1011,Quel est cet animal ?,2.8,0.8
392,C'est ma meilleure amie,3.22,0.8
1054,Elle est belge.,2.6,0.8
1098,Y a moyen de moyenner.,2.9,0.8
748,C'est une fête chrétienne qui célèbre la naiss...,4.8,0.8


AUTRES ATTRIBUTS

Le score de complexité renvoyé par cette fonction est basé sur ces mesures liées à la structure grammaticale du texte.

In [10]:
import numpy as np
import nltk
nltk.download('punkt')

# LONGUEUR DES PHRASES
def sentence_length(sentence):
    return len(sentence.split())

# LONGUEUR DES MOTS
def average_word_length(sentence):
    words = sentence.split()
    return np.mean([len(word) for word in words]) if words else 0

def type_token_ratio(sentence):
    words = sentence.split()
    return len(set(words)) / len(words) if words else 0

# COMPLEXITE LEXICALE
def complexite_texte(texte):
    doc = nlp(texte)

    # Mesures syntaxiques
    nb_phrases = len(list(doc.sents))
    profondeur_moyenne = sum(len(list(phrase.root.subtree)) for phrase in doc.sents) / nb_phrases if nb_phrases > 0 else 0

    # Mesures grammaticales
    temps_verbaux = {mot.tag_: 0 for mot in doc if mot.tag_ and "VERB" in mot.tag_}
    for mot in doc:
        if mot.tag_ and "VERB" in mot.tag_:
            temps_verbaux[mot.tag_] += 1
    diversite_temps_verbaux = len(temps_verbaux)

    # Score de complexité combiné
    complexite = profondeur_moyenne + diversite_temps_verbaux

    return complexite

# POS TAGGING
def pos_tag_distribution(sentence):
    if not isinstance(sentence, str):
        raise ValueError("L'entrée doit être une chaîne de caractères.")

    doc = nlp(sentence)
    pos_counts = {pos: 0 for pos in [token.pos_ for token in doc]}  # Initialise tous les tags possibles avec 0

    for token in doc:
        pos = token.pos_
        pos_counts[pos] += 1

    # Optionnel : normaliser par le nombre total de mots
    total_mots = len(doc)
    if total_mots > 0:
        pos_counts_normalized = {pos: count / total_mots for pos, count in pos_counts.items()}
        return pos_counts_normalized

    return pos_counts

[nltk_data] Downloading package punkt to /Users/phil/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [11]:
training_data['char_length'] = training_data['sentence'].apply(len)
training_data['word_length'] = training_data['sentence'].apply(lambda x: len(x.split()))
training_data['type_token_ratio'] = training_data['sentence'].apply(type_token_ratio)

training_data['sentence_length'] = training_data['sentence'].apply(sentence_length)
training_data['avg_word_length'] = training_data['sentence'].apply(average_word_length)
training_data['complexite_texte'] = training_data['sentence'].apply(complexite_texte)
training_data['pos_tags'] = training_data['sentence'].apply(pos_tag_distribution)

In [12]:
unique_pos_tags = set()
for pos_tags_dict in training_data['pos_tags']:
    unique_pos_tags.update(pos_tags_dict.keys())

# Initialize columns for each POS tag with default value 0
for tag in ['PUNCT', 'ADV', 'CCONJ', 'X', 'AUX', 'DET', 'PRON', 'NUM', 'NOUN', 'INTJ', 'ADP', 'ADJ', 'VERB', 'PROPN', 'SCONJ']:
    training_data[tag] = 0

# Populate the columns with counts
for index, row in training_data.iterrows():
    for tag, count in row['pos_tags'].items():
        if tag in training_data.columns:
            training_data.at[index, tag] = count

  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count
  training_data.at[index, tag] = count


In [13]:
training_data = training_data.drop(['pos_tags'], axis=1)

In [14]:
training_data.head()

Unnamed: 0_level_0,sentence,lexical_complexite,note_orthographe,char_length,word_length,type_token_ratio,sentence_length,avg_word_length,complexite_texte,PUNCT,...,DET,PRON,NUM,NOUN,INTJ,ADP,ADJ,VERB,PROPN,SCONJ
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,Nous dûmes nous excuser des propos que nous eû...,4.7,0.9,59,10,0.9,10,5.0,11.0,0.0,...,0.0,0.4,0.0,0.1,0,0.1,0.1,0.3,0.0,0.0
1,Vous ne pouvez pas savoir le plaisir que j'ai ...,5.485714,1.0,79,14,1.0,14,4.714286,17.0,0.0625,...,0.125,0.1875,0.0,0.0625,0,0.0625,0.125,0.25,0.0,0.0
2,"Et, paradoxalement, boire froid n'est pas la b...",4.56,1.0,58,9,1.0,9,5.555556,14.0,0.230769,...,0.076923,0.0,0.0,0.076923,0,0.0,0.153846,0.076923,0.0,0.0
3,"Ce n'est pas étonnant, car c'est une saison my...",4.56,0.888889,55,9,1.0,9,5.222222,12.0,0.083333,...,0.083333,0.166667,0.0,0.083333,0,0.0,0.166667,0.0,0.0,0.0
4,"Le corps de Golo lui-même, d'une essence aussi...",18.204,1.0,460,72,0.791667,72,5.402778,84.0,0.072289,...,0.156627,0.120482,0.0,0.156627,0,0.120482,0.084337,0.096386,0.012048,0.036145


NORMALIZATION

In [16]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder


# Utiliser LabelEncoder pour encoder la variable cible "difficulty"
label_encoder = LabelEncoder()
training_data['difficulty'] = label_encoder.fit_transform(training_data['difficulty'])

# Sélectionnez les caractéristiques numériques à normaliser
numerical_features = ['lexical_complexite', 'note_orthographe', 'char_length', 'word_length', 'type_token_ratio', 'sentence_length', 'avg_word_length', 'complexite_texte']

# Créez un scaler MinMax
scaler = MinMaxScaler()

# Appliquez la normalisation aux caractéristiques numériques
training_data[numerical_features] = scaler.fit_transform(training_data[numerical_features])


In [17]:
training_data.to_csv('data/unlabelled_test_dataPhil.csv')

In [18]:
import gc
gc.collect()

1388