In [1]:
import re
import spacy
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [2]:
def rligature(w):
    """
    Normalise les ligatures en lettres distinctes, à utiliser en fonction des lexiques et bibliothèques de mots utilisés.
    :param w: une chaîne de caractères
    :return: une chaîne de caractères sans œ et/ou æ
    """
    if "œ" in w:
        w = w.replace("œ","oe")
    if "æ" in w:
        w = w.replace("æ", "ae")
    return w

In [3]:
rligature("œuf œuf")

'oeuf oeuf'

In [4]:
def rhttp(w):
    """
    normalise les urls
    :param w: une chaîne de caractères
    :return: une chaîne de caractères sans url
    """
    if w.startswith("http"):
        w = ""
    return w

In [5]:
rhttp("http://monadresse.com")

''

In [6]:
def rexochar(w):
    """
    normalise en retirant tous les caractères exotiques du point de vue de la langue française
    :param w: une chaîne de caractères
    :return: une chaîne de caractères sans caractères spéciaux
    """
    temp = re.sub('[^a-zA-Z0-9àâäéèëêïîôöùûüÿç ;.,?!+-/*=]+', '', w)
    if (temp != w):
        w = temp
    return w

In [7]:
rexochar("בוקר טוב ca va ?")

'  ca va ?'

In [8]:
def load_data(f, d=0):
        """
        Charge un fichier de donnée
        :param f: nom du fichier
        :return: liste
        """
        with open(f, 'r', encoding="utf-8") as f:
                dt = f.read().splitlines()
        return dt
    
lexique_fr = load_data("liste.de.mots.francais.frgut.txt")

In [9]:
def rlexique(w, lex):
    """
    Vérifie la présence d'un mot dans un lexique, si ce n'est pas le cas l'efface
    :param f: nom du fichier
    :return: liste
    """
    if w.lower() not in lex:
        w = ""
    return w

In [10]:
rlexique("anticastoriquement", lexique_fr)

''

In [11]:
rlexique("bonjour", lexique_fr)

'bonjour'

In [14]:
nlp = spacy.load("fr_core_news_sm")
stopWords = set(stopwords.words('french'))
def rstopWords(w, stop):
    """
    Vérifie si un mot est dans une stopliste ou non
    :param f: name of the file
    :return: array of array
    """
    if w in stop:
        w = ""
    return w

In [15]:
rstopWords("est", stopWords)

''

In [25]:
remplacement = [["catalogue", "tacalogue", "catalog", "katalog", "katalogue"]]
w = "catalog"
def rplace(w, liste):
    for e in liste:
        if w in e:
            w = e[0] 
    return w

In [26]:
rplace(w, remplacement)

'catalogue'

In [30]:
w = "coupures coupure coupé"
lemma = [X.lemma_ for X in nlp(w)]
lemma

['coupure', 'coupure', 'couper']

In [32]:
w = "coupure coupure couper"
stemmer = SnowballStemmer(language='french')
result = [stemmer.stem(X.text) for X in nlp(w)]
result

['coupur', 'coupur', 'coup']