Dans ce notebook, nous avons développé un programme qui calcule le tf-idf de chaque texte d'un corpus.

In [2]:
import numpy as np
import pandas as pd
import re
import math

In [3]:
data = pd.read_csv("./arxiv_articles.csv", sep="|")

In [5]:
##### tf-idf

def nb_docs(corpus):         ## fonction qui renvoie le nombre de documents dans le corpus
    return len(corpus)

def quantite_doc(mot, corpus): ## fonction qui renvoie le nombre de document contenant le terme
    nombre = 0
    for texte in corpus:
        liste_mots = liste_de_mots(texte)
        for m in liste_mots:
            if mot == m:
                nombre += 1
                break
    return nombre

def termes_tfidf(corpus):
    termes = []
    trouve = False
    for texte in corpus:
        liste_mots = liste_de_mots(texte)
        for e in liste_mots:
            trouve = False
            for f in termes:
                if e == f:
                    trouve = True
                    break
            if trouve == False:
                termes += [e]
    return termes

def occurences_mots(liste_mots):   ## Renvoie une matrice mot / occurence dans le texte
    nbr_mots = [[], []]
    for mot in liste_mots:
        appartient = False
        for a in range(len(nbr_mots[0])):
            if nbr_mots[0][a] == mot:
                appartient = True
                nbr_mots[1][a] += 1
        if appartient == False:
            nbr_mots[0] += [mot]
            nbr_mots[1] += [1]
    return nbr_mots
            
        

def liste_de_mots(texte):    ## Une chaine de caractères devient une liste de mots
    p = re.compile("[a-z]+")
    return p.findall(texte.lower())


def tf(texte):               ## Calcule le tf de tous les mots d'un texte
    liste_mots = liste_de_mots(texte)
    mots_apparition = occurences_mots(liste_mots)   # Série contenant le mot et le nombre de fois où il apparait dans le texte
    max_apparition = max(mots_apparition[1])  # mot qui apparait le max de fois
    matrice_tf = [[], []]
    for b in range(len(mots_apparition[0])):
        matrice_tf[0] += [mots_apparition[0][b]]
        matrice_tf[1] += [mots_apparition[1][b]/max_apparition]
    return matrice_tf

def idf(mot, nb_de_docs, corpus):  ## Calcule l'idf d'un mot
    return math.log(nb_de_docs/(1 + quantite_doc(mot, corpus)), 10)

def tf_idf_texte(corpus, texte):
    nb_de_docs = nb_docs(corpus)
    matrice_tfidf = [[], []]
    matrice_tf = tf(texte)
    for c in range(len(matrice_tf[0])):
        matrice_tfidf[0] += [matrice_tf[0][c]]
        matrice_tfidf[1] += [matrice_tf[1][c]*idf([matrice_tf[0][c]], nb_de_docs, corpus)]
    return matrice_tfidf


        
    

In [6]:
## test sur une liste random
liste = ["The sky is blue.", "The sun is bright today.","The sun in the sky is bright.","We can see the shining sun the bright sun."]
print(tf(liste[2]))
print(tf_idf_texte(liste, liste[2]))
print(termes_tfidf(liste))

[['the', 'sun', 'in', 'sky', 'is', 'bright'], [1.0, 0.5, 0.5, 0.5, 0.5, 0.5]]
[['the', 'sun', 'in', 'sky', 'is', 'bright'], [0.6020599913279623, 0.30102999566398114, 0.30102999566398114, 0.30102999566398114, 0.30102999566398114, 0.30102999566398114]]
['the', 'sky', 'is', 'blue', 'sun', 'bright', 'today', 'in', 'we', 'can', 'see', 'shining']


In [8]:
## test sur notre corpus de textes
data = pd.read_csv("./arxiv_articles.csv", sep="|")
tf_idf = tf_idf_texte(data.loc[0:5, "summary"], data.loc[0:5, "summary"][0])
print(tf_idf)

[['we', 'show', 'that', 'every', 'essentially', 'countable', 'orbit', 'equivalence', 'relation', 'induced', 'by', 'a', 'continuous', 'action', 'of', 'polish', 'group', 'on', 'space', 'is', 'sigma', 'lacunary', 'in', 'combination', 'with', 'invent', 'math', 'obtain', 'straightforward', 'proof', 'the', 'result', 'from', 'adv', 'an', 'abelian', 'non', 'archimedean', 'hyperfinite'], [0.38907562519182176, 0.19453781259591088, 0.5836134377877327, 0.38907562519182176, 0.5836134377877327, 0.38907562519182176, 0.19453781259591088, 0.38907562519182176, 0.38907562519182176, 0.38907562519182176, 0.38907562519182176, 0.7781512503836435, 0.19453781259591088, 0.38907562519182176, 0.5836134377877327, 0.5836134377877327, 0.38907562519182176, 0.19453781259591088, 0.19453781259591088, 0.5836134377877327, 0.19453781259591088, 0.19453781259591088, 0.19453781259591088, 0.19453781259591088, 0.19453781259591088, 0.19453781259591088, 0.38907562519182176, 0.19453781259591088, 0.19453781259591088, 0.194537812595