In [1]:
# Liste des documents
documents = [
    "Le chat mange la souris.",
    "La souris mange du fromage.",
    "Le chien chasse le chat.",
    "Le chien et le chat sont amis."
]

# Initialiser un ensemble pour stocker les mots uniques
mots_uniques = set()

# Parcourir chaque document
for document in documents:
    # Enlever les caractères de ponctuation et convertir en minuscules
    document = document.replace('.', '').lower()
    # Diviser en mots et ajouter à l'ensemble
    mots_uniques.update(document.split())

# Convertir l'ensemble en liste pour obtenir la liste des mots uniques
mots_uniques = list(mots_uniques)

# Afficher les mots uniques
print(mots_uniques)


['chat', 'du', 'chien', 'sont', 'la', 'et', 'mange', 'chasse', 'le', 'fromage', 'souris', 'amis']


In [2]:
#on veut l'occurence de chaque mot dans chaque document
from collections import defaultdict

# Liste des documents
documents = [
    "Le chat mange la souris.",
    "La souris mange du fromage.",
    "Le chien chasse le chat.",
    "Le chien et le chat sont amis."
]

# Initialiser un dictionnaire pour stocker les occurrences de mots par document
occurrences = defaultdict(dict)

# Parcourir chaque document
for idx, document in enumerate(documents):
    # Enlever les caractères de ponctuation et convertir en minuscules
    document = document.replace('.', '').lower()
    # Diviser en mots
    mots = document.split()
    # Compter les occurrences de chaque mot dans ce document
    for mot in mots:
        if mot in occurrences[mot]:
            occurrences[mot][idx] += 1
        else:
            occurrences[mot][idx] = 1

# Afficher les occurrences de chaque mot par document
for mot, occ in occurrences.items():
    print(f"Mot: {mot}")
    for idx, count in occ.items():
        print(f"  Document {idx + 1}: {count} occurrence(s)")


Mot: le
  Document 1: 1 occurrence(s)
  Document 3: 1 occurrence(s)
  Document 4: 1 occurrence(s)
Mot: chat
  Document 1: 1 occurrence(s)
  Document 3: 1 occurrence(s)
  Document 4: 1 occurrence(s)
Mot: mange
  Document 1: 1 occurrence(s)
  Document 2: 1 occurrence(s)
Mot: la
  Document 1: 1 occurrence(s)
  Document 2: 1 occurrence(s)
Mot: souris
  Document 1: 1 occurrence(s)
  Document 2: 1 occurrence(s)
Mot: du
  Document 2: 1 occurrence(s)
Mot: fromage
  Document 2: 1 occurrence(s)
Mot: chien
  Document 3: 1 occurrence(s)
  Document 4: 1 occurrence(s)
Mot: chasse
  Document 3: 1 occurrence(s)
Mot: et
  Document 4: 1 occurrence(s)
Mot: sont
  Document 4: 1 occurrence(s)
Mot: amis
  Document 4: 1 occurrence(s)


In [4]:
import pandas as pd
from collections import defaultdict
import re

# Liste des documents
documents = [
    "Le chat mange la souris.",
    "La souris mange du fromage.",
    "Le chien chasse le chat.",
    "Le chien et le chat sont amis."
]

# Initialiser un dictionnaire pour stocker les occurrences de mots par document
occurrences = defaultdict(lambda: [0]*len(documents))

# Parcourir chaque document
for idx, document in enumerate(documents):
    # Enlever les caractères de ponctuation et convertir en minuscules
    document = re.sub(r'[^\w\s]', '', document.lower())
    # Diviser en mots
    mots = document.split()
    # Compter les occurrences de chaque mot dans ce document
    for mot in set(mots):  # Utiliser un ensemble pour éviter les doublons
        occurrences[mot][idx] = mots.count(mot)

# Créer un DataFrame à partir du dictionnaire d'occurrences
df = pd.DataFrame(occurrences, index=[f"Document {i+1}" for i in range(len(documents))])

# Afficher la matrice d'occurrences
print(df)


            chat  la  mange  le  souris  du  fromage  chien  chasse  sont  et  \
Document 1     1   1      1   1       1   0        0      0       0     0   0   
Document 2     0   1      1   0       1   1        1      0       0     0   0   
Document 3     1   0      0   2       0   0        0      1       1     0   0   
Document 4     1   0      0   2       0   0        0      1       0     1   1   

            amis  
Document 1     0  
Document 2     0  
Document 3     0  
Document 4     1  


In [5]:
import pandas as pd
from collections import defaultdict
import re

# Liste des documents
documents = [
    "Le chat mange la souris.",
    "La souris mange du fromage.",
    "Le chien chasse le chat.",
    "Le chien et le chat sont amis."
]

# Initialiser un dictionnaire pour stocker les occurrences de mots par document
occurrences = defaultdict(lambda: [0]*len(documents))
total_mots_par_document = [0] * len(documents)

# Parcourir chaque document
for idx, document in enumerate(documents):
    # Enlever les caractères de ponctuation et convertir en minuscules
    document = re.sub(r'[^\w\s]', '', document.lower())
    # Diviser en mots
    mots = document.split()
    total_mots = len(mots)
    total_mots_par_document[idx] = total_mots
    # Compter les occurrences de chaque mot dans ce document
    for mot in set(mots):  # Utiliser un ensemble pour éviter les doublons
        occurrences[mot][idx] = mots.count(mot) / total_mots

# Créer un DataFrame à partir du dictionnaire d'occurrences
df = pd.DataFrame(occurrences, index=[f"Document {i+1}" for i in range(len(documents))])

# Afficher la matrice de fréquences
print(df)


                chat   la  mange        le  souris   du  fromage     chien  \
Document 1  0.200000  0.2    0.2  0.200000     0.2  0.0      0.0  0.000000   
Document 2  0.000000  0.2    0.2  0.000000     0.2  0.2      0.2  0.000000   
Document 3  0.200000  0.0    0.0  0.400000     0.0  0.0      0.0  0.200000   
Document 4  0.142857  0.0    0.0  0.285714     0.0  0.0      0.0  0.142857   

            chasse      sont        et      amis  
Document 1     0.0  0.000000  0.000000  0.000000  
Document 2     0.0  0.000000  0.000000  0.000000  
Document 3     0.2  0.000000  0.000000  0.000000  
Document 4     0.0  0.142857  0.142857  0.142857  


In [6]:
import pandas as pd
from collections import defaultdict
import re
import math

# Liste des documents
documents = [
    "Le chat mange la souris.",
    "La souris mange du fromage.",
    "Le chien chasse le chat.",
    "Le chien et le chat sont amis."
]

# Initialiser un dictionnaire pour stocker les occurrences de mots par document
occurrences = defaultdict(lambda: [0]*len(documents))
total_mots_par_document = [0] * len(documents)
idf = defaultdict(float)

# Parcourir chaque document
for idx, document in enumerate(documents):
    # Enlever les caractères de ponctuation et convertir en minuscules
    document = re.sub(r'[^\w\s]', '', document.lower())
    # Diviser en mots
    mots = document.split()
    mots_uniques = set(mots)
    total_mots = len(mots)
    total_mots_par_document[idx] = total_mots
    # Compter les occurrences de chaque mot dans ce document
    for mot in mots_uniques:
        occurrences[mot][idx] = mots.count(mot)
        if occurrences[mot][idx] > 0:
            idf[mot] += 1

# Calculer IDF pour chaque mot
N = len(documents)
for mot, doc_freq in idf.items():
    idf[mot] = math.log(N / doc_freq)

# Créer un DataFrame à partir du dictionnaire IDF
idf_df = pd.DataFrame(list(idf.items()), columns=['Mot', 'IDF'])

# Afficher l'IDF de chaque terme
print(idf_df)


        Mot       IDF
0      chat  0.287682
1        la  0.693147
2     mange  0.693147
3        le  0.287682
4    souris  0.693147
5        du  1.386294
6   fromage  1.386294
7     chien  0.693147
8    chasse  1.386294
9      sont  1.386294
10       et  1.386294
11     amis  1.386294
