# EX1

## Ouverture du fichier


In [22]:
doc = open("doc.txt", "r")
cont = doc.read()
print("Contenue de 'doc.txt' : ")
print(cont)

Contenue de 'doc.txt' : 
La vision par ordinateur est une branche de l'intelligence artificielle qui vise à permettre aux machines de comprendre et d'interpréter des informations visuelles.


## Transformation de document en miniscules : 

In [23]:
cont = cont.lower()
print(cont)

la vision par ordinateur est une branche de l'intelligence artificielle qui vise à permettre aux machines de comprendre et d'interpréter des informations visuelles.


## Supression de ponctuation : 

In [24]:
import re

def clean_words(text) :
    # remove html markup
    text = re.sub("(<.*?.>)", "", text)
    # remove non-ascii and digits
    text = re.sub(r'[^\w\s]', "", text)
    return text

cont = clean_words(cont)
print(cont)

la vision par ordinateur est une branche de lintelligence artificielle qui vise à permettre aux machines de comprendre et dinterpréter des informations visuelles


## Supression des mots vides

In [25]:
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords

# nltk.download('stopwords')

def tokenisation(cont) :
  stop_words = set(stopwords.words('french'))
  tokens = word_tokenize(cont)
  tokens = [word for word in tokens if not word in stop_words]
  return tokens

tokens = tokenisation(cont)
print(tokens)


['vision', 'ordinateur', 'branche', 'lintelligence', 'artificielle', 'vise', 'permettre', 'machines', 'comprendre', 'dinterpréter', 'informations', 'visuelles']


## Stemming : 

In [29]:
import pandas as pd
from nltk.stem import PorterStemmer as ps

stemmer = ps()

def stemming(tokens) :
  
  # words = ["programming", "programmer", "programs"]
  return [stemmer.stem(word = word) for word in tokens]


stems = stemming(tokens)

sdf = pd.DataFrame({'raw word' : tokens, 'stem' : stems})

file = open("doc-stem.txt", mode='w+')
file.write(' '.join(map(str, stems)))
sdf

Unnamed: 0,raw word,stem
0,vision,vision
1,ordinateur,ordinateur
2,branche,branch
3,lintelligence,lintellig
4,artificielle,artificiel
5,vise,vise
6,permettre,permettr
7,machines,machin
8,comprendre,comprendr
9,dinterpréter,dinterprét


### Contenue de doc-stem.txt : 

  vision ordinateur branche lintelligence artificielle vise permettre machine comprendre dinterpréter information visuelles

## Lemmatization

In [32]:
from nltk.stem import PorterStemmer as ps
from nltk.stem import WordNetLemmatizer as wnl

# nltk.download('wordnet')
lemmatizer = wnl()

def lemmatize(tokens) :

  # words = ["troubling", "troubled", "troubles", "peaceful"]

  lemmatized = [lemmatizer.lemmatize(word = word) for word in tokens]
  
  return lemmatized

lemmatized = lemmatize(tokens)
ldf = pd.DataFrame({'raw word' : tokens, 'lemmatized' : lemmatized})
ldf = ldf[['raw word', 'lemmatized']]

file = open("doc-lem.txt", mode='w+')
file.write(' '.join(map(str, lemmatized)))

ldf

Unnamed: 0,raw word,lemmatized
0,vision,vision
1,ordinateur,ordinateur
2,branche,branche
3,lintelligence,lintelligence
4,artificielle,artificielle
5,vise,vise
6,permettre,permettre
7,machines,machine
8,comprendre,comprendre
9,dinterpréter,dinterpréter


### Contenue de doc-lem.txt : 

  vision ordinateur branche lintelligence artificielle vise permettre machine comprendre dinterpréter information visuelles  

# EX2

## Lecture des documents

In [34]:
fichier1 = open("doc.txt", "r")
doc1 = fichier1.read()
fichier1.close()
fichier2 = open("doc2.txt", "r")
doc2 = fichier2.read()
fichier2.close()

print("Contenue de 'doc.txt' :\n")
print(doc1)
print("\nContenue de 'doc2.txt' :\n")
print(doc2)

Contenue de 'doc.txt' :

La vision par ordinateur est une branche de l'intelligence artificielle qui vise à permettre aux machines de comprendre et d'interpréter des informations visuelles.

Contenue de 'doc2.txt' :

Les algorithmes de vision par ordinateur sont utilisés pour la détection d'objets, la reconnaissance de formes et la segmentation d'images.


## Pretraitement de l'image

Implementation d'une fonction qui va nous faire le pretraitement des documents

In [36]:
def pretraitement(doc) :
  doc = doc.lower()
  doc = clean_words(doc)
  tokens = tokenisation(doc)
  stems = stemming(tokens)
  
  return stems
  

## TF-IDF

Implementation du fonction pour calculer le TF-IDF pour chaque mot du documents

In [37]:
import math

def TFIDF(word, doc, doc_collection) :
  # TF() : 
  TF = doc.count(word) / len(doc)
  # IDF() : DF / N
  N = len(doc_collection)
  S = 0
  for doc in doc_collection : 
     if word in doc :
       S += 1
       
  IDF = math.log(N / S)    
  
  return TF * IDF

## Test du fonction :

In [38]:
## Pretraitement
trait1 = pretraitement(doc1)
trait2 = pretraitement(doc2)
# on ajout les documents traiate dans une collection de documents
doc_collection = [trait1, trait2]
print(doc_collection)

[['vision', 'ordinateur', 'branch', 'lintellig', 'artificiel', 'vise', 'permettr', 'machin', 'comprendr', 'dinterprét', 'inform', 'visuel'], ['algorithm', 'vision', 'ordinateur', 'utilisé', 'détection', 'dobjet', 'reconnaiss', 'form', 'segment', 'dimag']]


In [41]:
tfidf_doc1 = [TFIDF(word, trait1, doc_collection) for word in trait1]
tfidf_doc2 = [TFIDF(word, trait2, doc_collection) for word in trait2]

pf = pd.DataFrame({"Words" : trait1, "TF-IDF" : tfidf_doc1})
pds2 = pd.DataFrame({"Words" : trait2, "TF-IDF" : tfidf_doc2})
print("Pour le document 1 : \n")
pf

Pour le document 1 : 



Unnamed: 0,Words,TF-IDF
0,vision,0.0
1,ordinateur,0.0
2,branch,0.057762
3,lintellig,0.057762
4,artificiel,0.057762
5,vise,0.057762
6,permettr,0.057762
7,machin,0.057762
8,comprendr,0.057762
9,dinterprét,0.057762


In [42]:
print("Pour le document 2 : \n")
pds2

Pour le document 2 : 



Unnamed: 0,Words,TF-IDF
0,algorithm,0.069315
1,vision,0.0
2,ordinateur,0.0
3,utilisé,0.069315
4,détection,0.069315
5,dobjet,0.069315
6,reconnaiss,0.069315
7,form,0.069315
8,segment,0.069315
9,dimag,0.069315


# Ex 3

## Distance Cosinus

In [144]:
def simCosine(v1, v2) :
  mini = v2 if len(v1) > len(v2) else v1
  maxi = v1 if len(v1) > len(v2) else v2
  N = len(maxi)
  S1 = 0
  S2 = 0
  S3 = 0
  for i in range(N - len(mini)) : 
    mini.append(0)
  
  for i in range(N) :
    S1 += maxi[i] * mini[i]
    S2 += maxi[i] ** 2
    S3 += mini[i] ** 2
  
  return S1 / math.sqrt(S2) * math.sqrt(S3)      
  

## Test

In [151]:
v1 = pretraitement(doc1)
v2 = pretraitement(doc2)
# print(v1)
# print(v2)
doc_collection = [v1, v2]

tfidf_doc1 = [TFIDF(word, v1, doc_collection) for word in v1]
tfidf_doc2 = [TFIDF(word, v2, doc_collection) for word in v2]
# print(tfidf_doc1)
# print(tfidf_doc2)
cos = simCosine(tfidf_doc1, tfidf_doc2)
cos


0.030081116775241015

## Distance Bray-Curtis

In [152]:
def simBray(v1, v2) :
  mini = v2 if len(v1) > len(v2) else v1
  maxi = v1 if len(v1) > len(v2) else v2
  N = len(maxi)
  S1 = 0
  S2 = 0
  for i in range(N - len(mini)) : 
    mini.append(0)
    
  for i in range(N) :
    S1 += min(maxi[i], mini[i])
    S2 += maxi[i] + mini[i]
  
  return 2 * S1 / S2  

## Test

In [153]:
v1 = pretraitement(doc1)
v2 = pretraitement(doc2)
# print(v1)
# print(v2)
doc_collection = [v1, v2]

tfidf_doc1 = [TFIDF(word, v1, doc_collection) for word in v1]
tfidf_doc2 = [TFIDF(word, v2, doc_collection) for word in v2]
# print(tfidf_doc1)
# print(tfidf_doc2)
cos = simBray(tfidf_doc1, tfidf_doc2)
cos


0.7142857142857145