# Donnée textuelles

Projet : classifier un document en fonction de sa langue.

Problème de **classification** (et non de régression)

## Etape 1
- On choisit 2 classes : Anglais et Fançais
- Récupérer les données.

Mettre les données sous la forme d'un fichier texte avec premier caractère

# Etape 2

On veut transormer le corpus en vecteur d'entrée X.

Le corpus c'est la liste des documents qui contiennent du texte.

Les étapes pour vectoriser le texte sont:

- enlever la ponctuation
- enlever les nombres
- enlever "les trucs bizarres" : reste balise html, \\ ...
- on choisit si on travaille avec les mots ou avec les lettres
- on choisit si on travaille avec 1-grams, 2-grams, etc.

**TP**

Ecrire une fonction qui lit un fichier et retourne les vercteur d'entrées et de sortie


In [2]:
from sklearn.feature_extraction.text import CountVectorizer

NGRAM_RANGE = (1, 2)

vectorizer = CountVectorizer(
    input="content",
    analyzer="word",
    ngram_range=NGRAM_RANGE,
    stop_words=None,
    binary=True
)

# l'entrée
raw_documents_vector = []

# la sortie
y_vector = []

count_fr = 0
count_en = 0

for number in "123":
    file_name = "./data"+number+".txt"
    with open(file_name, "rt") as f:
        for line in f:
            y = line[0]
            raw_document = line[2:]
            
            if y == "0":
                count_en += 1 
            if y == "1":
                count_fr += 1 
            
            # je garde les données dans des listes
            y_vector.append(int(y))
            raw_documents_vector.append(raw_document)
   
print("document fr", count_fr)
vectorizer.fit(raw_documents_vector)
print("document en", count_en)

document fr 7813
document en 5102


In [3]:
# on verifie le bon fonctionnement
tokenizer = vectorizer.build_tokenizer()
tokenizer("salut sa farte?")

['salut', 'sa', 'farte']

In [4]:
# on affiche N mots du vocabulaire
i_max = 10
for i, word in enumerate(vectorizer.vocabulary_.keys()):
    if i > i_max:
        break
    else:
        print(word)

dicitur magerit
by miner
803 algol
increased aid
complementary role
montevideo débarquèrent
cruz vraie
any offsetting
average repair
print goodbye
insufficient troops


In [5]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

# on créé une instance du classifier
clf = MultinomialNB()
pipeline_clf = Pipeline(
    [
        ("vectorizer", vectorizer),
        ("clf", clf)
    ]
)

# on divise nos donnée en 2 population: training/test
X_train, X_test, Y_train, Y_test = train_test_split(raw_documents_vector, y_vector, train_size=0.8)

print("train :", len(Y_train))
print("test :", len(Y_test))

# on entraine le classifier
pipeline_clf.fit(X_train, Y_train)
print("done")



train : 10332
test : 2583
done


In [6]:
print("start predict")
predicted = pipeline_clf.predict(X_test)
print("done")

start predict
done


In [7]:
import numpy as np

mean = np.mean(predicted == Y_test)
total = len(Y_test)
correct_ones = np.sum(predicted == Y_test)
print("total test :", total)
print("correct :", correct_ones)
print("proportion :", mean, float(correct_ones)/total)

total test : 2583
correct : 2572
proportion : 0.9957413859852884 0.9957413859852884


In [8]:
pipeline_clf.predict(["bonjour le monde", "hello world"])

array([1, 0])

In [9]:
for i in np.where(predicted != Y_test)[0]:
    print(i, X_test[i][0:100], Y_test[i])

977 482   
 1
1055 907     
 1
1289 486   
 1
1495 749   
 1
1502 644   
 1
1517 737   
 1
1919 615   
 1
1961 727  
 1
1991 Minute    
 1
2256 Slack    
 1
2473 Francis Bacon 
 1


In [15]:
text = input("saisissez du text : ")
lang = "Français" if pipeline_clf.predict([text]) else "Anglais"
print("Votre texte est en : "+lang)

Votre texte est en : Anglais
