# Introduction à Python

> présentée par Loïc Messal

## Les modules communautaires

Nous avons vu comment utiliser nos propres modules et ceux déjà inclus dans la librairie standard.

D'autres modules existent. Les développeurs qui les ont créés ont décidé de les partager à la communauté.

> Comment utiliser les modules communautaires ?

```py
# solution naive
```
Nous pouvons télécharger les fichiers un par un dans notre dossier de travail.

Bien entendu, cette solution s'avère vite pénible en pratique parce qu'il faut aller chercher ces fichiers sources pour chacun de nos projets.

```py
# solution améliorée
```
Si le code source du module est disponible, et qu'un fichier *setup.py* se trouve à la racine, il y a de fortes chances qu'il contienne les primitives pour l'installer.
Une fois le dossier récupéré, il suffit de lancer la commande `python setup.py install`.

```py
# solution élégante
```
Si le développeur a fait l'effort de mettre en place le fichier *setup.py*, alors il est fort à parier qu'il a propulsé son module sur le [*Python Package Index*](https://pypi.python.org/pypi).
*Pip* est un outil qui vient avec l'installation de l'interpréteur Python pour gérer ces modules. Pour installer un module communautaire disponible sur cet index, il suffit alors de lancer la commande `pip install <nom_du_module>` 

### matplotlib (visualisation de données)

> pour l'installer : `pip install matplotlib`

In [None]:
# configuration pour jupyter
%matplotlib inline

In [None]:
# génération de données
donnees = []
donnees.append({"x":0, "y":0})
donnees.append({"x":2, "y":1.1})
donnees.append({"x":4, "y":1.9})
donnees.append({"x":6, "y":2.8})
donnees.append({"x":8, "y":4.2})
donnees.append({"x":10, "y":5})

x = list(map(lambda donnee: donnee["x"], donnees))
y = list(map(lambda donnee: donnee["y"], donnees))

In [None]:
import matplotlib.pyplot

matplotlib.pyplot.scatter(x, y)  # affichage de points

In [None]:
import matplotlib.pyplot

matplotlib.pyplot.plot(x, y)  # affichage de points reliés par un segment

[Plus de détails sur matplotlib ici](https://matplotlib.org/)

### numpy (calculs scientifiques)

> pour l'installer : `pip install numpy`

In [None]:
import numpy

x = numpy.array(x)
y = numpy.array(y)

In [None]:
import matplotlib
import matplotlib.pyplot

matplotlib.pyplot.scatter(x, y)

`numpy` permet des opérations terme à terme sur les `array`.

In [None]:
x - y  # soustraction terme à terme

In [None]:
x**2  # exponentiation terme à terme

In [None]:
x < 5  # test terme à terme

In [None]:
x.sum()  # somme sur tous les termes

In [None]:
x.cumsum()  # somme cumulée

In [None]:
data = numpy.stack((x, y), axis=-1)  # empilement

In [None]:
data

In [None]:
data[3,1]

[Plus de détails sur numpy ici](http://www.numpy.org/)

### scikit (calculs scientifiques)

> pour l'installer : 
- `pip install scipy`
- `pip install sklearn`

In [None]:
import matplotlib
import matplotlib.pyplot

matplotlib.pyplot.scatter(x, y)

Nous allons essayer d'estimer la droite qui passe par ces points à l'aide d'une régression linéaire.

In [None]:
from sklearn import linear_model

import numpy as np

regr = linear_model.LinearRegression()
regr.fit(x[:, np.newaxis], y)

In [None]:
# x doit être une matrice de taille [n_exemples, n_features] d'où
x[:, np.newaxis]

In [None]:
regr.predict(15)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x_cherche = np.linspace(20, 30, 5)  # Crée un array de 5 valeurs équitablement réparties entre les valeurs 20 et 30

plt.scatter(x_cherche, regr.predict(x_cherche[:, np.newaxis]), color="black")
plt.plot(x_cherche, regr.predict(x_cherche[:, np.newaxis]), color="black", linewidth=0.5)
plt.plot(x, y)
plt.show()

[Plus de détails sur scikit ici](http://scikit-learn.org/stable/#)

### Tensorflow (apprentissage profond - réseaux de neurones)

> pour l'installer : `pip install tensorflow`

<center>*Un réseau de neurones*</center>

![reseau_de_neurones.png](attachment:reseau_de_neurones.png)

<center>*Un neurone*</center>

![structure_d_un_neurone.png](attachment:structure_d_un_neurone.png)

In [None]:
import tensorflow as tf
import random

# Parametres
learning_rate = 0.01
training_epochs = 1000
display_step = 100

# Entrées du graphe tensorflow
X = tf.placeholder("float")
Y = tf.placeholder("float")
n_samples = x.shape[0]

# Définitions des poids initiaux du modèle
W = tf.Variable(random.random(), name="weight")
b = tf.Variable(random.random(), name="bias")

# Construction d'un modèle linéaire
pred = tf.add(tf.multiply(X, W), b)

In [None]:
# Il ne reste plus qu'à définir notre stratégie d'apprentissage.

# Erreur moyenne quadratique (notre fonction coût à minimiser)
cost = tf.reduce_sum(tf.pow(pred - Y, 2)) / n_samples

# Optimisation par descente de gradient (notre façon de trouver comment modifier les paramètres du modèle)
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

# Initialisation des variables (leur associe leur valeur par défaut)
init = tf.global_variables_initializer()

In [None]:
# Début de l'entraînement
with tf.Session() as sess:
    sess.run(init)

    # Parcours de toutes les données d'entraînement
    for epoch in range(training_epochs):
        for x_i, y_i in zip(x, y):
            sess.run(optimizer, feed_dict={X: x_i, Y: y_i})

        # Affiche un retour par pas de display_step epochs
        if (epoch + 1) % display_step == 0:
            c = sess.run(cost, feed_dict={X: x, Y:y})
            print("Epoch : {:04d}, coût = {:.9f}, W = {:.9f}, b = {:.9f}".format(epoch + 1, c, sess.run(W), sess.run(b)))

    print("Optimisation terminée!")
    training_cost = sess.run(cost, feed_dict={X: x, Y: y})
    W_estimated = sess.run(W)
    b_estimated = sess.run(b)
    print("Coût = {}, W = {}, b = {}".format(training_cost, W_estimated, b_estimated))

In [None]:
# Affichage de la prédiction
plt.plot(x, y, "ro", label="Données originales")
plt.plot(x, W_estimated * x + b_estimated, label="Données estimées avec tensorflow")
plt.legend()
plt.show()

[Plus de détails sur tensorflow ici](https://www.tensorflow.org/)

### keras (apprentissage profond - réseaux de neurones)

> pour l'installer : `pip install keras`

In [None]:
import numpy as np
np.random.seed(21) # for reproducibility

In [None]:
from keras.models import Sequential
from keras.layers import Dense

# Création du modèle
model = Sequential()
model.add(Dense(units=1, activation="relu", input_dim=1))  # Utilisation d'un seul neuronne
model.compile(loss="mean_squared_error", optimizer="sgd")  # Optimisation par descente de gradient stochastique

model.fit(x, y, epochs=1500, batch_size=10, verbose=0)

In [None]:
model.evaluate(x, y)  # évaluation de la précision du modèle

In [None]:
model.predict([30])  # prédiction sur une valeur

In [None]:
plt.plot(x, y, "ro", label="Données originales")
plt.plot(x, model.predict(x), label="Données estimées avec keras")
plt.legend()
plt.show()

In [None]:
for layer in model.layers:
    print(layer.get_weights()) # affichage des poids pour chaque couche

#### Exemple sur une fonction non linéaire 

In [None]:
def une_fonction_inconnue(nb_points, b_min=-20, b_max=20):
    data_x = []
    data_y = []
    for p in np.linspace(b_min, b_max, nb_points):
        data_x.append(p)
        output = p**2 + random.uniform(-5, 5)  # génération de données un peu bruitées
        data_y.append(int(round(output, 0)))
    return (data_x, data_y)
        
x, y = une_fonction_inconnue(500)

In [None]:
plt.scatter(x, y, s=1)
plt.show()

In [None]:
model.fit(x, y, epochs=10, batch_size=10, verbose=0)  # ré-entrainement du modèle

plt.plot(x, y, "r.", label="Données originales")
plt.plot(x, model.predict(x), label="Données estimées avec keras")
plt.legend()
plt.show()

On constate que le modèle linéaire avec un seul neurone est loin d'être suffisant. Nous voyons également l'allure de la fonction d'activation. Ajoutons des neurones à notre modèle.

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout

model = Sequential()
model.add(Dense(units=1, activation="selu", input_dim=1))
model.add(Dense(units=64, activation="selu"))
model.add(Dropout(0.1))  # ignore aléatoirement 10% des neurones de la couche précédente à chaque époch (renforce la robustesse)
model.add(Dense(units=64, activation="sigmoid"))
model.add(Dropout(0.1))
model.add(Dense(units=64, activation="elu"))
model.add(Dropout(0.1))
model.add(Dense(units=64, activation="selu"))
model.add(Dropout(0.1))
model.add(Dense(units=1, activation="selu"))
model.compile(loss="mean_squared_error", optimizer="adam")

model.fit(x, y, epochs=300, batch_size=20, verbose=0)

In [None]:
model.summary()

In [None]:
plt.scatter(x, y, color="r", label="Données originales")
plt.scatter(x, model.predict(x), label="Données estimées avec keras")
plt.legend()
plt.show()

Félicitations, votre modèle semble avoir correctement appris sur vos données.

> Votre modèle a-t-il vraiment réussi à retrouver la fonction x² ?

In [None]:
test_x = np.linspace(-100, 100, 50)
plt.scatter(x, y, color="r", label="Original data")
plt.scatter(test_x, model.predict(test_x), label="Fitted line")
plt.legend()
plt.show()

[Plus de détails sur keras ici](https://keras.io/)

### networkx (graphe)

> pour l'installer : `pip install networkx`

In [None]:
import networkx as nx

# Création du graphe
G = nx.Graph()
G.add_node(1)
G.add_nodes_from([2, 3])
G.add_edge(1, 3)

# Affichage du graphe
nx.draw(G, with_labels=True)
plt.draw()

In [None]:
import networkx as nx
G=nx.complete_graph(3)

nx.draw(G, with_labels=True)
plt.draw()

> À partir du noeud 1, quel est le circuit à suivre pour passer sur chacune des routes une et une seule fois ?

In [None]:
list(nx.eulerian_circuit(G, source=1))

In [None]:
import networkx as nx

G=nx.complete_graph(3)
G.add_node(3)
G.add_node(4)
G.add_edge(1, 3)
G.add_edge(3, 4)

nx.draw(G, with_labels=True)
plt.draw()

> Quel est le plus court chemin pour rejoindre le noeud 4 à partir du noeud 0?

In [None]:
nx.dijkstra_path(G, 0, 4)

[Plus de détails sur networkx ici](https://networkx.github.io/)

### pil (traitement d'images)

> pour l'installer : `pip install pillow`

In [None]:
from PIL import Image
image = Image.open("data/image/maison.jpg")

In [None]:
image.format

In [None]:
image.mode

In [None]:
image.size

In [None]:
import matplotlib.pyplot
import numpy as np

matplotlib.pyplot.imshow(np.asarray(image))

In [None]:
from PIL import ImageFilter

image.filter(ImageFilter.CONTOUR)

In [None]:
from PIL import ImageOps

ImageOps.autocontrast(image)

In [None]:
from PIL import ImageOps

ImageOps.equalize(image)

In [None]:
from PIL import ImageOps

ImageOps.grayscale(image)

[Plus de détails sur PIL ici](https://pillow.readthedocs.io/en/latest/)

### skimage (traitement d'images)

> pour l'installer : `pip install scikit-image`

#### Détection de voitures

> On souhaite avoir un détecteur de voiture par comparaison d'images.

In [None]:
from skimage.feature import match_template
from skimage import io
from skimage import color

image = io.imread("data/image/maison.jpg")
image = color.rgb2gray(image)

template = image[170:260, 50:160]

In [None]:
fig, axes = plt.subplots(ncols=2, figsize=(12, 5))
ax1, ax2 = axes.ravel()

ax1.imshow(image, cmap=plt.cm.gray)
ax1.set_title("image")
ax1.set_axis_off()

ax2.imshow(template, cmap=plt.cm.gray)
ax2.set_title("template")
ax2.set_axis_off()

In [None]:
result = match_template(image, template)

# récupération des coordonnées de la meilleure correspondance
y, x = np.unravel_index(np.argmax(result), result.shape)  # argmax récupère le maximum global --> on obtient qu'un seul résultat

# highlight matched region
h_template, w_template = template.shape

In [None]:
fig, axes = plt.subplots(ncols=2, figsize=(12, 5), sharex=True, sharey=True)
ax1, ax2, = axes.ravel()

ax1.set_title("match_template")
ax1.imshow(result)
ax1.plot(x, y, "o", markeredgecolor="r", markerfacecolor="none", markersize=10) # highlight matched region
ax1.set_axis_off()

ax2.set_title("detection")
ax2.imshow(image, cmap=plt.cm.gray)
rect = plt.Rectangle((x, y), w_template, h_template, edgecolor="r", facecolor="none")
ax2.add_patch(rect)
ax2.set_axis_off()

plt.show()

#### segmentation d'images (utilisation de skimage & PIL)

In [None]:
import numpy as np

from skimage.morphology import watershed
from skimage.feature import peak_local_max
from scipy import ndimage

from PIL import Image
from PIL import ImageFilter
from PIL import ImageOps

import matplotlib.pyplot as plt

In [None]:
# traitement rapide de l'image avec PIL
image = Image.open("data/image/maison.jpg")
image = image.filter(ImageFilter.CONTOUR)
image = ImageOps.grayscale(image)

image = np.asarray(image)  # conversion de l'image en array numpy (pour pouvoir l'utiliser avec le module skimage)

# génération de la carte de distance par rapport à l'arrière plan
distance = ndimage.distance_transform_edt(image)

# récupération des maxima locaux
local_maxi = peak_local_max(distance, indices=False, footprint=np.ones((4, 4)), labels=image)
markers, nb_objects = ndimage.label(local_maxi)
print("{} éléments trouvés".format(nb_objects))
labels = watershed(-distance, markers, mask=image)

In [None]:
fig, axes = plt.subplots(ncols=3, figsize=(12, 4), sharex=True, sharey=True)
ax = axes.ravel()

ax[0].imshow(image, cmap=plt.cm.gray, interpolation="nearest")
ax[0].set_title("Image à segmenter")
ax[0].set_axis_off()

ax[1].imshow(-distance, cmap=plt.cm.gray, interpolation="nearest")
ax[1].set_title("Carte des distances")
ax[1].set_axis_off()

ax[2].imshow(labels, cmap=plt.cm.Spectral, interpolation="nearest")
ax[2].set_title("Image segmentée")
ax[2].set_axis_off()

fig.tight_layout()
plt.show()

In [None]:
from skimage.morphology import closing
from skimage.morphology import opening

filtered_labels_opening_closing = opening(closing(labels))
filtered_labels_closing_opening = closing(opening(labels))

In [None]:
fig, axes = plt.subplots(ncols=3, figsize=(16, 4), sharex=True, sharey=True)
ax = axes.ravel()

ax[0].imshow(labels, cmap=plt.cm.Spectral, interpolation="nearest")
ax[0].set_title("Image segmentée")
ax[0].set_axis_off()

ax[1].imshow(filtered_labels_opening_closing, cmap=plt.cm.Spectral, interpolation="nearest")
ax[1].set_title("Fermeture puis ouverture")
ax[1].set_axis_off()

ax[2].imshow(filtered_labels_closing_opening, cmap=plt.cm.Spectral, interpolation="nearest")
ax[2].set_title("Ouverture puis fermeture")
ax[2].set_axis_off()

fig.tight_layout()
plt.show()

#### segmentation d'images (utilisation de skimage)

In [None]:
from scipy import ndimage

from skimage import io
from skimage.color import rgb2gray
from skimage.filters import rank
from skimage.morphology import watershed, disk

image = io.imread("data/image/maison.jpg")
image = rgb2gray(image)

# débruitage de l'image
denoised = rank.median(image, disk(2))

In [None]:
plt.imshow(np.asarray(denoised), cmap=plt.cm.gray)
plt.show()

In [None]:
# trouve les régions continues (de faible gradient (moins de 8 ici)) --> markers 
# disk(5) est utilisé pour obtenir un gradient lissé
gradient = rank.gradient(denoised, disk(5))
markers = gradient < 8
markers, nb_regions = ndimage.label(markers)
print("{} régions trouvées".format(nb_regions))

# segmentation
labels = watershed(gradient, markers)
plt.imshow(np.asarray(labels))
plt.show()

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(8, 8), sharex=True, sharey=True)
ax = axes.ravel()

ax[0].imshow(image, cmap=plt.cm.gray, interpolation="nearest")
ax[0].set_title("Original")

ax[1].imshow(gradient, cmap=plt.cm.Spectral, interpolation="nearest")
ax[1].set_title("Gradient local")

ax[2].imshow(markers, cmap=plt.cm.Spectral, interpolation="nearest")
ax[2].set_title("Marqueurs")

ax[3].imshow(image, cmap=plt.cm.gray, interpolation="nearest")
ax[3].imshow(labels, cmap=plt.cm.Spectral, interpolation="nearest", alpha=.7)
ax[3].set_title("Image segmentée")

for a in ax:
    a.set_axis_off()

fig.tight_layout()
plt.show()

[Plus de détails sur skimage ici](http://scikit-image.org/)

### opencv (traitement d'images)

> pour l'installer : `pip install opencv-contrib-python`

In [None]:
import cv2
import numpy as np

img = cv2.imread("data/image/maison.jpg")
gray= cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)

> On souhaite détecter automatiquement les points d'intérêts sur notre image

In [None]:
sift = cv2.xfeatures2d.SIFT_create()
(kp, descs1) = sift.detectAndCompute(img, None)
img=cv2.drawKeypoints(gray,kp,img)

In [None]:
from matplotlib import pyplot as plt
plt.imshow(img)
plt.show()

[Plus de détails sur opencv ici](https://opencv.org/opencv-3-0.html)

### pandas (analyse de données)

> pour l'installer : `pip install pandas`

In [None]:
import pandas as pd
data = pd.read_csv("data/fichiers/liste_d_employes.csv", encoding="utf8")

In [None]:
data

In [None]:
data.sort_values(by="annee_de_naissance")

In [None]:
data.groupby("annee_de_naissance").size()

On dispose d'un fichier `description.csv` contenant la description pour certains employés. On souhaite fusionner ces deux jeux de données.

In [None]:
description = pd.read_csv("data/fichiers/description.csv", encoding="utf8")
description

In [None]:
pd.merge(data, description, on="nom")

Ici, nous avons deux problèmes : 
- On a encore perdu Inex Istant, parce qu'il n'a pas de description.
- Nous avons fusionné qu'avec les nom, donc la colonne prénom du fichier `description.csv` est ajoutée. Nous avons donc cette colonne en double. Nous pouvons également utiliser cette colonne *prénom* pour renforcer notre fusion puisque les noms ne sont généralement pas des clés uniques, alors que le couple (nom, prenom) a plus de chance de l'être.

In [None]:
pd.merge(data, description, on=["nom", "prenom"], how="outer")

[Plus de détails sur pandas ici](https://pandas.pydata.org/)

### nltk (traitement du langage naturel)

> pour l'installer : `pip install nltk`

In [None]:
import nltk

#### distribution de mots

> On aimerait analyser les mots qui se retrouvent le plus dans l'ensemble des descriptions.

In [None]:
# concaténation de toutes les lignes de la colonne description avec pandas
toute_les_descriptions = description.description.str.cat(sep=" ")  
toute_les_descriptions

In [None]:
# séparer la ponctuation autre que les points
tokenized = nltk.word_tokenize(toute_les_descriptions, language="french")
tokenized

In [None]:
frequency_distribution = nltk.FreqDist(tokenized)

In [None]:
# le mot qui revient le plus souvent
frequency_distribution.max()

In [None]:
frequency_distribution.most_common(2)  # les n-mots qui reviennent le plus souvent

#### la grammaire

> On souhaite maintenant extraire tous les adjectifs utilisés dans les descriptions (cela pourrait servir à détecter l'émotivité de nos employés, en supposant qu'il s'agisse d'une auto-description).

Ce problème parait simple et stupide. Mais l'ordinateur connaît-il la notion d'adjectif ? C'est ici que le traitement du langage naturel intervient.

In [None]:
# un exemple
mots = "The black cat is sleeping on the sofa.".split()
nltk.pos_tag(mots)  # applique un tag à chaque mot

- DT - déterminant
- JJ - adjectif
- NN - nom
- VBZ - verbe à la troisième personne du singulier
- VBG - verbe au gérondif
- IN - préposition

In [None]:
# sur nos descriptions
nltk.pos_tag(tokenized)

Note : l'utilisation d'un modèle de grammaire est spécifique à une langue donnée.

nltk permet de réentraîner un modèle de grammaire à partir d'un jeu de données annoté. 

J'ai récupéré la version lite d'[un corpus d'un laboratoire de langue de l'Université Paris Diderot](http://ftb.linguist.univ-paris-diderot.fr/telecharger.php), que j'ai annoté pour intégrer les mots suivants : 
- Cet
- gentil
- employé
- fait
- ravages
- monde
- employé
- nouvel
- provenance
- l'ancien	
- découvre	
- polyvalent


In [None]:
# Le jeu de données est au format conll. nltk dispose d'un lecteur pour ce format de fichiers.

from nltk.corpus import ConllCorpusReader
colonnes_considerees = ["ignore", "words", "ignore", "pos", "ignore", "ignore", "ignore", "ignore", "ignore", "ignore"]
un_corpus_francais = ConllCorpusReader("data/texte/", ".*.conll", colonnes_considerees)

In [None]:
un_corpus_francais.tagged_sents()

In [None]:
# Entraînement du modèle de grammaire
tagger = nltk.UnigramTagger(un_corpus_francais.tagged_sents())  
# UnigramTagger considère le tag le plus fréquent pour un mot donné

In [None]:
tagged = set(tagger.tag(tokenized))
tagged

In [None]:
# récupération des adjectifs décrivant nos employés
list(filter(lambda x: x[1]=="A", tagged))

#### classification de texte

> Nous aimerions bien créer un bot pour trier nos courriels selon si le contenu concerne les affaires de JLR ou plutôt celles de Jakarto.

Pour cela, nous allons entraîner un classifieur à partir de mots clés associés à ces entreprises.

In [None]:
jlr_mots_cles = pd.read_csv("data/texte/JLR_mots_cles.txt", header=None, encoding="utf8")
jakarto_mots_cles = pd.read_csv("data/texte/Jakarto_mots_cles.txt", header=None, encoding="utf8")

In [None]:
jakarto_mots_cles

In [None]:
# On construit une table d'association
labeled_names = []

for mot in jakarto_mots_cles.itertuples():
    labeled_names.append((mot[1], "Jakarto"))
    
for mot in jlr_mots_cles.itertuples():
    labeled_names.append((mot[1], "JLR"))

In [None]:
labeled_names

In [None]:
import random

random.seed(2024)  # pour la reproductibilité

In [None]:
random.shuffle(labeled_names)  # mélange la liste
labeled_names

Le classifieur utilise l'apprentissage machine (machine learning). Il doit donc apprendre sur des caractéristiques définies.

In [None]:
# Considérons comme caractéristique la dernière lettre des mots
def naive_features(word):
    return {"last_letter": word[-1]}

In [None]:
# construisons notre jeu de caractéristiques
featuresets = [(naive_features(n), categorie) for (n, categorie) in labeled_names]

In [None]:
featuresets[:5]

In [None]:
# divisons le jeu de caractéristiques en deux jeux: 
# un d'entraînement, et un de test (pour valider la pertinence de l'apprentissage)
ratio = 0.7
index_ratio = round(ratio * len(labeled_names))
train_set, test_set = featuresets[:index_ratio], featuresets[index_ratio:]

In [None]:
train_set

In [None]:
test_set

In [None]:
classifier = nltk.NaiveBayesClassifier.train(train_set)  # entraînement du classifieur

In [None]:
nltk.classify.accuracy(classifier, test_set)

Notre classifieur a un score de 87.5% bonnes classifications pour notre jeu test.

In [None]:
classifier.classify(naive_features("acquisition"))

In [None]:
classifier.classify(naive_features("precision"))

In [None]:
classifier.classify(naive_features("la plus vieille entreprise"))

In [None]:
classifier.classify(naive_features("la meilleure entreprise"))

In [None]:
classifier.classify(naive_features("celle qui a un super projet"))

> On espérait trouver Jakarto ici ! Ré-entrainons notre classifieur avec des features plus réalistes !

In [None]:
def features_avancees(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in "abcdefghijklmnopqrstuvwxyz":
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

In [None]:
featuresets_avance = [(features_avancees(n), categorie) for (n, categorie) in labeled_names]

In [None]:
ratio = 0.7
index_ratio = round(ratio * len(labeled_names))
train_set_avance, test_set_avance = featuresets_avance[:index_ratio], featuresets_avance[index_ratio:]

In [None]:
classifier_avance = nltk.NaiveBayesClassifier.train(train_set_avance)

In [None]:
classifier_avance.classify(features_avancees("precision"))

In [None]:
classifier_avance.classify(features_avancees("forts"))

In [None]:
classifier_avance.classify(features_avancees("la plus vieille entreprise"))

In [None]:
classifier_avance.classify(features_avancees("la meilleure entreprise"))

In [None]:
classifier_avance.classify(features_avancees("celle qui a un super projet"))

In [None]:
classifier_avance.classify(features_avancees("les plus beaux"))

In [None]:
classifier_avance.classify(features_avancees("les meilleurs"))

In [None]:
classifier_avance.classify(features_avancees("cédric"))

In [None]:
classifier_avance.classify(features_avancees("thierry"))

In [None]:
classifier_avance.classify(features_avancees("loic"))

In [None]:
classifier_avance.classify(features_avancees("sandro"))

In [None]:
classifier_avance.classify(features_avancees("félix"))

In [None]:
classifier_avance.classify(features_avancees("joanie"))

In [None]:
classifier_avance.classify(features_avancees("laurence"))

In [None]:
classifier_avance.classify(features_avancees("charles"))

> Est-ce un signe du destin? 

[Plus de détails sur nltk ici](https://www.nltk.org/)

[Prochain chapitre : Des outils pour devenir actif](/notebooks/11_Des_outils.ipynb)