# Comparaison entre courbes de Mendenhall

Les courbes caractéristiques de composition de Mendenhall sont censées représenter la signature stylistique d’un auteur grâce à une méthode quantitative de telle manière qu’il serait possible d’identifier formellement un texte anonyme. L’idée repose sur un présupposé assez difficile à admettre : le style d’un auteur ne doit varier ni dans le temps ni dans l’espace (les différentes parties d’une même œuvre sont censées adopter la même courbe).

L’algorithme mis en jeu par Mendehall, rudimentaire pour notre époque, mobilisait des ressources colossales en 1887, lorsqu’il fallait comptabiliser à la main la fréquence d’apparition des mots dans un texte en fonction du nombre de leurs caractères.

Rien de tout cela ici. Au cours de cet exercice, vous mettrez en application un test statistique afin d’établir ou de rejeter une identité entre deux ensembles de fréquences.

## Mise en place de la tâche

Le code ci-dessous importe deux listes de distribution de fréquences des mots dans deux textes de Bram Stoker : *Dracula* (1897) et *The Mystery of the Sea* (1902). Chaque texte a été au préalable divisé en tranches de 5000 mots.

In [None]:
import pickle

with open('../data/mendenhall.pickle', 'rb') as f:
    stoker = pickle.load(f)

dracula = stoker['dracula']
mystery = stoker['mystery_of_the_sea']

Vérifions la théorie de Mendenhall :

In [None]:
# a random slice of each text
import matplotlib.pyplot as plt
import seaborn as sns
from random import choice

dracula_slice = choice(range(len(dracula)))
mystery_slice = choice(range(len(mystery)))

dracula_freq = dracula[dracula_slice]
mystery_freq = mystery[mystery_slice]

figure, ax = plt.subplots(figsize=(12,5))

figure.suptitle("Characteristic curves of composition in two novels by Bram Stoker")

ax.set(
    title="n = 5000 words",
    xlabel="Word length",
    ylabel="Frequency"
)

dracula_conditions = [ condition for condition, w in dracula_freq ]
dracula_counts = [ sum(w.values()) for condition, w in dracula_freq ]

mystery_conditions = [ condition for condition, w in mystery_freq ]
mystery_counts = [ sum(w.values()) for condition, w in mystery_freq ]

sns.lineplot(x=dracula_conditions, y=dracula_counts, ax=ax)
sns.lineplot(x=mystery_conditions, y=mystery_counts, ax=ax)

plt.legend(["Dracula", "The Mystery of the Sea"])

sns.despine()
plt.show()