In [3]:
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne14, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.")


[{'entity_group': 'ORG',
  'score': 0.9921588,
  'word': 'Apple',
  'start': 0,
  'end': 5},
 {'entity_group': 'PER',
  'score': 0.99597645,
  'word': 'Steve Jobs',
  'start': 74,
  'end': 85},
 {'entity_group': 'LOC',
  'score': 0.99835855,
  'word': 'Los Altos',
  'start': 87,
  'end': 97},
 {'entity_group': 'LOC',
  'score': 0.9982911,
  'word': 'Californie',
  'start': 100,
  'end': 111},
 {'entity_group': 'PER',
  'score': 0.99870753,
  'word': 'Steve Jobs',
  'start': 115,
  'end': 126},
 {'entity_group': 'PER',
  'score': 0.99879086,
  'word': 'Steve Wozniak',
  'start': 127,
  'end': 141},
 {'entity_group': 'PER',
  'score': 0.99646753,
  'word': 'Ronald Wayne',
  'start': 144,
  'end': 157},
 {'entity_group': 'ORG',
  'score': 0.94497466,
  'word': 'Apple Computer',
  'start': 243,
  'end': 257}]

In [3]:
# replace every word value from each dictionary in the list only if the value of the key 'score' is greater than 0.8 by a random capital letter in the text
# if the value of the key 'entity_group' is 'PER', replace each word in 'word' by a random capital letter in the text
import random
import string
text = "Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015."
for d in nlp(text):
    if d['score'] > 0.8:
        if d['entity_group'] == 'PER':
            for word in d['word'].split():
                text = text.replace(word, random.choice(string.ascii_uppercase))
        else:
            text = text.replace(d['word'], random.choice(string.ascii_uppercase))


print(text)


T est créée le 1er avril 1976 dans le garage de la maison d'enfance de P F à V en R par P F, P P et I G, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'T Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.


In [4]:

# same thing but do not reuse the same letter twice
import random
import string
text = "Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015."
used_letters = []
for d in nlp(text):
    if d['score'] > 0.8:
        if d['entity_group'] == 'PER':
            for word in d['word'].split():
                letter = random.choice(string.ascii_uppercase)
                while letter in used_letters:
                    letter = random.choice(string.ascii_uppercase)
                text = text.replace(word, letter)
                used_letters.append(letter)
        else:
            letter = random.choice(string.ascii_uppercase)
            while letter in used_letters:
                letter = random.choice(string.ascii_uppercase)
            text = text.replace(d['word'], letter)
            used_letters.append(letter)

print(text)

Y est créée le 1er avril 1976 dans le garage de la maison d'enfance de G F à R en T par G F, G D et K N, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Y Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.


In [2]:
import pandas as pd

df_firstnames = pd.read_csv('data/first_names_1.csv')
df_lastnames = pd.read_csv('data/last_names_1.csv')


Unnamed: 0,last names
0,Chastain
1,Girard
2,Bouchard
3,Duvall
4,Lefebvre


In [8]:
import random
import string
text = "Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015."
used_first_names = []
used_last_names = []
used_letters = []
for d in nlp(text):
    if d['score'] > 0.8:
        if d['entity_group'] == 'PER':
            # take a random first name from df_firstnames and replace the first word of the entity by this first name
            # take a random last name from df_lastnames and replace the last word of the entity by this last name
            # if the entity is composed of more than 2 words, replace the words in between by random capital letters
            first_name = random.choice(df_firstnames['first names'])
            while first_name in used_first_names:
                first_name = random.choice(df_firstnames['first names'])
            text = text.replace(d['word'].split()[0], first_name)
            used_first_names.append(first_name)
            last_name = random.choice(df_lastnames['last names'])
            while last_name in used_last_names:
                last_name = random.choice(df_lastnames['last names'])
            text = text.replace(d['word'].split()[-1], last_name)
            used_last_names.append(last_name)
            if len(d['word'].split()) > 2:
                for word in d['word'].split()[1:-1]:
                    letter = random.choice(string.ascii_uppercase)
                    while letter in used_letters:
                        letter = random.choice(string.ascii_uppercase)
                    text = text.replace(word, letter)
                    used_letters.append(letter)
        else:
            letter = random.choice(string.ascii_uppercase)
            while letter in used_letters:
                letter = random.choice(string.ascii_uppercase)
            text = text.replace(d['word'], letter)
            used_letters.append(letter)

print(text)

P est créée le 1er avril 1976 dans le garage de la maison d'enfance de Guinevere Lefranc à D en W par Guinevere Lefranc, Guinevere Benoit et Romain Laroche, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'P Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.


In [11]:
# make the previous code a function
import random
import string
def anonymize(text):
    used_first_names = []
    used_last_names = []
    used_letters = []
    for d in nlp(text):
        if d['score'] > 0.8:
            if d['entity_group'] == 'PER':
                # take a random first name from df_firstnames and replace the first word of the entity by this first name
                # take a random last name from df_lastnames and replace the last word of the entity by this last name
                # if the entity is composed of more than 2 words, replace the words in between by random capital letters
                first_name = random.choice(df_firstnames['first names'])
                while first_name in used_first_names:
                    first_name = random.choice(df_firstnames['first names'])
                text = text.replace(d['word'].split()[0], first_name)
                used_first_names.append(first_name)
                last_name = random.choice(df_lastnames['last names'])
                while last_name in used_last_names:
                    last_name = random.choice(df_lastnames['last names'])
                text = text.replace(d['word'].split()[-1], last_name)
                used_last_names.append(last_name)
                if len(d['word'].split()) > 2:
                    for word in d['word'].split()[1:-1]:
                        letter = random.choice(string.ascii_uppercase)
                        while letter in used_letters:
                            letter = random.choice(string.ascii_uppercase)
                        text = text.replace(word, letter)
                        used_letters.append(letter)
            # else:
            #     letter = random.choice(string.ascii_uppercase)
            #     while letter in used_letters:
            #         letter = random.choice(string.ascii_uppercase)
            #     text = text.replace(d['word'], letter)
            #     used_letters.append(letter)
    return text

In [12]:
text = """John Edgar Hoover est un haut fonctionnaire de police américain, né le 1er janvier 1895 à Washington, D.C. où il est mort le 2 mai 1972.

Il a été le premier directeur du Federal Bureau of Investigation (FBI) de 1935 jusqu'à sa mort, soit pendant trente-sept ans.

Si on inclut la période pendant laquelle il a dirigé le Bureau of Investigation (de 1924 à 1935), prédécesseur du FBI, la durée totale est de quarante-huit ans : il est ainsi celui qui est resté le plus longtemps à la tête d'une agence fédérale américaine, ayant servi sous huit présidents, de Calvin Coolidge à Richard Nixon.

Il est reconnu comme le créateur d'une agence efficace et puissante pour faire respecter la loi, avec notamment des avancées dans le domaine de la police scientifique et de la résolution des crimes ; néanmoins, les méthodes utilisées pour atteindre certains objectifs ont donné lieu à des commentaires inégaux : élogieux au vu des menaces géopolitiques à l’époque de la guerre froide ; extrêmement critiques après sa mort, en raison d’actions illégales — notamment contraires à la Constitution des États-Unis — qui ont été révélées par les enquêtes du Congrès américain dans les années 1970.

Après Hoover, un mandat maximum de dix ans a été instauré pour le poste de directeur du FBI."""

print(anonymize(text))

Amandine I Leroux est un haut fonctionnaire de police américain, né le 1er janvier 1895 à Washington, D.C. où il est mort le 2 mai 1972.

Il a été le premier directeur du Federal Bureau of Investigation (FBI) de 1935 jusqu'à sa mort, soit pendant trente-sept ans.

Si on inclut la période pendant laquelle il a dirigé le Bureau of Investigation (de 1924 à 1935), prédécesseur du FBI, la durée totale est de quarante-huit ans : il est ainsi celui qui est resté le plus longtemps à la tête d'une agence fédérale américaine, ayant servi sous huit présidents, de Gwenaëlle Roussel à Aubin Fournier.

Il est reconnu comme le créateur d'une agence efficace et puissante pour faire respecter la loi, avec notamment des avancées dans le domaine de la police scientifique et de la résolution des crimes ; néanmoins, les méthodes utilisées pour atteindre certains objectifs ont donné lieu à des commentaires inégaux : élogieux au vu des menaces géopolitiques à l’époque de la guerre froide ; extrêmement critiq