In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

from gensim import corpora
from pymongo import MongoClient
from gensim.models import TfidfModel

2018-05-03 16:00:49,691 : INFO : 'pattern' package not found; tag filters are not available for English


Keeping only Noun or ADJ for the topic modeling (removing punct, verbs..)

In [2]:
ACCEPTED = ['NOUN', 'PROPN', 'ADJ']
def preprocessed(token):
    tokens = token.split('|')
    if len(tokens) == 3:
        tag = token.split('|')[2]
        lemma = token.split('|')[1]
        if tag in ACCEPTED:
            return lemma
    else:
        return None

In [5]:
class DictCorpus(object):
    def __init__(self):
        client = MongoClient('localhost', 27017)
        db = client.wikipedia
        self.wiki_fr = db.wiki_fr
    def __iter__(self):
        for line in self.wiki_fr.find({'text_processed':{'$exists':1}}):
            tokens = line['text_processed'].split()
            lemmas = [x.lower() for x in map(lambda x: preprocessed(x), tokens) if x is not None]
            yield lemmas

In [None]:
dic = corpora.Dictionary(DictCorpus())

2018-05-03 16:01:19,562 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2018-05-03 16:03:13,553 : INFO : adding document #10000 to Dictionary(350407 unique tokens: [u'unanimiste', u'sermersheim', u'-1043/-1040', u'gag', u'woods']...)
2018-05-03 16:04:40,882 : INFO : adding document #20000 to Dictionary(510031 unique tokens: [u'unanimiste', u'champs-sur-yonne', u'sermersheim', u'subacide', u'-1043/-1040']...)
2018-05-03 16:06:03,501 : INFO : adding document #30000 to Dictionary(627531 unique tokens: [u'unanimiste', u'champs-sur-yonne', u'sermersheim', u'icici', u'galfin']...)
2018-05-03 16:07:16,453 : INFO : adding document #40000 to Dictionary(731866 unique tokens: [u'champs-sur-yonne', u'sermersheim', u'combrunos', u'proto-\xe9lamites', u'amp\xe9lographie']...)
2018-05-03 16:08:23,860 : INFO : adding document #50000 to Dictionary(820730 unique tokens: [u'champs-sur-yonne', u'sermersheim', u'combrunos', u'proto-\xe9lamites', u'amp\xe9lographie']...)
2018-05-03 16:09:22,8

In [23]:
dic.save_as_text('corpus_wikifr.txt')

2018-04-04 15:11:20,459 : INFO : saving dictionary mapping to corpus_wikifr.txt


Corpus class to avoid loading in memory the whole corpus at the same time

In [24]:
class TfIdfCorpus(object):
    def __init__(self):
        client = MongoClient('localhost', 27017)
        db = client.wikipedia
        self.wiki_fr = db.wiki_fr
    def __iter__(self):
        for line in self.wiki_fr.find({'text_processed':{'$exists':1}}):
            tokens = line['text_processed'].split()
            lemmas = [x for x in map(lambda x: preprocessed(x), tokens) if x is not None]
            yield dic.doc2bow(lemmas)

In [None]:
corpora.MmCorpus.serialize('corpus.mm', TfIdfCorpus())

2018-04-04 15:11:46,215 : INFO : storing corpus in Matrix Market format to corpus.mm
2018-04-04 15:11:46,221 : INFO : saving sparse matrix to corpus.mm
2018-04-04 15:11:48,902 : INFO : PROGRESS: saving document #0
2018-04-04 15:12:21,676 : INFO : PROGRESS: saving document #1000
2018-04-04 15:12:49,021 : INFO : PROGRESS: saving document #2000
2018-04-04 15:13:13,002 : INFO : PROGRESS: saving document #3000
2018-04-04 15:13:31,257 : INFO : PROGRESS: saving document #4000
2018-04-04 15:13:50,638 : INFO : PROGRESS: saving document #5000
2018-04-04 15:14:05,598 : INFO : PROGRESS: saving document #6000
2018-04-04 15:14:21,067 : INFO : PROGRESS: saving document #7000
2018-04-04 15:14:33,969 : INFO : PROGRESS: saving document #8000
2018-04-04 15:14:57,127 : INFO : PROGRESS: saving document #9000
2018-04-04 15:15:08,112 : INFO : PROGRESS: saving document #10000
2018-04-04 15:15:22,585 : INFO : PROGRESS: saving document #11000
2018-04-04 15:15:31,889 : INFO : PROGRESS: saving document #12000
201

2018-04-04 15:29:33,191 : INFO : PROGRESS: saving document #122000
2018-04-04 15:29:40,347 : INFO : PROGRESS: saving document #123000
2018-04-04 15:29:45,752 : INFO : PROGRESS: saving document #124000
2018-04-04 15:29:51,555 : INFO : PROGRESS: saving document #125000
2018-04-04 15:29:55,368 : INFO : PROGRESS: saving document #126000
2018-04-04 15:30:00,647 : INFO : PROGRESS: saving document #127000
2018-04-04 15:30:05,750 : INFO : PROGRESS: saving document #128000
2018-04-04 15:30:09,934 : INFO : PROGRESS: saving document #129000
2018-04-04 15:30:14,252 : INFO : PROGRESS: saving document #130000
2018-04-04 15:30:19,091 : INFO : PROGRESS: saving document #131000
2018-04-04 15:30:24,592 : INFO : PROGRESS: saving document #132000
2018-04-04 15:30:30,324 : INFO : PROGRESS: saving document #133000
2018-04-04 15:30:35,262 : INFO : PROGRESS: saving document #134000
2018-04-04 15:30:40,173 : INFO : PROGRESS: saving document #135000
2018-04-04 15:30:45,069 : INFO : PROGRESS: saving document #13

2018-04-04 15:38:40,994 : INFO : PROGRESS: saving document #245000
2018-04-04 15:38:45,248 : INFO : PROGRESS: saving document #246000
2018-04-04 15:38:48,709 : INFO : PROGRESS: saving document #247000
2018-04-04 15:38:52,489 : INFO : PROGRESS: saving document #248000
2018-04-04 15:38:55,598 : INFO : PROGRESS: saving document #249000
2018-04-04 15:38:59,290 : INFO : PROGRESS: saving document #250000
2018-04-04 15:39:02,767 : INFO : PROGRESS: saving document #251000
2018-04-04 15:39:06,951 : INFO : PROGRESS: saving document #252000
2018-04-04 15:39:10,553 : INFO : PROGRESS: saving document #253000
2018-04-04 15:39:14,565 : INFO : PROGRESS: saving document #254000
2018-04-04 15:39:18,084 : INFO : PROGRESS: saving document #255000
2018-04-04 15:39:21,958 : INFO : PROGRESS: saving document #256000
2018-04-04 15:39:25,424 : INFO : PROGRESS: saving document #257000
2018-04-04 15:39:29,539 : INFO : PROGRESS: saving document #258000
2018-04-04 15:39:33,331 : INFO : PROGRESS: saving document #25

2018-04-04 15:45:49,028 : INFO : PROGRESS: saving document #368000
2018-04-04 15:45:52,465 : INFO : PROGRESS: saving document #369000
2018-04-04 15:45:56,759 : INFO : PROGRESS: saving document #370000
2018-04-04 15:45:59,654 : INFO : PROGRESS: saving document #371000
2018-04-04 15:46:03,147 : INFO : PROGRESS: saving document #372000
2018-04-04 15:46:06,578 : INFO : PROGRESS: saving document #373000
2018-04-04 15:46:09,469 : INFO : PROGRESS: saving document #374000
2018-04-04 15:46:12,706 : INFO : PROGRESS: saving document #375000
2018-04-04 15:46:16,098 : INFO : PROGRESS: saving document #376000
2018-04-04 15:46:19,545 : INFO : PROGRESS: saving document #377000
2018-04-04 15:46:22,170 : INFO : PROGRESS: saving document #378000
2018-04-04 15:46:25,274 : INFO : PROGRESS: saving document #379000
2018-04-04 15:46:28,215 : INFO : PROGRESS: saving document #380000
2018-04-04 15:46:30,993 : INFO : PROGRESS: saving document #381000
2018-04-04 15:46:34,184 : INFO : PROGRESS: saving document #38

2018-04-04 15:52:17,138 : INFO : PROGRESS: saving document #491000
2018-04-04 15:52:19,773 : INFO : PROGRESS: saving document #492000
2018-04-04 15:52:22,388 : INFO : PROGRESS: saving document #493000
2018-04-04 15:52:25,502 : INFO : PROGRESS: saving document #494000
2018-04-04 15:52:28,176 : INFO : PROGRESS: saving document #495000
2018-04-04 15:52:30,950 : INFO : PROGRESS: saving document #496000
2018-04-04 15:52:33,623 : INFO : PROGRESS: saving document #497000
2018-04-04 15:52:36,627 : INFO : PROGRESS: saving document #498000
2018-04-04 15:52:38,874 : INFO : PROGRESS: saving document #499000
2018-04-04 15:52:42,033 : INFO : PROGRESS: saving document #500000
2018-04-04 15:52:44,824 : INFO : PROGRESS: saving document #501000
2018-04-04 15:52:48,313 : INFO : PROGRESS: saving document #502000
2018-04-04 15:52:51,794 : INFO : PROGRESS: saving document #503000
2018-04-04 15:52:54,859 : INFO : PROGRESS: saving document #504000
2018-04-04 15:52:57,399 : INFO : PROGRESS: saving document #50

In [None]:
corpus = corpora.MmCorpus('corpus.mm')

In [None]:
tfidf_model = TfidfModel(TfIdfCorpus())

In [None]:
tfidf_model.save('tfidfwiki_fr.model')

In [None]:
from gensim import similarities

index = similarities.SparseMatrixSimilarity(tfidf_model[corpus], num_features=50000)

In [None]:
import spacy
text = """
L'expérience concerne des souris, mais dans ce cas précis elles sont un bon modèle animal de l'humain : des chercheurs ont démontré que l'ADN des cellules du cerveau des nouveaux-nés se modifie (jusqu'au moment du sevrage) en fonction du type de maternage qu'ils reçoivent : moins ils sont choyés, plus il change.

L'on savait déjà que les interactions avec l'environnement agissent comme des "interrupteurs" génétiques, activant ou désactivant des gènes - ces "unités fonctionnelles" de l'ADN qui codent un trait de l'organisme (couleurs des yeux ou autre) (voir S&V n°1051, 2005).

Mais on ignorait jusqu'ici que durant la période précédant le sevrage l'environnement peut modifier la structure même de l'ADN des cellules cérébrales, c'est-à-dire la répartition et le nombre de gènes sur le brin d'ADN. Une première !
Maternage et « gènes sauteurs »

Les implications cognitives voire neuropsychiatriques de ce phénomène ne sont pas encore clairement établies, les chercheurs renvoyant à des études postérieures. Ce que l'on sait globalement c'est que le stress est impliqué dans un processus génétique nommé « rétrotransposition » qui pousse certains gènes à multiplier leur copie sur un brin d'ADN. Des « gènes sauteurs ».

Dans l'expérience, les chercheurs ont suivi le mouvement de « copier-coller » de ces gènes sauteurs dans les cellules cérébrales des nouveaux-nés (plus précisément, l'hippocampe), nommés longs éléments nucléaires intercalés (LINE en anglais), sur deux groupes de souris durant deux semaines.
L'ADN des souriceaux moins maternés est plus variable

Le premier groupe était constitué par les souris femelles (et leurs rejetons) dont le comportement observé au cours de l'expérience était protecteur et attentionné (soins, toilettage, etc.) . Le second groupe rassemblait les souris clairement moins attentionnées avec leurs souriceaux.

Les chercheurs ont alors démontré qu'il existait une corrélation inverse entre le nombre de gènes copiés-collés dans l'ADN des cellules cérébrales et le degré de maternage de chaque femelle, mesuré selon une échelle numérique prenant en compte le temps consacré au toilettage des bébés, l'attention de la mère, etc.
Un effet direct de l'environnement

Pour être certains que cette corrélation était réelle, les chercheurs ont pris des précautions, notamment en échangeant des nouveaux-nés : certains nés de mères peu attentives furent confiés à des mères attentives et vice-versa. Ils ont alors constaté le même phénomène, éloignant la possibilité que le taux de gènes copiés-collés soit un effet héréditaire des parents et non une réaction directe à l'environnement.

Si les chercheurs ont émis certaines hypothèses sur la chaîne de réactions biochimiques conduisant le comportement de la mère à provoquer un effet sur les gènes sauteurs de leurs bébés (dont l'effet de méthylation), ce mécanisme demande encore à être dévoilé.

Néanmoins, un suivi postérieur des nouveau-nés a montré que ceux ayant subi de nombreux copier-coller génétiques étaient des adultes plus stressés et inadaptés.
De nouvelles perspectives thérapeutiques

Aussi, le résultat offre une nouvelle perspective pour l'interprétation génétique de certaines pathologies psychiatriques et neurologiques comme la dépression ou la schizophrénie chez les humains : cela pourrait se jouer à l'échelle génétique dans la période d'avant-sevrage (de six mois à un an).

Sans oublier que la découverte ouvre la possibilité d'attaquer ces pathologies par des traitements biochimiques visant directement le mécanisme de rétro-transposition des gènes sauteurs.
"""

nlp = spacy.load('fr')

txt_processed = nlp(text.decode('utf-8'))
tokens = []
for token in txt_processed:
    tokens.append(token.lemma_)

In [None]:
id2word = corpora.Dictionary.load_from_text('corpus_wikifr.txt')

In [None]:
query_bow = id2word.doc2bow(tokens)
query_tfidf = tfidf_model[query_bow]
index.num_best = 3
print(index[query_tfidf])