In [35]:
import spacy
nlp = spacy.load('fr_dep_news_trf')
doc = nlp(u'Comment l\'histoire des sciences pourrait-elle ne pas être une source de phénomènes auxquels on puisse à juste titre demander que s\'appliquent les théories sur la connaissance ?')
for token in doc:
    print(token.text, token.pos_)

Comment ADV
l' DET
histoire NOUN
des ADP
sciences NOUN
pourrait VERB
-elle PRON
ne ADV
pas ADV
être AUX
une DET
source NOUN
de ADP
phénomènes NOUN
auxquels PRON
on PRON
puisse VERB
à ADP
juste ADJ
titre NOUN
demander VERB
que SCONJ
s' PRON
appliquent VERB
les DET
théories NOUN
sur ADP
la DET
connaissance NOUN
? PUNCT


### Dependency tree

In [5]:
from spacy import displacy
doc = nlp(u'Comment l\'histoire des sciences pourrait-elle ne pas être une source de phénomènes auxquels on puisse à juste titre demander que s\'appliquent les théories sur la connaissance ?')
displacy.render(doc, style='dep') # auparavant serve

### Chunking (trouver les phrases nominales)

In [30]:
print("Noun phrases:", [chunk.text for chunk in doc.noun_chunks])
print("Verbs:", [token.lemma_ for token in doc if token.pos_ == "VERB"])

Noun phrases: ["l'histoire des sciences", "de phénomènes auxquels on puisse à juste titre demander que s'appliquent les théories sur la connaissance"]
Verbs: ['pouvoir', 'pouvoir', 'demander', 'appliquer']


### Part-Of-Speech tagging
dans Building an Enterprise chatbot page 95

In [28]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop)

Comment comment ADV ADV advmod Xxxxx True True
l' le DET DET det x' False True
histoire histoire NOUN NOUN nsubj xxxx True False
des de ADP ADP case xxx True True
sciences science NOUN NOUN nmod xxxx True False
pourrait pouvoir VERB VERB ROOT xxxx True True
-elle lui PRON PRON dep -xxxx False False
ne ne ADV ADV advmod xx True True
pas pas ADV ADV advmod xxx True True
être être AUX AUX cop xxxx True True
une un DET DET det xxx True True
source source NOUN NOUN xcomp xxxx True False
de de ADP ADP case xx True True
phénomènes phénomène NOUN NOUN nmod xxxx True False
auxquels auxquels PRON PRON dep xxxx True True
on on PRON PRON nsubj xx True True
puisse pouvoir VERB VERB acl:relcl xxxx True False
à à ADP ADP case x True True
juste juste ADJ ADJ amod xxxx True True
titre titre NOUN NOUN obl:mod xxxx True False
demander demander VERB VERB xcomp xxxx True False
que que SCONJ SCONJ mark xxx True True
s' se PRON PRON aux:pass x' False True
appliquent appliquer VERB VERB ccomp xxxx True False


### Named-entity recognition

In [31]:
for entity in doc.ents:
    print(entity.text, entity.label_)

### Dependency parse


In [29]:
for chunk in doc.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_,chunk.root.head.text)

l'histoire des sciences histoire nsubj pourrait
de phénomènes auxquels on puisse à juste titre demander que s'appliquent les théories sur la connaissance phénomènes nmod source


### Créer un word embedding

In [21]:
import gensim
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
from matplotlib import pyplot
from io import StringIO

import pdfminer
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

In [22]:
def remove_non_ascii(text):
    return "".join([word for word in text if ord(word) < 128])

def load_data(max_pages=100):
    return_string = StringIO()
    device = TextConverter(PDFResourceManager(), return_string, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(PDFResourceManager(), device=device)
    filepath = open('C:/Users/matth/Downloads/applied_nlp_python/datasets/reglementdescolarite-ingegeneraliste-juin21.pdf', 'rb')
    for page in PDFPage.get_pages(filepath, set(), maxpages=max_pages, caching=True, check_extractable=True):
        interpreter.process_page(page)
        text_data = return_string.getvalue()
        filepath.close(), device.close(), return_string.close()
    return remove_non_ascii(text_data)

In [25]:
load_data()

TypeError: __init__() got an unexpected keyword argument 'codec'

In [6]:
def gensim_preprocess_data():
    data = load_data()
    sentences = sent_tokenize(data)
    tokenized_sentences = list([word_tokenize(sentence) for sentence in sentences])
    for i in range(0, len(tokenized_sentences)):
        tokenized_sentences[i] = [word for word in tokenized_sentences[i] if word not in punctuation]
    return tokenized_sentences

In [24]:
sentences = [['J\'', 'aime', 'nlp'],
 ['I', 'will', 'learn', 'nlp', 'in', '2','months'],
 ['nlp', 'is', 'future'],
 ['nlp', 'saves', 'time', 'and', 'solves', 'lot', 'of', 'industry', 'problems'],
 ['nlp', 'uses', 'machine', 'learning']]

In [25]:
skipgram = Word2Vec(sentences, window=3, min_count=1, sg=1)

In [26]:
print(skipgram)

Word2Vec(vocab=22, vector_size=100, alpha=0.025)


In [27]:
print(skipgram['aime'])

TypeError: 'Word2Vec' object is not subscriptable

In [1]:
import gensim

