## Intro

In [1]:
import spacy
nlp = spacy.load('fr_core_news_sm')

In [2]:
doc = nlp("En ce début 2020, les notaires d’Ile-de-France pointent un marché parisien atypique \
          avec des volumes de vente qui diminuent depuis deux ans. \
          Avec moins de 35 200 ventes d’appartements, la capitale est en effet le seul secteur \
          où le nombre de transactions est en baisse sur un an.")

In [3]:
print(doc[0].text)

En


In [4]:
print(doc[5:7].text)

les notaires


In [5]:
noun_chunks = list(doc.noun_chunks)
print(noun_chunks[2].text)

un marché parisien atypique           


In [6]:
doc = nlp("La semaine prochaine je serai à Dublin")

for token in doc:
    print(token.text)

La
semaine
prochaine
je
serai
à
Dublin


In [7]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

La DET det
semaine NOUN nsubj
prochaine ADJ amod
je PRON nsubj
serai VERB ROOT
à ADP case
Dublin PROPN obl


In [8]:
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_punct,
        token.is_space,
        token.shape_,
        token.pos_,
        token.tag_
    ))

La	0	le	False	False	Xx	DET	DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art
semaine	3	semaine	False	False	xxxx	NOUN	NOUN__Gender=Fem|Number=Sing
prochaine	11	prochain	False	False	xxxx	ADJ	ADJ__Gender=Fem|Number=Sing
je	21	je	False	False	xx	PRON	PRON__Number=Sing|Person=1
serai	24	être	False	False	xxxx	VERB	VERB__Mood=Ind|Number=Sing|Person=1|Tense=Fut|VerbForm=Fin
à	30	à	False	False	x	ADP	ADP___
Dublin	32	Dublin	False	False	Xxxxx	PROPN	PROPN__Gender=Masc|Number=Sing


In [9]:
options = {'compact': True, 'bg': 'grey',
           'color': 'white', 'font': 'Trebuchet MS'}
spacy.displacy.render(doc, jupyter=True, style='dep', options=options)

In [10]:
doc = nlp('''Un peu, mais pas trop. Les dirigeants européens s’apprêtent à rejeter le report de trois mois du Brexit 
que vient leur présenter, lors d’un sommet à Bruxelles jeudi 21 mars, la première ministre britannique Theresa May. 
Ils jugent en effet que la sortie du Royaume-Uni de l’Union européenne peut être retardée, 
mais pas au-delà des élections européennes de mai.
Theresa May est arrivée en début d’après-midi à Bruxelles pour rencontrer les chefs d’Etat et de gouvernement 
des 27 autres pays de l’Union européenne, lassés des atermoiements britanniques et décidés à poser leurs conditions 
à un court décalage du divorce.
Une prolongation jusqu’au 22 mai en vue
Mme May devait exposer en personne aux Européens ce qu’elle leur a écrit la veille : 
la demande d’un décalage du Brexit – initialement prévu le 29 mars – jusqu’au 30 juin, 
pour avoir le temps de convaincre les parlementaires britanniques d’accepter, puis de ratifier, 
le traité de divorce conclu avec l’UE… traité qu’ils ont déjà rejeté par deux fois.
Mais, lors d’une réunion informelle mercredi soir, les ambassadeurs des 27 ont déjà donné leur position. 
« La question de la date sera une décision des chefs d’Etat », à prendre à l’unanimité, a insisté une source européenne, 
selon qui l’idée est, pour l’heure, de refuser la date du 30 juin et de se diriger vers une prolongation plus courte.
prévenu la chancelière allemande, Angela Merkel, jeudi matin, devant le Bundestag.''')
for ent in doc.ents:
    print(ent.text, ent.label_)

s’ PER
Brexit LOC
Bruxelles LOC
Theresa May PER
Royaume-Uni LOC
Union européenne ORG
Theresa May LOC
Bruxelles LOC
Etat LOC
Union européenne ORG
Mme May PER
Européens LOC
Brexit LOC
UE ORG
Etat LOC
Angela Merkel PER
Bundestag ORG


In [11]:
doc = nlp("J'ai acheté 100 actions ce matin car le CAC40 a gagné 30% en 2 jours d'après Les Echos")
spacy.displacy.render(doc, style='ent', jupyter=True)

## Analyse de similarité


In [12]:
import io
import os

os.chdir("D:/00_EPSILON/06_Formation/Python/NLP/data")

In [13]:
f = io.open("hamlet.txt", mode="r", encoding="utf-8")
hamlet = f.read()
f = io.open("richard3.txt", mode="r", encoding="utf-8")
richard3 = f.read()
f = io.open("PYTHON_3_TEXT_PROCESSING_WITH_NLTK_3_COOKBOOK.txt", mode="r", encoding="utf-8")
python_cookbook = f.read()

In [14]:
print(hamlet)

﻿The Project Gutenberg EBook of Hamlet, by William Shakespeare

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project Gutenberg License included
with this eBook or online at www.gutenberg.net


Title: Hamlet

Author: William Shakespeare

Editor: Charles Kean

Release Date: January 10, 2009 [EBook #27761]

Language: English

Character set encoding: UTF-8

*** START OF THIS PROJECT GUTENBERG EBOOK HAMLET ***




Produced by David Starner, Curtis Weyant and the Online
Distributed Proofreading Team at http://www.pgdp.net









    Transcriber's Note:
    This is a heavily edited version of _Hamlet_. It was used
    for Charles Kean's 1859 stage production. Phrases printed
    in italics in the book are indicated in this electronic
    version by _ (underscore). Footnotes originally appeared
    at the bottom of each page. For this electronic version
    the footnotes 

In [15]:
nlp = spacy.load('en_core_web_lg')
target = nlp(hamlet)
 
doc1 = nlp(richard3)
doc2 = nlp(python_cookbook)

In [16]:
print(target.similarity(doc1))
print(target.similarity(doc2))

0.9598175768354685
0.9390362513549025


## Analyse de sentiments

In [18]:
import spacy
from spacy.tokens import Doc


import vaderSentiment
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
 
analyzer = SentimentIntensityAnalyzer()
def polarity_scores(doc):
    return analyzer.polarity_scores(doc.text)
 
Doc.set_extension('polarity_scores', getter=polarity_scores, force=True)

nlp = spacy.load('en_core_web_lg')

In [19]:
doc = nlp("I loved that movie")
print(doc._.polarity_scores)

{'neg': 0.0, 'pos': 0.565, 'compound': 0.5994, 'neu': 0.435}


In [20]:
doc = nlp("I hated that movie")
print(doc._.polarity_scores)

{'neg': 0.583, 'pos': 0.0, 'compound': -0.6369, 'neu': 0.417}


In [21]:
exemples = [('I love this sandwich.', 'pos'),          
         ('this is an amazing place!', 'pos'),
         ('I feel very good about these beers.', 'pos'),
         ('this is my best work.', 'pos'),
         ("what an awesome view", 'pos'),
         ('I do not like this restaurant', 'neg'),
         ('I am tired of this stuff.', 'neg'),
         ("I can't deal with this", 'neg'),
         ('he is my sworn enemy!', 'neg'),          
         ('my boss is horrible.', 'neg'), 
        ('the beer was good.', 'pos'),     
         ('I do not enjoy my job', 'neg'),
         ("I ain't feelin dandy today.", 'neg'),
         ("I feel amazing!", 'pos'),
         ('Gary is a good friend of mine.', 'pos'),
         ("I can't believe I'm doing this.", 'neg')]

In [22]:
doc = nlp(exemples[0][0])
print(doc,doc._.polarity_scores,exemples[0][1])

doc = nlp(exemples[5][0])
print(doc,doc._.polarity_scores,exemples[5][1])

I love this sandwich. {'neg': 0.0, 'pos': 0.583, 'compound': 0.6369, 'neu': 0.417} pos
I do not like this restaurant {'neg': 0.297, 'pos': 0.0, 'compound': -0.2755, 'neu': 0.703} neg
