# Entités et sentiments

## Imports

In [31]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

import sys
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

# Reconnaissance d'entités nommées avec SpaCy

In [2]:
nlp = spacy.load('fr_core_news_md')

In [21]:
# Charger le texte
n=9000
text = open("../tp4/data/tmp/protection.txt", encoding='utf-8').read()[:n]

## Lister les personnes les plus mentionnées dans le corpus

In [22]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 266 ms
Wall time: 301 ms


In [23]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [24]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

B CAMARADE apparait 1 fois dans le corpus
Ides L apparait 1 fois dans le corpus
M. le ministre des Affaires étrangères apparait 1 fois dans le corpus
MM. T&choiffen apparait 1 fois dans le corpus
Theunis apparait 1 fois dans le corpus
M. Max apparait 1 fois dans le corpus
baron Ruzette apparait 1 fois dans le corpus
LE SUCCESSEUR DE apparait 1 fois dans le corpus


## Lister les lieux les plus mentionnées dans le corpus

In [25]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 281 ms
Wall time: 285 ms


In [26]:
# Compter les entités
location = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        location[ent.text] += 1

In [27]:
# Trier et imprimer

sorted_location = sorted(location.items(), key=lambda kv: kv[1], reverse=True)

for entities, freq in sorted_location[:50]:
    print(f"{entities} apparait {freq} fois dans le corpus")
    

Londres apparait 3 fois dans le corpus
Bruxelles apparait 2 fois dans le corpus
France apparait 2 fois dans le corpus
Everaert apparait 1 fois dans le corpus
rue Blaes apparait 1 fois dans le corpus
Suissesses apparait 1 fois dans le corpus
Noue apparait 1 fois dans le corpus
satinn apparait 1 fois dans le corpus
de Belgique apparait 1 fois dans le corpus
Belga apparait 1 fois dans le corpus
Clyde apparait 1 fois dans le corpus
Yflielont apparait 1 fois dans le corpus
Huilera apparait 1 fois dans le corpus
Paris apparait 1 fois dans le corpus
Chemins à^ apparait 1 fois dans le corpus
Grand-Duché de Luxembourg apparait 1 fois dans le corpus
Société Prince-Henri apparait 1 fois dans le corpus
Etat luxembourgeois apparait 1 fois dans le corpus
UNE EXPOSITION EN 1930 apparait 1 fois dans le corpus
province d'Anvers apparait 1 fois dans le corpus
Bruxelles-Anvers apparait 1 fois dans le corpus


## Lister les organisations les plus mentionnées dans le corpus

In [28]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 500 ms
Wall time: 559 ms


In [29]:
# Compter les entités
organisation = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        organisation[ent.text] += 1

In [30]:
# Trier et imprimer

sorted_organisation = sorted(organisation.items(), key=lambda kv: kv[1], reverse=True)

for orga, freq in sorted_organisation[:50]:
    print(f"{orga} apparait {freq} fois dans le corpus")
    

Conseil apparait 5 fois dans le corpus
Comité apparait 2 fois dans le corpus
Reuter apparait 2 fois dans le corpus
La Société « La Chaussure apparait 1 fois dans le corpus
Direction _ do la Société « La Chaussure apparait 1 fois dans le corpus
Syndicat des Employés apparait 1 fois dans le corpus
Section do Bruxelles' de la Centrale des Cuira et Peaux apparait 1 fois dans le corpus
Syndicat des Cuirs et Peaux apparait 1 fois dans le corpus
A LA apparait 1 fois dans le corpus
ANGLETERRE apparait 1 fois dans le corpus
Havas apparait 1 fois dans le corpus
Cabinet Le Conseil apparait 1 fois dans le corpus
Chambre apparait 1 fois dans le corpus
ministre des Travaux apparait 1 fois dans le corpus


# Sentiment analysis

In [32]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{subjectivity}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    print(f"This text is {polarity_str} and {subjectivity_str}.")

## Analyser le sentiment d'une phrase

In [33]:
get_sentiment("Le but de la commission, nommée sur la demande des Amis des bêtes, est d'étudier des lois relatives aux expériences faites sur les animaux vivants et les moyens d'empêcher la vivisection.")

This text is 18% positive and 0.33999999999999997% subjective.


In [35]:
get_sentiment("La Société Royale prolectrice des animaux, estimant que les mauvais traitements infligés aux bêtes, sont, la plupart du temps, imputables a un défaut d'éducation, a décidé d'orienter; tout d'abord, sa propagande vers la formation morale des enfants fréquentant les écoles primaires.")

This text is 12% negative and 0.3333333333333333% subjective.


In [36]:
get_sentiment("La 6e assemblée fédérale des sociétés belges contre les cruautés envers les animaux se tiendra à Charleroi, dimanche, à 10 heures du matin, en l'auditoire de l'Université du Travail.")

This text is neutral and perfectly objective.


In [37]:
get_sentiment("Le Sénat prend en considération une proposition de M. Asou, relative à la protection des animaux.")

This text is neutral and 0.15% subjective.


In [38]:
get_sentiment("La Société protectrice des animaux vient de faire parvenir à soixante écoles du Bassin un paquet de calendriers et de brochures concernant la protection des animaux.")

This text is neutral and perfectly objective.


In [39]:
get_sentiment("nous avons parlé d'un cheval atteint de quatre fistules purulentes qui nous était passé par les mains et que nous avions, dû, malheureusement; rélâcher faute d'avoir été convenablement secondés.")

This text is 40% negative and 0.2% subjective.


In [40]:
get_sentiment(" L'exagération dans la protection des animaux (Magrid)")

This text is neutral and perfectly objective.


In [41]:
get_sentiment("M. KOCH demande qu'un crédit de 20,000 francs soit inscrit au budget comme subside pour la protection des animaux.")

This text is 20% positive and 0.2% subjective.


In [42]:
get_sentiment("La Fédération des sociétés belges pour la protection des animaux vient d'adresser au Ministre île l'Intérieur une énergique protestation contre les parcours it allure libre inscrits au programme du Raid Hippique organisé du 2 au 7 août, par la société .")

This text is 20% positive and 0.275% subjective.


In [43]:
get_sentiment("Mardi, s’ouvrira au Foreign Office une importante conférence internationale destinée à concerter des mesures pour protéger les animaux utiles d’Afrique : éléphant», antilopes, buffles, etc.")

This text is 21% positive and 0.0875% subjective.
