In [38]:
!pip install spacy
!python -m spacy download en_core_web_sm
!python -m spacy download en
# !python -m spacy download en_core_web_sm
!python -m spacy download en_core_web_lg

In [39]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [40]:
doc = nlp("Hi my name is Mark")
for ent in doc.ents:
    print(ent)
    print(ent.text, ent.label_)

Mark
Mark PERSON


## Démonstration de NER ves un Dataframe Pandas

In [41]:
import pandas as pd

entities = []

# Parcourir les entités nommées dans le document
for entity in doc.ents:
    entities.append((entity.text, entity.label_))
    
# Créer un DataFrame Pandas à partir de la liste des entités
df = pd.DataFrame(entities, columns=["Entité", "Type"])

# Afficher le DataFrame
print(df)


  Entité    Type
0   Mark  PERSON


## Test d'extraction sur une page Wikipédia, en Anglais, qui parle d'un château connu en France

In [42]:
import requests
from bs4 import BeautifulSoup
import spacy
import pandas as pd


# URL de la page Wikipédia
url = "https://en.wikipedia.org/wiki/Chambord,_Loir-et-Cher"

# Effectuer la requête HTTP pour récupérer le contenu de la page
response = requests.get(url)
content = response.content

# Utiliser Beautiful Soup pour extraire le texte de la page
soup = BeautifulSoup(content, "html.parser")
texte = soup.get_text()

# Analyser le texte avec Spacy
doc = nlp(texte)

# Liste pour stocker les entités nommées
entites = []

# Parcourir les entités nommées dans le document
for entite in doc.ents:
    entites.append((entite.text, entite.label_))

# Créer un DataFrame Pandas à partir de la liste des entités
df = pd.DataFrame(entites, columns=["Entité", "Type"])

# Afficher le DataFrame
print(df)

# Filtrer le DataFrame sur les entités de type "Lieu"
df_filtre = df.loc[df["Type"] == "LOC"]

# Afficher le DataFrame filtré
print(df_filtre)

# Filtrer le DataFrame sur les entités de type "Personne"
df_filtre = df.loc[df["Type"] == "PERSON"]

# Afficher le DataFrame filtré
print(df_filtre)

                                                Entité     Type
0                                                 Loir     NORP
1                                                 Main  PRODUCT
2                                                 Main      FAC
3                               Navigation\n\t\n\nMain      ORG
4                          Contribute\n\t\n\nHelpLearn   PERSON
..                                                 ...      ...
248  the Creative Commons Attribution-ShareAlike Li...      ORG
249                the Terms of Use and Privacy Policy      ORG
250                                          Wikipedia      GPE
251                           the Wikimedia Foundation      ORG
252                                             Toggle      ORG

[253 rows x 2 columns]
                                          Entité Type
57   the Loire Valley UNESCO World Heritage Site  LOC
70                                      Henry II  LOC
99   the Loire Valley UNESCO World Heritage Si

## Test d'extraction sur un article

In [49]:

# Load the feather file into a pandas dataframe
df_data = pd.read_feather("results_v3.feather")

text_id = 1000

print(df_data.iloc[text_id])
texte = df_data.iloc[text_id].text_content

index                                                        1641
year                                                         2022
title           FTC Considering Rules on Collecting, Selling P...
url             https://www.cnet.com/tech/services-and-softwar...
text_content    Tired of companies gathering and selling your ...
Name: 1000, dtype: object


In [50]:
# Analyser le texte avec Spacy
doc = nlp(texte)

# Liste pour stocker les entités nommées
entites = []

# Parcourir les entités nommées dans le document
for entite in doc.ents:
    entites.append((entite.text, entite.label_))

# Créer un DataFrame Pandas à partir de la liste des entités
df = pd.DataFrame(entites, columns=["Entité", "Type"])
print(df)

# Filtrer le DataFrame sur les entités de type "Lieu"
df_filtre = df.loc[df["Type"] == "ORG"]
print("------------------------- Lieux")
print(df_filtre)


# Filtrer le DataFrame sur les entités de type "Personne"
df_filtre = df.loc[df["Type"] == "PERSON"]
print("------------------------- Personnes")
print(df_filtre)


                                      Entité     Type
0                                        FTC      ORG
1            The US Federal Trade Commission      ORG
2                                   Thursday     DATE
3                                        FTC      ORG
4                                        FTC      ORG
5                               Lina M. Khan   PERSON
6                                        FTC      ORG
7                                        14%  PERCENT
8                the first quarter this year     DATE
9                                       2021     DATE
10                                   Sept. 8     DATE
11                                   11 a.m.     TIME
12                                 4:30 p.m.     TIME
13                                        PT   PERSON
14                                      June     DATE
15  American Data Privacy and Protection Act      ORG
16                                     House      ORG
17                          