# Detect news agencies in a text

Delivering swift and reliable news since the 1830s and 1840s, news agencies have played a pivotal role both nationally and internationally. However, understanding their precise impact on shaping news content has remained somewhat elusive. Our goal is to illuminate this aspect by identifying news agencies within historical newspaper articles. Using data from newspapers in Switzerland and Luxembourg as part of the impresso project, we've trained our pipeline to recognize these entities. 

If you're here, you likely seek to detect news agency entities in your own text. This notebook will guide you through the process of setting up a workflow to identify specific newspaper or agency mentions within your text.

*Note: This notebook requires `HF_TOKEN` to be set in the environment variables. You can get your token by signing up on the [Hugging Face website](https://huggingface.co/join) and read more in the [official documentation](https://huggingface.co/docs/huggingface_hub/v0.20.2/en/quick-start#environment-variable)*

Install necessary libraries (if not already installed) and 
download the necessary NLTK data.

In [None]:
!pip install transformers
!pip install nltk
!pip install torch

After having installed the necessary libraries (if not already installed) we download the necessary NLTK data to run our POS tagger: **averaged_perceptron_tagger**.
The averaged_perceptron_tagger is a efficient and effective part-of-speech (POS) tagger that basically tag each word in a sentence with its corresponding part of speech, such as noun, verb, adjective, etc. See [https://arxiv.org/abs/2104.02831](https://arxiv.org/abs/2104.02831) as reference.

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')

In [6]:
def print_nicely(entities):
    if entities:
        print(f"\n{'Entity':<15} {'Type':<40} {'Score':<8} {'Index':<5} {'Word':<20} {'Start':<5} {'End':<5}")
        print("-" * 100)
        for entity in entities:
            print(f"{entity['word']:<15} {entity['entity']:<40} {entity['score']:<8.4f} {entity['index']:<5} {entity['word']:<20} {entity['start']:<5} {entity['end']:<5}")


Now the fun part, this function will download the requried model and gives you the keys to successfullly detect news agencies in your text. 

In [2]:
from transformers import is_torch_available
from transformers import pipeline

# Check if PyTorch is available
print(is_torch_available())

# Named Entity Recognition pipeline in French
nlp = pipeline("newsagency-ner", model="impresso-project/ner-newsagency-bert-fr", trust_remote_code=True)

True


Run the example below to see how it works.

In [7]:
sentences = ["""Apple est créée le 1er avril 1976 dans le garage de la maison 
            d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak 
            et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine 
            sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification 
            de ses produits, le mot « computer » est retiré le 9 janvier 2015. (Reuter)
            """]

for sentence in sentences:
    # Input text to be processed for named entity recognition
    print(f'Sentence: {sentence}')
    result = nlp(sentence)
    print_nicely(result)

Sentence: Apple est créée le 1er avril 1976 dans le garage de la maison 
            d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak 
            et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine 
            sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification 
            de ses produits, le mot « computer » est retiré le 9 janvier 2015. (Reuter)
            

Entity          Type                                     Score    Index Word                 Start End  
----------------------------------------------------------------------------------------------------
Reuter          org.ent.pressagency.Reuters              0.9864   83    Reuter               434   440  


In [10]:
# Named Entity Recognition pipeline in French
nlp = pipeline("newsagency-ner", model="impresso-project/ner-newsagency-bert-de", trust_remote_code=True)

In [9]:
sentences = [
    """Apple wurde am 1. April 1976 in der Garage des Elternhauses von Steve Jobs in Los Altos, 
    Kalifornien, von Steve Jobs, Steve Wozniak und Ronald Wayne gegründet und am 3. Januar 1977 
    als Unternehmen gegründet, ursprünglich unter dem Namen Apple Computer, aber zum 30. Geburtstag 
    und zur Reflexion der Diversifizierung seiner Produkte wurde das Wort „Computer“ am 9. 
    Januar 2015 entfernt. (Reuter)"""
]

for sentence in sentences:
    # Input text to be processed for named entity recognition
    print(f'Sentence: {sentence}')
    result = nlp(sentence)
    print_nicely(result)

Sentence: Apple est créée le 1er avril 1976 dans le garage de la maison 
            d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak 
            et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine 
            sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification 
            de ses produits, le mot « computer » est retiré le 9 janvier 2015. (Reuter)
            

Entity          Type                                     Score    Index Word                 Start End  
----------------------------------------------------------------------------------------------------
Reuter          org.ent.pressagency.Reuters              0.9880   83    Reuter               434   440  
