In [19]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import spacy

## 0. Using NER for english text

### 0.0. Load text 

In [6]:
# Specify url of the web page
source = urlopen('https://en.wikipedia.org/wiki/Rush_(2013_film)').read()

In [7]:
# scrape webpage
soup = BeautifulSoup(source,'lxml')

In [8]:
# Extract the plain text content from paragraphs
paras = []
for paragraph in soup.find_all('p'):
    paras.append(str(paragraph.text))

In [9]:
# Extract text from paragraph headers
heads = []
for head in soup.find_all('span', attrs={'mw-headline'}):
    heads.append(str(head.text))

In [16]:
# Interleave paragraphs & headers
text = [val for pair in zip(paras, heads) for val in pair]
text = ' '.join(text)

In [17]:
# Drop footnote superscripts in brackets
text = re.sub(r"\[.*?\]+", '', text)

In [18]:
# Replace '\n' (a new line) with '' 
text = text.replace('\n', '')[:-15]
print(text)

				Pages for logged out editors learn more Plot  Cast Rush is a 2013 biographical sports film centred on the rivalry between two Formula One drivers, the Briton, James Hunt and the Austrian, Niki Lauda during the 1976 motor-racing season. It was written by Peter Morgan, directed by Ron Howard and starred Chris Hemsworth as Hunt and Daniel Brühl as Lauda. The film premiered in London on 2 September 2013 and was shown at the 2013 Toronto International Film Festival before its United Kingdom release on 13 September 2013. The film received positive reviews from critics for Hemsworth and Brühl's performances, Howard's direction, the racing sequences, and Hans Zimmer's musical score. Production James Hunt, a brash and self-confident individual, and Niki Lauda, a cool and calculating technical genius who relies on practice and precision, are exceptional racing car drivers who first develop a fierce rivalry in 1970 at a Formula Three race in London, when both their cars spin before Hunt wins 

### 0.1. Load model

In [22]:
nlp = spacy.load("en_core_web_sm")

In [27]:
doc = nlp(text)

In [28]:
# iterate through the named entities returned by the model
for ent in doc.ents:
    print(ent.text, ent.label_)

Plot ORG
2013 DATE
two CARDINAL
Formula One ORG
Briton GPE
James Hunt PERSON
Austrian NORP
Niki Lauda PERSON
1976 DATE
season DATE
Peter Morgan PERSON
Ron Howard PERSON
Chris Hemsworth PERSON
Hunt PERSON
Daniel Brühl PERSON
London GPE
2 September 2013 DATE
2013 DATE
Toronto International Film Festival EVENT
United Kingdom GPE
13 September 2013 DATE
Hemsworth GPE
Brühl GPE
Howard PERSON
Hans Zimmer's PERSON
James Hunt PERSON
Niki Lauda PERSON
first ORDINAL
1970 DATE
Formula Three ORG
London GPE
Hunt PERSON
Lauda PERSON
Austria GPE
Raiffeisen Bank ORG
One CARDINAL
Clay Regazzoni PERSON
first ORDINAL
Hesketh Racing PERSON
Hunt PERSON
Formula One ORG
Scuderia Ferrari PERSON
Regazzoni ORG
first ORDINAL
1975 DATE
Hesketh PERSON
Hunt PERSON
McLaren PERSON
Hunt PERSON
Suzy Miller PERSON
Lauda PERSON
German NORP
Marlene Knaus PERSON
1976 season DATE
Lauda PERSON
first ORDINAL
two CARDINAL
Hunt PERSON
Hunt PERSON
the Spanish Grand Prix ORG
F1 CARDINAL
McLaren PERSON
Hunt PERSON
Richard Burton PE

In [30]:
spacy.displacy.serve(doc, style='ent')


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## 1. Using NER for russian text¶

### 1.0. Load text

In [32]:
# Specify url of the web page
source = urlopen('https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D0%BD%D0%BA%D0%B0_(%D1%84%D0%B8%D0%BB%D1%8C%D0%BC,_2013)').read()

# scrape webpage
soup = BeautifulSoup(source,'lxml')

# Extract the plain text content from paragraphs
paras = []
for paragraph in soup.find_all('p'):
    paras.append(str(paragraph.text))
    
    # Extract text from paragraph headers
heads = []
for head in soup.find_all('span', attrs={'mw-headline'}):
    heads.append(str(head.text))
    
    # Interleave paragraphs & headers
text = [val for pair in zip(paras, heads) for val in pair]
text = ' '.join(text)

# Drop footnote superscripts in brackets
text = re.sub(r"\[.*?\]+", '', text)

# Replace '\n' (a new line) with '' and end the string at $1000.
text = text.replace('\n', '')[:-15]
print(text)

«Гонка» (англ. Rush) — спортивно-историческая драма режиссёра Рона Ховарда. Картина основана на реальных событиях, произошедших в чемпионате мира среди гонщиков «Формулы-1» сезона 1976 года. Получила две номинации на премию «Золотой глобус», в том числе как лучший драматический фильм года. Главные роли исполняют Крис Хемсворт и Даниэль Брюль. Сюжет Фильм основан на реальной истории противостояния двух гонщиков «Формулы-1»: австрийца Ники Лауды и британца Джеймса Ханта. В ролях В центре сюжета — чемпионат гонщиков «Формулы-1» сезона 1976 года. Прошлогодний чемпион мира, Лауда, в начале сезона считался абсолютным фаворитом турнира, особенно после перехода Эмерсона Фиттипальди из команды «Макларен» в Fittipaldi (англ.). На место Фиттипальди приглашают молодого и перспективного Ханта. Бóльшую часть сезона Лауда лидирует в зачёте гонщиков, однако его тяжёлая авария на Гран-при Германии вносит коррективы в расстановку сил. Несмотря на серьёзные ожоги головы, Лауда возвращается за руль уже че

### 1.1. Load ru model

In [36]:
nlp_ru = spacy.load("ru_core_news_sm")

In [37]:
doc = nlp_ru(text)

In [38]:
# iterate through the named entities returned by the model
for ent in doc.ents:
    print(ent.text, ent.label_)

Рона Ховарда PER
Крис Хемсворт PER
Даниэль Брюль PER
Ники Лауды PER
Джеймса Ханта PER
Лауда PER
Эмерсона Фиттипальди PER
Макларен ORG
Fittipaldi ORG
Фиттипальди PER
Ханта PER
Лауда PER
Германии LOC
Лауда PER
Японии LOC
Лауда PER
Хант PER
Лауде PER
Хант PER
Алана Джонса PER
Клея Регаццони PER
Хант PER
Хант PER
Лауда PER
Хант PER
Великобритании LOC
Германии LOC
Австрии LOC
Кадвэл Парк ORG
Нюрбургринг ORG
Блэкбуш PER
Маркетинг PER
Формулы-1 ORG
Ханта PER
Лауды LOC
Лауды LOC
Хантом PER
Нюрбургринг PER
Джеки Стюарт PER
BBC Two ORG
Хантом LOC
Лаудой LOC
Лаудой LOC
McLaren ORG
Ferrari ORG
Ferrari & the Cinema ORG
Chelsea Clearview ORG
Нью-Йорке LOC
Крис Хемсворт PER
Фильм «Гонка» ORG


In [39]:
spacy.displacy.serve(doc, style='ent')


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## 2. Using NER for ukrainian text

### 2.0. Load text¶

In [40]:
# Specify url of the web page
source = urlopen('https://uk.wikipedia.org/wiki/%D0%93%D0%BE%D0%BD%D0%BA%D0%B0_(%D1%84%D1%96%D0%BB%D1%8C%D0%BC,_2013)').read()

# scrape webpage
soup = BeautifulSoup(source,'lxml')

# Extract the plain text content from paragraphs
paras = []
for paragraph in soup.find_all('p'):
    paras.append(str(paragraph.text))
    
    # Extract text from paragraph headers
heads = []
for head in soup.find_all('span', attrs={'mw-headline'}):
    heads.append(str(head.text))
    
    # Interleave paragraphs & headers
text = [val for pair in zip(paras, heads) for val in pair]
text = ' '.join(text)

# Drop footnote superscripts in brackets
text = re.sub(r"\[.*?\]+", '', text)

# Replace '\n' (a new line) with '' and end the string at $1000.
text = text.replace('\n', '')[:-15]
print(text)

«Гонка» (англ. Rush) — американсько-німецько-британська біографічна драма режисера Рона Говарда (був також продюсером), що вийшла 2013 року. У головних ролях Кріс Гемсворт, Даніель Брюль. Фільм знято на основі реальних подій навколо змагань Формули-1. Сюжет Сценаристом був Пітер Морґан, продюсерами — Ендрю Ітон, Ерік Феллнер. На 5 вересня 2021 року фільм займав 230-у позицію у списку 250 кращих фільмів за версією IMDb. У ролях Вперше фільм продемонстрували 2 вересня 2013 року у Лондоні, Велика Британія, стрічка також була представлена на Міжнародному кінофестивалі у Торонто 8 вересня того ж року. В українському кінопрокаті прем'єра фільму відбулась 17 жовтня 2013 року на 72 екранах. З перший тиждень прокату в Україні картина зібрала 117 123 дол. США. Сприйняття У сезоні Формули-1 1976 року Нікі Лауда вважався фаворитом. Він виграв перші двоє перегонів, проте після Гран-прі Німеччини Лауда втрачає перше місце: він потрапляє в аварію і вибуває зі змагань, а його основний конкурент, Джейм

### 2.1. Load uk model

In [42]:
nlp_uk = spacy.load("uk_core_news_sm")

In [43]:
doc = nlp_uk(text)

In [44]:
# iterate through the named entities returned by the model
for ent in doc.ents:
    print(ent.text, ent.label_)

Рона Говарда PER
Кріс Гемсворт PER
Даніель Брюль PER
Формули-1 ORG
Сценаристом PER
Пітер Морґан PER
Ендрю Ітон PER
Ерік Феллнер PER
Лондоні LOC
Велика Британія LOC
Міжнародному кінофестивалі ORG
Торонто LOC
Україні LOC
США LOC
Нікі Лауда PER
Лауда PER
Джеймс Гант PER
Лауда PER
Лаудою PER
Гантом PER
Фільм PER
Rotten Tomatoes ORG
Internet Movie Database ORG
Metacritic ORG
США LOC
США LOC


In [45]:
spacy.displacy.serve(doc, style='ent')


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
