# Implementing basic operations of spaCy, NLTK, regex libraries 

Using sample dataset

In [10]:
import spacy
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/victoria/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 1. Loading the sample data in Pandas dataframe

In [11]:
import pandas as pd

# Load directly from file
# df = pd.read_json("abstracts_smaple.json")

def read_and_normalize_json(path):
    data = pd.read_json(path)
    return pd.json_normalize(data.to_dict(orient="records"))

df = read_and_normalize_json("abstracts_smaple.json")

print(df.head())

                                        id               updated  \
0  http://arxiv.org/abs/astro-ph/0407044v1  2004-07-02T10:17:39Z   
1  http://arxiv.org/abs/astro-ph/0410439v1  2004-10-19T14:47:51Z   
2  http://arxiv.org/abs/astro-ph/0411574v3  2011-01-05T18:55:32Z   
3  http://arxiv.org/abs/astro-ph/0504497v1  2005-04-22T12:39:07Z   
4   http://arxiv.org/abs/physics/0510224v1  2005-10-25T15:36:07Z   

              published                                              title  \
0  2004-07-02T10:17:39Z  Muon Track Reconstruction and Data Selection T...   
1  2004-10-19T14:47:51Z                   An update on the SCUBA-2 project   
2  2004-11-19T15:00:42Z  Feasibility study of a Laue lens for hard X-ra...   
3  2005-04-22T12:39:07Z  Search for Extra-Terrestrial planets: The DARW...   
4  2005-10-25T15:36:07Z  Wavefront sensor based on varying transmission...   

                                             summary  \
0  The Antarctic Muon And Neutrino Detector Array...   
1  SCUBA-2

In [12]:
print(df.head)

<bound method NDFrame.head of                                           id               updated  \
0    http://arxiv.org/abs/astro-ph/0407044v1  2004-07-02T10:17:39Z   
1    http://arxiv.org/abs/astro-ph/0410439v1  2004-10-19T14:47:51Z   
2    http://arxiv.org/abs/astro-ph/0411574v3  2011-01-05T18:55:32Z   
3    http://arxiv.org/abs/astro-ph/0504497v1  2005-04-22T12:39:07Z   
4     http://arxiv.org/abs/physics/0510224v1  2005-10-25T15:36:07Z   
..                                       ...                   ...   
995         http://arxiv.org/abs/0912.0014v1  2009-11-30T21:38:46Z   
996         http://arxiv.org/abs/0912.0076v1  2009-12-01T05:41:19Z   
997         http://arxiv.org/abs/0912.0093v1  2009-12-01T08:01:03Z   
998         http://arxiv.org/abs/0912.0077v1  2009-12-01T11:01:06Z   
999         http://arxiv.org/abs/0912.0143v1  2009-12-01T12:51:46Z   

                published                                              title  \
0    2004-07-02T10:17:39Z  Muon Track Reconstruct

In [13]:
print(df.title[0])   #accessing titles

Muon Track Reconstruction and Data Selection Techniques in AMANDA


In [14]:
print(df.summary[0])   #accessing abstracts

The Antarctic Muon And Neutrino Detector Array (AMANDA) is a high-energy
neutrino telescope operating at the geographic South Pole. It is a lattice of
photo-multiplier tubes buried deep in the polar ice between 1500m and 2000m.
The primary goal of this detector is to discover astrophysical sources of high
energy neutrinos. A high-energy muon neutrino coming through the earth from the
Northern Hemisphere can be identified by the secondary muon moving upward
through the detector. The muon tracks are reconstructed with a maximum
likelihood method. It models the arrival times and amplitudes of Cherenkov
photons registered by the photo-multipliers. This paper describes the different
methods of reconstruction, which have been successfully implemented within
AMANDA. Strategies for optimizing the reconstruction performance and rejecting
background are presented. For a typical analysis procedure the direction of
tracks are reconstructed with about 2 degree accuracy.


In [15]:
#load all abstracts in the list:
texts = df.summary.tolist()
#load all titles in the list:
titles = df.title.tolist()
print(texts[0])
print(titles[0])

The Antarctic Muon And Neutrino Detector Array (AMANDA) is a high-energy
neutrino telescope operating at the geographic South Pole. It is a lattice of
photo-multiplier tubes buried deep in the polar ice between 1500m and 2000m.
The primary goal of this detector is to discover astrophysical sources of high
energy neutrinos. A high-energy muon neutrino coming through the earth from the
Northern Hemisphere can be identified by the secondary muon moving upward
through the detector. The muon tracks are reconstructed with a maximum
likelihood method. It models the arrival times and amplitudes of Cherenkov
photons registered by the photo-multipliers. This paper describes the different
methods of reconstruction, which have been successfully implemented within
AMANDA. Strategies for optimizing the reconstruction performance and rejecting
background are presented. For a typical analysis procedure the direction of
tracks are reconstructed with about 2 degree accuracy.
Muon Track Reconstruction an

## 1.a. Basic cleaning with regex
Remove numbers, special characters, multiple spaces.

- re - это питоновский модуль для работы с решулярными выражениями (regular expressions)
- re.sub(pattern, replacement, string) заменяет все pattern-ы на replacement в строке string

Про регулярные выражения:
- [abc] позволяет выбрать что-то, что совпадает с одним из символов внутри квардратных скобок, здесь: a,b или c
- ^ - это "не". Т.е., [^abc] позволяет выбрать что-то, что не a,не b и не c
- \s - выражение для знака пробела
- `+` это один или более повторов предыдущего символа. Например, \s+ - это двойные (и больше) пробелы.

Таким образом, `[^a-zA-Z\s]` выбирает из текста всё, что не аглийские буквы в любом кейсе и пробелы. Т.е. пробелы и что-то, что не распознаётся, как буквы английского языка, например, кирилица или греческие буквы.

In [16]:
import re

cleaned_text = re.sub(r'[^a-zA-Z\s]', '', texts[0])   #избавились от цифр и "лишних" символов вроде греческих букв
cleaned_text = re.sub(r'\s+', ' ', cleaned_text)  #избавились от двойных пробелов
print(cleaned_text)   #печатаем очищенный абстракт

#то же самое для заголовков
cleaned_title = re.sub(r'[^a-zA-Z\s]', '', titles[0])   #избавились от цифр и "лишних" символов вроде греческих букв
cleaned_title = re.sub(r'\s+', ' ', cleaned_text)  #избавились от двойных пробелов
print(cleaned_title)   #печатаем очищенный абстракт

The Antarctic Muon And Neutrino Detector Array AMANDA is a highenergy neutrino telescope operating at the geographic South Pole It is a lattice of photomultiplier tubes buried deep in the polar ice between m and m The primary goal of this detector is to discover astrophysical sources of high energy neutrinos A highenergy muon neutrino coming through the earth from the Northern Hemisphere can be identified by the secondary muon moving upward through the detector The muon tracks are reconstructed with a maximum likelihood method It models the arrival times and amplitudes of Cherenkov photons registered by the photomultipliers This paper describes the different methods of reconstruction which have been successfully implemented within AMANDA Strategies for optimizing the reconstruction performance and rejecting background are presented For a typical analysis procedure the direction of tracks are reconstructed with about degree accuracy
The Antarctic Muon And Neutrino Detector Array AMANDA 

## Step 2: Tokenization with SpaCy and NLTK

1. Load as nlp en_core_web_sm is a small English pipeline trained on written web text (blogs, news, comments), that includes vocabulary, syntax and entities.

In [17]:
nlp = spacy.load("en_core_web_sm")  # load 
doc = nlp(texts[0])   #use nlp to retrive tokens from the text[0] (our first abstract)
for token in doc:     #print the tokens
    str0 = "token.text: {}, token.pos_: {}, token.dep_: {}".format(token.text, token.pos_, token.dep_)
    print(str0)

token.text: The, token.pos_: DET, token.dep_: det
token.text: Antarctic, token.pos_: PROPN, token.dep_: nmod
token.text: Muon, token.pos_: PROPN, token.dep_: nmod
token.text: And, token.pos_: CCONJ, token.dep_: cc
token.text: Neutrino, token.pos_: PROPN, token.dep_: conj
token.text: Detector, token.pos_: PROPN, token.dep_: compound
token.text: Array, token.pos_: PROPN, token.dep_: nsubj
token.text: (, token.pos_: PUNCT, token.dep_: punct
token.text: AMANDA, token.pos_: PROPN, token.dep_: appos
token.text: ), token.pos_: PUNCT, token.dep_: punct
token.text: is, token.pos_: AUX, token.dep_: ROOT
token.text: a, token.pos_: DET, token.dep_: det
token.text: high, token.pos_: ADJ, token.dep_: amod
token.text: -, token.pos_: PUNCT, token.dep_: punct
token.text: energy, token.pos_: NOUN, token.dep_: nmod
token.text: 
, token.pos_: SPACE, token.dep_: dep
token.text: neutrino, token.pos_: NOUN, token.dep_: compound
token.text: telescope, token.pos_: NOUN, token.dep_: attr
token.text: operating, 

Сразу видно первую проблему - в тексте очень много специфических аббривеаутур, которые человеку (и, наверное, машине) без чтения контекста непонятны.

Выполним то же самое с помощью NLTK:

In [18]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt_tab')

tokens_nltk = word_tokenize(texts[0])
# print(tokens_nltk[:20])
print(tokens_nltk)


['The', 'Antarctic', 'Muon', 'And', 'Neutrino', 'Detector', 'Array', '(', 'AMANDA', ')', 'is', 'a', 'high-energy', 'neutrino', 'telescope', 'operating', 'at', 'the', 'geographic', 'South', 'Pole', '.', 'It', 'is', 'a', 'lattice', 'of', 'photo-multiplier', 'tubes', 'buried', 'deep', 'in', 'the', 'polar', 'ice', 'between', '1500m', 'and', '2000m', '.', 'The', 'primary', 'goal', 'of', 'this', 'detector', 'is', 'to', 'discover', 'astrophysical', 'sources', 'of', 'high', 'energy', 'neutrinos', '.', 'A', 'high-energy', 'muon', 'neutrino', 'coming', 'through', 'the', 'earth', 'from', 'the', 'Northern', 'Hemisphere', 'can', 'be', 'identified', 'by', 'the', 'secondary', 'muon', 'moving', 'upward', 'through', 'the', 'detector', '.', 'The', 'muon', 'tracks', 'are', 'reconstructed', 'with', 'a', 'maximum', 'likelihood', 'method', '.', 'It', 'models', 'the', 'arrival', 'times', 'and', 'amplitudes', 'of', 'Cherenkov', 'photons', 'registered', 'by', 'the', 'photo-multipliers', '.', 'This', 'paper', '

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/victoria/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## 3: Stopwords removal

Filter out common words that are not meaningful.

In [19]:
#SpaCy version
from spacy.lang.en.stop_words import STOP_WORDS

# Extract tokens
tokens = [token.text for token in doc]
tokens_filtered = [t for t in tokens if t.lower() not in STOP_WORDS]
tokens_gone = list(set(tokens) - set(tokens_filtered))
# print(tokens_filtered[:20])
print(tokens_gone)

['the', 'about', 'at', 'by', 'through', 'This', 'been', 'are', 'for', 'and', 'with', 'which', 'this', 'It', 'from', 'have', 'to', 'is', 'can', 'within', 'The', 'For', 'And', 'in', 'a', 'be', 'A', 'of', 'between']


In [20]:
#NLTK version

from nltk.corpus import stopwords
# nltk.download('stopwords')

stop_words = set(stopwords.words('english'))
tokens_filtered_nltk = [t for t in tokens_nltk if t.lower() not in stop_words]  #значимые слова, которые остались
tokens_gone = list(set(tokens_nltk) - set(tokens_filtered_nltk))  #"общие" слова, которые мы отфильтровали

print(tokens_gone)
# print(tokens_filtered_nltk)

['the', 'about', 'at', 'by', 'through', 'This', 'been', 'are', 'for', 'and', 'with', 'which', 'this', 'It', 'from', 'have', 'to', 'is', 'can', 'The', 'For', 'And', 'in', 'a', 'be', 'A', 'of', 'between']


Интересное: spacy отфильтровала больше стоп-слов

## 4. Lemmatization

Convert words to base form.

### With SpaCy
В случае SpaCy это делается в две строки:

In [21]:
# with SpaCy
lemmas = [token.lemma_ for token in doc if token.is_alpha]
print(lemmas[:20])

['the', 'Antarctic', 'Muon', 'and', 'Neutrino', 'Detector', 'Array', 'AMANDA', 'be', 'a', 'high', 'energy', 'neutrino', 'telescope', 'operate', 'at', 'the', 'geographic', 'South', 'Pole']


### With NLTK
В случае с NLTK это более заморочно:

In [22]:
# импорт нужных библиотек
from nltk.stem import WordNetLemmatizer  #reduces words to their base forms
from nltk.corpus import wordnet  #WordNet это лексическая база данных, с помощью которой мы будет определять 
## какой частью речи является слово при лемматизации 

# Download necessary resources (only once)
nltk.download('wordnet')  #загружает WordNet БД для лемматизации
nltk.download('omw-1.4')  #multilingual WordNet для поддержки разных языков (а оно нам надо? У нас только английский так-то)
nltk.download('averaged_perceptron_tagger_eng') #подгружаем части речи в английском языке

[nltk_data] Downloading package wordnet to /home/victoria/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/victoria/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /home/victoria/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [23]:
lemmatizer = WordNetLemmatizer() #заводим инстанс лемматировщика - он переводит слова в леммы, их базовые формы

# Convert POS tags to WordNet format (important for accuracy)
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN  # Default

# Lemmatize each token with its POS tag
pos_tags = nltk.pos_tag(tokens_filtered_nltk)    #берём писок токенов из нашего первого абстракта
lemmas = [lemmatizer.lemmatize(word, get_wordnet_pos(tag)) for word, tag in pos_tags]

print(lemmas)

['Antarctic', 'Muon', 'Neutrino', 'Detector', 'Array', '(', 'AMANDA', ')', 'high-energy', 'neutrino', 'telescope', 'operate', 'geographic', 'South', 'Pole', '.', 'lattice', 'photo-multiplier', 'tube', 'bury', 'deep', 'polar', 'ice', '1500m', '2000m', '.', 'primary', 'goal', 'detector', 'discover', 'astrophysical', 'source', 'high', 'energy', 'neutrino', '.', 'high-energy', 'muon', 'neutrino', 'come', 'earth', 'Northern', 'Hemisphere', 'identify', 'secondary', 'muon', 'move', 'upward', 'detector', '.', 'muon', 'track', 'reconstruct', 'maximum', 'likelihood', 'method', '.', 'model', 'arrival', 'time', 'amplitudes', 'Cherenkov', 'photon', 'register', 'photo-multipliers', '.', 'paper', 'describe', 'different', 'method', 'reconstruction', ',', 'successfully', 'implement', 'within', 'AMANDA', '.', 'Strategies', 'optimize', 'reconstruction', 'performance', 'reject', 'background', 'present', '.', 'typical', 'analysis', 'procedure', 'direction', 'track', 'reconstruct', '2', 'degree', 'accuracy'

Внутри функции get_wordnet_pos мы мапим NLTK POS тэги с чем-то типа тэгов из WordNet. А именно, в WordNet всего 4 типа часте речи: существительное, глагол, приланательное, наречие. А nltk поддерживает много тэгов, которые являются подтипами этих штук: например, VBD - это глагол в прошедгем времени. Чтобы замаппить одно с другим, делается следующее:
- Прилагательные: если тэг nltk начинается на J, эта часть речи соответствует wordnet.ADJ
- Глаголы: если тэг nltk начинается на V, эта часть речи соответствует  wordnet.VERB
- Существительные: если тэг nltk начинается на N, эта часть речи соответствует wordnet.NOUN
- Наречия: если тэг nltk начинается на R, эта часть речи соответствует wordnet.ADV

## Обработка всех абстрактов и их заголовков
С использованием Spacy

In [24]:
# попробуем опрделить функцию для очистки и токенизации текстовых данных
def clean_and_lemmatize(texts):
    #функция принимает список текстов, чистит из ото всякого лишнего, разбивает на токены и возвращает эти токены обратно
    all_tokens = []  #здесь будут токены всех текстов

    for text in texts:  #для каждого абстракта
        #чистим текст:
        cleaned_text = re.sub(r'[^a-zA-Z\s]', '', text)   #избавились от цифр и "лишних" символов вроде греческих букв
        cleaned_text = re.sub(r'\s+', ' ', cleaned_text)  #избавились от двойных пробелов
        #определяеем токены
        doc = nlp(text)   #делаем из текста spaCy-объект
        tokens = []      #список токенов абстракта
        for token in doc:
            # Оставляем только слова (без цифр и знаков препинания)
            if token.is_alpha:       #token.is_alpha True, если токен состоит только из букв, иначе False
                # Игнорируем стоп-слова
                if token.text.lower() not in STOP_WORDS:   #ставим слово в lower case и проверяем, что оно не стоп-слово
                    tokens.append(token.lemma_)     #добавляем базовую форму (aka лемму) в список токенов абстракта
        all_tokens.append(tokens)    # Добавляем список токенов для этого текста в общий список токенов всех 1000 абстрактов
    return all_tokens

In [25]:
#код выше можно записать в одну строку вот так, но тогда сложно будет быстро вспомнить, что здесь происходит
# df['tokens'] = [ [token.lemma_ for token in nlp(text) if token.is_alpha and token.text.lower() not in STOP_WORDS] for text in texts ]

In [None]:
# чистим абстракты и сохраняем результат в колонку 'tokens' датафрейма
df['summary_tokens'] = clean_and_lemmatize(texts)
# проверка работы
print(df.summary_tokens[:5])

In [None]:
# делаем то же самое для заголовков:
df['title_tokens'] = clean_and_lemmatize(titles)
# проверка работы
print(df.title_tokens[:5])

In [None]:
# создаем итоговый общий столбец с токенами
df['tokens_combined'] = df['title_tokens'] + df['summary_tokens']
# проверка работы:
df.head()

In [None]:
print(df.tokens_combined[0])

## Сохранение результатов на диск
Пока что в csv, но в будущем будем их писать в MongoDB

In [None]:
df.to_csv("preprocessed_abstracts.csv", index=False)
