# Chapter 2. NLP pipeline

The key stages in the NLP pipeline:

1. Data acquisition
2. Text cleaning
3. Pre-processing
4. Feature engineering
5. Modeling
6. Evaluation
7. Deployment
8. Monitoring and model updating

![Untitled](Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled.png)

## 1. Data Acquisition

Ways to collecting data:

- Use a public dataset
- Scrape data: crawl data từ internet
- Product intervention: Thu thập data từ việc chạy các sản phẩm thực tế
- Synonym replacement: Chọn ngẫu nhiên `k` từ trong câu mà không phải là từ kết thúc câu, replace các từ này bằng synonyms của chúng. Ta có thể dùng Synsets trong Wordnet [3,4]
- Back translation: Giả sử ta có S1 bằng tiếng Anh, ta có thể dùng google translate để dịch nó sang S2 là tiếng Đức, từ S2 ta lại dùng nó để dịch ngược lại tiếng Anh ⇒ 2 câu có ngữ nghĩa là giống nhau nhưng cấu trúc của nó lại khác.

![Untitled](Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%201.png)

- TF-IDF-based word replacement
- Bigram flipping
- Replacing entities
- Adding noise to data
- Advanced techniques:
    - Snorkel
    - Easy Data Augmentation
    - Active Learning

## 2. Text extraction and cleanup

![Untitled](Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%202.png)

### HTML Parsing and Cleanup

### Unicode Normalization



In [1]:
import emoji

text = 'I love 🍕! Shall we book a 🚗 to gizza?'
Text = text.encode("utf-8")

Text

b'I love \xf0\x9f\x8d\x95! Shall we book a \xf0\x9f\x9a\x97 to gizza?'

### Spelling Correction

Có thể sử dụng REST API cho việc sửa lỗi chính tả của Microsoft

In [2]:
import requests
import json

api_key = ""
example_text = "Hollo, wrld"
endpoint = "https://api.cognitive.microsoft.com/bing/v7.0/SpellCheck"

data = {
    'text': example_text
}

params = {
    'mkt':'en-us',
    'mode':'proof'
    }

headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Ocp-Apim-Subscription-Key': api_key,
    }

response = requests.post(endpoint, headers=headers, params=params, data=data)

json_response = response.json()
print(json.dumps(json_response, indent=4))


{
    "error": {
        "code": "401",
        "message": "Access denied due to invalid subscription key or wrong API endpoint. Make sure to provide a valid key for an active subscription and use a correct regional API endpoint for your resource."
    }
}


### System-Specific Error Correction

In [3]:
from PIL import Image
from pytesseract import image_to_string
import pytesseract


pytesseract.pytesseract.tesseract_cmd  = r'C:\Program Files\Tesseract-OCR\tesseract'
filename = "./test_img.png"

text = image_to_string(Image.open(filename))
print(text)

In the nineteenth century the only kind of linguistics considered
seriously was this comparative and historical stady of word in angus

known or believed to be cagnate—say the Semitic languages, or the Indo-
European languages. It is significant that the Germans who really made
the subject what it was, used the term Indo-germanisch, Those who know
the popular works of Otto Jespersen will remember how firmly he
declares that linguistic science is historical. And those who have noticed







## 3. Pre-Processing

### Sentence Segmentation


In [4]:
from nltk.tokenize import sent_tokenize, word_tokenize

mytext = """
In the previous chapter, we saw examples of some common NLP
applications that we might encounter in everyday life. If we were asked to
build such an application, think about how we would approach doing so at our
organization. We would normally walk through the requirements and break the
problem down into several sub-problems, then try to develop a step-by-step
procedure to solve them. Since language processing is involved, we would also
list all the forms of text processing needed at each step. This step-by-step
processing of text is known as pipeline. It is the series of steps involved in
building any NLP model. These steps are common in every NLP project, so it
makes sense to study them in this chapter. Understanding some common procedures
in any NLP pipeline will enable us to get started on any NLP problem encountered
in the workplace. Laying out and developing a text-processing pipeline is seen
as a starting point for any NLP application development process. In this
chapter, we will learn about the various steps involved and how they play
important roles in solving the NLP problem and we’ll see a few guidelines
about when and how to use which step. In later chapters, we’ll discuss
specific pipelines for various NLP tasks (e.g., Chapters 4–7).r
"""

my_sentences = sent_tokenize(mytext)

my_sentences

['\nIn the previous chapter, we saw examples of some common NLP\napplications that we might encounter in everyday life.',
 'If we were asked to\nbuild such an application, think about how we would approach doing so at our\norganization.',
 'We would normally walk through the requirements and break the\nproblem down into several sub-problems, then try to develop a step-by-step\nprocedure to solve them.',
 'Since language processing is involved, we would also\nlist all the forms of text processing needed at each step.',
 'This step-by-step\nprocessing of text is known as pipeline.',
 'It is the series of steps involved in\nbuilding any NLP model.',
 'These steps are common in every NLP project, so it\nmakes sense to study them in this chapter.',
 'Understanding some common procedures\nin any NLP pipeline will enable us to get started on any NLP problem encountered\nin the workplace.',
 'Laying out and developing a text-processing pipeline is seen\nas a starting point for any NLP applicat

### Word tokenization

In [5]:
for sentence in my_sentences:
    print(sentence)
    print(word_tokenize(sentence))


In the previous chapter, we saw examples of some common NLP
applications that we might encounter in everyday life.
['In', 'the', 'previous', 'chapter', ',', 'we', 'saw', 'examples', 'of', 'some', 'common', 'NLP', 'applications', 'that', 'we', 'might', 'encounter', 'in', 'everyday', 'life', '.']
If we were asked to
build such an application, think about how we would approach doing so at our
organization.
['If', 'we', 'were', 'asked', 'to', 'build', 'such', 'an', 'application', ',', 'think', 'about', 'how', 'we', 'would', 'approach', 'doing', 'so', 'at', 'our', 'organization', '.']
We would normally walk through the requirements and break the
problem down into several sub-problems, then try to develop a step-by-step
procedure to solve them.
['We', 'would', 'normally', 'walk', 'through', 'the', 'requirements', 'and', 'break', 'the', 'problem', 'down', 'into', 'several', 'sub-problems', ',', 'then', 'try', 'to', 'develop', 'a', 'step-by-step', 'procedure', 'to', 'solve', 'them', '.']
Sinc

![](./Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%203.png)

### Frequent steps

- Sau khi đã sentence segmener và word tokenizer, ta có được mảng các từ có nghĩa. Việc làm tiếp theo đó là lọc bỏ đi những từ không cần thiết cho việc phân tích ví dụ như các từ `a, an, the, of, of, in...` hay còn gọi là các `stop words`. Ngoài ra thì còn một số từ ngữ khác nữa không thực sự liên quan đến ngữ cảnh cũng cần được lọc.
- Vấn đề nữa đó là về chữ hoa và chữ thường, thường thì ta sẽ để hoa hết hoặc thường hết và hầu hết là để thường hết.
- Loại bỏ đi các dấu câu, một số chữ số không cần thiết.

In [6]:
import nltk
from nltk.corpus import stopwords
from string import punctuation

punctuation = list(punctuation)

def preprocess_corpus(texts):
    mystopwords = set(stopwords.words("english"))
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token not in mystopwords
                        and not token.isdigit() and token not in punctuation]
    return [remove_stops_digits(word_tokenize(text)) for text in texts]

preprocess_corpus(my_sentences)

[['in',
  'previous',
  'chapter',
  'saw',
  'examples',
  'common',
  'nlp',
  'applications',
  'might',
  'encounter',
  'everyday',
  'life'],
 ['if',
  'asked',
  'build',
  'application',
  'think',
  'would',
  'approach',
  'organization'],
 ['we',
  'would',
  'normally',
  'walk',
  'requirements',
  'break',
  'problem',
  'several',
  'sub-problems',
  'try',
  'develop',
  'step-by-step',
  'procedure',
  'solve'],
 ['since',
  'language',
  'processing',
  'involved',
  'would',
  'also',
  'list',
  'forms',
  'text',
  'processing',
  'needed',
  'step'],
 ['this', 'step-by-step', 'processing', 'text', 'known', 'pipeline'],
 ['it', 'series', 'steps', 'involved', 'building', 'nlp', 'model'],
 ['these',
  'steps',
  'common',
  'every',
  'nlp',
  'project',
  'makes',
  'sense',
  'study',
  'chapter'],
 ['understanding',
  'common',
  'procedures',
  'nlp',
  'pipeline',
  'enable',
  'us',
  'get',
  'started',
  'nlp',
  'problem',
  'encountered',
  'workplace'],
 [

### Stemming and lemmatization



**Stemming** có nghĩa là remove một số phần prefix và suffix đi để được các form giống nhau ví dụ:

`'car' và 'cars'` sẽ được stemming thành `car`. Việc này được thực hiện bằng cách apply một số rules nhất định ví dụ như từ nào kết thúc bằng `es` thì bỏ đi `es`

In [7]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()

word1, word2 = 'car', 'cars'


print(stemmer.stem(word1), stemmer.stem(word2))

car car


Đối với các từ mà biến thể của nó không đơn giản là thêm suffix hoặc prefix ví dụ: good, better,... mà chúng vẫn có cùng nghĩa với nhau => cũng cần phải chuyển về dạng base form nhất định. Việc thực hiện này được gọi là `Lemmatization`.

![](./Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%204.png)

In [4]:
import nltk

nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer




lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize("better ", pos = "a"))

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\hoang\AppData\Roaming\nltk_data...


better 


![](./Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%205.png)

### Other Pre-processing Steps

#### Text normalization

#### Language Detection

Khi xử lý text data ví dụ như khi đi crawl data từ một trang web bán hàng nào đó thì ta sẽ gặp trường hợp đó là craw về nhiều loại ngôn ngữ khác nhau do người dùng từ các quốc gia khác nhau bình luận, ... Dó đó việc phân loại ra ngôn ngữ để xử lý là quan trọng. Ta có thể sử dụng thư viện Polygot

#### Code mixing and transliteration

Khi một người biết nhiều ngôn ngữ, có khả năng trong khi nói hoặc viết, người đó sẽ vô ý dùng multiple languages trong câu => Đây gọi là `code mixing`.

Trong khi viết, khi người đó sử dụng các từ mà mình nói dưới dạng đánh vần ngữ âm trong tiếng anh (ví dụ `chào` trong tiếng việt nếu nói ngữ âm theo tiếng Anh sẽ là `chao` => viết thành chữ là `chao`) => Gọi là transliteration.

![](./Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%206.png)

### Advanced Processing

## 4. Feature engineering

Sau khi qua tiền xử lý raw text, bước tiếp theo là biến đổi data đã qua xử lý về dạng data mà các model AI có thể làm việc được, đó chính là các dạng ma trận và vector. Việc này còn được gọi là `feature extraction`

![](./Chapter%202%20NLP%20pipeline%20c140380e660240a9a622b98490b31b28/Untitled%207.png)

### Classical NLP / ML Pipeline



### DL Pipeline

## 5. Modeling