# Lựa chọn mô hình cho bài toán
### Mục tiêu của bài toán như sau 
###   *B1 : Đưa ra một đánh giá*
###   *B2 : Đánh giá nội dung là tích cực hay tiêu cực rồi gán nhãn “positive” or “negative” cho chúng*
### Ta có thể thấy đây là một nhiệm vụ phân loại nhị phân tiêu chuẩn.

![alt text](./images/th2.jpeg "Title")


### Tuy nhiên, dữ liệu văn bản không ở định dạng mà mô hình máy học có thể xử lý. 
### Vậy nên ta cần xử lý ***ngôn ngữ tự nhiên (Natural Language Processing - NLP)***
### <font color='red'>  **=> Cần chuyển đổi biểu diễn chuỗi của văn bản thành biểu diễn số**</font>

### Một trong những cách đơn giản nhưng hiệu quả và thường được sử dụng để xử lý ngôn ngữ tự nhiên là sử dụng biểu diễn túi từ (Bag of Words) 
***
### <font color="yellow">Nguyên lý</font>: Bất kỳ thông tin nào về thứ tự hoặc cấu trúc của các từ trong câu đều bị loại bỏ, chỉ quan tâm đến việc các từ đã biết có xuất hiện trong tài liệu hay không, chứ không phải ở vị trí nào trong tài liệu.
***


### Tính toán biểu diễn túi từ cho một kho tài liệu bao các ba bước sau:
![alt text](./images/Picture.png "Title")

### Ví dụ Áp dụng túi từ (Bag-of-Words)

In [1]:
bards_words =["The fool doth think he is wise,",
 "but the wise man knows himself to be a fool"]
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [3]:
vect.fit(bards_words)
print("Vocabulary size: {}".format(len(vect.vocabulary_)))
print("Vocabulary content:\n {}".format(sorted(vect.vocabulary_)))

Vocabulary size: 13
Vocabulary content:
 ['be', 'but', 'doth', 'fool', 'he', 'himself', 'is', 'knows', 'man', 'the', 'think', 'to', 'wise']


### Để tạo biểu diễn túi ***(bag-of-words representation)*** từ cho dữ liệu huấn luyện, gọi phương thức **transform:**

In [4]:
bag_of_words = vect.transform(bards_words)
print("bag_of_words: {}".format(repr(bag_of_words)))

bag_of_words: <2x13 sparse matrix of type '<class 'numpy.int64'>'
	with 16 stored elements in Compressed Sparse Row format>


In [21]:
index = 0
for i in bards_words:
    print("Line {} : {}".format(index,i))
    index = index + 1
print(bag_of_words.toarray())

Line 0 : The fool doth think he is wise,
Line 1 : but the wise man knows himself to be a fool
[[0 0 1 1 1 0 1 0 0 1 1 0 1]
 [1 1 0 1 0 1 0 1 1 1 0 1 1]]


#### Chuỗi đầu tiên ***"The fool doth think he is wise"*** được biểu diễn ở hàng đầu tiên và nó ***không chứa từ*** đầu tiên ***"be"*** trong Vocabulary content nên có giá trị ***0*** . Nó cũng ***không chứa*** từ thứ hai ***"but"*** nên cũng có giá trị ***0***. Nó ***chứa*** từ thứ ba, ***"doth"*** nên có giá trị ***1*** , v.v. 
#### Nhìn vào cả hai hàng, chúng ta có thể thấy rằng từ thứ tư ***"fool"*** , từ thứ mười ***"the"*** và từ thứ mười ba ***"wise"*** xuất hiện trong cả hai chuỗi.

### Áp dụng cho bài toán ***phân tích cảm nhận của người xem phim***

In [22]:
from sklearn.datasets import load_files
import numpy as np
#Load dữ liệu
reviews_train = load_files("aclImdb_v2/aclImdb/train/")
text_train, y_train = reviews_train.data, reviews_train.target

vect = CountVectorizer()
vect.fit(text_train)

X_train = vect.transform(text_train)
print("X_train:\n{}".format(repr(X_train)))

X_train:
<25000x74849 sparse matrix of type '<class 'numpy.int64'>'
	with 3445861 stored elements in Compressed Sparse Row format>


### Kích thước của X_train, biểu diễn túi từ của dữ liệu huấn luyện, là 25.000 × 74.849, cho biết từ vựng chứa 74.849 mục từ
### Một cách khác để truy cập từ vựng là sử dụng phương thức ***get_feature_names_out*** của vectorizer, phương thức này trả về một danh sách trong đó mỗi mục tương ứng với một đặc trưng:

In [28]:
feature_names = vect.get_feature_names_out()
print("Number of features: {}".format(len(feature_names)))
print("Number of features: {}".format(type(feature_names)))
print("First 20 features:\n{}".format(feature_names[:20]))
print("Features 20010 to 20030:\n{}".format(feature_names[20010:20030]))
print("Every 2000th feature:\n{}".format(feature_names[::2000]))

Number of features: 74849
Number of features: <class 'numpy.ndarray'>
First 20 features:
['00' '000' '0000000000001' '00001' '00015' '000s' '001' '003830' '006'
 '007' '0079' '0080' '0083' '0093638' '00am' '00pm' '00s' '01' '01pm' '02']
Features 20010 to 20030:
['dratted' 'draub' 'draught' 'draughts' 'draughtswoman' 'draw' 'drawback'
 'drawbacks' 'drawer' 'drawers' 'drawing' 'drawings' 'drawl' 'drawled'
 'drawling' 'drawn' 'draws' 'draza' 'dre' 'drea']
Every 2000th feature:
['00' 'aesir' 'aquarian' 'barking' 'blustering' 'bête' 'chicanery'
 'condensing' 'cunning' 'detox' 'draper' 'enshrined' 'favorit' 'freezer'
 'goldman' 'hasan' 'huitieme' 'intelligible' 'kantrowitz' 'lawful' 'maars'
 'megalunged' 'mostey' 'norrland' 'padilla' 'pincher' 'promisingly'
 'receptionist' 'rivals' 'schnaas' 'shunning' 'sparse' 'subset'
 'temptations' 'treatises' 'unproven' 'walkman' 'xylophonist']


### Ta có thể thấy 10 mục đầu tiên trong ***feature_names*** đều là những con số. Tất cả những con số này xuất hiện ở đâu đó trong các bài đánh giá và do đó được trích xuất dưới dạng từ. Hầu hết những con số này không có bất kỳ ý nghĩa ngữ nghĩa.
### Tìm kiếm xa hơn trong từ vựng, ta tìm thấy một tập hợp các từ tiếng Anh bắt đầu bằng ***“dra”***. Bạn có thể nhận thấy rằng đối với ***"draught","drawback" và "drawer"*** cả dạng số ít và số nhiều đều có trong từ vựng dưới dạng các từ riêng biệt. Những từ này có ý nghĩa ngữ nghĩa liên quan rất chặt chẽ và việc coi chúng là những từ khác nhau, tương ứng với các đặc điểm khác nhau, có thể không phù hợp.

### <font color='red'>  ***Đối với dữ liệu nhiều chiều, rải rác như thế này, các mô hình tuyến tính như ***Logistic Regression*** thường hoạt động tốt nhất.*** </font>
***
#### ***Logistic Regression*** được áp dụng trong bài toán phân loại nhị phân (Binary classification) tức ta sẽ có hai output, hoặc có thể gọi là hai nhãn (ví dụ như 0 và 1 hoặc positive và negative).
#### ***Logistic Regression*** thường được sử dụng để so sánh với các thuật toán phân loại khác.
#### ***Logistic Regression*** là 1 thuật toán phân loại được dùng để dự đoán giá trị dữ liệu dựa trên các quan sát trước đó của tập dữ liệu.
#### Một ví dụ điển hình là:
#### Phân loại Email thường hay spam
#### Giao dịch trực tuyến có là an toàn hay không an toàn
#### khối u lành tính hay ác tình.
#### Mục đích của hồi quy logistic là ước tính xác suất của các sự kiện, bao gồm xác định mối quan hệ giữa các tính năng từ đó đự đoán xác suất của các kết quả, nên đối với hồi quy logistic ta sẽ có:
#### Input: dữ liệu input (ta sẽ coi có hai nhãn là 0 và 1).
#### Output : Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn 1.
![alt text](./images/logistic-300x262-1.jpg "Title")
***