In [None]:
# CountVectorizer() 是 Scikit-learn 庫中用來將文本數據轉換為數值數據的一個工具。
# 具體來說，CountVectorizer 將文本資料轉換為詞頻矩陣，即每個單詞在文本中出現的次數。這在自然語言處理（NLP）和機器學習中非常有用，因為許多模型只能處理數字數據。

#以下是 CountVectorizer 的主要功能：
# 1.詞彙表建立：掃描整個文本語料庫，建立一個包含所有出現單詞的詞彙表。
# 2. 轉換文本為特徵向量：將每一段文本轉換為一個特徵向量，向量的每一維表示詞彙表中一個單詞在文本中出現的次數。

In [None]:
# 這是一個簡單的例子，展示了如何使用 CountVectorizer：

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 示例文本
texts = [
    "I love programming",
    "I love learning new things",
    "Programming is fun"
]

In [3]:
# 初始化 CountVectorizer
vectorizer = CountVectorizer()

In [4]:
# 將文本轉換為詞頻矩陣
X = vectorizer.fit_transform(texts)

In [6]:
# 獲取詞彙表
vocab = vectorizer.get_feature_names_out()

In [8]:
# 將詞頻矩陣轉換為數組
X_array = X.toarray()

In [10]:
print("詞彙表:", vocab)
print("詞頻矩陣:\n", X_array)

詞彙表: ['fun' 'is' 'learning' 'love' 'new' 'programming' 'things']
詞頻矩陣:
 [[0 0 0 1 0 1 0]
 [0 0 1 1 1 0 1]
 [1 1 0 0 0 1 0]]


In [None]:
# 在使用 CountVectorizer 進行文本處理時，某些常見的詞（如 "I"、"the" 等）可能會被濾掉，這是因為 CountVectorizer 默認會過濾掉英語的停用詞（stop words）。
# 停用詞是指在文本分析中被認為沒有太大意義的詞，它們通常是一些常見的詞，如冠詞、介詞、代詞等。
# CountVectorizer 有一個參數 stop_words，可以用來指定要過濾掉的停用詞。如果不希望過濾掉這些詞，可以將 stop_words 設置為 None 或 []。如果希望明確指定一組停用詞，也可以將其設置為一個列表。

In [None]:
# 以下是一些示例，展示了如何使用 stop_words 參數：
# 1. 不過濾停用詞：

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

texts = [
    "I love programming",
    "I love learning new things",
    "Programming is fun"
]

# 初始化 CountVectorizer，不過濾停用詞
vectorizer = CountVectorizer(stop_words=None)

X = vectorizer.fit_transform(texts)
vocab = vectorizer.get_feature_names_out()
X_array = X.toarray()

print("詞彙表:", vocab)
print("詞頻矩陣:\n", X_array)

詞彙表: ['fun' 'is' 'learning' 'love' 'new' 'programming' 'things']
詞頻矩陣:
 [[0 0 0 1 0 1 0]
 [0 0 1 1 1 0 1]
 [1 1 0 0 0 1 0]]


In [None]:
# 2.使用內建的英語停用詞列表：

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

texts = [
    "I love programming",
    "I love learning new things",
    "Programming is fun"
]

# 初始化 CountVectorizer，使用內建的英語停用詞列表
vectorizer = CountVectorizer(stop_words='english')

X = vectorizer.fit_transform(texts)
vocab = vectorizer.get_feature_names_out()
X_array = X.toarray()

print("詞彙表:", vocab)
print("詞頻矩陣:\n", X_array)


詞彙表: ['fun' 'learning' 'love' 'new' 'programming' 'things']
詞頻矩陣:
 [[0 0 1 0 1 0]
 [0 1 1 1 0 1]
 [1 0 0 0 1 0]]


In [None]:
# 3.使用自定義停用詞列表：

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

texts = [
    "I love programming",
    "I love learning new things",
    "Programming is fun"
]

# 自定義停用詞列表
custom_stop_words = ['i', 'is', 'new']

# 初始化 CountVectorizer，使用自定義停用詞列表
vectorizer = CountVectorizer(stop_words=custom_stop_words)

X = vectorizer.fit_transform(texts)
vocab = vectorizer.get_feature_names_out()
X_array = X.toarray()

print("詞彙表:", vocab)
print("詞頻矩陣:\n", X_array)

詞彙表: ['fun' 'learning' 'love' 'programming' 'things']
詞頻矩陣:
 [[0 0 1 1 0]
 [0 1 1 0 1]
 [1 0 0 1 0]]


In [None]:
# 這樣，你就可以控制哪些詞會被包含在詞彙表中，哪些詞會被濾掉。