# 03 - การวิเคราะห์ข้อความเชิงสถิติ (Statistical Text Analysis)

การวิเคราะห์ข้อความเชิงสถิติเป็นกระบวนการทาง Data Science ที่ใช้เทคนิคทางคณิตศาสตร์และสถิติในการสกัดความหมายและรูปแบบจากข้อมูลข้อความ (Text Data) ซึ่งโดยทั่วไปเป็นข้อมูลที่ไม่มีโครงสร้าง เช่น ข่าว โพสต์ในสื่อสังคมออนไลน์ หรือบทความวิชาการ

## 1. Text Preprocessing (การเตรียมข้อมูลข้อความ)

ขั้นตอนหลัก:
- Tokenization: การตัดคำ
- Stopword Removal: การลบคำฟุ่มเฟือย
- Lemmatization: การแปลงคำให้อยู่ในรูปมาตรฐาน
- การลบสัญลักษณ์ ตัวเลข หรือเครื่องหมายวรรคตอน

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import string

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

text = "Statistical text analysis involves processing and understanding text data using math and statistics."

tokens = word_tokenize(text.lower())
filtered_tokens = [w for w in tokens if w not in stopwords.words('english') and w not in string.punctuation]

lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(word) for word in filtered_tokens]

print("Original:", tokens)
print("After Cleaning:", lemmatized)

## 2. Statistical Representation (การแทนค่าข้อความเชิงสถิติ)

แนวคิดหลัก:
- Bag of Words (BoW)
- TF-IDF (Term Frequency – Inverse Document Frequency)
- N-grams

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

corpus = [
    "Artificial intelligence and machine learning are related fields.",
    "Statistical text analysis is part of natural language processing."
]

bow = CountVectorizer()
bow_matrix = bow.fit_transform(corpus)
print("BoW Vocabulary:", bow.get_feature_names_out())

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(corpus)
print("TF-IDF Vocabulary:", tfidf.get_feature_names_out())

ngram_vectorizer = CountVectorizer(ngram_range=(2, 2))
ngram_matrix = ngram_vectorizer.fit_transform(corpus)
print("Bigrams:", ngram_vectorizer.get_feature_names_out())

## 3. Descriptive Statistics (การวิเคราะห์เชิงพรรณนา)

- การนับความถี่ของคำ (Word Frequency)
- การสร้างแผนภาพคำ (Word Cloud)

In [None]:
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt

words = ["data", "text", "analysis", "data", "text", "machine", "learning", "data"]

freq = Counter(words)
print(freq.most_common(5))

wc = WordCloud(width=800, height=400, background_color='white').generate(" ".join(words))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

## 4. Inferential and Predictive Analysis (การวิเคราะห์เชิงอ้างอิงและพยากรณ์)

### 4.1 Topic Modeling (LDA)

In [None]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

documents = [
    "Machine learning improves predictive analytics.",
    "Deep learning is part of artificial intelligence.",
    "Statistical models help in natural language processing."
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

lda = LatentDirichletAllocation(n_components=2, random_state=42)
lda.fit(X)

for idx, topic in enumerate(lda.components_):
    print(f"Topic {idx}:")
    print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-5:]])

### 4.2 Sentiment Analysis

In [None]:
from textblob import TextBlob

texts = ["I love this product!", "This is the worst experience ever."]
for t in texts:
    sentiment = TextBlob(t).sentiment.polarity
    print(f"'{t}' → Sentiment Score: {sentiment}")

### 4.3 Clustering / Classification

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

texts = [
    "Artificial intelligence and machine learning",
    "Statistical analysis in data science",
    "Deep learning for NLP applications",
    "Predictive modeling and statistics"
]

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts)

kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X)

for i, label in enumerate(kmeans.labels_):
    print(f"Text: {texts[i]} → Cluster: {label}")

## 5. แนวคิดเชิงทฤษฎีที่เกี่ยวข้อง

| สาขาวิชา | คำอธิบาย |
|------------|------------|
| Corpus Linguistics | การศึกษาภาษาโดยใช้คลังข้อมูลข้อความขนาดใหญ่เพื่อวิเคราะห์เชิงสถิติ |
| Information Retrieval (IR) | การค้นหาและดึงข้อมูลที่เกี่ยวข้องจากข้อความจำนวนมาก |
| Natural Language Processing (NLP) | รากฐานสำคัญของการประมวลผลภาษาเชิงคำนวณ เช่น การทำความเข้าใจและสร้างข้อความอัตโนมัติ |

## 6. ตัวอย่างการประยุกต์ใช้งานจริง

| การประยุกต์ | คำอธิบาย |
|---------------|------------|
| วิเคราะห์โพสต์ในสื่อสังคมออนไลน์ | ตรวจจับอารมณ์ของผู้ใช้ต่อเหตุการณ์ทางสังคมหรือรัฐบาล |
| วิเคราะห์ข่าวเศรษฐกิจ | สกัดหัวข้อและแนวโน้มจากบทความข่าว |
| วิเคราะห์รีวิวสินค้า | ตรวจสอบความพึงพอใจของลูกค้า |
| วิเคราะห์บทความวิชาการ | ใช้ TF-IDF เพื่อดึงคำสำคัญและสรุปเนื้อหา |