‏بخش اول: فواصل اطمینان چند متغیره
‏
‏**مقدمه و تئوری**
‏
‏محققان و تحلیلگران اغلب در مباحث آمار و داده کاوی از عبارت **فاصله اطمینان (Confidence Interval)** استفاده می‌کنند تا نشان دهند که تقریباً مطمئن هستند یک فاصله یا محدوده‌ای، شامل پارامتر مورد نظر جامعه است. برای ساخت این فاصله، ابتدا باید یک **کمیت محوری (Pivototal Quantity)** تعریف کرد. کمیت محوری تابعی از نمونه تصادفی و پارامترهاست که توزیع آن به پارامترهای مجهول بستگی ندارد.
‏
‏**ناحیه اطمینان برای بردار میانگین:**
‏
‏برای بردار میانگین یک توزیع نرمال p-متغیره، از آماره **T² هتلینگ** برای ساخت ناحیه اطمینان استفاده می‌شود. این ناحیه شامل تمام بردارهای میانگین μ است که در نابرابری زیر صدق می‌کنند:
‏
$$
N(\overline{x}-\mu)'S^{-1}(\overline{x}-\mu) \le \frac{(N-1)p}{N-p}F_{p,N-p}
$$

‏**انواع فواصل اطمینان:**
‏
‏* **فواصل اطمینان تکی (Simultaneous):** برای هر مؤلفه میانگین به صورت جداگانه و بدون در نظر گرفتن همبستگی با سایر مؤلفه‌ها محاسبه می‌شود.
‏
‏* **فواصل اطمینان همزمان (T-squared):** این فواصل با در نظر گرفتن ساختار همبستگی بین متغیرها ساخته می‌شوند و تضمین می‌کنند که همزمان تمام میانگین‌های واقعی با اطمینان مشخصی در بازه‌های خود قرار دارند. این بازه‌ها معمولاً از فواصل تکی پهن‌تر هستند.
‏
‏* **فواصل اطمینان بونفرونی (Bonferroni):** این روش یک حد وسط بین دو روش قبلی است و برای تعداد محدودی از مقایسه‌های همزمان به کار می‌رود. این فواصل از فواصل T-squared باریک‌تر اما از فواصل تکی پهن‌تر هستند.

‏بخش دوم: تحلیل مؤلفه‌های اصلی (PCA) و رگرسیون مؤلفه‌های اصلی (PCR)
‏
‏**تحلیل مؤلفه‌های اصلی (PCA)**
‏
‏**مقدمه و تئوری**
‏
‏تحلیل مؤلفه‌های اصلی (PCA) روشی برای کاهش بعد (Dimension Reduction) است. هدف اصلی آن، تبدیل مجموعه‌ای از متغیرهای همبسته به مجموعه‌ای جدید از متغیرهای ناهمبسته (متعامد) به نام **مؤلفه‌های اصلی** است.
‏
‏* اولین مؤلفه اصلی، ترکیبی خطی از متغیرهای اولیه است که بیشترین واریانس داده‌ها را در خود جای داده است.
‏* دومین مؤلفه اصلی، بیشترین واریانس باقی‌مانده را توضیح می‌دهد و بر اولین مؤلفه عمود (ناهمبسته) است.
‏
‏این فرآیند از طریق **تجزیه مقدار ویژه (Eigenvalue Decomposition)** ماتریس کوواریانس یا همبستگی داده‌ها انجام می‌شود. واریانس هر مؤلفه اصلی برابر با مقدار ویژه متناظر آن است.

‏پیاده‌سازی در R (مثال داده‌های mtcars)

In [15]:
# فراخوانی کتابخانه و دیتاست
library(dplyr)
data(mtcars)

# انجام تحلیل مولفه‌های اصلی
# scale=TRUE داده‌ها را استاندارد می‌کند (میانگین صفر و واریانس یک)
my_pca <- prcomp(mtcars, scale = TRUE, center = TRUE)

# مشاهده خلاصه نتایج
summary(my_pca)

# رسم نمودار Biplot برای مشاهده رابطه متغیرها و مشاهدات با دو مولفه اول
biplot(my_pca, main = "Biplot", scale = 0)

# محاسبه واریانس هر مولفه
my_pca.var <- my_pca$sdev^2

# محاسبه نسبت واریانس توضیح داده شده توسط هر مولفه
prop_var_explained <- my_pca.var / sum(my_pca.var)

# رسم نمودار سنگ‌ریزه (Scree Plot) برای انتخاب تعداد مناسب مولفه‌ها
plot(prop_var_explained, xlab = "Principal Component", 
     ylab = "Proportion of Variance Explained", type = "b", 
     main = "Scree Plot")

# رسم نمودار واریانس تجمعی
plot(cumsum(prop_var_explained), xlab = "Principal Component", 
     ylab = "Cumulative Proportion of Variance Explained", type = "b")

‏**تحلیل:** نمودار سنگ‌ریزه و واریانس تجمعی نشان می‌دهند که تقریباً ۹۰٪ از کل واریانس داده‌ها توسط ۴ مؤلفه اصلی اول توضیح داده می‌شود. این یعنی می‌توانیم ۱۱ متغیر اولیه را به ۴ مؤلفه کاهش دهیم بدون اینکه اطلاعات زیادی از دست برود.

‏**رگرسیون مؤلفه‌های اصلی (PCR)**
‏
‏**مقدمه و تئوری**
‏
‏وقتی متغیرهای پیش‌بین در یک مدل رگرسیونی دچار هم‌خطی (Collinearity) باشند، برآورد ضرایب مدل ناپایدار و غیرقابل اعتماد می‌شود. رگرسیون مؤلفه‌های اصلی (PCR) راهی برای حل این مشکل است. این روش در دو گام انجام می‌شود:
‏
‏1.  استخراج مؤلفه‌های اصلی از متغیرهای پیش‌بین (که ناهمبسته هستند).
‏2.  انجام رگرسیون روی این مؤلفه‌ها به عنوان متغیرهای مستقل جدید.

‏پیاده‌سازی در R (مثال داده‌های mtcars)

In [16]:
# فراخوانی کتابخانه pls
library(pls)

# ساخت مدل PCR با اعتبارسنجی متقابل (Cross-validation)
# متغیر پاسخ mpg و بقیه متغیرها پیش‌بین هستند
pcr_model <- pcr(mpg ~ ., data = mtcars, scale = TRUE, validation = "CV")

# مشاهده خلاصه مدل
summary(pcr_model)

# رسم نمودار برای انتخاب تعداد بهینه مولفه‌ها بر اساس خطای پیش‌بینی
validationplot(pcr_model, val.type = "MSEP")

‏**تحلیل:** نمودار MSEP (میانگین مربعات خطای پیش‌بینی) نشان می‌دهد که خطا با ۴ مؤلفه به کمترین میزان خود می‌رسد و پس از آن تغییر چشمگیری ندارد. بنابراین، استفاده از ۴ مؤلفه برای ساخت مدل رگرسیونی بهینه است.

‏بخش سوم: تحلیل عاملی اکتشافی (EFA)
‏
‏**مقدمه و تئوری**
‏
‏تحلیل عاملی (Factor Analysis) روشی برای شناسایی ساختارهای پنهان (Latent Variables or Factors) در داده‌هاست. فرض اصلی این است که همبستگی بین متغیرهای مشاهده‌شده، ناشی از چند عامل مشترک و غیرقابل مشاهده است. برخلاف PCA که هدفش حداکثر کردن واریانس است، هدف EFA توضیح دادن کوواریانس (همبستگی) بین متغیرهاست.
‏
‏این روش دو نوع اصلی دارد:
‏
‏* **تحلیل عاملی اکتشافی (EFA):** زمانی که هیچ فرضیه قبلی در مورد ساختار عامل‌ها وجود ندارد و هدف کشف این ساختار است.
‏* **تحلیل عاملی تأییدی (CFA):** زمانی که یک مدل نظری از قبل وجود دارد و هدف، آزمون کردن آن مدل با داده‌هاست.
‏
‏**پیاده‌سازی در R (مثال پرسشنامه)**
‏
‏قبل از تحلیل عاملی، باید از مناسب بودن داده‌ها اطمینان حاصل کرد:
‏
‏* **آزمون آلفای کرونباخ:** پایایی درونی گویه‌ها را می‌سنجد. مقدار بالای ۰.۷ قابل قبول است.
‏* **شاخص KMO:** کفایت نمونه‌گیری را می‌سنجد. مقدار بالای ۰.۶ مناسب است.
‏* **آزمون کرویت بارتلت:** فرض صفر "عدم همبستگی بین متغیرها" را آزمون می‌کند. برای انجام تحلیل عاملی، این فرض باید رد شود (p-value < 0.05).

In [17]:
# فراخوانی پکیج‌های مورد نیاز
library(psych)
library(GPArotation)

# 1. دیتاست bfi را از پکیج psych بارگذاری می‌کنیم
data(bfi)

# 2. فقط ۲۵ ستون اول که مربوط به سوالات پرسشنامه است را انتخاب می‌کنیم.
#    همچنین، سطرهای دارای مقدار گمشده (NA) را حذف می‌کنیم تا کد به خطا نخورد.
my_data <- na.omit(bfi[, 1:25])

# فرض می‌کنیم 'my_data' دیتافریم پرسشنامه است
# 1. بررسی مناسب بودن داده‌ها
KMO(my_data)
cortest.bartlett(my_data)

# 2. تعیین تعداد مناسب عامل‌ها با نمودار سنگ‌ریزه
scree(my_data, factors = TRUE)

# 3. انجام تحلیل عاملی با 3 عامل و چرخش Varimax
# چرخش (Rotation) به ساده‌سازی و تفسیرپذیری بهتر عامل‌ها کمک می‌کند
fa_model <- fa(my_data, nfactors = 3, rotate = "varimax")

# مشاهده نتایج و بارهای عاملی
print(fa_model)

# رسم دیاگرام عامل‌ها
fa.diagram(fa_model)

‏**تحلیل:** نتایج نشان می‌دهد که کدام سوالات پرسشنامه تحت کدام عامل مشترک قرار می‌گیرند. با بررسی محتوای سوالات هر عامل، می‌توان آن عامل را نام‌گذاری کرد (مثلاً عامل "اجتناب از صمیمیت" یا "اضطراب در رابطه").

‏بخش چهارم: تحلیل ممیزی خطی (LDA)
‏
‏**مقدمه و تئوری**
‏
‏تحلیل ممیزی (Discriminant Analysis) یک روش طبقه‌بندی (Classification) است. هدف آن، پیدا کردن ترکیبات خطی از متغیرهای پیش‌بین است که به بهترین شکل ممکن گروه‌های مختلف را از یکدیگر جدا (ممیزی) کنند. مدل LDA سپس می‌تواند برای پیش‌بینی عضویت یک مشاهده جدید در یکی از این گروه‌ها استفاده شود.
‏
‏**پیاده‌سازی در R (مثال داده‌های گل زنبق iris)**

In [18]:
# فراخوانی پکیج مورد نیاز
library(MASS)
library(caret)

# استفاده از دیتاست iris
data <- iris

# 1. تقسیم داده به مجموعه آموزشی و آزمایشی
set.seed(123) # برای تکرارپذیری
training.samples <- createDataPartition(data$Species, p = 0.8, list = FALSE)
train.data <- data[training.samples, ]
test.data <- data[-training.samples, ]

# 2. ساخت مدل LDA روی داده‌های آموزشی
model <- lda(Species ~ ., data = train.data)

# 3. پیش‌بینی روی داده‌های آزمایشی
predictions <- predict(model, test.data)

# 4. ارزیابی دقت مدل با ماتریس درهم‌ریختگی
confusionMatrix(predictions$class, test.data$Species)

# رسم نتایج
plot(model)

‏**تحلیل:** خروجی مدل LDA ضرایب ترکیبات خطی (توابع ممیزی) را نشان می‌دهد. ماتریس درهم‌ریختگی نیز دقت مدل در طبقه‌بندی نمونه‌های جدید را مشخص می‌کند. نمودار `plot(model)` به صورت بصری نشان می‌دهد که گروه‌ها تا چه حد توسط توابع ممیزی از هم جدا شده‌اند.