# 12. Korelasi dan Regresi (Correlation and Regression)

## Tujuan Pembelajaran
- Memahami konsep korelasi dan regresi linear
- Menghitung koefisien korelasi Pearson dan Spearman
- Membuat model regresi linear sederhana
- Menginterpretasikan hasil korelasi dan regresi
- Memahami asumsi dan validasi model regresi
- Menerapkan korelasi dan regresi dalam analisis data

## Materi
1. Pengertian Korelasi (Correlation)
2. Koefisien Korelasi Pearson (Pearson Correlation Coefficient)
3. Koefisien Korelasi Spearman (Spearman Rank Correlation)
4. Regresi Linear Sederhana (Simple Linear Regression)
5. Asumsi Regresi Linear (Linear Regression Assumptions)
6. Interpretasi Hasil (Interpretation of Results)
7. Validasi Model Regresi (Model Validation)
8. Aplikasi Praktis Korelasi dan Regresi
9. Best Practices dan Troubleshooting


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
from scipy.stats import pearsonr, spearmanr
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import warnings
warnings.filterwarnings('ignore')

# Set up plotting
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Data contoh untuk analisis korelasi dan regresi
np.random.seed(42)
n = 100
x = np.random.normal(50, 15, n)  # Variabel independen
y = 2 * x + 10 + np.random.normal(0, 10, n)  # Variabel dependen dengan noise

# Membuat DataFrame
df = pd.DataFrame({'X': x, 'Y': y})

print("Data contoh untuk analisis korelasi dan regresi:")
print(df.head())
print(f"\nUkuran data: {df.shape}")
print(f"Statistik deskriptif:")
print(df.describe())


## 1. Pengertian Korelasi (Correlation)

**Korelasi** adalah ukuran hubungan linear antara dua variabel. Korelasi mengukur seberapa kuat dan searah hubungan antara dua variabel.

### Jenis Korelasi:
1. **Positive Correlation**: Ketika satu variabel naik, variabel lain juga naik
2. **Negative Correlation**: Ketika satu variabel naik, variabel lain turun
3. **No Correlation**: Tidak ada hubungan linear antara variabel

### Interpretasi Kekuatan Korelasi:
- **0.0 - 0.3**: Korelasi lemah (weak correlation)
- **0.3 - 0.7**: Korelasi sedang (moderate correlation)
- **0.7 - 1.0**: Korelasi kuat (strong correlation)

### Catatan Penting:
- **Korelasi ≠ Kausalitas**: Korelasi tidak berarti sebab-akibat
- **Linear Relationship**: Korelasi hanya mengukur hubungan linear
- **Outliers**: Korelasi sensitif terhadap outlier


In [None]:
# Analisis Korelasi
print("=== ANALISIS KORELASI ===")

# Korelasi Pearson
pearson_r, pearson_p = pearsonr(df['X'], df['Y'])
print(f"Korelasi Pearson: r = {pearson_r:.4f}, p-value = {pearson_p:.4f}")

# Korelasi Spearman
spearman_r, spearman_p = spearmanr(df['X'], df['Y'])
print(f"Korelasi Spearman: ρ = {spearman_r:.4f}, p-value = {spearman_p:.4f}")

# Interpretasi korelasi
if abs(pearson_r) < 0.3:
    strength = "lemah"
elif abs(pearson_r) < 0.7:
    strength = "sedang"
else:
    strength = "kuat"

direction = "positif" if pearson_r > 0 else "negatif"
print(f"Interpretasi: Korelasi {strength} {direction}")

# Regresi Linear Sederhana
print("\n=== REGRESI LINEAR SEDERHANA ===")

# Membuat model regresi
X = df[['X']]
y = df['Y']
model = LinearRegression()
model.fit(X, y)

# Prediksi
y_pred = model.predict(X)

# Koefisien
slope = model.coef_[0]
intercept = model.intercept_
r2 = r2_score(y, y_pred)
mse = mean_squared_error(y, y_pred)

print(f"Persamaan regresi: Y = {intercept:.2f} + {slope:.2f}X")
print(f"R² = {r2:.4f}")
print(f"MSE = {mse:.4f}")

# Visualisasi
plt.figure(figsize=(15, 10))

# Plot 1: Scatter plot dengan garis regresi
plt.subplot(2, 3, 1)
plt.scatter(df['X'], df['Y'], alpha=0.7, color='blue', label='Data')
plt.plot(df['X'], y_pred, 'r-', linewidth=2, label=f'Regresi: Y = {intercept:.2f} + {slope:.2f}X')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatter Plot dengan Garis Regresi')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Residuals plot
plt.subplot(2, 3, 2)
residuals = y - y_pred
plt.scatter(y_pred, residuals, alpha=0.7, color='green')
plt.axhline(0, color='red', linestyle='--', alpha=0.7)
plt.xlabel('Predicted Values')
plt.ylabel('Residuals')
plt.title('Residuals Plot')
plt.grid(True, alpha=0.3)

# Plot 3: Q-Q plot untuk normalitas residuals
plt.subplot(2, 3, 3)
stats.probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot Residuals')
plt.grid(True, alpha=0.3)

# Plot 4: Histogram residuals
plt.subplot(2, 3, 4)
plt.hist(residuals, bins=20, alpha=0.7, color='purple', edgecolor='black')
plt.xlabel('Residuals')
plt.ylabel('Frekuensi')
plt.title('Histogram Residuals')
plt.grid(True, alpha=0.3)

# Plot 5: Korelasi heatmap
plt.subplot(2, 3, 5)
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, fmt='.3f')
plt.title('Matriks Korelasi')
plt.tight_layout()

# Plot 6: Prediksi vs Aktual
plt.subplot(2, 3, 6)
plt.scatter(y, y_pred, alpha=0.7, color='orange')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', linewidth=2)
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title('Predicted vs Actual')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Ringkasan hasil
print("\n=== RINGKASAN HASIL ===")
print(f"Korelasi Pearson: {pearson_r:.4f} (p = {pearson_p:.4f})")
print(f"Korelasi Spearman: {spearman_r:.4f} (p = {spearman_p:.4f})")
print(f"Model regresi: Y = {intercept:.2f} + {slope:.2f}X")
print(f"R² = {r2:.4f} ({r2*100:.1f}% varians dijelaskan)")
print(f"RMSE = {np.sqrt(mse):.4f}")


## 2. Koefisien Korelasi Pearson (Pearson Correlation Coefficient)

### 2.1 Pengertian Koefisien Korelasi Pearson

**Koefisien Korelasi Pearson** adalah ukuran linear relationship antara dua variabel kontinu. Koefisien ini mengukur kekuatan dan arah hubungan linear antara dua variabel.

### 2.2 Rumus Koefisien Korelasi Pearson

```
r = Σ[(Xi - X̄)(Yi - Ȳ)] / √[Σ(Xi - X̄)² × Σ(Yi - Ȳ)²]
```

Atau dalam bentuk yang lebih sederhana:
```
r = Cov(X,Y) / (σX × σY)
```

Dimana:
- **r**: Koefisien korelasi Pearson
- **Xi, Yi**: Nilai observasi ke-i
- **X̄, Ȳ**: Rata-rata variabel X dan Y
- **Cov(X,Y)**: Kovarians antara X dan Y
- **σX, σY**: Standar deviasi X dan Y

### 2.3 Karakteristik Koefisien Korelasi Pearson

#### 2.3.1 Range dan Interpretasi
- **Range**: -1 ≤ r ≤ 1
- **r = 1**: Korelasi positif sempurna
- **r = -1**: Korelasi negatif sempurna
- **r = 0**: Tidak ada korelasi linear

#### 2.3.2 Interpretasi Kekuatan
- **|r| = 0.0 - 0.3**: Korelasi lemah (weak)
- **|r| = 0.3 - 0.7**: Korelasi sedang (moderate)
- **|r| = 0.7 - 1.0**: Korelasi kuat (strong)

#### 2.3.3 Interpretasi Arah
- **r > 0**: Korelasi positif (naik bersama)
- **r < 0**: Korelasi negatif (satu naik, satu turun)
- **r = 0**: Tidak ada hubungan linear

### 2.4 Asumsi Koefisien Korelasi Pearson

1. **Linear Relationship**: Hubungan antara variabel harus linear
2. **Normality**: Kedua variabel harus berdistribusi normal
3. **Homoscedasticity**: Varian error konstan
4. **Independence**: Observasi harus independen
5. **Continuous Variables**: Kedua variabel harus kontinu

### 2.5 Uji Signifikansi Korelasi Pearson

#### 2.5.1 Hipotesis
- **H₀**: ρ = 0 (tidak ada korelasi)
- **H₁**: ρ ≠ 0 (ada korelasi)

#### 2.5.2 Statistik Uji
```
t = r × √[(n-2)/(1-r²)]
```

Dimana:
- **t**: Statistik t
- **r**: Koefisien korelasi Pearson
- **n**: Jumlah observasi
- **df**: n - 2

#### 2.5.3 Keputusan
- **Tolak H₀** jika |t| > t_critical atau p-value < α
- **Gagal tolak H₀** jika |t| ≤ t_critical atau p-value ≥ α

### 2.6 Aplikasi Koefisien Korelasi Pearson

1. **Penelitian Medis**: Hubungan antara tinggi badan dan berat badan
2. **Penelitian Pendidikan**: Hubungan antara jam belajar dan nilai ujian
3. **Penelitian Ekonomi**: Hubungan antara pendapatan dan pengeluaran
4. **Penelitian Psikologi**: Hubungan antara IQ dan performa akademik
5. **Quality Control**: Hubungan antara suhu dan kualitas produk

### 2.7 Keterbatasan Koefisien Korelasi Pearson

1. **Linear Relationship**: Hanya mengukur hubungan linear
2. **Outliers**: Sensitif terhadap outlier
3. **Non-linear Relationships**: Tidak mendeteksi hubungan non-linear
4. **Causation**: Korelasi tidak berarti kausalitas
5. **Range Restriction**: Dibatasi oleh range data


In [None]:
# Demonstrasi Koefisien Korelasi Pearson
print("=== DEMONSTRASI KOEFISIEN KORELASI PEARSON ===")

# Data untuk demonstrasi korelasi Pearson
np.random.seed(42)

# 1. Korelasi Positif Kuat
print("1. KORELASI POSITIF KUAT:")
x1 = np.random.normal(50, 10, 100)
y1 = 2 * x1 + 5 + np.random.normal(0, 5, 100)  # Korelasi positif kuat

# Hitung korelasi Pearson
r1, p1 = pearsonr(x1, y1)
print(f"Korelasi Pearson: r = {r1:.4f}, p-value = {p1:.4f}")

# 2. Korelasi Negatif Sedang
print("\n2. KORELASI NEGATIF SEDANG:")
x2 = np.random.normal(50, 10, 100)
y2 = -1.5 * x2 + 100 + np.random.normal(0, 15, 100)  # Korelasi negatif sedang

r2, p2 = pearsonr(x2, y2)
print(f"Korelasi Pearson: r = {r2:.4f}, p-value = {p2:.4f}")

# 3. Korelasi Lemah
print("\n3. KORELASI LEMAH:")
x3 = np.random.normal(50, 10, 100)
y3 = 0.3 * x3 + 50 + np.random.normal(0, 20, 100)  # Korelasi lemah

r3, p3 = pearsonr(x3, y3)
print(f"Korelasi Pearson: r = {r3:.4f}, p-value = {p3:.4f}")

# 4. Tidak Ada Korelasi
print("\n4. TIDAK ADA KORELASI:")
x4 = np.random.normal(50, 10, 100)
y4 = np.random.normal(50, 10, 100)  # Tidak ada korelasi

r4, p4 = pearsonr(x4, y4)
print(f"Korelasi Pearson: r = {r4:.4f}, p-value = {p4:.4f}")

# 5. Korelasi Non-linear (untuk menunjukkan keterbatasan)
print("\n5. KORELASI NON-LINEAR:")
x5 = np.linspace(-3, 3, 100)
y5 = x5**2 + np.random.normal(0, 0.5, 100)  # Hubungan kuadratik

r5, p5 = pearsonr(x5, y5)
print(f"Korelasi Pearson: r = {r5:.4f}, p-value = {p5:.4f}")
print("Catatan: Korelasi Pearson tidak mendeteksi hubungan non-linear")

# 6. Perhitungan Manual Koefisien Korelasi Pearson
print("\n6. PERHITUNGAN MANUAL KOEFISIEN KORELASI PEARSON:")

# Gunakan data korelasi positif kuat
x = x1
y = y1

# Hitung rata-rata
x_mean = np.mean(x)
y_mean = np.mean(y)

# Hitung kovarians
cov_xy = np.mean((x - x_mean) * (y - y_mean))

# Hitung standar deviasi
std_x = np.std(x, ddof=1)
std_y = np.std(y, ddof=1)

# Hitung koefisien korelasi Pearson
r_manual = cov_xy / (std_x * std_y)

print(f"Rata-rata X: {x_mean:.4f}")
print(f"Rata-rata Y: {y_mean:.4f}")
print(f"Kovarians: {cov_xy:.4f}")
print(f"Standar deviasi X: {std_x:.4f}")
print(f"Standar deviasi Y: {std_y:.4f}")
print(f"Koefisien korelasi (manual): {r_manual:.4f}")
print(f"Koefisien korelasi (scipy): {r1:.4f}")

# 7. Uji Signifikansi Korelasi
print("\n7. UJI SIGNIFIKANSI KORELASI:")

# Hitung statistik t
n = len(x)
t_stat = r1 * np.sqrt((n - 2) / (1 - r1**2))
df = n - 2

# Hitung p-value
from scipy.stats import t
p_value_manual = 2 * (1 - t.cdf(abs(t_stat), df))

print(f"Statistik t: {t_stat:.4f}")
print(f"Degrees of freedom: {df}")
print(f"P-value (manual): {p_value_manual:.4f}")
print(f"P-value (scipy): {p1:.4f}")

# 8. Visualisasi Korelasi Pearson
plt.figure(figsize=(20, 15))

# Plot 1: Korelasi Positif Kuat
plt.subplot(3, 4, 1)
plt.scatter(x1, y1, alpha=0.7, color='blue')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Positif Kuat\nr = {r1:.3f}, p = {p1:.3f}')
plt.grid(True, alpha=0.3)

# Plot 2: Korelasi Negatif Sedang
plt.subplot(3, 4, 2)
plt.scatter(x2, y2, alpha=0.7, color='red')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Negatif Sedang\nr = {r2:.3f}, p = {p2:.3f}')
plt.grid(True, alpha=0.3)

# Plot 3: Korelasi Lemah
plt.subplot(3, 4, 3)
plt.scatter(x3, y3, alpha=0.7, color='green')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Lemah\nr = {r3:.3f}, p = {p3:.3f}')
plt.grid(True, alpha=0.3)

# Plot 4: Tidak Ada Korelasi
plt.subplot(3, 4, 4)
plt.scatter(x4, y4, alpha=0.7, color='orange')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Tidak Ada Korelasi\nr = {r4:.3f}, p = {p4:.3f}')
plt.grid(True, alpha=0.3)

# Plot 5: Korelasi Non-linear
plt.subplot(3, 4, 5)
plt.scatter(x5, y5, alpha=0.7, color='purple')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Hubungan Non-linear\nr = {r5:.3f}, p = {p5:.3f}')
plt.grid(True, alpha=0.3)

# Plot 6: Histogram X untuk normalitas
plt.subplot(3, 4, 6)
plt.hist(x1, bins=20, alpha=0.7, color='blue', edgecolor='black')
plt.xlabel('X')
plt.ylabel('Frekuensi')
plt.title('Histogram X (Normalitas)')
plt.grid(True, alpha=0.3)

# Plot 7: Histogram Y untuk normalitas
plt.subplot(3, 4, 7)
plt.hist(y1, bins=20, alpha=0.7, color='red', edgecolor='black')
plt.xlabel('Y')
plt.ylabel('Frekuensi')
plt.title('Histogram Y (Normalitas)')
plt.grid(True, alpha=0.3)

# Plot 8: Q-Q plot X
plt.subplot(3, 4, 8)
stats.probplot(x1, dist="norm", plot=plt)
plt.title('Q-Q Plot X')
plt.grid(True, alpha=0.3)

# Plot 9: Q-Q plot Y
plt.subplot(3, 4, 9)
stats.probplot(y1, dist="norm", plot=plt)
plt.title('Q-Q Plot Y')
plt.grid(True, alpha=0.3)

# Plot 10: Scatter plot dengan confidence interval
plt.subplot(3, 4, 10)
plt.scatter(x1, y1, alpha=0.7, color='blue')
# Hitung confidence interval untuk korelasi
z = 0.5 * np.log((1 + r1) / (1 - r1))
se_z = 1 / np.sqrt(n - 3)
z_lower = z - 1.96 * se_z
z_upper = z + 1.96 * se_z
r_lower = (np.exp(2 * z_lower) - 1) / (np.exp(2 * z_lower) + 1)
r_upper = (np.exp(2 * z_upper) - 1) / (np.exp(2 * z_upper) + 1)

plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi dengan 95% CI\nr = {r1:.3f} [{r_lower:.3f}, {r_upper:.3f}]')
plt.grid(True, alpha=0.3)

# Plot 11: Korelasi vs Sample Size
plt.subplot(3, 4, 11)
sample_sizes = range(10, 201, 10)
correlations = []
for n in sample_sizes:
    x_sample = np.random.normal(0, 1, n)
    y_sample = 0.5 * x_sample + np.random.normal(0, 1, n)
    r_sample, _ = pearsonr(x_sample, y_sample)
    correlations.append(r_sample)

plt.plot(sample_sizes, correlations, 'b-', linewidth=2)
plt.axhline(0.5, color='red', linestyle='--', label='True correlation = 0.5')
plt.xlabel('Sample Size')
plt.ylabel('Correlation Coefficient')
plt.title('Korelasi vs Sample Size')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 12: Summary statistics
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
KORELASI PEARSON SUMMARY

Korelasi Positif Kuat:
r = {r1:.4f}, p = {p1:.4f}
Signifikan: {'Ya' if p1 < 0.05 else 'Tidak'}

Korelasi Negatif Sedang:
r = {r2:.4f}, p = {p2:.4f}
Signifikan: {'Ya' if p2 < 0.05 else 'Tidak'}

Korelasi Lemah:
r = {r3:.4f}, p = {p3:.4f}
Signifikan: {'Ya' if p3 < 0.05 else 'Tidak'}

Tidak Ada Korelasi:
r = {r4:.4f}, p = {p4:.4f}
Signifikan: {'Ya' if p4 < 0.05 else 'Tidak'}

Hubungan Non-linear:
r = {r5:.4f}, p = {p5:.4f}
Signifikan: {'Ya' if p5 < 0.05 else 'Tidak'}

Interpretasi:
|r| < 0.3: Lemah
0.3 ≤ |r| < 0.7: Sedang
|r| ≥ 0.7: Kuat
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 9. Interpretasi Hasil
print("\n9. INTERPRETASI HASIL:")

print(f"\nKorelasi Positif Kuat (r = {r1:.4f}):")
if abs(r1) >= 0.7:
    strength = "kuat"
elif abs(r1) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if r1 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p1 < 0.05 else 'Tidak'}")
print(f"  - Interpretasi: Ada hubungan {strength} {direction} antara X dan Y")

print(f"\nKorelasi Negatif Sedang (r = {r2:.4f}):")
if abs(r2) >= 0.7:
    strength = "kuat"
elif abs(r2) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if r2 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p2 < 0.05 else 'Tidak'}")

print(f"\nKorelasi Lemah (r = {r3:.4f}):")
if abs(r3) >= 0.7:
    strength = "kuat"
elif abs(r3) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if r3 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p3 < 0.05 else 'Tidak'}")

print(f"\nTidak Ada Korelasi (r = {r4:.4f}):")
if abs(r4) >= 0.7:
    strength = "kuat"
elif abs(r4) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if r4 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p4 < 0.05 else 'Tidak'}")

print(f"\nHubungan Non-linear (r = {r5:.4f}):")
print(f"  - Korelasi Pearson: {r5:.4f}")
print(f"  - Interpretasi: Korelasi Pearson tidak mendeteksi hubungan non-linear")
print(f"  - Rekomendasi: Gunakan korelasi Spearman atau analisis non-linear")

# 10. Kesimpulan dan Rekomendasi
print("\n10. KESIMPULAN DAN REKOMENDASI:")
print("   - Korelasi Pearson: Ukuran hubungan linear antara dua variabel")
print("   - Range: -1 ≤ r ≤ 1")
print("   - Interpretasi: Kekuatan dan arah hubungan")
print("   - Asumsi: Linear relationship, normality, independence")
print("   - Uji signifikansi: t-test untuk H0: ρ = 0")
print("   - Keterbatasan: Hanya mengukur hubungan linear")
print("   - Aplikasi: Penelitian medis, pendidikan, ekonomi, psikologi")
print("   - Best practice: Periksa asumsi, gunakan confidence interval")


## 3. Koefisien Korelasi Spearman (Spearman Rank Correlation)

### 3.1 Pengertian Koefisien Korelasi Spearman

**Koefisien Korelasi Spearman** adalah ukuran monotonic relationship antara dua variabel. Korelasi ini tidak memerlukan asumsi normalitas dan dapat mendeteksi hubungan non-linear yang monoton.

### 3.2 Rumus Koefisien Korelasi Spearman

```
ρ = 1 - (6 × Σd²) / (n × (n² - 1))
```

Dimana:
- **ρ**: Koefisien korelasi Spearman
- **d**: Selisih rank antara X dan Y
- **n**: Jumlah observasi

Atau menggunakan rumus Pearson pada rank:
```
ρ = r(rank(X), rank(Y))
```

### 3.3 Karakteristik Koefisien Korelasi Spearman

#### 3.3.1 Range dan Interpretasi
- **Range**: -1 ≤ ρ ≤ 1
- **ρ = 1**: Korelasi monoton positif sempurna
- **ρ = -1**: Korelasi monoton negatif sempurna
- **ρ = 0**: Tidak ada korelasi monoton

#### 3.3.2 Interpretasi Kekuatan
- **|ρ| = 0.0 - 0.3**: Korelasi lemah (weak)
- **|ρ| = 0.3 - 0.7**: Korelasi sedang (moderate)
- **|ρ| = 0.7 - 1.0**: Korelasi kuat (strong)

#### 3.3.3 Interpretasi Arah
- **ρ > 0**: Korelasi monoton positif
- **ρ < 0**: Korelasi monoton negatif
- **ρ = 0**: Tidak ada hubungan monoton

### 3.4 Asumsi Koefisien Korelasi Spearman

1. **Monotonic Relationship**: Hubungan harus monoton (naik atau turun)
2. **Ordinal Data**: Data dapat di-rank
3. **Independence**: Observasi harus independen
4. **No Ties**: Idealnya tidak ada nilai yang sama (ties)

### 3.5 Keunggulan Korelasi Spearman

1. **Non-parametric**: Tidak memerlukan asumsi normalitas
2. **Robust**: Tidak sensitif terhadap outlier
3. **Monotonic**: Mendeteksi hubungan monoton non-linear
4. **Ordinal Data**: Dapat digunakan untuk data ordinal
5. **Ties Handling**: Dapat menangani nilai yang sama

### 3.6 Keterbatasan Korelasi Spearman

1. **Monotonic Only**: Hanya mendeteksi hubungan monoton
2. **Information Loss**: Kehilangan informasi karena ranking
3. **Ties**: Dapat mempengaruhi hasil jika banyak ties
4. **Sample Size**: Membutuhkan sample size yang memadai

### 3.7 Aplikasi Koefisien Korelasi Spearman

1. **Penelitian Medis**: Hubungan antara skor gejala dan keparahan penyakit
2. **Penelitian Pendidikan**: Hubungan antara ranking kelas dan performa
3. **Penelitian Psikologi**: Hubungan antara skor tes dan rating
4. **Quality Control**: Hubungan antara ranking kualitas dan rating
5. **Survey Research**: Hubungan antara skor kepuasan dan rating

### 3.8 Perbandingan Pearson vs Spearman

| Aspek | Pearson | Spearman |
|-------|---------|----------|
| **Asumsi** | Normalitas, linearity | Monotonicity |
| **Data** | Interval/ratio | Ordinal, interval, ratio |
| **Outliers** | Sensitif | Robust |
| **Non-linear** | Tidak mendeteksi | Mendeteksi monoton |
| **Power** | Lebih powerful jika asumsi terpenuhi | Lebih robust |
| **Interpretasi** | Linear relationship | Monotonic relationship |


In [None]:
# Demonstrasi Koefisien Korelasi Spearman
print("=== DEMONSTRASI KOEFISIEN KORELASI SPEARMAN ===")

# Data untuk demonstrasi korelasi Spearman
np.random.seed(42)

# 1. Korelasi Monoton Positif Kuat
print("1. KORELASI MONOTON POSITIF KUAT:")
x1 = np.linspace(1, 10, 100)
y1 = x1**2 + np.random.normal(0, 5, 100)  # Hubungan kuadratik monoton

# Hitung korelasi Spearman
rho1, p1 = spearmanr(x1, y1)
print(f"Korelasi Spearman: ρ = {rho1:.4f}, p-value = {p1:.4f}")

# 2. Korelasi Monoton Negatif Sedang
print("\n2. KORELASI MONOTON NEGATIF SEDANG:")
x2 = np.linspace(1, 10, 100)
y2 = -x2**1.5 + 50 + np.random.normal(0, 10, 100)  # Hubungan pangkat negatif

rho2, p2 = spearmanr(x2, y2)
print(f"Korelasi Spearman: ρ = {rho2:.4f}, p-value = {p2:.4f}")

# 3. Korelasi Monoton Lemah
print("\n3. KORELASI MONOTON LEMAH:")
x3 = np.linspace(1, 10, 100)
y3 = 0.5 * x3 + 20 + np.random.normal(0, 15, 100)  # Hubungan linear lemah

rho3, p3 = spearmanr(x3, y3)
print(f"Korelasi Spearman: ρ = {rho3:.4f}, p-value = {p3:.4f}")

# 4. Tidak Ada Korelasi Monoton
print("\n4. TIDAK ADA KORELASI MONOTON:")
x4 = np.linspace(1, 10, 100)
y4 = np.sin(x4) + np.random.normal(0, 0.5, 100)  # Hubungan sinusoidal

rho4, p4 = spearmanr(x4, y4)
print(f"Korelasi Spearman: ρ = {rho4:.4f}, p-value = {p4:.4f}")

# 5. Data Ordinal (untuk menunjukkan aplikasi)
print("\n5. DATA ORDINAL:")
# Simulasi data ordinal (ranking)
x5 = np.random.choice([1, 2, 3, 4, 5], 100, p=[0.1, 0.2, 0.3, 0.3, 0.1])  # Rating 1-5
y5 = x5**2 + np.random.normal(0, 2, 100)  # Hubungan dengan rating

rho5, p5 = spearmanr(x5, y5)
print(f"Korelasi Spearman: ρ = {rho5:.4f}, p-value = {p5:.4f}")

# 6. Perhitungan Manual Koefisien Korelasi Spearman
print("\n6. PERHITUNGAN MANUAL KOEFISIEN KORELASI SPEARMAN:")

# Gunakan data korelasi monoton positif kuat
x = x1
y = y1

# Hitung rank
from scipy.stats import rankdata
rank_x = rankdata(x)
rank_y = rankdata(y)

# Hitung selisih rank
d = rank_x - rank_y

# Hitung koefisien korelasi Spearman
n = len(x)
rho_manual = 1 - (6 * np.sum(d**2)) / (n * (n**2 - 1))

print(f"Rank X (5 pertama): {rank_x[:5]}")
print(f"Rank Y (5 pertama): {rank_y[:5]}")
print(f"Selisih rank (5 pertama): {d[:5]}")
print(f"Σd²: {np.sum(d**2)}")
print(f"Koefisien korelasi (manual): {rho_manual:.4f}")
print(f"Koefisien korelasi (scipy): {rho1:.4f}")

# 7. Perbandingan Pearson vs Spearman
print("\n7. PERBANDINGAN PEARSON VS SPEARMAN:")

# Data dengan hubungan non-linear monoton
x_nonlinear = np.linspace(1, 10, 100)
y_nonlinear = x_nonlinear**2 + np.random.normal(0, 5, 100)

# Korelasi Pearson
r_pearson, p_pearson = pearsonr(x_nonlinear, y_nonlinear)

# Korelasi Spearman
r_spearman, p_spearman = spearmanr(x_nonlinear, y_nonlinear)

print(f"Hubungan non-linear monoton:")
print(f"  Pearson: r = {r_pearson:.4f}, p = {p_pearson:.4f}")
print(f"  Spearman: ρ = {r_spearman:.4f}, p = {p_spearman:.4f}")
print(f"  Perbedaan: {abs(r_pearson - r_spearman):.4f}")

# 8. Visualisasi Korelasi Spearman
plt.figure(figsize=(20, 15))

# Plot 1: Korelasi Monoton Positif Kuat
plt.subplot(3, 4, 1)
plt.scatter(x1, y1, alpha=0.7, color='blue')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Monoton Positif Kuat\nρ = {rho1:.3f}, p = {p1:.3f}')
plt.grid(True, alpha=0.3)

# Plot 2: Korelasi Monoton Negatif Sedang
plt.subplot(3, 4, 2)
plt.scatter(x2, y2, alpha=0.7, color='red')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Monoton Negatif Sedang\nρ = {rho2:.3f}, p = {p2:.3f}')
plt.grid(True, alpha=0.3)

# Plot 3: Korelasi Monoton Lemah
plt.subplot(3, 4, 3)
plt.scatter(x3, y3, alpha=0.7, color='green')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi Monoton Lemah\nρ = {rho3:.3f}, p = {p3:.3f}')
plt.grid(True, alpha=0.3)

# Plot 4: Tidak Ada Korelasi Monoton
plt.subplot(3, 4, 4)
plt.scatter(x4, y4, alpha=0.7, color='orange')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Tidak Ada Korelasi Monoton\nρ = {rho4:.3f}, p = {p4:.3f}')
plt.grid(True, alpha=0.3)

# Plot 5: Data Ordinal
plt.subplot(3, 4, 5)
plt.scatter(x5, y5, alpha=0.7, color='purple')
plt.xlabel('Rating (Ordinal)')
plt.ylabel('Y')
plt.title(f'Data Ordinal\nρ = {rho5:.3f}, p = {p5:.3f}')
plt.grid(True, alpha=0.3)

# Plot 6: Perbandingan Pearson vs Spearman
plt.subplot(3, 4, 6)
plt.scatter(x_nonlinear, y_nonlinear, alpha=0.7, color='brown')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Pearson vs Spearman\nr = {r_pearson:.3f}, ρ = {r_spearman:.3f}')
plt.grid(True, alpha=0.3)

# Plot 7: Rank plot untuk korelasi monoton positif
plt.subplot(3, 4, 7)
plt.scatter(rank_x, rank_y, alpha=0.7, color='blue')
plt.xlabel('Rank X')
plt.ylabel('Rank Y')
plt.title('Rank Plot - Korelasi Monoton Positif')
plt.grid(True, alpha=0.3)

# Plot 8: Histogram selisih rank
plt.subplot(3, 4, 8)
plt.hist(d, bins=20, alpha=0.7, color='green', edgecolor='black')
plt.xlabel('Selisih Rank (d)')
plt.ylabel('Frekuensi')
plt.title('Histogram Selisih Rank')
plt.grid(True, alpha=0.3)

# Plot 9: Q-Q plot untuk normalitas rank
plt.subplot(3, 4, 9)
stats.probplot(rank_x, dist="norm", plot=plt)
plt.title('Q-Q Plot Rank X')
plt.grid(True, alpha=0.3)

# Plot 10: Scatter plot dengan trend line
plt.subplot(3, 4, 10)
plt.scatter(x1, y1, alpha=0.7, color='blue')
# Tambahkan trend line
z = np.polyfit(x1, y1, 1)
p = np.poly1d(z)
plt.plot(x1, p(x1), "r--", alpha=0.8, linewidth=2)
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Korelasi dengan Trend Line\nρ = {rho1:.3f}')
plt.grid(True, alpha=0.3)

# Plot 11: Korelasi vs Sample Size
plt.subplot(3, 4, 11)
sample_sizes = range(10, 201, 10)
correlations_spearman = []
for n in sample_sizes:
    x_sample = np.linspace(1, 10, n)
    y_sample = x_sample**2 + np.random.normal(0, 5, n)
    rho_sample, _ = spearmanr(x_sample, y_sample)
    correlations_spearman.append(rho_sample)

plt.plot(sample_sizes, correlations_spearman, 'b-', linewidth=2)
plt.axhline(1.0, color='red', linestyle='--', label='Perfect correlation = 1.0')
plt.xlabel('Sample Size')
plt.ylabel('Spearman Correlation')
plt.title('Korelasi Spearman vs Sample Size')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 12: Summary statistics
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
KORELASI SPEARMAN SUMMARY

Korelasi Monoton Positif Kuat:
ρ = {rho1:.4f}, p = {p1:.4f}
Signifikan: {'Ya' if p1 < 0.05 else 'Tidak'}

Korelasi Monoton Negatif Sedang:
ρ = {rho2:.4f}, p = {p2:.4f}
Signifikan: {'Ya' if p2 < 0.05 else 'Tidak'}

Korelasi Monoton Lemah:
ρ = {rho3:.4f}, p = {p3:.4f}
Signifikan: {'Ya' if p3 < 0.05 else 'Tidak'}

Tidak Ada Korelasi Monoton:
ρ = {rho4:.4f}, p = {p4:.4f}
Signifikan: {'Ya' if p4 < 0.05 else 'Tidak'}

Data Ordinal:
ρ = {rho5:.4f}, p = {p5:.4f}
Signifikan: {'Ya' if p5 < 0.05 else 'Tidak'}

Perbandingan Pearson vs Spearman:
Pearson: r = {r_pearson:.4f}
Spearman: ρ = {r_spearman:.4f}
Perbedaan: {abs(r_pearson - r_spearman):.4f}

Interpretasi:
|ρ| < 0.3: Lemah
0.3 ≤ |ρ| < 0.7: Sedang
|ρ| ≥ 0.7: Kuat
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 9. Interpretasi Hasil
print("\n9. INTERPRETASI HASIL:")

print(f"\nKorelasi Monoton Positif Kuat (ρ = {rho1:.4f}):")
if abs(rho1) >= 0.7:
    strength = "kuat"
elif abs(rho1) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if rho1 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p1 < 0.05 else 'Tidak'}")
print(f"  - Interpretasi: Ada hubungan monoton {strength} {direction} antara X dan Y")

print(f"\nKorelasi Monoton Negatif Sedang (ρ = {rho2:.4f}):")
if abs(rho2) >= 0.7:
    strength = "kuat"
elif abs(rho2) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if rho2 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p2 < 0.05 else 'Tidak'}")

print(f"\nKorelasi Monoton Lemah (ρ = {rho3:.4f}):")
if abs(rho3) >= 0.7:
    strength = "kuat"
elif abs(rho3) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if rho3 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p3 < 0.05 else 'Tidak'}")

print(f"\nTidak Ada Korelasi Monoton (ρ = {rho4:.4f}):")
if abs(rho4) >= 0.7:
    strength = "kuat"
elif abs(rho4) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if rho4 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p4 < 0.05 else 'Tidak'}")

print(f"\nData Ordinal (ρ = {rho5:.4f}):")
if abs(rho5) >= 0.7:
    strength = "kuat"
elif abs(rho5) >= 0.3:
    strength = "sedang"
else:
    strength = "lemah"

direction = "positif" if rho5 > 0 else "negatif"
print(f"  - Kekuatan: {strength}")
print(f"  - Arah: {direction}")
print(f"  - Signifikan: {'Ya' if p5 < 0.05 else 'Tidak'}")

print(f"\nPerbandingan Pearson vs Spearman:")
print(f"  - Pearson: r = {r_pearson:.4f}")
print(f"  - Spearman: ρ = {r_spearman:.4f}")
print(f"  - Perbedaan: {abs(r_pearson - r_spearman):.4f}")
print(f"  - Interpretasi: Spearman lebih tinggi karena mendeteksi hubungan monoton non-linear")

# 10. Kesimpulan dan Rekomendasi
print("\n10. KESIMPULAN DAN REKOMENDASI:")
print("   - Korelasi Spearman: Ukuran hubungan monoton antara dua variabel")
print("   - Range: -1 ≤ ρ ≤ 1")
print("   - Interpretasi: Kekuatan dan arah hubungan monoton")
print("   - Asumsi: Monotonic relationship, ordinal data, independence")
print("   - Keunggulan: Non-parametric, robust terhadap outlier")
print("   - Keterbatasan: Hanya mengukur hubungan monoton")
print("   - Aplikasi: Data ordinal, hubungan non-linear monoton")
print("   - Best practice: Gunakan untuk data ordinal atau hubungan non-linear")


## 4. Regresi Linear Sederhana (Simple Linear Regression)

### 4.1 Pengertian Regresi Linear Sederhana

**Regresi Linear Sederhana** adalah metode statistik untuk memodelkan hubungan linear antara satu variabel independen (X) dan satu variabel dependen (Y). Tujuannya adalah untuk menemukan garis lurus terbaik yang melewati data points.

### 4.2 Model Regresi Linear Sederhana

#### 4.2.1 Persamaan Regresi
```
Y = β₀ + β₁X + ε
```

Dimana:
- **Y**: Variabel dependen (response variable)
- **X**: Variabel independen (predictor variable)
- **β₀**: Intercept (konstanta)
- **β₁**: Slope (koefisien regresi)
- **ε**: Error term (residual)

#### 4.2.2 Persamaan Prediksi
```
Ŷ = b₀ + b₁X
```

Dimana:
- **Ŷ**: Prediksi nilai Y
- **b₀**: Estimasi β₀
- **b₁**: Estimasi β₁

### 4.3 Metode Least Squares

#### 4.3.1 Prinsip Least Squares
Metode least squares meminimalkan sum of squared residuals (SSR):

```
SSR = Σ(Yi - Ŷi)² = Σ(Yi - b₀ - b₁Xi)²
```

#### 4.3.2 Rumus Koefisien Regresi

**Slope (b₁):**
```
b₁ = Σ[(Xi - X̄)(Yi - Ȳ)] / Σ(Xi - X̄)²
```

**Intercept (b₀):**
```
b₀ = Ȳ - b₁X̄
```

#### 4.3.3 Alternatif Rumus Slope
```
b₁ = r × (σY / σX)
```

Dimana:
- **r**: Koefisien korelasi Pearson
- **σY**: Standar deviasi Y
- **σX**: Standar deviasi X

### 4.4 Ukuran Kebaikan Model

#### 4.4.1 R-squared (Coefficient of Determination)
```
R² = 1 - (SSR / SST) = SSReg / SST
```

Dimana:
- **SSR**: Sum of squared residuals
- **SST**: Total sum of squares
- **SSReg**: Sum of squares regression

#### 4.4.2 Adjusted R-squared
```
R²adj = 1 - [(1 - R²)(n - 1)] / (n - k - 1)
```

Dimana:
- **n**: Jumlah observasi
- **k**: Jumlah variabel independen

#### 4.4.3 Root Mean Square Error (RMSE)
```
RMSE = √(MSE) = √(SSR / (n - 2))
```

#### 4.4.4 Mean Absolute Error (MAE)
```
MAE = Σ|Yi - Ŷi| / n
```

### 4.5 Uji Signifikansi Regresi

#### 4.5.1 Uji F (Overall Model)
- **H₀**: β₁ = 0 (tidak ada hubungan linear)
- **H₁**: β₁ ≠ 0 (ada hubungan linear)
- **Statistik**: F = MSReg / MSE

#### 4.5.2 Uji t (Individual Coefficients)
- **H₀**: β₁ = 0
- **H₁**: β₁ ≠ 0
- **Statistik**: t = b₁ / SE(b₁)

#### 4.5.3 Confidence Interval
```
CI = b₁ ± t(α/2, n-2) × SE(b₁)
```

### 4.6 Asumsi Regresi Linear

1. **Linear Relationship**: Hubungan antara X dan Y linear
2. **Independence**: Observasi independen
3. **Normality**: Residuals berdistribusi normal
4. **Homoscedasticity**: Varian residuals konstan
5. **No Multicollinearity**: Tidak ada korelasi tinggi antar variabel independen

### 4.7 Diagnostik Model

#### 4.7.1 Residual Analysis
- **Residuals vs Fitted**: Cek homoscedasticity
- **Q-Q Plot**: Cek normalitas residuals
- **Leverage Plot**: Identifikasi influential points

#### 4.7.2 Outlier Detection
- **Studentized Residuals**: |r| > 2
- **Cook's Distance**: D > 4/n
- **Leverage**: h > 2(k+1)/n

### 4.8 Aplikasi Regresi Linear

1. **Prediksi**: Memprediksi nilai Y berdasarkan X
2. **Kontrol**: Mengontrol nilai Y dengan mengubah X
3. **Penjelasan**: Menjelaskan hubungan antara X dan Y
4. **Optimasi**: Mencari nilai X optimal untuk Y

### 4.9 Keterbatasan Regresi Linear

1. **Linear Assumption**: Hanya menangani hubungan linear
2. **Outliers**: Sensitif terhadap outlier
3. **Extrapolation**: Tidak boleh ekstrapolasi jauh dari data
4. **Causation**: Korelasi tidak berarti kausalitas
5. **Overfitting**: Dapat overfit dengan sample kecil


In [None]:
# Demonstrasi Regresi Linear Sederhana
print("=== DEMONSTRASI REGRESI LINEAR SEDERHANA ===")

# Data untuk demonstrasi regresi linear
np.random.seed(42)

# 1. Regresi Linear Positif Kuat
print("1. REGRESI LINEAR POSITIF KUAT:")
x1 = np.random.normal(50, 15, 100)
y1 = 2 * x1 + 10 + np.random.normal(0, 10, 100)  # Hubungan linear positif kuat

# Hitung regresi linear
slope1, intercept1, r_value1, p_value1, std_err1 = stats.linregress(x1, y1)
print(f"Slope: {slope1:.4f}")
print(f"Intercept: {intercept1:.4f}")
print(f"R-squared: {r_value1**2:.4f}")
print(f"P-value: {p_value1:.4f}")
print(f"Standard Error: {std_err1:.4f}")

# 2. Regresi Linear Negatif Sedang
print("\n2. REGRESI LINEAR NEGATIF SEDANG:")
x2 = np.random.normal(50, 15, 100)
y2 = -1.5 * x2 + 100 + np.random.normal(0, 20, 100)  # Hubungan linear negatif sedang

slope2, intercept2, r_value2, p_value2, std_err2 = stats.linregress(x2, y2)
print(f"Slope: {slope2:.4f}")
print(f"Intercept: {intercept2:.4f}")
print(f"R-squared: {r_value2**2:.4f}")
print(f"P-value: {p_value2:.4f}")
print(f"Standard Error: {std_err2:.4f}")

# 3. Regresi Linear Lemah
print("\n3. REGRESI LINEAR LEMAH:")
x3 = np.random.normal(50, 15, 100)
y3 = 0.3 * x3 + 50 + np.random.normal(0, 25, 100)  # Hubungan linear lemah

slope3, intercept3, r_value3, p_value3, std_err3 = stats.linregress(x3, y3)
print(f"Slope: {slope3:.4f}")
print(f"Intercept: {intercept3:.4f}")
print(f"R-squared: {r_value3**2:.4f}")
print(f"P-value: {p_value3:.4f}")
print(f"Standard Error: {std_err3:.4f}")

# 4. Perhitungan Manual Regresi Linear
print("\n4. PERHITUNGAN MANUAL REGRESI LINEAR:")

# Gunakan data regresi linear positif kuat
x = x1
y = y1

# Hitung rata-rata
x_mean = np.mean(x)
y_mean = np.mean(y)

# Hitung slope
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean)**2)
slope_manual = numerator / denominator

# Hitung intercept
intercept_manual = y_mean - slope_manual * x_mean

# Hitung R-squared
y_pred_manual = intercept_manual + slope_manual * x
ss_res = np.sum((y - y_pred_manual)**2)
ss_tot = np.sum((y - y_mean)**2)
r_squared_manual = 1 - (ss_res / ss_tot)

print(f"Rata-rata X: {x_mean:.4f}")
print(f"Rata-rata Y: {y_mean:.4f}")
print(f"Slope (manual): {slope_manual:.4f}")
print(f"Intercept (manual): {intercept_manual:.4f}")
print(f"R-squared (manual): {r_squared_manual:.4f}")
print(f"Slope (scipy): {slope1:.4f}")
print(f"Intercept (scipy): {intercept1:.4f}")
print(f"R-squared (scipy): {r_value1**2:.4f}")

# 5. Uji Signifikansi Regresi
print("\n5. UJI SIGNIFIKANSI REGRESI:")

# Hitung statistik t
n = len(x)
df = n - 2
t_stat = slope1 / std_err1

# Hitung p-value
p_value_manual = 2 * (1 - stats.t.cdf(abs(t_stat), df))

print(f"Statistik t: {t_stat:.4f}")
print(f"Degrees of freedom: {df}")
print(f"P-value (manual): {p_value_manual:.4f}")
print(f"P-value (scipy): {p_value1:.4f}")

# Hitung confidence interval
alpha = 0.05
t_critical = stats.t.ppf(1 - alpha/2, df)
ci_lower = slope1 - t_critical * std_err1
ci_upper = slope1 + t_critical * std_err1

print(f"95% Confidence Interval: [{ci_lower:.4f}, {ci_upper:.4f}]")

# 6. Diagnostik Model
print("\n6. DIAGNOSTIK MODEL:")

# Hitung residuals
y_pred = intercept1 + slope1 * x1
residuals = y1 - y_pred

# Hitung studentized residuals
mse = np.sum(residuals**2) / (n - 2)
studentized_residuals = residuals / np.sqrt(mse)

# Hitung leverage
leverage = 1/n + (x1 - x_mean)**2 / np.sum((x1 - x_mean)**2)

# Hitung Cook's distance
cooks_d = (residuals**2 / (2 * mse)) * (leverage / (1 - leverage)**2)

print(f"Mean Residual: {np.mean(residuals):.4f}")
print(f"Standard Deviation of Residuals: {np.std(residuals, ddof=1):.4f}")
print(f"Max Studentized Residual: {np.max(np.abs(studentized_residuals)):.4f}")
print(f"Max Leverage: {np.max(leverage):.4f}")
print(f"Max Cook's Distance: {np.max(cooks_d):.4f}")

# Identifikasi outliers
outliers = np.abs(studentized_residuals) > 2
print(f"Number of Outliers (|r| > 2): {np.sum(outliers)}")

# 7. Visualisasi Regresi Linear
plt.figure(figsize=(20, 15))

# Plot 1: Regresi Linear Positif Kuat
plt.subplot(3, 4, 1)
plt.scatter(x1, y1, alpha=0.7, color='blue', label='Data')
y_pred1 = intercept1 + slope1 * x1
plt.plot(x1, y_pred1, 'r-', linewidth=2, label=f'Y = {intercept1:.2f} + {slope1:.2f}X')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Regresi Linear Positif Kuat\nR² = {r_value1**2:.3f}, p = {p_value1:.3f}')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Regresi Linear Negatif Sedang
plt.subplot(3, 4, 2)
plt.scatter(x2, y2, alpha=0.7, color='red', label='Data')
y_pred2 = intercept2 + slope2 * x2
plt.plot(x2, y_pred2, 'r-', linewidth=2, label=f'Y = {intercept2:.2f} + {slope2:.2f}X')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Regresi Linear Negatif Sedang\nR² = {r_value2**2:.3f}, p = {p_value2:.3f}')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Regresi Linear Lemah
plt.subplot(3, 4, 3)
plt.scatter(x3, y3, alpha=0.7, color='green', label='Data')
y_pred3 = intercept3 + slope3 * x3
plt.plot(x3, y_pred3, 'r-', linewidth=2, label=f'Y = {intercept3:.2f} + {slope3:.2f}X')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'Regresi Linear Lemah\nR² = {r_value3**2:.3f}, p = {p_value3:.3f}')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Residuals vs Fitted
plt.subplot(3, 4, 4)
plt.scatter(y_pred1, residuals, alpha=0.7, color='blue')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Fitted Values')
plt.ylabel('Residuals')
plt.title('Residuals vs Fitted')
plt.grid(True, alpha=0.3)

# Plot 5: Q-Q Plot untuk normalitas residuals
plt.subplot(3, 4, 5)
stats.probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot Residuals')
plt.grid(True, alpha=0.3)

# Plot 6: Histogram residuals
plt.subplot(3, 4, 6)
plt.hist(residuals, bins=20, alpha=0.7, color='purple', edgecolor='black')
plt.xlabel('Residuals')
plt.ylabel('Frequency')
plt.title('Histogram Residuals')
plt.grid(True, alpha=0.3)

# Plot 7: Studentized residuals
plt.subplot(3, 4, 7)
plt.scatter(y_pred1, studentized_residuals, alpha=0.7, color='blue')
plt.axhline(2, color='red', linestyle='--', label='Threshold = 2')
plt.axhline(-2, color='red', linestyle='--')
plt.xlabel('Fitted Values')
plt.ylabel('Studentized Residuals')
plt.title('Studentized Residuals')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 8: Leverage plot
plt.subplot(3, 4, 8)
plt.scatter(leverage, studentized_residuals, alpha=0.7, color='blue')
plt.axhline(2, color='red', linestyle='--', label='Threshold = 2')
plt.axhline(-2, color='red', linestyle='--')
plt.xlabel('Leverage')
plt.ylabel('Studentized Residuals')
plt.title('Leverage Plot')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Cook's distance
plt.subplot(3, 4, 9)
plt.scatter(range(len(cooks_d)), cooks_d, alpha=0.7, color='blue')
plt.axhline(4/n, color='red', linestyle='--', label=f'Threshold = {4/n:.3f}')
plt.xlabel('Observation')
plt.ylabel("Cook's Distance")
plt.title("Cook's Distance")
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 10: Prediksi vs Aktual
plt.subplot(3, 4, 10)
plt.scatter(y1, y_pred1, alpha=0.7, color='blue')
plt.plot([y1.min(), y1.max()], [y1.min(), y1.max()], 'r--', linewidth=2)
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title('Predicted vs Actual')
plt.grid(True, alpha=0.3)

# Plot 11: Confidence interval
plt.subplot(3, 4, 11)
plt.scatter(x1, y1, alpha=0.7, color='blue', label='Data')
plt.plot(x1, y_pred1, 'r-', linewidth=2, label='Regression Line')

# Hitung confidence interval untuk prediksi
se_pred = np.sqrt(mse * (1 + 1/n + (x1 - x_mean)**2 / np.sum((x1 - x_mean)**2)))
ci_lower_pred = y_pred1 - t_critical * se_pred
ci_upper_pred = y_pred1 + t_critical * se_pred

plt.fill_between(x1, ci_lower_pred, ci_upper_pred, alpha=0.3, color='red', label='95% CI')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Regression dengan Confidence Interval')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 12: Summary statistics
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
REGRESI LINEAR SUMMARY

Regresi Positif Kuat:
Slope: {slope1:.4f}
Intercept: {intercept1:.4f}
R²: {r_value1**2:.4f}
P-value: {p_value1:.4f}
Signifikan: {'Ya' if p_value1 < 0.05 else 'Tidak'}

Regresi Negatif Sedang:
Slope: {slope2:.4f}
Intercept: {intercept2:.4f}
R²: {r_value2**2:.4f}
P-value: {p_value2:.4f}
Signifikan: {'Ya' if p_value2 < 0.05 else 'Tidak'}

Regresi Lemah:
Slope: {slope3:.4f}
Intercept: {intercept3:.4f}
R²: {r_value3**2:.4f}
P-value: {p_value3:.4f}
Signifikan: {'Ya' if p_value3 < 0.05 else 'Tidak'}

Diagnostik Model:
Mean Residual: {np.mean(residuals):.4f}
Std Residuals: {np.std(residuals, ddof=1):.4f}
Outliers: {np.sum(outliers)}
Max Cook's D: {np.max(cooks_d):.4f}

Interpretasi R²:
R² < 0.3: Lemah
0.3 ≤ R² < 0.7: Sedang
R² ≥ 0.7: Kuat
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 8. Interpretasi Hasil
print("\n8. INTERPRETASI HASIL:")

print(f"\nRegresi Linear Positif Kuat:")
print(f"  - Slope: {slope1:.4f}")
print(f"  - Interpretasi: Setiap peningkatan 1 unit X, Y meningkat {slope1:.4f} unit")
print(f"  - R²: {r_value1**2:.4f} ({r_value1**2*100:.1f}% varians Y dijelaskan oleh X)")
print(f"  - Signifikan: {'Ya' if p_value1 < 0.05 else 'Tidak'}")
print(f"  - Confidence Interval: [{ci_lower:.4f}, {ci_upper:.4f}]")

print(f"\nRegresi Linear Negatif Sedang:")
print(f"  - Slope: {slope2:.4f}")
print(f"  - Interpretasi: Setiap peningkatan 1 unit X, Y menurun {abs(slope2):.4f} unit")
print(f"  - R²: {r_value2**2:.4f} ({r_value2**2*100:.1f}% varians Y dijelaskan oleh X)")
print(f"  - Signifikan: {'Ya' if p_value2 < 0.05 else 'Tidak'}")

print(f"\nRegresi Linear Lemah:")
print(f"  - Slope: {slope3:.4f}")
print(f"  - Interpretasi: Setiap peningkatan 1 unit X, Y meningkat {slope3:.4f} unit")
print(f"  - R²: {r_value3**2:.4f} ({r_value3**2*100:.1f}% varians Y dijelaskan oleh X)")
print(f"  - Signifikan: {'Ya' if p_value3 < 0.05 else 'Tidak'}")

print(f"\nDiagnostik Model:")
print(f"  - Mean Residual: {np.mean(residuals):.4f} (harus mendekati 0)")
print(f"  - Std Residuals: {np.std(residuals, ddof=1):.4f}")
print(f"  - Outliers: {np.sum(outliers)} observasi")
print(f"  - Max Cook's Distance: {np.max(cooks_d):.4f}")

# 9. Kesimpulan dan Rekomendasi
print("\n9. KESIMPULAN DAN REKOMENDASI:")
print("   - Regresi Linear: Model hubungan linear antara X dan Y")
print("   - Slope: Perubahan Y per unit X")
print("   - Intercept: Nilai Y ketika X = 0")
print("   - R²: Proporsi varians Y yang dijelaskan oleh X")
print("   - Asumsi: Linear relationship, normality, homoscedasticity")
print("   - Diagnostik: Periksa residuals, outliers, leverage")
print("   - Aplikasi: Prediksi, kontrol, penjelasan, optimasi")
print("   - Best practice: Validasi model, periksa asumsi, hindari ekstrapolasi")


## 8. Aplikasi Praktis Korelasi dan Regresi

### 8.1 Penelitian Medis

#### 8.1.1 Korelasi dalam Penelitian Medis
- **Tinggi Badan vs Berat Badan**: Korelasi positif untuk BMI
- **Usia vs Tekanan Darah**: Korelasi positif untuk hipertensi
- **Dosis Obat vs Efektivitas**: Korelasi untuk dosis optimal
- **Skor Gejala vs Keparahan**: Korelasi untuk diagnosis

#### 8.1.2 Regresi dalam Penelitian Medis
- **Prediksi Risiko**: Model prediksi penyakit berdasarkan faktor risiko
- **Dosis Response**: Hubungan dosis obat dengan respons pasien
- **Survival Analysis**: Prediksi waktu bertahan hidup
- **Quality of Life**: Prediksi kualitas hidup berdasarkan gejala

### 8.2 Penelitian Pendidikan

#### 8.2.1 Korelasi dalam Penelitian Pendidikan
- **Jam Belajar vs Nilai**: Korelasi positif untuk efektivitas belajar
- **IQ vs Performa Akademik**: Korelasi untuk kemampuan kognitif
- **Sosial Ekonomi vs Prestasi**: Korelasi untuk faktor lingkungan
- **Motivasi vs Hasil Belajar**: Korelasi untuk faktor psikologis

#### 8.2.2 Regresi dalam Penelitian Pendidikan
- **Prediksi Nilai**: Model prediksi nilai berdasarkan faktor input
- **Intervensi Pendidikan**: Efektivitas program pembelajaran
- **Retention Rate**: Prediksi tingkat kelulusan
- **Career Success**: Prediksi kesuksesan karir berdasarkan pendidikan

### 8.3 Penelitian Ekonomi

#### 8.3.1 Korelasi dalam Penelitian Ekonomi
- **Pendapatan vs Pengeluaran**: Korelasi untuk konsumsi
- **Harga vs Permintaan**: Korelasi negatif untuk hukum permintaan
- **Inflasi vs Suku Bunga**: Korelasi untuk kebijakan moneter
- **GDP vs Investasi**: Korelasi untuk pertumbuhan ekonomi

#### 8.3.2 Regresi dalam Penelitian Ekonomi
- **Demand Forecasting**: Prediksi permintaan produk
- **Price Elasticity**: Sensitivitas harga terhadap permintaan
- **Economic Growth**: Model pertumbuhan ekonomi
- **Market Analysis**: Analisis pasar dan kompetisi

### 8.4 Penelitian Psikologi

#### 8.4.1 Korelasi dalam Penelitian Psikologi
- **Stres vs Kesehatan Mental**: Korelasi untuk faktor risiko
- **Kepribadian vs Perilaku**: Korelasi untuk trait theory
- **Sosial Support vs Well-being**: Korelasi untuk faktor protektif
- **Intelligence vs Creativity**: Korelasi untuk kemampuan kognitif

#### 8.4.2 Regresi dalam Penelitian Psikologi
- **Therapy Effectiveness**: Prediksi efektivitas terapi
- **Behavior Prediction**: Prediksi perilaku berdasarkan faktor
- **Mental Health Screening**: Model skrining kesehatan mental
- **Personality Assessment**: Prediksi kepribadian berdasarkan tes

### 8.5 Penelitian Bisnis

#### 8.5.1 Korelasi dalam Penelitian Bisnis
- **Customer Satisfaction vs Loyalty**: Korelasi untuk retensi
- **Marketing Spend vs Sales**: Korelasi untuk ROI marketing
- **Employee Satisfaction vs Productivity**: Korelasi untuk HR
- **Brand Awareness vs Market Share**: Korelasi untuk branding

#### 8.5.2 Regresi dalam Penelitian Bisnis
- **Sales Forecasting**: Prediksi penjualan
- **Customer Lifetime Value**: Prediksi nilai pelanggan
- **Price Optimization**: Optimasi harga produk
- **Market Segmentation**: Segmentasi pasar berdasarkan variabel

### 8.6 Penelitian Teknologi

#### 8.6.1 Korelasi dalam Penelitian Teknologi
- **Performance vs Resource Usage**: Korelasi untuk optimasi
- **User Engagement vs Features**: Korelasi untuk UX
- **Code Quality vs Bugs**: Korelasi untuk software engineering
- **Network Traffic vs Performance**: Korelasi untuk infrastruktur

#### 8.6.2 Regresi dalam Penelitian Teknologi
- **Performance Prediction**: Prediksi performa sistem
- **Resource Planning**: Perencanaan kapasitas
- **Quality Assurance**: Prediksi kualitas software
- **User Behavior**: Prediksi perilaku pengguna

### 8.7 Penelitian Lingkungan

#### 8.7.1 Korelasi dalam Penelitian Lingkungan
- **Suhu vs Polusi**: Korelasi untuk perubahan iklim
- **Hujan vs Kualitas Air**: Korelasi untuk siklus air
- **Vegetasi vs Keanekaragaman**: Korelasi untuk ekosistem
- **Emisi vs Kesehatan**: Korelasi untuk dampak kesehatan

#### 8.7.2 Regresi dalam Penelitian Lingkungan
- **Climate Modeling**: Model perubahan iklim
- **Pollution Prediction**: Prediksi tingkat polusi
- **Ecosystem Health**: Prediksi kesehatan ekosistem
- **Environmental Impact**: Prediksi dampak lingkungan

### 8.8 Penelitian Sosial

#### 8.8.1 Korelasi dalam Penelitian Sosial
- **Pendidikan vs Pendapatan**: Korelasi untuk mobilitas sosial
- **Urbanization vs Crime**: Korelasi untuk keamanan
- **Media vs Opini Publik**: Korelasi untuk komunikasi
- **Kebijakan vs Dampak**: Korelasi untuk evaluasi program

#### 8.8.2 Regresi dalam Penelitian Sosial
- **Policy Impact**: Prediksi dampak kebijakan
- **Social Behavior**: Prediksi perilaku sosial
- **Community Development**: Model pengembangan komunitas
- **Public Opinion**: Prediksi opini publik

### 8.9 Best Practices untuk Aplikasi

#### 8.9.1 Pemilihan Metode
- **Pearson**: Data interval/ratio, hubungan linear
- **Spearman**: Data ordinal, hubungan monoton
- **Regresi Linear**: Prediksi, kontrol, penjelasan

#### 8.9.2 Validasi Model
- **Cross-validation**: Validasi model dengan data baru
- **Holdout**: Pisahkan data training dan testing
- **Bootstrap**: Resampling untuk estimasi parameter

#### 8.9.3 Interpretasi Hasil
- **Statistical Significance**: P-value < 0.05
- **Practical Significance**: Effect size yang bermakna
- **Confidence Intervals**: Estimasi parameter dengan CI
- **Model Validation**: Periksa asumsi dan diagnostik

#### 8.9.4 Pelaporan Hasil
- **Transparency**: Laporkan semua asumsi dan keterbatasan
- **Effect Size**: Jangan hanya p-value
- **Visualization**: Gunakan grafik untuk interpretasi
- **Context**: Interpretasi dalam konteks penelitian


## 9. Best Practices dan Troubleshooting

### 9.1 Best Practices untuk Korelasi

#### 9.1.1 Pemilihan Metode Korelasi
- **Pearson**: Gunakan untuk data interval/ratio dengan hubungan linear
- **Spearman**: Gunakan untuk data ordinal atau hubungan monoton
- **Kendall's Tau**: Alternatif Spearman untuk data ordinal
- **Point-biserial**: Korelasi antara variabel kontinu dan dikotomis

#### 9.1.2 Pengecekan Asumsi
- **Linear Relationship**: Periksa dengan scatter plot
- **Normality**: Gunakan Q-Q plot atau uji normalitas
- **Independence**: Pastikan observasi independen
- **Outliers**: Identifikasi dan evaluasi outlier

#### 9.1.3 Interpretasi Hasil
- **Effect Size**: Jangan hanya melihat p-value
- **Confidence Interval**: Gunakan CI untuk estimasi parameter
- **Practical Significance**: Pertimbangkan konteks penelitian
- **Causation**: Korelasi tidak berarti kausalitas

### 9.2 Best Practices untuk Regresi

#### 9.2.1 Pemilihan Model
- **Linear Regression**: Hubungan linear antara X dan Y
- **Polynomial Regression**: Hubungan non-linear
- **Logistic Regression**: Variabel dependen kategoris
- **Ridge/Lasso**: Regularisasi untuk overfitting

#### 9.2.2 Validasi Model
- **Train-Test Split**: Pisahkan data training dan testing
- **Cross-validation**: Validasi dengan k-fold CV
- **Bootstrap**: Resampling untuk estimasi parameter
- **Holdout**: Validasi dengan data independen

#### 9.2.3 Diagnostik Model
- **Residual Analysis**: Periksa asumsi regresi
- **Outlier Detection**: Identifikasi influential points
- **Multicollinearity**: Cek korelasi antar variabel independen
- **Model Comparison**: Bandingkan model alternatif

### 9.3 Troubleshooting Korelasi

#### 9.3.1 Masalah Umum
- **Outliers**: Hapus atau transformasi data
- **Non-linear Relationship**: Gunakan Spearman atau transformasi
- **Small Sample Size**: Gunakan confidence interval
- **Ties**: Gunakan metode yang menangani ties

#### 9.3.2 Solusi
- **Data Transformation**: Log, square root, Box-Cox
- **Robust Methods**: Median correlation, rank correlation
- **Bootstrap**: Estimasi parameter dengan resampling
- **Non-parametric**: Gunakan metode non-parametrik

### 9.4 Troubleshooting Regresi

#### 9.4.1 Pelanggaran Asumsi
- **Non-linearity**: Gunakan polynomial regression
- **Heteroscedasticity**: Transformasi data atau robust regression
- **Non-normality**: Transformasi data atau non-parametric
- **Multicollinearity**: Ridge regression atau PCA

#### 9.4.2 Overfitting
- **Regularization**: Ridge, Lasso, Elastic Net
- **Feature Selection**: Pilih variabel yang relevan
- **Cross-validation**: Validasi dengan data independen
- **Ensemble Methods**: Random Forest, Gradient Boosting

#### 9.4.3 Underfitting
- **Feature Engineering**: Buat variabel baru
- **Polynomial Features**: Tambahkan fitur non-linear
- **Interaction Terms**: Tambahkan interaksi antar variabel
- **Non-linear Models**: Gunakan model non-linear

### 9.5 Common Mistakes

#### 9.5.1 Kesalahan dalam Korelasi
- **Mengabaikan Outliers**: Outlier dapat mempengaruhi korelasi
- **Mengabaikan Non-linearity**: Pearson tidak mendeteksi non-linear
- **Mengabaikan Sample Size**: Sample kecil tidak reliable
- **Mengabaikan Context**: Interpretasi tanpa konteks penelitian

#### 9.5.2 Kesalahan dalam Regresi
- **Mengabaikan Asumsi**: Tidak memeriksa asumsi regresi
- **Overfitting**: Model terlalu kompleks untuk data
- **Extrapolation**: Prediksi di luar range data
- **Mengabaikan Interaction**: Tidak mempertimbangkan interaksi

#### 9.5.3 Kesalahan dalam Interpretasi
- **Hanya P-value**: Mengabaikan effect size
- **Causation**: Menyimpulkan kausalitas dari korelasi
- **Over-interpretation**: Menyimpulkan lebih dari yang seharusnya
- **Mengabaikan Uncertainty**: Tidak mempertimbangkan ketidakpastian

### 9.6 Software dan Tools

#### 9.6.1 Python
- **scipy.stats**: Korelasi dan regresi dasar
- **statsmodels**: Regresi dengan output lengkap
- **sklearn**: Machine learning dan validasi
- **pandas**: Data manipulation dan analisis

#### 9.6.2 R
- **cor()**: Korelasi Pearson dan Spearman
- **lm()**: Linear regression
- **glm()**: Generalized linear models
- **car**: Regression diagnostics

#### 9.6.3 SPSS
- **Correlate**: Analisis korelasi
- **Regression**: Analisis regresi
- **Graphs**: Visualisasi data
- **Output**: Interpretasi hasil

### 9.7 Reporting Guidelines

#### 9.7.1 Korelasi
- **Statistik**: r, p-value, confidence interval
- **Effect Size**: Interpretasi kekuatan korelasi
- **Sample Size**: Jumlah observasi
- **Asumsi**: Hasil pengecekan asumsi

#### 9.7.2 Regresi
- **Model**: Persamaan regresi
- **Koefisien**: Slope, intercept, standard error
- **Signifikansi**: P-value, confidence interval
- **Goodness of Fit**: R², adjusted R², RMSE

#### 9.7.3 Visualisasi
- **Scatter Plot**: Hubungan antara variabel
- **Residual Plot**: Diagnostik model
- **Q-Q Plot**: Normalitas residuals
- **Leverage Plot**: Identifikasi outlier

### 9.8 Checklist Analisis

#### 9.8.1 Sebelum Analisis
- [ ] Tentukan hipotesis penelitian
- [ ] Pilih metode yang tepat
- [ ] Periksa kualitas data
- [ ] Identifikasi variabel yang relevan

#### 9.8.2 Selama Analisis
- [ ] Periksa asumsi metode
- [ ] Identifikasi outlier
- [ ] Lakukan analisis diagnostik
- [ ] Validasi model

#### 9.8.3 Setelah Analisis
- [ ] Interpretasi hasil dengan benar
- [ ] Laporkan effect size
- [ ] Diskusikan keterbatasan
- [ ] Berikan rekomendasi

### 9.9 Resources dan Referensi

#### 9.9.1 Buku Teks
- "Applied Regression Analysis" - Draper & Smith
- "Correlation and Regression" - Howell
- "Statistical Methods for Psychology" - Howell
- "Applied Statistics for the Behavioral Sciences" - Hinkle

#### 9.9.2 Online Resources
- Scipy Documentation
- Statsmodels Documentation
- R Documentation
- Statistics How To

#### 9.9.3 Courses
- Coursera: Statistics courses
- edX: Data Science courses
- Udemy: Statistics courses
- YouTube: Statistics tutorials
