In [2]:
import pandas as pd
import numpy as np
from scipy import stats
from sklearn.linear_model import LinearRegression
import seaborn as sns
import matplotlib.pyplot as plt

# --- 1. Persiapan Data ---
# Data hipotetis penjualan es krim (unit per hari)
penjualan_kemarau = [120, 115, 130, 125, 110, 140, 135, 128, 132, 115]
penjualan_hujan = [70, 80, 75, 65, 85, 90, 78, 82, 70, 75]

# Menghitung rata-rata untuk gambaran awal
print(f"Rata-rata penjualan Musim Kemarau: {np.mean(penjualan_kemarau):.1f} unit")
print(f"Rata-rata penjualan Musim Hujan: {np.mean(penjualan_hujan):.1f} unit")
print("\n" + "="*50 + "\n")

# --- 2. Analisis Relasi (Independent Samples t-test) ---
print("--- Analisis Relasi (t-test) ---")

# Melakukan t-test
# Kita asumsikan variansnya sama (default 'equal_var=True' biasanya aman)
t_statistic, p_value = stats.ttest_ind(penjualan_kemarau, penjualan_hujan)

print(f"T-Statistic: {t_statistic:.4f}")
print(f"P-Value: {p_value:.10f}") # Tampilkan p-value dengan presisi tinggi

# Interpretasi p-value
alpha = 0.05
if p_value < alpha:
    print(f"\nInterpretasi: Karena p-value ({p_value:.10f}) < {alpha},")
    print("Kita menolak Hipotesis Nol (H0).")
    print("Kesimpulan: TERDAPAT RELASI yang signifikan secara statistik antara musim dan hasil penjualan.")
else:
    print(f"\nInterpretasi: Karena p-value ({p_value:.10f}) >= {alpha},")
    print("Kita gagal menolak Hipotesis Nol (H0).")
    print("Kesimpulan: TIDAK TERDAPAT RELASI yang signifikan antara musim dan hasil penjualan.")

print("\n" + "="*50 + "\n")

# --- 3. Analisis Performa (R-squared) ---
print("--- Analisis Performa (R-squared) ---")

# Menggabungkan data ke dalam satu DataFrame untuk regresi
df_kemarau = pd.DataFrame({'Penjualan': penjualan_kemarau, 'Musim': 'Kemarau'})
df_hujan = pd.DataFrame({'Penjualan': penjualan_hujan, 'Musim': 'Hujan'})
df = pd.concat([df_kemarau, df_hujan], ignore_index=True)

# Membuat 'dummy variable' (0 untuk Hujan, 1 untuk Kemarau)
df['Musim_dummy'] = df['Musim'].map({'Kemarau': 1, 'Hujan': 0})

# Menyiapkan data untuk model regresi
X = df[['Musim_dummy']] # Variabel independen (harus 2D)
y = df['Penjualan']      # Variabel dependen

# Membuat dan melatih model
model = LinearRegression()
model.fit(X, y)

# Menghitung R-squared (Performa)
r_squared = model.score(X, y)

print(f"Koefisien Determinasi (R-squared): {r_squared:.4f}")
print(f"\nInterpretasi Performa:")
print(f"Nilai R-squared adalah {r_squared:.1%}.")
print(f"Ini berarti {r_squared:.1%} dari variasi (naik-turunnya) penjualan es krim")
print("dapat dijelaskan oleh 'Musim'. Ini menunjukkan performa/pengaruh musim yang sangat kuat.")

print("\n" + "="*50 + "\n")

Rata-rata penjualan Musim Kemarau: 125.0 unit
Rata-rata penjualan Musim Hujan: 77.0 unit


--- Analisis Relasi (t-test) ---
T-Statistic: 12.2759
P-Value: 0.0000000003

Interpretasi: Karena p-value (0.0000000003) < 0.05,
Kita menolak Hipotesis Nol (H0).
Kesimpulan: TERDAPAT RELASI yang signifikan secara statistik antara musim dan hasil penjualan.


--- Analisis Performa (R-squared) ---
Koefisien Determinasi (R-squared): 0.8933

Interpretasi Performa:
Nilai R-squared adalah 89.3%.
Ini berarti 89.3% dari variasi (naik-turunnya) penjualan es krim
dapat dijelaskan oleh 'Musim'. Ini menunjukkan performa/pengaruh musim yang sangat kuat.


