In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

file_excel = 'Dataset.xlsx'
data = pd.read_excel(file_excel)

def calculate_mean(dataframe, column):
    """Menghitung rata-rata dari kolom tertentu."""
    if column in dataframe.columns:
        total = dataframe[column].sum()  
        count = dataframe[column].count() 
        return total / count if count > 0 else 0
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_median(dataframe, column):
    """Menghitung median dari kolom tertentu."""
    if column in dataframe.columns:
        valid_values = dataframe[column].dropna().sort_values() 
        n = valid_values.count()
        if n == 0:
            return 0
        midpoint = n // 2
        # Mengembalikan nilai tengah
        return (valid_values.iloc[midpoint] + valid_values.iloc[-midpoint-1]) / 2 if n % 2 == 0 else valid_values.iloc[midpoint]
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_mode(dataframe, column):
    """Menghitung modus dari kolom tertentu."""
    if column in dataframe.columns:
        mode_value = dataframe[column].mode()  # Menggunakan metode mode dari pandas
        return mode_value[0] if not mode_value.empty else None
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_range(dataframe, column):
    """Menghitung rentang dari kolom tertentu."""
    if column in dataframe.columns:
        valid_values = dataframe[column].dropna()  # Menghapus nilai kosong
        return valid_values.max() - valid_values.min() if not valid_values.empty else 0
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_iqr(dataframe, column):
    """Menghitung Interquartile Range (IQR) dari kolom tertentu."""
    if column in dataframe.columns:
        valid_values = dataframe[column].dropna().sort_values()
        q1 = valid_values.quantile(0.25)
        q3 = valid_values.quantile(0.75)
        return q3 - q1
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_variance(dataframe, column):
    """Menghitung varians dari kolom tertentu."""
    if column in dataframe.columns:
        mean = calculate_mean(dataframe, column)
        valid_values = dataframe[column].dropna()
        variance = ((valid_values - mean) ** 2).sum() / valid_values.count()
        return variance
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_std_dev(dataframe, column):
    """Menghitung standar deviasi dari kolom tertentu."""
    if column in dataframe.columns:
        variance = calculate_variance(dataframe, column)
        return variance ** 0.5  # Akar kuadrat dari varians
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_skewness(dataframe, column):
    """Menghitung skewness dari kolom tertentu."""
    if column in dataframe.columns:
        mean = calculate_mean(dataframe, column)
        std_dev = calculate_std_dev(dataframe, column)
        valid_values = dataframe[column].dropna()
        n = valid_values.count()
        skewness = (n / ((n - 1) * (n - 2))) * (((valid_values - mean) / std_dev) ** 3).sum()
        return skewness
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

def calculate_kurtosis(dataframe, column):
    """Menghitung kurtosis dari kolom tertentu."""
    if column in dataframe.columns:
        mean = calculate_mean(dataframe, column)
        std_dev = calculate_std_dev(dataframe, column)
        valid_values = dataframe[column].dropna()
        n = valid_values.count()
        kurtosis = (n * (n + 1) * (((valid_values - mean) / std_dev) ** 4).sum() - 3 * (n - 1) ** 2) / ((n - 1) * (n - 2) * (n - 3))
        return kurtosis
    else:
        raise ValueError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")

column_sales_a = 'Penjualan A (pcs)' 
column_sales_b = 'Penjualan B (pcs)'

print("-" * 70)
print(f"{'Mean':<30} {calculate_mean(data, column_sales_a):<20.2f} {calculate_mean(data, column_sales_b):<20.2f}")
print(f"{'Median':<30} {calculate_median(data, column_sales_a):<20.2f} {calculate_median(data, column_sales_b):<20.2f}")
print(f"{'Modus':<30} {calculate_mode(data, column_sales_a):<20} {calculate_mode(data, column_sales_b):<20}")
print(f"{'Range':<30} {calculate_range(data, column_sales_a):<20.2f} {calculate_range(data, column_sales_b):<20.2f}")
print(f"{'IQR':<30} {calculate_iqr(data, column_sales_a):<20.2f} {calculate_iqr(data, column_sales_b):<20.2f}")
print(f"{'Varian':<30} {calculate_variance(data, column_sales_a):<20.2f} {calculate_variance(data, column_sales_b):<20.2f}")
print(f"{'Standar Deviasi':<30} {calculate_std_dev(data, column_sales_a):<20.2f} {calculate_std_dev(data, column_sales_b):<20.2f}")
print(f"{'Skewness':<30} {calculate_skewness(data, column_sales_a):<20.2f} {calculate_skewness(data, column_sales_b):<20.2f}")
print(f"{'Kurtosis':<30} {calculate_kurtosis(data, column_sales_a):<20.2f} {calculate_kurtosis(data, column_sales_b):<20.2f}")

def frequency_distribution(dataframe, column, bins):
    """Menghitung tabel distribusi frekuensi dan memvisualisasikannya."""
    freq_table = pd.cut(dataframe[column], bins=bins).value_counts().sort_index()
    return freq_table

bins = range(int(data[column_sales_a].min()), int(data[column_sales_a].max()) + 10, 10)  # Bin interval 10
freq_table_a = frequency_distribution(data, column_sales_a, bins)
freq_table_b = frequency_distribution(data, column_sales_b, bins)

print("\nTabel Distribusi Frekuensi Penjualan A:")
print(freq_table_a)
print("\nTabel Distribusi Frekuensi Penjualan B:")
print(freq_table_b)

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(data[column_sales_a], bins=bins, kde=True, color='blue', alpha=0.7)
plt.title('Histogram Penjualan A')
plt.xlabel('Jumlah Penjualan A (pcs)')
plt.ylabel('Frekuensi')

plt.subplot(1, 2, 2)
sns.histplot(data[column_sales_b], bins=bins, kde=True, color='orange', alpha=0.7)
plt.title('Histogram Penjualan B')
plt.xlabel('Jumlah Penjualan B (pcs)')
plt.ylabel('Frekuensi')

plt.tight_layout()
plt.show()

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.kdeplot(data[column_sales_a], label='Penjualan A', fill=True, color='blue', alpha=0.5)
plt.title('Poligon Frekuensi Penjualan A')
plt.xlabel('Jumlah Penjualan A (pcs)')
plt.ylabel('Frekuensi')
plt.legend()

plt.subplot(1, 2, 2)
sns.kdeplot(data[column_sales_b], label='Penjualan B', fill=True, color='orange', alpha=0.5)
plt.title('Poligon Frekuensi Penjualan B')
plt.xlabel('Jumlah Penjualan B (pcs)')
plt.ylabel('Frekuensi')
plt.legend()

plt.tight_layout()
plt.show()

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x=data[column_sales_a], color='blue')
plt.title('Boxplot Penjualan A')
plt.xlabel('Jumlah Penjualan A (pcs)')

plt.subplot(1, 2, 2)
sns.boxplot(x=data[column_sales_b], color='orange')
plt.title('Boxplot Penjualan B')
plt.xlabel('Jumlah Penjualan B (pcs)')

plt.tight_layout()
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: 'Dataset.xlsx'