<a href="https://colab.research.google.com/github/Lanlanb/Final-Projects-Kelas.work/blob/main/Case01_Sales_Force_Training.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Case Study 01: Sales Force Training**

**Overview dan Background Problems**

Perusahaan X ingin meningkatkan penjualan mereka. Dari data penjualan sebelumnya menunjukkan bahwa penjualan rata-rata yaitu $100 per transaksi. Setelah melakukan training kepada pekerja sales, data penjualan terbaru (yang diambil dari 25 sampel pekerja sales) tersimpan dalam tabel data di bawah ini :

In [None]:
df

Unnamed: 0,TransactionAmount
0,100
1,150
2,50
3,100
4,130
5,120
6,100
7,85
8,70
9,150


Tujuan:
1. Mengaplikasikan analisis dari uji statistika untuk menentukan apakah kita harus menolak atau menerima hipotesis nol (H₀) berdasarkan hasil uji.
2. Menilai apakah pelatihan sales force memiliki dampak signifikan terhadap rata-rata penjualan.

## Preparation

In [None]:
# Import library dan package
import pandas as pd
import numpy as np
import scipy.stats as stats
import statistics

In [None]:
# membuat dataframe
df = pd.DataFrame({'TransactionAmount' : [100, 150, 50, 100, 130, 120, 100, 85, 70, 150, 150, 120, 50, 100, 100, 140, 90, 150, 50, 90, 120, 100, 110, 75, 65]})

# melihat random data dari dataframe
df.sample(5)

Unnamed: 0,TransactionAmount
9,150
4,130
22,110
24,65
5,120


In [None]:
# menyimpan sampel data ke google drive
file_path = '/content/drive/My Drive/Final Project Bootcamp Kelas.work by Kelas.com/case01_sales_training.csv'
df.to_csv(file_path, index=False)

In [None]:
# mengakses google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Uji Statistika

Ketika kita menangani data, baik dalam jumlah kecil maupun besar, kita umumnya menggunakan dua jenis analisis utama untuk memahaminya: Descriptive Statistics dan Inferential Statistics. Meskipun memiliki tujuan yang berbeda, keduanya saling melengkapi.

Langkah pertama adalah menggunakan descriptive statistics untuk memberikan gambaran ringkas tentang data yang ada. Setelah itu, inferential statistics digunakan untuk menarik kesimpulan atau melakukan pengujian guna mengetahui apakah temuan dari data tersebut berlaku untuk konteks yang lebih luas. Dalam kasus ini, kita ingin mengevaluasi apakah program pelatihan sales berhasil meningkatkan penjualan di perusahaan X, maka kita akan menerapkan kedua jenis analisis ini.

### Descriptive Statistics

#### Measure of central tendency

In [None]:
# measure of central tendency

mean_after = statistics.mean(df['TransactionAmount'])
percentage_increase = ((mean_after - pop_mean) / pop_mean) * 100

print(f"mean before training: {pop_mean}")
print(f"mean after training: {mean_after}")
print(f"percentage increase: {round(percentage_increase, 2)}%")
print(f"median: {statistics.mode(df['TransactionAmount'])}")
print(f"modus: {statistics.mode(df['TransactionAmount'])}")

mean before training: 100
mean after training: 102.6
percentage increase: 2.6%
median: 100
modus: 100



Analisa :
1. Rata-rata setelah pelatihan naik menjadi 102.6, tetapi peningkatan ini sangat kecil (sekitar 2.6% dari rata-rata sebelumnya). Meski tampaknya pelatihan berkontribusi pada peningkatan penjualan, perbedaannya tidak cukup signifikan untuk menarik kesimpulan yang tegas tanpa uji statistik lebih lanjut.
2. Median yang sama dengan nilai rata-rata sebelum pelatihan menunjukkan bahwa distribusi data cukup seimbang di sekitar nilai 100. Ini berarti tidak ada banyak outlier yang menarik rata-rata jauh dari nilai tengah data, yang juga diindikasikan oleh modus (di bawah).
3.Modus yang sama dengan median dan mendekati rata-rata memperkuat indikasi bahwa distribusi data mendekati simetris, tanpa adanya konsentrasi nilai yang terlalu ekstrem.

#### measure of variability

In [None]:
print(f"nilai maximum: {np.max(df['TransactionAmount'])}")
print(f"nilai minimum: {np.min(df['TransactionAmount'])}")
print(f"range: {np.max(df['TransactionAmount']) - np.min(df['TransactionAmount'])}")

print(f"variance: {round(np.var(df['TransactionAmount']),2)}")
print(f"standard deviation: {round(np.std(df['TransactionAmount']),2)}")
print(f"quartile 1: {np.quantile(df['TransactionAmount'], 0.25)}")
print(f"quartile 2: {np.quantile(df['TransactionAmount'], 0.50)}")
print(f"quartile 3: {np.quantile(df['TransactionAmount'], 0.75)}")

nilai maximum: 150
nilai minimum: 50
range: 100
variance: 972.24
standard deviation: 31.18
quartile 1: 85.0
quartile 2: 100.0
quartile 3: 120.0


Analisa :
1. Range yang besar menunjukkan adanya variasi yang signifikan dalam data penjualan, dari transaksi yang sangat rendah hingga yang sangat tinggi.
2. Standar deviasi yang relatif tinggi (31.18) menunjukkan bahwa penjualan sangat bervariasi. Ini mengindikasikan ketidakkonsistenan dalam performa sales force, meskipun rata-rata adalah $102.6.
3. Data menunjukkan bahwa sebagian besar penjualan berkumpul di sekitar nilai 100, tetapi ada data yang lebih tinggi menuju 150, yang mengindikasikan variabilitas dalam data, seperti yang terlihat dari standar deviasi yang besar.
4. Sebagian besar data (75%) berada di bawah nilai 120, menunjukkan bahwa nilai di atas 120 adalah outlier yang tidak biasa.

### Inferential Statistics

#### Hypothesis Testing

In [None]:
# mengidentifikasi H0 dan H1

# H0 = Penjualan rata-rata setelah training = $100
# H1 = Penjualan rata-rata setelah pelatihan > $100

In [None]:
# memilih confidence level sebesar 95%
confiden_level = 95/100

print("confidence level: ", confiden_level)

confidence level:  0.95


In [None]:
# mengidentifikasi alpha (significance level)
alpha = 1 - confiden_level

print(f"alpha: {round(alpha, 2)}")

alpha: 0.05


In [None]:
# mencari nilai test statistics (t-test) dan p-value
t_test, p_value = stats.ttest_1samp(df['TransactionAmount'], pop_mean)
t_round = round(t_test, 2)
p_round = round(p_value, 2)

# menampilkan hasil t-test dan p-value
print(f"t-test: {t_test} to {t_round}")
print(f"p-value: {p_value} to {p_round}")

t-test: 0.4085001556802841 to 0.41
p-value: 0.6865284813438117 to 0.69


In [None]:
# menentukan degree of freedom
data = len(df['TransactionAmount'])
dof = data - 1
print(f"degree of freedom: {dof}")

degree of freedom: 24


In [None]:
# mencari critical value
critical_value = round(stats.t.ppf(1-alpha, dof), 2)

print(f"critical value: {critical_value}")

critical value: 1.71


#### Kesimpulan

##### membandingkan test statistics (t-test) dengan critical region

In [None]:
print(f"t-test: {t_round}")
print(f"critical value: {critical_value}")

t-test: 0.41
critical value: 1.71


In [None]:
# berdasarkan aturan yang ada:
# jika tstatistics > critical value (dalam critical region) = menolak H0
# sementara itu, t-statistics < critical value (critical region: 0.41 < 1.71)
# conclusion: gagal menolak H0

##### membandingkan p-value dengan significance level (alpha)

In [None]:
print("p-value: ", p_value)
print("significance level (a): ", alpha)

p-value:  0.6865284813438117
significance level (a):  0.050000000000000044


In [None]:
# Berdasarkan ketentuan yang ada:
# jika p-value <= significance level (alpha), maka H0 ditolak
# sementara itu, p-value > significance level (alpha) ---- Probabilitas mendapatkan hasil yang sama ekstremnya atau lebih ekstrem jika hipotesis nol benar.
# conclusion: gagal menolak H0

In [None]:
# mengidentifikasi H0 dan H1

# H0 = Penjualan rata-rata setelah training = $100
# H1 = Penjualan rata-rata setelah pelatihan > $100

In [None]:
# kesimpulan uji statistics:
# hasil perbandingan test statistic < critical value, berada di luar critical region.
# hasil perbandingan p-value > alpha.
# gagal menolak H0, yang berarti tidak ada cukup bukti untuk menyatakan bahwa training tersebut meningkatkan penjualan secara signifikan.