# Statistics Exercise
---
Latihan ini dirancang untuk mempraktikkan uji hipotesis statistik menggunakan dataset **Fertilizer Prediction** yang berisi data tentang suhu, kelembapan, kelembapan tanah, jenis tanah, jenis tanaman, dan kandungan nutrisi (Nitrogen, Potassium, Phosphorous) serta jenis pupuk yang digunakan. Tujuannya adalah menguji berbagai hipotesis untuk mendukung keputusan pertanian.

# Practical

In [None]:
# !pip install statsmodels

In [1]:
# Import libraries
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as stats
from statsmodels.stats.proportion import proportions_ztest

In [2]:
# Load dataset
df = pd.read_csv(r'D:\0. JCDS\Dataset\Fertilizer Prediction.csv')
df.head()

Unnamed: 0,Temparature,Humidity,Moisture,Soil Type,Crop Type,Nitrogen,Potassium,Phosphorous,Fertilizer Name
0,26,52,38,Sandy,Maize,37,0,0,Urea
1,29,52,45,Loamy,Sugarcane,12,0,36,DAP
2,34,65,62,Black,Cotton,7,9,30,14-35-14
3,32,62,34,Red,Tobacco,22,0,20,28-28
4,28,54,46,Clayey,Paddy,35,0,0,Urea


## Soal 1
Apakah rata-rata kandungan Nitrogen untuk tanaman yang menggunakan pupuk Urea dan DAP berbeda? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: Two tail test
H0 = "Kandungan nitrogen tanaman yang mengggunakan pupuk urea = DAP"
HA = "Kandungan nitrogen tanaman yang mengggunakan pupuk urea != DAP"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal -> independence T-Test, Tidak Normal -> Mann Whitney

In [28]:
urea = df[df["Fertilizer Name"] == "Urea"]["Nitrogen"]
DAP = df[df["Fertilizer Name"] == "DAP"]["Nitrogen"]

***normality test***

In [29]:
from scipy.stats import shapiro

# hipotesis
ho_normal = "Distribusi normal"
ha_normal = "Tidak terdistribusi normal"

test_result_urea = shapiro(urea)
test_result_DAP = shapiro(DAP)

pval_urea = test_result_urea[1]
pval_DAP = test_result_DAP[1]

print("Test Result urea: ", pval_urea)
print("Test Result DAP: ", pval_DAP)

Test Result urea:  0.08788797925301346
Test Result DAP:  0.14427228208318843


In [61]:
def draw_conclusion(pval, ho, ha, alpha=0.05):
    if pval < alpha:
        print(f"Karena nilai p-value ({round(pval, 3)}) < alpha, maka", ha)
    else:
        print(f"Karena nilai p-value ({round(pval, 3)}) > alpha, maka", ho)


In [62]:
# Pupuk urea
draw_conclusion(pval_urea, ho_normal, ha_normal)

Karena nilai p-value (0.088) > alpha, maka Distribusi normal


In [63]:
# Pupuk DAP
draw_conclusion(pval_DAP, ho_normal, ha_normal)

Karena nilai p-value (0.144) > alpha, maka Distribusi normal


***Hypothesis Test***

In [33]:
from scipy.stats import ttest_ind

In [64]:
test_result = ttest_ind(urea, DAP)
pval = test_result[1]

draw_conclusion(pval, H0, HA)

Karena nilai p-value (0.0) < alpha, maka Kandungan nitrogen tanaman yang mengggunakan pupuk urea != DAP


**Kesimpulan Soal 1**: Kandungan nitrogen pada tanaman yang menggunakan pupuk urea tidak sama dengan yang menggunakan pupuk DAP

## Soal 2
Apakah rata-rata kelembapan tanah (Moisture) berbeda antara jenis tanah (Soil Type: Sandy, Loamy, Clayey, Black, Red)? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: two tail test
H0 = "Kelembaban tanah (Moisture) setiap jenis tanah sama"
HA = "kelembaban tanah (Moisture) setiap jenis tanah berbeda"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal -> Anova, Tidak normal -> Kruskal Wallis

In [71]:
sandy = df[df["Soil Type"] == "Sandy"]["Moisture"]
loamy = df[df["Soil Type"] == "Loamy"]["Moisture"]
black = df[df["Soil Type"] == "Black"]["Moisture"]
red = df[df["Soil Type"] == "Red"]["Moisture"]
clayey = df[df["Soil Type"] == "Clayey"]["Moisture"]

***Normality Test***

In [74]:
from scipy.stats import shapiro

# hipotesis
ho_normal = "Distribusi normal"
ha_normal = "Tidak terdistribusi normal"

test_result_sandy = shapiro(sandy)
test_result_loamy = shapiro(loamy)
test_result_black = shapiro(black)
test_result_red = shapiro(red)
test_result_clayey = shapiro(clayey)


pval_sandy = test_result_sandy[1]
pval_loamy = test_result_loamy[1]
pval_black = test_result_black[1]
pval_red = test_result_red[1]
pval_clayey = test_result_clayey[1]

print("Test Result sandy: ", pval_sandy)
print("Test Result loamy: ", pval_loamy)
print("Test Result black: ", pval_black)
print("Test Result red: ", pval_red)
print("Test Result clayey: ", pval_clayey)

Test Result sandy:  0.3504342716828156
Test Result loamy:  0.013080234886468277
Test Result black:  0.006785323319846716
Test Result red:  0.00025689164836870533
Test Result clayey:  0.3940765313892626


In [75]:
# sandy
draw_conclusion(pval_sandy,ho_normal, ha_normal)

Karena nilai p-value (0.35) > alpha, maka Distribusi normal


In [76]:
# loamy
draw_conclusion(pval_loamy,ho_normal, ha_normal)

Karena nilai p-value (0.013) < alpha, maka Tidak terdistribusi normal


In [77]:
# black
draw_conclusion(pval_black,ho_normal, ha_normal)

Karena nilai p-value (0.007) < alpha, maka Tidak terdistribusi normal


In [79]:
# red
draw_conclusion(pval_red,ho_normal, ha_normal)

Karena nilai p-value (0.0) < alpha, maka Tidak terdistribusi normal


In [80]:
# clayey
draw_conclusion(pval_clayey,ho_normal, ha_normal)

Karena nilai p-value (0.394) > alpha, maka Distribusi normal


***Hypothesis Test***

In [81]:
# sebagian besar menunjukan distribusi tidak normal --> Kruskal Wallis
from scipy.stats import kruskal

In [85]:
test_result = kruskal(sandy, loamy, black, red, clayey)
pval = test_result[1]

draw_conclusion(pval, H0, HA)

df.groupby("Soil Type")["Moisture"].mean()

Karena nilai p-value (0.001) < alpha, maka kelembaban tanah setiap jenis tanah berbeda


Soil Type
Black     44.684211
Clayey    37.800000
Loamy     51.380952
Red       40.421053
Sandy     41.150000
Name: Moisture, dtype: float64

**Kesimpulan Soal 2**: setiap jenis tanah memiliki nilai kelembaban yang berbeda

## Soal 3
Apakah rata-rata kandungan Phosphorous untuk semua tanaman adalah 20 unit? Buktikan dengan uji statistik!

In [100]:
# 1. Menentukan hipotesis
# Arah Uji: two tail test
H0 = "rata-rata kandungan Phosphorus semua tanaman adalah 20"
HA = "rata-rata kandungan Phosphorus semua tanaman bukan 20"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal -> one sample t-test, Tidak normal -> one sample wilcoxon test

***Normality Test***

In [112]:
from scipy.stats import shapiro

Ho_normal = "Distribusi normal"
ha_normal = "Tidak terdistribusi normal"

test_result = shapiro(df["Phosphorous"])
pval = test_result[1]

draw_conclusion(pval, ho_normal, ha_normal)

Karena nilai p-value (0.0) < alpha, maka Tidak terdistribusi normal


***Hypothesis Test***

In [114]:
df["Phosphorous"].median()

np.float64(19.0)

In [115]:
from scipy.stats import wilcoxon

test_result = wilcoxon(df["Phosphorous"])
pval = test_result[1]

draw_conclusion(pval, H0, HA)

Karena nilai p-value (0.0) < alpha, maka rata-rata kandungan Phosphorus semua tanaman bukan 20


**Kesimpulan Soal 3**: Rata-rata kandungan phosphorus disemua tanaman buakn 20

## Soal 4
- Buat DataFrame berisi tanaman Sugarcane!
- Dari DataFrame tersebut, lakukan uji hipotesis untuk membuktikan apakah jenis tanah (Soil Type) berkaitan dengan jenis pupuk (Fertilizer Name)!

In [118]:
# 1. Buat DataFrame untuk Sugarcane
sugarcane = df[df["Crop Type"] == "Sugarcane"]

# 2. Menentukan hipotesis
# Arah Uji: Two tail test
H0 = "Jenis tanah memiliki hubungan dengan jenis pupuk"
HA = "Jenis tanah tidak memiliki hubungan dengan jenis pupuk"

# 3. Menentukan signifikansi
alpha = 0.05

# 4. Menentukan statistik uji: chi-square test

***Hypothesis Test***

In [123]:
soil_fertilizer = pd.crosstab(df["Soil Type"], df["Fertilizer Name"])

from scipy.stats import chi2_contingency

test_result = chi2_contingency(soil_fertilizer)
pval = test_result[1]

draw_conclusion(pval, H0, HA)

Karena nilai p-value (0.792) > alpha, maka Jenis tanah memiliki hubungan dengan jenis pupuk


**Kesimpulan Soal 4**: Penentuan jenis tanaman berpengaruh terhadap jenis pupuk yang dipakai

## Soal 5
Apakah 50% dari semua tanaman menggunakan pupuk Urea? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: Two tail test
H0 = "50% dari semua tanaman menggunakan pupuk urea"
HA = "50% dari semua tanaman tidak menggunakan pupuk urea"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji: one sample z-test

In [127]:
jmlh_urea = df[df["Fertilizer Name"] == "Urea"].shape[0]

from statsmodels.stats.proportion import proportions_ztest

test_result = proportions_ztest(
    count= jmlh_urea,
    nobs= len(df),
    value= 0.5
)

pval = test_result[1]

**Kesimpulan Soal 5**: ___

## Soal 6
Apakah proporsi tanaman dengan pupuk DAP berbeda antara tanah Sandy dan Loamy? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: ___
H0 = "___"
HA = "___"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji: Z Proportion Test 2 Sample

In [None]:
# Kode anda

**Kesimpulan Soal 6**: ___