# Statistics Exercise
---
Latihan ini dirancang untuk mempraktikkan uji hipotesis statistik menggunakan dataset **Fertilizer Prediction** yang berisi data tentang suhu, kelembapan, kelembapan tanah, jenis tanah, jenis tanaman, dan kandungan nutrisi (Nitrogen, Potassium, Phosphorous) serta jenis pupuk yang digunakan. Tujuannya adalah menguji berbagai hipotesis untuk mendukung keputusan pertanian.

# Practical

In [1]:
# !pip install statsmodels

In [2]:
# Import libraries
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as stats
from statsmodels.stats.proportion import proportions_ztest

In [3]:
# Load dataset
df = pd.read_csv('Fertilizer Prediction.csv')
df.head()

Unnamed: 0,Temparature,Humidity,Moisture,Soil Type,Crop Type,Nitrogen,Potassium,Phosphorous,Fertilizer Name
0,26,52,38,Sandy,Maize,37,0,0,Urea
1,29,52,45,Loamy,Sugarcane,12,0,36,DAP
2,34,65,62,Black,Cotton,7,9,30,14-35-14
3,32,62,34,Red,Tobacco,22,0,20,28-28
4,28,54,46,Clayey,Paddy,35,0,0,Urea


## Soal 1
Apakah rata-rata kandungan Nitrogen untuk tanaman yang menggunakan pupuk Urea dan DAP berbeda? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji:  Dua arah (two tailed)
H0 = "Rata rata kandungan Nitrogen untuk pupuk Urea = DAP"
HA = "Rata rata kandungan Nitrogen untuk pupuk Urea != DAP"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal -> Two Sample Independent TTest, Tidak Normal -> Mann-Whitney

In [5]:
# 1. data Nitrogen untuk Urea dan DAP
n_urea = df[df['Fertilizer Name'] == 'Urea']['Nitrogen']
n_dap = df[df['Fertilizer Name'] == 'DAP']['Nitrogen']

In [6]:
# 2. uji normalitas menggunakan Shapiro Wilk Test
stat_urea, p_urea = stats.shapiro(n_urea)
stat_dap, p_dap = stats.shapiro(n_dap)

In [7]:
# 3. hasil normalitas
{'p-value Urea': f'{p_urea:.2f}', 'p-value DAP': f'{p_dap:.2f}'}

{'p-value Urea': '0.09', 'p-value DAP': '0.14'}

In [None]:
# 4. uji hipotesis
if p_urea > alpha and p_dap > alpha:
    # Jika kedua data normal, pakai TTest
    print('\nKedua data terdistribusi normal, menggunakan TTest')
    t_stat, p_value = stats.ttest_ind(n_urea, n_dap, equal_var=True)
else:
    # Jika salah satu atau kedua data tidak normal, pakai Mann Whitney
    print('\nSalah satu atau kedua data tidak terdistribusi normal, menggunakan Mann-Whitney')
    u_stat, p_value = stats.mannwhitneyu(n_urea, n_dap)

print(f'p-value dari uji hipotesis: {p_value:.2f}')


Kedua data terdistribusi normal, menggunakan TTest
p-value dari uji hipotesis: 0.00


In [None]:

# 4. Ambil kesimpulan
if p_value < alpha:
    print('Tolak H0')
else:
    print('Gagal tolak H0')

Tolak H0


**Kesimpulan Soal 1:** ada perbedaan signifikan rata rata kandungan Nitrogen antara pupuk Urea dan DAP

## Soal 2
Apakah rata-rata kelembapan tanah (Moisture) berbeda antara jenis tanah (Soil Type: Sandy, Loamy, Clayey, Black, Red)? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: Dua arah (two tailed)
H0 = "Rata-rata Moisture sama untuk kelima jenis tanah"
HA = "Setidaknya ada satu jenis tanah yang rata-rata Moisture nya berbeda"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal ->  One Way ANOVA, Tidak normal -> Kruskal Wallis Test

In [11]:
# 1. data Moisture untuk setiap jenis tanah
sandy = df[df['Soil Type'] == 'Sandy']['Moisture']
loamy = df[df['Soil Type'] == 'Loamy']['Moisture']
clayey = df[df['Soil Type'] == 'Clayey']['Moisture']
black = df[df['Soil Type'] == 'Black']['Moisture']
red = df[df['Soil Type'] == 'Red']['Moisture']

In [12]:
# 2. uji normalitas (contoh untuk 2 grup, idealnya dicek semua)
stat_sandy, p_sandy = stats.shapiro(sandy)
stat_loamy, p_loamy = stats.shapiro(loamy)

In [13]:
# 3. hasil normalitas
{'p-value Sandy': f'{p_sandy:.2f}', 'p-value Loamy': f'{p_loamy:.2f}'}

{'p-value Sandy': '0.35', 'p-value Loamy': '0.01'}

In [20]:
# 3. uji hipotesis
h_stat, p_value = stats.kruskal(sandy, loamy, clayey, black, red)

print(f'p-value dari uji hipotesis: {p_value:.2f}')

p-value dari uji hipotesis: 0.00


In [17]:
# 4. Ambil kesimpulan
alpha = 0.05
if p_value < alpha:
    print('Tolak H0')
else:
    print('Gagal tolak H0')

Tolak H0


**Kesimpulan Soal 2:** ada perbedaan signifikan pada rata-rata kelembapan tanah setidaknya pada satu jenis tanah

## Soal 3
Apakah rata-rata kandungan Phosphorous untuk semua tanaman adalah 20 unit? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: ___
H0 = "___"
HA = "___"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji
# Normal -> ___, Tidak normal -> ___

In [None]:
# Kode anda

**Kesimpulan Soal 3**: ___

## Soal 4
- Buat DataFrame berisi tanaman Sugarcane!
- Dari DataFrame tersebut, lakukan uji hipotesis untuk membuktikan apakah jenis tanah (Soil Type) berkaitan dengan jenis pupuk (Fertilizer Name)!

In [None]:
# 1. Buat DataFrame untuk Sugarcane

# 2. Menentukan hipotesis
# Arah Uji: ___
H0 = "___"
HA = "___"

# 3. Menentukan signifikansi
alpha = 0.05

# 4. Menentukan statistik uji: ___

In [None]:
# Kode anda

**Kesimpulan Soal 4**: ___

## Soal 5
Apakah 50% dari semua tanaman menggunakan pupuk Urea? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: ___
H0 = "___"
HA = "___"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji: ___

In [None]:
# Kode anda

**Kesimpulan Soal 5**: ___

## Soal 6
Apakah proporsi tanaman dengan pupuk DAP berbeda antara tanah Sandy dan Loamy? Buktikan dengan uji statistik!

In [None]:
# 1. Menentukan hipotesis
# Arah Uji: ___
H0 = "___"
HA = "___"

# 2. Menentukan signifikansi
alpha = 0.05

# 3. Menentukan statistik uji: Z Proportion Test 2 Sample

In [None]:
# Kode anda

**Kesimpulan Soal 6**: ___