In [25]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from scipy import stats
import pingouin as pg

plt.style.use('ggplot')
sns.set_theme(palette="pastel")
sns.set_style("white")

import matplotlib as mpl
mpl.rcParams["figure.dpi"] = 150
savefig_options = dict(format="png", dpi=150, bbox_inches="tight")

# Dataset iris ini adalah dataset yang berisi informasi tentang tiga spesies bunga (Setosa, Versicolor, Virginica)
# dengan atribut: sepal_length, sepal_width, petal_length, petal_width, dan species.
iris=pd.read_csv('iris_data.csv')

In [26]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [27]:
# Mengimpor data iris dari seaborn (atau gunakan CSV jika tersedia)
iris = sns.load_dataset('iris')

# Mengubah nama kolom agar sesuai dengan instruksi
iris.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']

# Membuat subset data berdasarkan spesies
setosa = iris[iris['species'] == 'setosa']
versicolor = iris[iris['species'] == 'versicolor']

# Uji homogenitas varians dengan Levene
levene_result = stats.levene(setosa['sepal_width'], versicolor['sepal_width'])
print("Levene's test for homogeneity:", levene_result)

# Uji normalitas dengan Shapiro-Wilk untuk setosa
shapiro_setosa = stats.shapiro(setosa['sepal_width'])
print("Shapiro-Wilk test for Setosa (sepal_width):", shapiro_setosa)

# Uji normalitas dengan Shapiro-Wilk untuk versicolor
shapiro_versicolor = stats.shapiro(versicolor['sepal_width'])
print("Shapiro-Wilk test for Versicolor (sepal_width):", shapiro_versicolor)

Levene's test for homogeneity: LeveneResult(statistic=0.591002044989776, pvalue=0.44388064024686213)
Shapiro-Wilk test for Setosa (sepal_width): ShapiroResult(statistic=0.9717195199560363, pvalue=0.27152639563455816)
Shapiro-Wilk test for Versicolor (sepal_width): ShapiroResult(statistic=0.9741332819702798, pvalue=0.3379951061741378)


In [28]:
# Kode berikut melakukan uji hipotesis statistik untuk membandingkan 
# rata-rata sepal width (lebar kelopak) antara dua spesies bunga dalam dataset Iris: Setosa dan Versicolor.
# Fungsi dari modul scipy.stats yang digunakan adalah Two-Sample T-Test (Independent Samples T-Test).
# Uji ini digunakan untuk menentukan apakah ada perbedaan yang signifikan secara statistik antara rata-rata dua kelompok independen.

stats.ttest_ind(setosa['sepal_width'], versicolor['sepal_width'])

TtestResult(statistic=9.454975848128596, pvalue=1.8452599454769322e-15, df=98.0)

In [19]:
pip install pingouin

Collecting pingouin
  Downloading pingouin-0.5.5-py3-none-any.whl.metadata (19 kB)
Collecting pandas-flavor (from pingouin)
  Downloading pandas_flavor-0.6.0-py3-none-any.whl.metadata (6.3 kB)
Collecting tabulate (from pingouin)
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Collecting xarray (from pandas-flavor->pingouin)
  Downloading xarray-2024.11.0-py3-none-any.whl.metadata (11 kB)
Downloading pingouin-0.5.5-py3-none-any.whl (204 kB)
   ---------------------------------------- 0.0/204.4 kB ? eta -:--:--
   -------- ------------------------------- 41.0/204.4 kB ? eta -:--:--
   ------------ --------------------------- 61.4/204.4 kB 1.7 MB/s eta 0:00:01
   ---------------------------- ----------- 143.4/204.4 kB 1.1 MB/s eta 0:00:01
   ---------------------------- ----------- 143.4/204.4 kB 1.1 MB/s eta 0:00:01
   ---------------------------- ----------- 143.4/204.4 kB 1.1 MB/s eta 0:00:01
   ---------------------------- ----------- 143.4/204.4 kB 1.1 MB/s eta 0:00:01


[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [29]:
# Load dataset Iris menggunakan seaborn
iris = sns.load_dataset('iris')

# Menjalankan ANOVA (Analysis of Variance)
# ANOVA digunakan untuk menguji apakah rata-rata variabel dependen ('sepal_length')
# berbeda secara signifikan antara kelompok yang didefinisikan oleh variabel independen ('species').
aov = pg.anova(
    data=iris,               # Dataset yang digunakan
    dv='sepal_length',       # Dependent variable (variabel yang diuji)
    between='species',       # Between-subject factor (kelompok berdasarkan spesies)
    detailed=True            # Menampilkan hasil ANOVA yang lebih terperinci
)

# Menampilkan hasil ANOVA
print(aov)  
# Hasilnya :
# - 'Source': Sumber variasi (mis., species, residuals)
# - 'SS': Jumlah kuadrat (Sum of Squares) untuk setiap sumber
# - 'DF': Derajat kebebasan
# - 'MS': Mean Square (SS/DF)
# - 'F': Statistik F
# - 'p-unc': P-value yang menunjukkan signifikansi hasil

    Source         SS   DF         MS           F         p-unc       np2
0  species  63.212133    2  31.606067  119.264502  1.669669e-31  0.618706
1   Within  38.956200  147   0.265008         NaN           NaN       NaN


In [30]:
# Menggunakan MANOVA (Multivariate Analysis of Variance) untuk menguji apakah terdapat perbedaan yang signifikan 
# pada lebih dari satu variabel dependen secara bersamaan berdasarkan kelompok yang didefinisikan oleh variabel independen

from statsmodels.multivariate.manova import MANOVA
maov = MANOVA.from_formula('sepal_length + sepal_width + \
                            petal_length + petal_width  ~ species', data=iris)
print(maov.mv_test())

                   Multivariate linear model
                                                                
----------------------------------------------------------------
       Intercept         Value  Num DF  Den DF   F Value  Pr > F
----------------------------------------------------------------
          Wilks' lambda  0.0170 4.0000 144.0000 2086.7720 0.0000
         Pillai's trace  0.9830 4.0000 144.0000 2086.7720 0.0000
 Hotelling-Lawley trace 57.9659 4.0000 144.0000 2086.7720 0.0000
    Roy's greatest root 57.9659 4.0000 144.0000 2086.7720 0.0000
----------------------------------------------------------------
                                                                
----------------------------------------------------------------
        species          Value  Num DF  Den DF   F Value  Pr > F
----------------------------------------------------------------
          Wilks' lambda  0.0234 8.0000 288.0000  199.1453 0.0000
         Pillai's trace  1.1919 8.0000 290.00