In [71]:
import math
import statistics
import numpy as np
import scipy.stats

In [170]:
# buat suatu data berupa python list yang berisi data numerik secara random

x = [85.0, 2, 6.5, 5, 28.0]
x_dgn_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
x

[85.0, 2, 6.5, 5, 28.0]

In [171]:
[17.0, 1, 7.5, 4, 28.0]
x_dgn_nan

[8.0, 1, 2.5, nan, 4, 28.0]

In [74]:
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)
y

array([ 8. ,  1. ,  2.5,  4. , 28. ])

In [75]:
y_dgn_nan

array([ 8. ,  1. ,  2.5,  nan,  4. , 28. ])

In [76]:
# Menghitung Ukuran Pemusatan Data
mean_ = sum(x) / len(x)
mean_

8.7

In [77]:
mean_ = statistics.mean(x)
mean_

8.7

In [78]:
mean_ = statistics.fmean(x)
mean_

8.7

Fungsi fmean() itusebagai alternatif untuk perhitungan yang lebih cepat dan selalu menghasilkan nilai float. Namun, fungsi mean() dan fmean() akan menghasilkan nilai nan jika di dalam variabel yang dihitungnya berisi nilai nan:

In [79]:
mean_ = statistics.mean(x_dgn_nan)
mean_


nan

In [80]:
mean_ = statistics.fmean(x_dgn_nan)
mean_

nan

Jika kita ingin mengabaikan nilai nan yang ada pada variabel tersebut maka dapat menggunakan np.nanmean():

In [81]:
np.nanmean(y_dgn_nan)

8.7

Weighted Mean atau rataan berbobot merupakan generalisasi dari rataan aritmatika sehingga kita dapat menentukan kontribusi relatif (bobot) dari setiap data point untuk penghitungan hasilnya. Kita dapat menghitung weighted mean menggunakan python dengan menggabungkan antara sum() dengan range() atau zip() seperti pada contoh berikut:

In [82]:
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

wmean = sum(w[i] * x[i] for i in range(len(x))) / sum(w)
wmean

6.95

In [83]:
wmean = sum(x_ * w_ for (x_, w_) in zip(x, w)) / sum(w)
wmean

6.95

Tetapi jika kita memiliki dataset yang cukup besar maka NumPy memberikan soolusi yang lebih baik untuk penghitungan weighted mean ini menggunakan np.average():

In [84]:
y, w = np.array(x), np.array(w)
wmean = np.average(y, weights=w)
wmean

6.95

Hati-hati ketika melakukan perhitungan untuk data berisi nilai nan.

In [85]:
w = np.array([0.1, 0.2, 0.3, 0.0, 0.2, 0.1])
np.average(y_dgn_nan, weights=w)

nan

Harmonic Mean atau rataan harmonis 

In [86]:
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [87]:
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

In [88]:
scipy.stats.hmean(y)

2.7613412228796843

Geometric Mean atau rataan geometris merupakan akar pangkat -n dari seluruh hasil perkalian elemen 𝑥ᵢ

In [89]:
gmean = 1
for item in x:
    gmean *= item
gmean **= 1 / len(x)
gmean

4.677885674856041

In [90]:
gmean = statistics.geometric_mean(x)
gmean

4.67788567485604

In [91]:
scipy.stats.gmean(y)

4.67788567485604

Median suatu sampel merupakan nilai tengah dari dataset yang telah diurutkan. Dataset tersebut dapat diurutkan secara naik atau turun. Jika jumlah elemen n dari dataset adalah ganjil maka median adalah elemen pada posisi 0.5(n+1). Jika n genap, maka mediannya adalah rataan aritmatika dari dua nilai tengah, yaitu yang berada pada posisi 0.5n dan 0.5n+1. Perbedaan utama antara sifat mean dan median dari suatu dataset adalah hubungannya dengan outlier pada dataset tersebut. Nilai mean sangat dipengaruhi oleh outlier sedangkan nilai median hampir tidak dipengaruhi atau bahkan tidak dipengaruhi sama sekali. Perhatikan gambar berikut:

In [92]:
n = len(x)

if n % 2:
    median_ = sorted(x)[round(0.5*(n-1))]
else:
    x_ord, index = sorted(x), round(0.5 * n)
    median_ = 0.5 * (x_ord[index-1] + x_ord[index])
median_

4

In [93]:
median_ = statistics.median(x)
median_

4

In [94]:
median_ = np.median(y)
median_

4.0

Mode atau modus dari suatu sampel dataset adalah nilai yang paling banyak muncul dalam dataset tersebut. Dengan python kita dapat menghasilkan nilai modus suatu dataset sebagai berikut:

In [95]:
u = [2, 3, 2, 8, 12]
mode_ = max((u.count(item), item) for item in set(u))[1]
mode_

2

In [96]:
mode_ = statistics.mode(u)
mode_

2

In [97]:
mode_ = statistics.multimode(u)
mode_

[2]

In [98]:
v = [12, 15, 12, 15, 21, 15, 12]
statistics.mode(v)  # StatisticsError
statistics.multimode(v)

[12, 15]

In [99]:
u, v = np.array(u), np.array(v)
mode_ = scipy.stats.mode(u)
mode_

  mode_ = scipy.stats.mode(u)


ModeResult(mode=array([2]), count=array([2]))

In [100]:
mode_ = scipy.stats.mode(v)
mode_

  mode_ = scipy.stats.mode(v)


ModeResult(mode=array([12]), count=array([3]))

Menghitung Ukuran Sebaran Data. Ukuran pemusatan saja tidak cukup untuk menjelaskan suatu data, kita juga perlu menghitung ukuran sebaran data. Beberapa ukuran sebaran data yang perlu diketahui yaitu:

Variance atau variansi. Menghitung variansi menggunakan python dapat dilakukan dengan cara berikut:

In [101]:
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
var_

123.19999999999999

In [102]:
var_ = statistics.variance(x)
var_

123.2

In [103]:
var_ = np.var(y, ddof=1)
var_

123.19999999999999

In [104]:
var_ = y.var(ddof=1)
var_

123.19999999999999

Penting untuk mendefinisikan nilai ddof=1. Parameter ini digunakan agar perhitungan nilai s2 sesuai yaitu menggunakan n-1 sebagai pembagi bukan n saja. Untuk dataset yang memiliki nilai nan, kita dapat mengabaikan nilai nan tersebut dengan np.nanvar():

In [105]:
np.nanvar(y_dgn_nan, ddof=1)

123.19999999999999

Standar Deviasi atau simpangan baku. Menghitung standar deviasi menggunakan python dapat dilakukan dengan cara:

In [106]:
std_ = var_ ** 0.5
std_

11.099549540409285

In [107]:
std_ = statistics.stdev(x)
std_

11.099549540409287

In [108]:
np.std(y, ddof=1)

11.099549540409285

In [109]:
y.std(ddof=1)

11.099549540409285

In [110]:
np.std(y_dgn_nan, ddof=1)

nan

In [111]:
y_dgn_nan.std(ddof=1)

nan

In [112]:
np.nanstd(y_dgn_nan, ddof=1)

11.099549540409285

Skewness, nilai dari skewness dapat dihasilkan menggunakan python dengan cara:

In [113]:
x = [8.0, 1, 2.5, 4, 28.0]
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5
skew_ = (sum((item - mean_)**3 for item in x)
             * n / ((n - 1) * (n - 2) * std_**3))
skew_

1.9470432273905929

In [114]:
y, y_dgn_nan = np.array(x), np.array(x_dgn_nan)
scipy.stats.skew(y, bias=False)

1.9470432273905927

In [115]:
scipy.stats.skew(y_dgn_nan, bias=False)

nan

Percentiles ke-p dari sekumpulan data adalah nilai dimana p% dari data tersebut berada dibawahnya. Setiap data memiliki tiga nilai kuartil, yang membagi data menjadi 4 bagian sama besar.

In [116]:
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]
y = np.array(x)
np.percentile(y, 5)

-3.44

In [117]:
np.percentile(y, 95)

34.919999999999995

Jika kita ingin mengabaikan nilai nan pada data maka digunakan np.nanpercentile():

In [118]:
y_dgn_nan = np.insert(y, 2, np.nan)
y_dgn_nan

array([-5. , -1.1,  nan,  0.1,  2. ,  8. , 12.8, 21. , 25.8, 41. ])

In [119]:
np.nanpercentile(y_dgn_nan, [25, 50, 75])

array([ 0.1,  8. , 21. ])

Ranges dari data adalah selisih antara elemen maksimum dan elemen minimum pada suatu dataset. Kita dapat menghitungnya dengan fungsi np.ptp():

In [120]:
np.ptp(y)

46.0

In [121]:
np.ptp(y_dgn_nan)

nan

In [122]:
np.amax(y) - np.amin(y)

46.0

In [123]:
np.nanmax(y_dgn_nan) - np.nanmin(y_dgn_nan)

46.0

In [124]:
y.max() - y.min()

46.0

Menghitung Korelasi Antara Sepasang Data. Korelasi atau hubungan antara sepasang data dapat dilihat dengan menghitung:

Covariance, dengan menggunakan fungsi dari python kovariansi dapat dihitung sebagai berikut:

In [125]:
n = len(x)
mean_x, mean_y = sum(x) / n, sum(y) / n
cov_xy = (sum((x[k] - mean_x) * (y[k] - mean_y) for k in range(n))
        / (n - 1))
cov_xy

228.75194444444446

Dengan menggunakan np.cov() dari NumPy kita akan mendapatkan matriks kovariansi:

In [126]:
cov_matrix = np.cov(x, y)
cov_matrix

array([[228.75194444, 228.75194444],
       [228.75194444, 228.75194444]])

In [127]:
var_x = sum((item - mean_x)**2 for item in x) / (n - 1)
var_y = sum((item - mean_y)**2 for item in y) / (n - 1)
std_x, std_y = var_x ** 0.5, var_y ** 0.5
r = cov_xy / (std_x * std_y)
r

1.0

# Membuat array NumPy

In [135]:
import numpy as np
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)

* np.zeros(): Membuat array dengan elemen nol.
* np.ones(): Membuat array dengan elemen satu.
* np.arange(): Membuat array dengan rentang nilai.
* np.linspace(): Membuat array dengan sejumlah nilai terdistribusi linier.
* np.random.rand(): Membuat array dengan elemen acak.
* np.zeros_like(): Membuat array nol dengan bentuk yang sama seperti array yang ada.
* np.ones_like(): Membuat array satu dengan bentuk yang sama seperti array yang ada.
* np.copy(): Membuat salinan array.
* shape: Atribut yang mengembalikan tupel yang menyatakan bentuk (jumlah baris, jumlah kolom, dll.) dari array.
* size: Atribut yang mengembalikan jumlah elemen dalam array.
* dtype: Atribut yang menunjukkan tipe data elemen dalam array.
* ndim: Atribut yang menunjukkan jumlah dimensi dalam array.
* Indexing: Anda dapat mengakses elemen array dengan menggunakan indeks
* Slicing: Anda dapat menggunakan slicing untuk mengambil potongan dari array.
* Bentuk (Shape): Merupakan atribut yang menyatakan dimensi array, seperti (baris, kolom) untuk array dua dimensi.
* Tipe Data (Data Type): Menunjukkan tipe data elemen dalam array, seperti int, float, string, dll.
* Dimensi (Number of Dimensions - ndim): Merupakan jumlah dimensi dalam array, seperti 1 untuk array satu dimensi, 2 untuk array dua dimensi, dan seterusnya.
* Operasi elemen-wise: Anda dapat melakukan operasi matematika pada semua elemen array, seperti penambahan, pengurangan, perkalian, dan pembagian.
* Operasi matriks: NumPy mendukung operasi matriks seperti dot product dan perkalian matriks.
* Fungsi matematika: NumPy memiliki berbagai fungsi matematika bawaan seperti np.sum(), np.mean(), np.min(), np.max(), dan banyak lagi untuk analisis statistik.

In [153]:
# Mengakses elemen array
import numpy as np
my_array = np.array([1, 2, 3, 4, 5])
# Mengakses elemen pertama
elemen_pertama = my_array[0]  # Hasilnya 1
# Mengakses elemen ketiga
elemen_ketiga = my_array[2]  # Hasilnya 3
my_array = np.array([[1, 2, 3], [4, 5, 6]])
# Mengakses elemen di baris pertama dan kolom kedua
elemen = my_array[0, 1]  # Hasilnya 2
my_array = np.array([1, 2, 3, 4, 5])
# Mengambil elemen kedua hingga keempat
subset1 = my_array[1:4]  # Hasilnya [2, 3, 4]
# Mengambil elemen dengan indeks genap
subset2 = my_array[::2]  # Hasilnya [1, 3, 5]
my_array = np.array([[1, 2, 3], [4, 5, 6]])
# Mengambil baris kedua
baris_kedua = my_array[1, :]  # Hasilnya [4, 5, 6]
# Mengambil kolom kedua
kolom_kedua = my_array[:, 1]  # Hasilnya [2, 5]
my_array = np.array([1, 2, 3, 4, 5])
# Mengganti nilai elemen kedua menjadi 10
my_array[1] = 10
my_array = np.array([[1, 2, 3], [4, 5, 6]])
# Mengganti nilai elemen di baris pertama dan kolom kedua
my_array[0, 1] = 20

In [152]:
print(my_array)
print(elemen_pertama)
print(elemen_ketiga)
print(elemen)
print(kolom_kedua)
print(baris_kedua)
print(subset1)
print(subset2)

[ 1 10  3  4  5]
1
3
2
[2 5]
[4 5 6]
[2 3 4]
[1 3 5]


# OPERASI MATEMATIKA

Operasi elemen-wise adalah operasi yang diterapkan pada setiap elemen dalam array NumPy secara terpisah. Dalam konteks ini, elemen-wise berarti setiap elemen dalam array yang sesuai berinteraksi satu sama lain sesuai dengan aturan operasi yang Anda tentukan.

In [156]:
import numpy as np
# Membuat dua array
array_a = np.array([1, 2, 3, 4])
array_b = np.array([5, 6, 7, 8])
# Penambahan elemen-wise
result = array_a + array_b  # Hasilnya [6, 8, 10, 12]
# Pengurangan elemen-wise
# result = array_a - array_b  # Hasilnya [-4, -4, -4, -4]
# Perkalian elemen-wise
# result = array_a * array_b  # Hasilnya [5, 12, 21, 32]
# Pembagian elemen-wise
# result = array_a / array_b  # Hasilnya [0.2, 0.33333333, 0.42857143, 0.5]

In [157]:
print(result)

[ 6  8 10 12]


Operasi matriks dalam NumPy, seperti dot product, digunakan untuk mengalikan dua array dengan aturan perkalian matriks. Untuk menghitung dot product, Anda dapat menggunakan np.dot() atau metode .dot() pada array NumPy.

In [160]:
import numpy as np

# Membuat dua matriks
matrix_a = np.array([[1, 2], [3, 4]])
matrix_b = np.array([[5, 6], [7, 8]])

# Menghitung dot product
result = np.dot(matrix_a, matrix_b)
print(result)

[[19 22]
 [43 50]]


* np.sum(): Menghitung jumlah elemen dalam array.
* np.mean(): Menghitung rata-rata dari elemen-elemen array.
* np.min(): Mengambil nilai terkecil dalam array.
* np.max(): Mengambil nilai terbesar dalam array.
* np.sqrt(): Menghitung akar kuadrat dari setiap elemen dalam array.
* np.exp(): Menghitung eksponensial dari setiap elemen dalam array.

In [166]:
import numpy as np
my_array = np.array([7, 3, 12, 10, 9, 20, 17])
# Menghitung sum
total = np.sum(my_array)  # Hasilnya 15
# Menghitung mean
average = np.mean(my_array)  # Hasilnya 3.0
# Menghitung akar kuadrat
square_root = np.sqrt(my_array)

In [167]:
print(square_root)

[2.64575131 1.73205081 3.46410162 3.16227766 3.         4.47213595
 4.12310563]


# STATISTIKA DASAR

Rata-rata (Mean): Rata-rata adalah nilai tengah dari sejumlah data. Anda dapat menghitung rata-rata dari sebuah array NumPy menggunakan fungsi np.mean() atau np.average().

In [188]:
import numpy as np

data = np.array([55, 44, 33, 25, 15, 49, 67])
mean = np.mean(data)
mean

41.142857142857146

Median: Median adalah nilai tengah dalam data yang telah diurutkan. Anda dapat menghitung median dengan menggunakan fungsi np.median().

In [189]:
data = np.array([55, 44, 33, 25, 15, 49, 67])
median = np.median(data)
median

44.0

Modus (Mode): Modus adalah nilai yang muncul paling sering dalam data. NumPy tidak memiliki fungsi bawaan untuk menghitung modus, tetapi Anda dapat menggunakan library lain seperti scipy.stats untuk menghitung modus.

* Nilai Terkecil (Minimum): Nilai terkecil dalam data dapat dihitung dengan fungsi np.min().
* Nilai Terbesar (Maximum): Nilai terbesar dalam data dapat dihitung dengan fungsi np.max().
* Jumlah (Sum): Jumlah adalah hasil dari penjumlahan semua nilai dalam data. Anda dapat menghitung jumlah dengan fungsi np.sum().
* Variansi (Variance): Variansi mengukur sejauh mana data tersebar dari rata-rata. Anda dapat menghitung variansi dengan fungsi np.var().
* Deviasi Standar (Standard Deviation): Deviasi standar adalah akar kuadrat dari variansi dan mengukur sejauh mana data tersebar dari rata-rata. Anda dapat menghitung deviasi standar dengan fungsi np.std().

In [190]:
data = np.array([55, 44, 33, 25, 15, 49, 17])
minimum = np.min(data)
minimum

15

In [191]:
maximum = np.max(data)
maximum

55

In [192]:
data = np.array([55, 44, 33, 25, 15, 49, 17])
total = np.sum(data)
total

238

In [193]:
data = np.array([55, 44, 33, 25, 15, 49, 17])
variance = np.var(data)
variance

214.0

In [194]:
data = np.array([55, 44, 33, 25, 15, 49, 17])
std_deviation = np.std(data)
std_deviation

14.628738838327793