 # Pengenalan Singkat tentang Manipulasi Data Numerik dengan Python dan NumPy

 ## Apa itu NumPy?



 [NumPy](https://numpy.org/doc/stable/index.html) merupakan kependekan dari numerical Python. Ini adalah dasar dari semua jenis komputasi ilmiah dan numerik di Python.



 Dan karena machine learning adalah tentang mengubah data menjadi angka dan kemudian mencari pola-pola di dalamnya, NumPy sering kali terlibat.



 <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/768px-NumPy_logo_2020.svg.png?20200723114325" alt="kerangka 6 langkah machine learning beserta tools yang dapat digunakan untuk setiap langkah" width="500"/>

 ## Mengapa NumPy?



 Kita dapat melakukan perhitungan numerik menggunakan pure Python. Di awal, kita mungkin mengira Python cepat tetapi begitu data menjadi besar, kita mulai merasakan perlambatan.



 Salah satu alasan utama kita menggunakan NumPy adalah karena kecepatannya. Di balik layar, kode telah dioptimalkan untuk berjalan menggunakan C. Di mana, C merupakan bahasa pemrograman lain, yang dapat melakukan hal-hal jauh lebih cepat daripada Python.



 Keuntungan dari hal ini berada di balik layar, yaitu kita tidak perlu tahu apa pun tentang C untuk mengambil manfaatnya. Kita dapat menulis komputasi numerik kita dalam Python menggunakan NumPy dan mendapatkan keuntungan tambahan dari kecepatan tersebut.



 Jika kalian penasaran dengan apa yang menyebabkan keuntungan kecepatan ini, itu adalah proses yang disebut vectorization. [Vectorization](https://en.wikipedia.org/wiki/Vectorization) bertujuan melakukan perhitungan dengan menghindari loop karena loop dapat menciptakan potensi bottleneck.



 NumPy mencapai vectorization melalui proses yang disebut [broadcasting](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#module-numpy.doc.broadcasting).

 ## Apa yang akan dibahas dalam notebook ini?



 Library NumPy sangat mumpuni. Namun, belajar semuanya secara hafal tidak diperlukan. Sebagai gantinya, notebook ini berfokus pada konsep-konsep utama NumPy dan tipe data `ndarray`.



 Kita dapat menganggap tipe data `ndarray` sebagai array angka yang sangat fleksibel.



 Secara lebih spesifik, kita akan melihat:

 * Tipe data dan atribut NumPy

 * Membuat array

 * Melihat array dan matriks (indexing)

 * Memanipulasi dan membandingkan array

 * Mengurutkan array

 * Kasus penggunaan (contoh mengubah sesuatu menjadi angka)



 Setelah melewati ini, kalian akan memiliki pengetahuan dasar NumPy yang diperlukan untuk terus bergerak maju.

 ## 0. Mengimpor NumPy



 Untuk mulai menggunakan NumPy, langkah pertama adalah mengimpornya.



 Cara paling umum (dan metode yang harus kalian gunakan) adalah mengimpor NumPy sebagai singkatan `np`.



 Jika kalian melihat huruf `np` digunakan di mana pun dalam machine learning atau data science, itu kemungkinan besar mengacu pada library NumPy.

In [1]:
import numpy as np

 ## 1. Tipe Data dan atribut



 > **Catatan:** Penting untuk diingat bahwa tipe utama di NumPy adalah `ndarray`, bahkan array yang tampak berbeda tetap merupakan `ndarray`. Ini berarti operasi yang kalian lakukan pada satu array, akan bekerja pada array lainnya.

In [2]:
# array 1-dimensi, juga disebut sebagai vektor
a1 = np.array([1, 2, 3])

# array 2-dimensi, juga disebut sebagai matriks
a2 = np.array([[1, 2.0, 3.3],
               [4, 5, 6.5]])

# array 3-dimensi, juga disebut sebagai matriks
a3 = np.array([[[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]],
                [[10, 11, 12],
                 [13, 14, 15],
                 [16, 17, 18]]])


In [3]:
a1.shape, a1.ndim, a1.dtype, a1.size, type(a1)


((3,), 1, dtype('int32'), 3, numpy.ndarray)

In [4]:
a2.shape, a2.ndim, a2.dtype, a2.size, type(a2)


((2, 3), 2, dtype('float64'), 6, numpy.ndarray)

In [5]:
a3.shape, a3.ndim, a3.dtype, a3.size, type(a3)


((2, 3, 3), 3, dtype('int32'), 18, numpy.ndarray)

In [6]:
a1


array([1, 2, 3])

In [7]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [8]:
a3


array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

 ### Anatomi dari sebuah array



 <img src="https://lh3.googleusercontent.com/d/1hkppMzUizKbvePPx6jJEWJ0V6xvDzdjm" alt="anatomi dari sebuah array numpy"/>



 Istilah kunci:

 * **Array** - Sebuah daftar angka, bisa berupa multi-dimensi.

 * **Skalar** - Sebuah angka tunggal (misalnya `7`).

 * **Vektor** - Sebuah daftar angka dengan 1-dimensi (misalnya `np.array([1, 2, 3])`).

 * **Matriks** - Sebuah (biasanya) daftar multi-dimensi dari angka (misalnya `np.array([[1, 2, 3], [4, 5, 6]])`).

 ### DataFrame pandas dari array NumPy



 Ini untuk memberikan contoh bagaimana NumPy adalah dasar dari banyak library lainnya.

In [9]:
import pandas as pd
df = pd.DataFrame(np.random.randint(10, size=(5, 3)), 
                                    columns=['a', 'b', 'c'])
df


Unnamed: 0,a,b,c
0,8,3,6
1,4,5,7
2,2,1,5
3,9,2,3
4,8,2,1


In [10]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [11]:
df2 = pd.DataFrame(a2)
df2


Unnamed: 0,0,1,2
0,1.0,2.0,3.3
1,4.0,5.0,6.5


 ## 2. Membuat array



 * `np.array()`

 * `np.ones()`

 * `np.zeros()`

 * `np.random.rand(5, 3)`

 * `np.random.randint(10, size=5)`

 * `np.random.seed()` - angka pseudo random

 * Contoh pencarian dokumentasi (mencari `np.unique()` dan menggunakannya)

In [12]:
# Buat sebuah array sederhana
simple_array = np.array([1, 2, 3])
simple_array


array([1, 2, 3])

In [13]:
simple_array = np.array((1, 2, 3))
simple_array, simple_array.dtype


(array([1, 2, 3]), dtype('int32'))

In [14]:
# Buat sebuah array dari satu
ones = np.ones((10, 2))
ones


array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [15]:
# Tipe data default adalah 'float64'
ones.dtype


dtype('float64')

In [16]:
# Kita dapat mengubah tipe data dengan .astype()
ones.astype(int)


array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]])

In [17]:
# Buat sebuah array dari nol
zeros = np.zeros((5, 3, 3))
zeros


array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [18]:
zeros.dtype


dtype('float64')

In [19]:
# Buat sebuah array dalam rentang nilai
range_array = np.arange(0, 10, 2)
range_array


array([0, 2, 4, 6, 8])

In [20]:
# Array acak
random_array = np.random.randint(10, size=(5, 3))
random_array


array([[0, 0, 3],
       [8, 7, 8],
       [4, 9, 0],
       [6, 5, 9],
       [5, 7, 5]])

In [21]:
# Array acak dari float (antara 0 & 1)
np.random.random((5, 3))


array([[0.58277825, 0.94198094, 0.1633606 ],
       [0.21579891, 0.89531904, 0.9001366 ],
       [0.26192566, 0.85019176, 0.86979701],
       [0.9752435 , 0.00746389, 0.09897536],
       [0.81722346, 0.65398076, 0.31268003]])

In [22]:
np.random.random((5, 3))


array([[0.4833849 , 0.25650962, 0.77449533],
       [0.7580056 , 0.19277655, 0.23164787],
       [0.01440276, 0.76279078, 0.77705943],
       [0.59817287, 0.399112  , 0.15912841],
       [0.32088731, 0.47698683, 0.52400211]])

In [23]:
# Array 5x3 acak dari float (antara 0 & 1), mirip dengan di atas
np.random.rand(5, 3)


array([[5.13642113e-01, 8.76559243e-01, 9.54315194e-01],
       [6.97076141e-01, 9.59020090e-01, 1.60963659e-01],
       [3.91798820e-01, 8.49638171e-01, 1.65835018e-04],
       [7.84873191e-01, 7.23092231e-01, 9.20921375e-01],
       [1.29527212e-01, 6.12628843e-01, 5.17151835e-02]])

In [24]:
np.random.rand(5, 3)


array([[0.1158417 , 0.77568747, 0.78920951],
       [0.79843609, 0.14891057, 0.8952563 ],
       [0.6315488 , 0.82195251, 0.67649927],
       [0.65794702, 0.08811049, 0.08236281],
       [0.80495716, 0.40565122, 0.7204352 ]])

 NumPy menggunakan angka pseudo-random, yang artinya, angka-angka tersebut terlihat acak tetapi sebenarnya bukan, mereka telah ditentukan sebelumnya.



 Untuk konsistensi, kalian mungkin ingin menjaga angka acak yang kalian hasilkan tetap serupa sepanjang eksperimen.



 Untuk melakukan ini, kalian dapat menggunakan [`np.random.seed()`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.seed.html).



 Ini memberitahu NumPy, "Hei, aku ingin kamu membuat angka acak tetapi jaga agar tetap sejajar dengan seed."



 Mari kita lihat.

In [25]:
# Atur seed acak ke 0
np.random.seed(0)

# Buat angka 'acak'
np.random.randint(10, size=(5, 3))


array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2],
       [4, 7, 6],
       [8, 8, 1]])

 Dengan `np.random.seed()` diatur, setiap kali kalian menjalankan sel di atas, angka acak yang sama akan dihasilkan.



 Bagaimana jika `np.random.seed()` tidak diatur?



 Setiap kali kalian menjalankan sel di bawah, kumpulan angka baru akan muncul.

In [26]:
# Buat lebih banyak angka acak
np.random.randint(10, size=(5, 3))


array([[6, 7, 7],
       [8, 1, 5],
       [9, 8, 9],
       [4, 3, 0],
       [3, 5, 0]])

 Mari kita lihat lagi, kita akan tetap konsisten dan mengatur seed acak ke 0.

In [27]:
# Atur seed acak ke angka yang sama seperti di atas
np.random.seed(0)

# Angka acak yang sama keluar
np.random.randint(10, size=(5, 3))


array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2],
       [4, 7, 6],
       [8, 8, 1]])

 Karena `np.random.seed()` diatur ke 0, angka acaknya sama dengan sel yang memiliki `np.random.seed()` diatur ke 0 juga.



 Mengatur `np.random.seed()` tidak 100% diperlukan tetapi ini membantu menjaga angka tetap sama sepanjang eksperimen kalian.



 Misalnya, katakanlah kalian ingin membagi data secara acak menjadi set pelatihan dan uji.



 Setiap kali kalian membagi secara acak, kalian mungkin mendapatkan baris yang berbeda di setiap set.



 Jika kalian berbagi pekerjaan kalian dengan orang lain, mereka juga akan mendapatkan baris yang berbeda di setiap set.



 Mengatur `np.random.seed()` memastikan masih ada keacakan, hanya saja membuat keacakan tersebut dapat diulang. Karena itu disebut angka 'pseudo-random'.

In [28]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(10, size=(5, 3)))
df


Unnamed: 0,0,1,2
0,5,0,3
1,3,7,9
2,3,5,2
3,4,7,6
4,8,8,1


 ### Apa nilai-nilai unik yang ada dalam array a3?



 Sekarang kalian telah melihat beberapa cara berbeda untuk membuat array, sebagai latihan, cobalah cari fungsi NumPy yang bisa digunakan untuk menemukan nilai-nilai unik yang ada dalam array `a3`.



 Kalian mungkin ingin mencari seperti, "bagaimana menemukan nilai-nilai unik dalam array numpy".

In [29]:
# Kode kalian di sini

unique_a3 = np.unique(a3)
unique_a3

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18])

 ## 3. Melihat array dan matriks (indexing)



 Ingat, karena array dan matriks keduanya merupakan `ndarray`, mereka dapat dilihat dengan cara yang serupa.



 Mari kita cek kembali 3 array kita.

In [30]:
a1


array([1, 2, 3])

In [31]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [32]:
a3


array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

 Bentuk array selalu tercantum dalam format `(baris, kolom, n, n, n...)` di mana `n` adalah dimensi tambahan opsional.

In [33]:
a1[0]


1

In [34]:
a2[0]


array([1. , 2. , 3.3])

In [35]:
a3[0]


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
# Dapatkan baris ke-2 (indeks 1) dari a2
a2[1]


array([4. , 5. , 6.5])

In [39]:
# Dapatkan 2 nilai pertama dari 2 baris pertama dari kedua array
a3[:2, :2, :2]


array([[[ 1,  2],
        [ 4,  5]],

       [[10, 11],
        [13, 14]]])

 Ini membutuhkan sedikit latihan, terutama ketika dimensinya menjadi lebih tinggi. Biasanya, saya melakukan sedikit percobaan dan kesalahan untuk mencoba mendapatkan nilai-nilai tertentu, melihat output di notebook dan mencoba lagi.



 Array NumPy dicetak dari luar ke dalam. Ini berarti angka di akhir bentuk muncul pertama, dan angka di awal bentuk muncul terakhir.

In [40]:
a4 = np.random.randint(10, size=(2, 3, 4, 5))
a4


array([[[[6, 7, 7, 8, 1],
         [5, 9, 8, 9, 4],
         [3, 0, 3, 5, 0],
         [2, 3, 8, 1, 3]],

        [[3, 3, 7, 0, 1],
         [9, 9, 0, 4, 7],
         [3, 2, 7, 2, 0],
         [0, 4, 5, 5, 6]],

        [[8, 4, 1, 4, 9],
         [8, 1, 1, 7, 9],
         [9, 3, 6, 7, 2],
         [0, 3, 5, 9, 4]]],


       [[[4, 6, 4, 4, 3],
         [4, 4, 8, 4, 3],
         [7, 5, 5, 0, 1],
         [5, 9, 3, 0, 5]],

        [[0, 1, 2, 4, 2],
         [0, 3, 2, 0, 7],
         [5, 9, 0, 2, 7],
         [2, 9, 2, 3, 3]],

        [[2, 3, 4, 1, 2],
         [9, 1, 4, 6, 8],
         [2, 3, 0, 0, 6],
         [0, 6, 3, 3, 8]]]])

In [41]:
a4.shape


(2, 3, 4, 5)

In [42]:
# Dapatkan hanya 4 angka pertama dari setiap vektor tunggal
a4[:, :, :, :4]


array([[[[6, 7, 7, 8],
         [5, 9, 8, 9],
         [3, 0, 3, 5],
         [2, 3, 8, 1]],

        [[3, 3, 7, 0],
         [9, 9, 0, 4],
         [3, 2, 7, 2],
         [0, 4, 5, 5]],

        [[8, 4, 1, 4],
         [8, 1, 1, 7],
         [9, 3, 6, 7],
         [0, 3, 5, 9]]],


       [[[4, 6, 4, 4],
         [4, 4, 8, 4],
         [7, 5, 5, 0],
         [5, 9, 3, 0]],

        [[0, 1, 2, 4],
         [0, 3, 2, 0],
         [5, 9, 0, 2],
         [2, 9, 2, 3]],

        [[2, 3, 4, 1],
         [9, 1, 4, 6],
         [2, 3, 0, 0],
         [0, 6, 3, 3]]]])

 Bentuk `a4` adalah (2, 3, 4, 5), ini berarti ditampilkan sebagai berikut:

 * Array paling dalam = ukuran 5

 * Array berikutnya = ukuran 4

 * Array berikutnya = ukuran 3

 * Array paling luar = ukuran 2

 ## 4. Memanipulasi dan membandingkan array

 * Aritmatika

     * `+`, `-`, `*`, `/`, `//`, `**`, `%`

     * `np.exp()`

     * `np.log()`

     * [Dot product](https://www.mathsisfun.com/algebra/matrix-multiplying.html) - `np.dot()`

     * Broadcasting

 * Agregasi

     * `np.sum()` - lebih cepat daripada `.sum()` milik Python untuk array NumPy

     * `np.mean()`

     * `np.std()`

     * `np.var()`

     * `np.min()`

     * `np.max()`

     * `np.argmin()` - temukan indeks nilai minimum

     * `np.argmax()` - temukan indeks nilai maksimum

     * Ini bekerja pada semua `ndarray`

         * `a4.min(axis=0)` -- kalian juga dapat menggunakan axis

 * Mengubah bentuk

     * `np.reshape()`

 * Transposisi

     * `a3.T`

 * Operator perbandingan

     * `>`

     * `<`

     * `<=`

     * `>=`

     * `x != 3`

     * `x == 3`

     * `np.sum(x > 3)`

 ### Aritmatika

In [43]:
a1


array([1, 2, 3])

In [44]:
ones = np.ones(3)
ones


array([1., 1., 1.])

In [45]:
# Tambahkan dua array
a1 + ones


array([2., 3., 4.])

In [46]:
# Kurangi dua array
a1 - ones


array([0., 1., 2.])

In [47]:
# Kalikan dua array
a1 * ones


array([1., 2., 3.])

In [50]:
# Kalikan dua array
a1 * a2


array([[ 1. ,  4. ,  9.9],
       [ 4. , 10. , 19.5]])

In [49]:
a1.shape, a2.shape


((3,), (2, 3))

In [51]:
# Ini akan error karena array memiliki jumlah dimensi yang berbeda (2, 3) vs. (2, 3, 3) 
a2 * a3


ValueError: operands could not be broadcast together with shapes (2,3) (2,3,3) 

In [52]:
a3


array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

 ### Broadcasting



 - Apa itu broadcasting?

     - Broadcasting adalah fitur dari NumPy yang melakukan operasi di seluruh berbagai dimensi data tanpa mereplikasi data. Ini menghemat waktu dan ruang. Misalnya, jika kita memiliki array 3x3 (A) dan ingin menambahkan array 1x3 (B), NumPy akan menambahkan baris dari (B) ke setiap baris dari (A).



 - Aturan Broadcasting

     1. Jika dua array berbeda dalam jumlah dimensinya, bentuk array dengan jumlah dimensi lebih sedikit diisi dengan angka satu di sisi awalnya (kiri).

     2. Jika bentuk dua array tidak cocok di dimensi manapun, array dengan bentuk sama dengan 1 di dimensi tersebut diregangkan agar cocok dengan bentuk lainnya.

     3. Jika dimensi manapun ukurannya tidak cocok dan tidak ada yang sama dengan 1, muncul error.





 **Aturan broadcasting:**

 Agar dapat broadcasting, ukuran sumbu akhir dari kedua array dalam operasi harus sama atau salah satunya harus berukuran satu.

In [53]:
a1


array([1, 2, 3])

In [54]:
a1.shape


(3,)

In [55]:
a2.shape


(2, 3)

In [56]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [57]:
a1 + a2


array([[2. , 4. , 6.3],
       [5. , 7. , 9.5]])

In [58]:
a2 + 2


array([[3. , 4. , 5.3],
       [6. , 7. , 8.5]])

In [59]:
# Muncul error karena ada ketidakcocokan bentuk (2, 3) vs. (2, 3, 3)
a2 + a3


ValueError: operands could not be broadcast together with shapes (2,3) (2,3,3) 

In [60]:
# Bagi dua array
a1 / ones


array([1., 2., 3.])

In [61]:
# Bagi menggunakan floor division
a2 // a1


array([[1., 1., 1.],
       [4., 2., 2.]])

In [62]:
# Ambil array ke pangkat
a1 ** 2


array([1, 4, 9])

In [63]:
# Kita juga dapat menggunakan np.square()
np.square(a1)


array([1, 4, 9])

In [64]:
# Modulus bagi (apa sisanya)
a1 % 2


array([1, 0, 1], dtype=int32)

 Kita juga dapat menemukan log atau eksponen dari sebuah array menggunakan `np.log()` dan `np.exp()`.

In [65]:
# Temukan log dari sebuah array
np.log(a1)


array([0.        , 0.69314718, 1.09861229])

In [66]:
# Temukan eksponen dari sebuah array
np.exp(a1)


array([ 2.71828183,  7.3890561 , 20.08553692])

 ### Agregasi



 Agregasi - menggabungkan hal-hal, melakukan hal yang serupa pada sejumlah hal.

In [67]:
sum(a1)


6

In [68]:
np.sum(a1)


6

 **Tip:** Gunakan `np.sum()` milik NumPy pada array NumPy dan `sum()` milik Python pada `list` Python.

In [71]:
massive_array = np.random.random(10000)
massive_array.size, type(massive_array)

(10000, numpy.ndarray)

In [72]:
%timeit sum(massive_array) # Python sum()
%timeit np.sum(massive_array) # NumPy np.sum()


686 µs ± 12.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
7.32 µs ± 360 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


 Perhatikan `np.sum()` lebih cepat pada array Numpy (`numpy.ndarray`) daripada `sum()` milik Python.



 Sekarang mari kita coba pada list Python.

In [73]:
import random 
massive_list = [random.randint(0, 10) for i in range(100000)]
len(massive_list), type(massive_list)


(100000, list)

In [74]:
massive_list[:10]


[10, 3, 9, 10, 2, 0, 0, 8, 4, 3]

In [75]:
%timeit sum(massive_list)
%timeit np.sum(massive_list)


778 µs ± 37.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
4.36 ms ± 24.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


 `np.sum()` milik NumPy tetap cepat tetapi `sum()` milik Python lebih cepat pada `list` Python.

In [76]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [77]:
# Temukan rata-rata
np.mean(a2)


3.6333333333333333

In [78]:
# Temukan maksimum
np.max(a2)


6.5

In [79]:
# Temukan minimum
np.min(a2)


1.0

In [80]:
# Temukan simpangan baku
np.std(a2)


1.8226964152656422

In [81]:
# Temukan variansi
np.var(a2)


3.3222222222222224

In [82]:
# Simpangan baku adalah akar kuadrat dari variansi
np.sqrt(np.var(a2))


1.8226964152656422

 **Apa itu mean?**



 Mean sama dengan rata-rata. Kita dapat menemukan rata-rata dari kumpulan angka dengan menjumlahkan semua angka tersebut dan membaginya dengan jumlah angka tersebut.



 **Apa itu simpangan baku?**



 [Simpangan baku](https://www.mathsisfun.com/data/standard-deviation.html) adalah ukuran seberapa tersebarnya angka-angka tersebut.



 **Apa itu variansi?**



 [Variansi](https://www.mathsisfun.com/data/standard-deviation.html) adalah rata-rata kuadrat selisih dari mean.



 Untuk menghitungnya, kita:

 1. Hitung mean

 2. Untuk setiap angka, kurangi dengan mean dan kuadratkan hasilnya

 3. Temukan rata-rata dari kuadrat selisih tersebut

In [83]:
# Demo dari variansi
high_var_array = np.array([1, 100, 200, 300, 4000, 5000])
low_var_array = np.array([2, 4, 6, 8, 10])

np.var(high_var_array), np.var(low_var_array)


(4296133.472222221, 8.0)

In [84]:
np.std(high_var_array), np.std(low_var_array)


(2072.711623024829, 2.8284271247461903)

In [85]:
# Simpangan baku adalah akar kuadrat dari variansi
np.sqrt(np.var(high_var_array))


2072.711623024829

In [86]:
high_var_array


array([   1,  100,  200,  300, 4000, 5000])

In [87]:
low_var_array


array([ 2,  4,  6,  8, 10])

 ### Mengubah bentuk

In [88]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [89]:
a2.shape


(2, 3)

In [90]:
a2 + a3


ValueError: operands could not be broadcast together with shapes (2,3) (2,3,3) 

In [91]:
a2.reshape(2, 3, 1)


array([[[1. ],
        [2. ],
        [3.3]],

       [[4. ],
        [5. ],
        [6.5]]])

In [92]:
a2.reshape(2, 3, 1) + a3


array([[[ 2. ,  3. ,  4. ],
        [ 6. ,  7. ,  8. ],
        [10.3, 11.3, 12.3]],

       [[14. , 15. , 16. ],
        [18. , 19. , 20. ],
        [22.5, 23.5, 24.5]]])

 ### Transposisi



 Transposisi membalik urutan sumbu-sumbu.



 Misalnya, array dengan bentuk `(2, 3)` menjadi `(3, 2)`.

In [93]:
a2.shape


(2, 3)

In [94]:
a2.T


array([[1. , 4. ],
       [2. , 5. ],
       [3.3, 6.5]])

In [95]:
a2.transpose()


array([[1. , 4. ],
       [2. , 5. ],
       [3.3, 6.5]])

In [96]:
a2.T.shape


(3, 2)

 Untuk array yang lebih besar, nilai default transposisi adalah menukar sumbu pertama dan terakhir.



 Misalnya, `(5, 3, 3)` -> `(3, 3, 5)`.

In [97]:
matrix = np.random.random(size=(5, 3, 3))
matrix


array([[[0.28040184, 0.09322403, 0.93510874],
        [0.14930712, 0.13335477, 0.11722586],
        [0.71779561, 0.36603092, 0.2895774 ]],

       [[0.26616241, 0.68260958, 0.7902381 ],
        [0.02926908, 0.51360804, 0.02951159],
        [0.86628223, 0.95813489, 0.0114807 ]],

       [[0.29076112, 0.49180737, 0.11527506],
        [0.21082807, 0.40738028, 0.10177845],
        [0.95395337, 0.63931941, 0.74783208]],

       [[0.72001817, 0.33636672, 0.227685  ],
        [0.88801806, 0.97748464, 0.09621539],
        [0.05399198, 0.39577707, 0.65914178]],

       [[0.19692825, 0.57145219, 0.0102904 ],
        [0.7913497 , 0.19703312, 0.72529664],
        [0.42356099, 0.57178934, 0.14844393]]])

In [98]:
matrix.shape


(5, 3, 3)

In [99]:
matrix.T


array([[[0.28040184, 0.26616241, 0.29076112, 0.72001817, 0.19692825],
        [0.14930712, 0.02926908, 0.21082807, 0.88801806, 0.7913497 ],
        [0.71779561, 0.86628223, 0.95395337, 0.05399198, 0.42356099]],

       [[0.09322403, 0.68260958, 0.49180737, 0.33636672, 0.57145219],
        [0.13335477, 0.51360804, 0.40738028, 0.97748464, 0.19703312],
        [0.36603092, 0.95813489, 0.63931941, 0.39577707, 0.57178934]],

       [[0.93510874, 0.7902381 , 0.11527506, 0.227685  , 0.0102904 ],
        [0.11722586, 0.02951159, 0.10177845, 0.09621539, 0.72529664],
        [0.2895774 , 0.0114807 , 0.74783208, 0.65914178, 0.14844393]]])

In [100]:
matrix.T.shape


(3, 3, 5)

In [101]:
# Cek apakah bentuk terbalik sama dengan bentuk transposisi
matrix.T.shape == matrix.shape[::-1]


True

In [102]:
# Cek apakah sumbu pertama dan terakhir ditukar
matrix.T == matrix.swapaxes(0, -1) # tukar sumbu pertama (0) dan terakhir (-1)


array([[[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True]],

       [[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True]],

       [[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True]]])

 Kita dapat melihat bentuk transposisi yang lebih canggih dalam dokumentasi NumPy di bawah [`numpy.transpose`](https://numpy.org/doc/stable/reference/generated/numpy.transpose.html).

 ### Dot product



 Dua aturan utama dot product yang harus diingat adalah:



 1. **Dimensi dalam** harus cocok:

   * `(3, 2) @ (3, 2)` tidak akan bekerja

   * `(2, 3) @ (3, 2)` akan bekerja

   * `(3, 2) @ (2, 3)` akan bekerja



 2. Matriks hasilnya memiliki bentuk dari **dimensi luar**:

  * `(2, 3) @ (3, 2)` -> `(2, 2)`

  * `(3, 2) @ (2, 3)` -> `(3, 3)`



 **Catatan:** Di NumPy, `np.dot()` dan `@` dapat digunakan untuk mencapai hasil yang sama untuk array 1-2 dimensi. Namun, perilakunya mulai berbeda pada array dengan 3+ dimensi.

In [103]:
np.random.seed(0)
mat1 = np.random.randint(10, size=(3, 3))
mat2 = np.random.randint(10, size=(3, 2))

mat1.shape, mat2.shape


((3, 3), (3, 2))

In [104]:
mat1


array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2]])

In [105]:
mat2


array([[4, 7],
       [6, 8],
       [8, 1]])

In [106]:
np.dot(mat1, mat2)


array([[ 44,  38],
       [126,  86],
       [ 58,  63]])

In [107]:
# Juga dapat mencapai np.dot() dengan "@" 
# (namun, mereka mungkin berperilaku berbeda pada array 3D+)
mat1 @ mat2


array([[ 44,  38],
       [126,  86],
       [ 58,  63]])

In [108]:
np.random.seed(0)
mat3 = np.random.randint(10, size=(4,3))
mat4 = np.random.randint(10, size=(4,3))
mat3


array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2],
       [4, 7, 6]])

In [109]:
mat4


array([[8, 8, 1],
       [6, 7, 7],
       [8, 1, 5],
       [9, 8, 9]])

In [110]:
# Ini akan gagal karena dimensi dalam matriks tidak cocok
np.dot(mat3, mat4)


ValueError: shapes (4,3) and (4,3) not aligned: 3 (dim 1) != 4 (dim 0)

In [111]:
mat3.T.shape


(3, 4)

In [112]:
# Dot product
np.dot(mat3.T, mat4)


array([[118,  96,  77],
       [145, 110, 137],
       [148, 137, 130]])

In [113]:
# Perkalian elemen per elemen, juga dikenal sebagai Hadamard product
mat3 * mat4


array([[40,  0,  3],
       [18, 49, 63],
       [24,  5, 10],
       [36, 56, 54]])

 ### Contoh praktis dot product, penjualan selai kacang

In [114]:
np.random.seed(0)
sales_amounts = np.random.randint(20, size=(5, 3))
sales_amounts


array([[12, 15,  0],
       [ 3,  3,  7],
       [ 9, 19, 18],
       [ 4,  6, 12],
       [ 1,  6,  7]])

In [115]:
weekly_sales = pd.DataFrame(sales_amounts,
                            index=["Sen", "Sel", "Rab", "Kam", "Jum"],
                            columns=["Selai almond", "Selai kacang", "Selai cashew"])
weekly_sales


Unnamed: 0,Selai almond,Selai kacang,Selai cashew
Sen,12,15,0
Sel,3,3,7
Rab,9,19,18
Kam,4,6,12
Jum,1,6,7


In [116]:
prices = np.array([10, 8, 12])
prices


array([10,  8, 12])

In [117]:
butter_prices = pd.DataFrame(prices.reshape(1, 3),
                             index=["Harga"],
                             columns=["Selai almond", "Selai kacang", "Selai cashew"])
butter_prices.shape


(1, 3)

In [118]:
weekly_sales.shape


(5, 3)

In [119]:
# Temukan jumlah penjualan total untuk satu hari
total_sales = prices.dot(sales_amounts)
total_sales


ValueError: shapes (3,) and (5,3) not aligned: 3 (dim 0) != 5 (dim 0)

 Bentuk-bentuknya tidak sejajar, kita perlu membuat dua angka di tengah menjadi sama.

In [120]:
prices


array([10,  8, 12])

In [121]:
sales_amounts.T.shape


(3, 5)

In [122]:
# Untuk membuat angka-angka tengah menjadi sama, kita dapat mentransposisi
total_sales = prices.dot(sales_amounts.T)
total_sales


array([240, 138, 458, 232, 142])

In [123]:
butter_prices.shape, weekly_sales.shape


((1, 3), (5, 3))

In [125]:
daily_sales = butter_prices.dot(weekly_sales.T)
daily_sales


Unnamed: 0,Sen,Sel,Rab,Kam,Jum
Harga,240,138,458,232,142


In [126]:
# Perlu mentransposisi lagi
weekly_sales["Total"] = daily_sales.T
weekly_sales


Unnamed: 0,Selai almond,Selai kacang,Selai cashew,Total
Sen,12,15,0,240
Sel,3,3,7,138
Rab,9,19,18,458
Kam,4,6,12,232
Jum,1,6,7,142


 ### Operator perbandingan



 Mencari tahu apakah satu array lebih besar, lebih kecil atau sama dengan array lainnya.

In [127]:
a1


array([1, 2, 3])

In [128]:
a2


array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [129]:
a1 > a2


array([[False, False, False],
       [False, False, False]])

In [130]:
a1 >= a2


array([[ True,  True, False],
       [False, False, False]])

In [131]:
a1 > 5


array([False, False, False])

In [132]:
a1 == a1


array([ True,  True,  True])

In [133]:
a1 == a2


array([[ True,  True, False],
       [False, False, False]])

 ## 5. Mengurutkan array



 * [`np.sort()`](https://numpy.org/doc/stable/reference/generated/numpy.sort.html) - mengurutkan nilai-nilai dalam dimensi yang ditentukan dari sebuah array.

 * [`np.argsort()`](https://numpy.org/doc/stable/reference/generated/numpy.argsort.html) - mengembalikan indeks untuk mengurutkan array pada sumbu yang diberikan.

 * [`np.argmax()`](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html) - mengembalikan indeks yang memberikan nilai tertinggi sepanjang sumbu tertentu.

 * [`np.argmin()`](https://numpy.org/doc/stable/reference/generated/numpy.argmin.html) - mengembalikan indeks yang memberikan nilai terendah sepanjang sumbu tertentu.

In [134]:
random_array


array([[0, 0, 3],
       [8, 7, 8],
       [4, 9, 0],
       [6, 5, 9],
       [5, 7, 5]])

In [135]:
np.sort(random_array)


array([[0, 0, 3],
       [7, 8, 8],
       [0, 4, 9],
       [5, 6, 9],
       [5, 5, 7]])

In [136]:
np.argsort(random_array)


array([[0, 1, 2],
       [1, 0, 2],
       [2, 0, 1],
       [1, 0, 2],
       [0, 2, 1]], dtype=int64)

In [137]:
a1


array([1, 2, 3])

In [138]:
# Kembalikan indeks yang akan mengurutkan sebuah array
np.argsort(a1)


array([0, 1, 2], dtype=int64)

In [139]:
# Tidak ada axis
np.argmin(a1)


0

In [140]:
random_array


array([[0, 0, 3],
       [8, 7, 8],
       [4, 9, 0],
       [6, 5, 9],
       [5, 7, 5]])

In [141]:
# Ke bawah secara vertikal
np.argmax(random_array, axis=1)


array([2, 0, 1, 2, 1], dtype=int64)

In [142]:
# Secara horizontal
np.argmin(random_array, axis=0)


array([0, 0, 2], dtype=int64)