# Pengenalan Numpy

## Shape dan Dimensi dari Numpy Array

Memuali dengan menimport Numpy

In [2]:
import numpy as np

membuat numpy array sebanyak 10 digit

In [3]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

hasil diatas terlihat seperti list dari python dengan hanya 1 brackets. ini artinya hanya terdapat satu dimensi. cara melihat dimensi dari array.

In [4]:
array_1 = np.arange(10)
array_1.shape

(10,)

array mempunyai attribute **shape**. hasil diatas adalah sebuah tupple, yang mempupunyai panjang 1. banyaknya dimensi sama dengan panjang dari tuple.

In [5]:
array_1.ndim

1

array yang kita punya adalah sebanyak 10 elemen. mengubah bentuk dari array bisa dengan melakukan metode **reshape** 

In [6]:
array_1 = array_1.reshape((5,2))
array_1

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

metoe reshape diatas mengubah array menjadi 5x2 objek data yang terlihat seperti list dari list.

In [7]:
array_1.shape

(5, 2)

In [8]:
array_1.ndim

2

## NumPy Broadcasting

menambahkan 1 kesetiap elemen dari array dengan broadcasting. perhatikan bahwa perubah yang dilakukan tidak tesimpan

In [9]:
array_1+1

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10]])

bentuk dari broadcasting mengarah ke pembentukan array yang berukuran kecil menjadi ukuran besar. contoh diatas menunjukkan, dengan skala 1 diregangkan menjadi bentuk 5x2 dan ditambahkan ke *array_1*

dibuat array baru yaitu *array_2*. perhatikan bahwa ketika kita mengalikan antar array, ini hanya menghasilkan perkalian silang antar elemen dari array, **bukan perkalian  marix**

In [10]:
array_2 = np.arange(10)
array_2 * array_2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

setiap elemen dikuaadratkan, terlihat seperti berikut

In [11]:
array_2**2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [12]:
array_2**3

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [13]:
array_2 = (array_2**2).reshape((5,2))
array_2

array([[ 0,  1],
       [ 4,  9],
       [16, 25],
       [36, 49],
       [64, 81]], dtype=int32)

menjumlahkan antar array

In [14]:
array_1 + array_2

array([[ 0,  2],
       [ 6, 12],
       [20, 30],
       [42, 56],
       [72, 90]])

## Menginisialisasi NumPy arrays dan dtypes

Ada beberapa cara untuk mengisialisasi NumPy array disamping *np.arange* yaitu:

1. menginisialisasi sebuah array dengan elemen 0 menggunakan **np.zeros**. *np.zeros((5,2))* membuat 5x2 array dari 0

In [15]:
np.zeros((5,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

2. menginisialisasi array dari 1 menggunakan **np.ones**. kita perkenalkan perintah **dtype**, diatur menjadi **np.int**, untuk meyakinkan bahwa satu adalah numpy dengan tipe integer/bilangan bulat. perhatikan habwa pada scikit-learn, elemen di dalam arrays diekspekstasi sebagai **np.float**

In [16]:
np.ones((5,2),dtype=np.int)

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]])

3. menggunaka **np.empty** untuk mengalokasikan memory untuk array denga  ukuran dan *dtype* yang spesifik, tetapi tidak mempunyai nilai inisial awal.

In [17]:
np.empty((5,2),dtype=np.float)

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

## Indexing

perhatikan nilai array 2 dimensi sebelumnya

In [41]:
array_1

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [43]:
# nilai pada baris pertama kolom pertama
array_1[0,0]

0

In [47]:
# melihat baris pertama
array_1[0,:]

array([0, 1])

In [48]:
#melihat kolom pertama
array_1[:,0]

array([0, 2, 4, 6, 8])

In [49]:
# melihat nilai spesifik dari array, ex: baris ke 3 sampai ke 5
array_1[2:5,:]

array([[4, 5],
       [6, 7],
       [8, 9]])

In [50]:
# melihat baris ke 3 sampai 5 hanya pada kolom pertama
array_1[2:5,0]

array([4, 6, 8])

## Boolean Arrays

In [51]:
array_1 > 5

array([[False, False],
       [False, False],
       [False, False],
       [ True,  True],
       [ True,  True]])

In [52]:
array_1[array_1>5]

array([6, 7, 8, 9])

## Arithmetic operation

menambahkan semua elemen dari array dengan metode *sum*. 

In [53]:
array_1

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [54]:
array_1.sum()

45

menemukan jumlah berdasarkan baris atau kolom

In [56]:
# jumlah berdasarkan baris
array_1.sum(axis=1)

array([ 1,  5,  9, 13, 17])

In [57]:
# jumlah berdasarkan kolom
array_1.sum(axis=0)

array([20, 25])

menemukan mean dari setiap kolom dengan cara yang sama

In [59]:
array_1.mean(axis=0)

array([4., 5.])

In [60]:
#berdasarkan baris
array_1.mean(axis=1)

array([0.5, 2.5, 4.5, 6.5, 8.5])

## NaN values

scikit-learn tidak akan menerima nilai **np.nan**. misalkan terdapat nilai array yang mengandung nan

In [61]:
array_3 = np.array([np.nan,0,1,2,np.nan])
array_3

array([nan,  0.,  1.,  2., nan])

menemukan nilai NaN dengan sepesifik booleaan menggunakan fungsi **np.isna**

In [62]:
np.isnan(array_3)

array([ True, False, False, False,  True])

memfilter NaN dengan menggunakan negasi dari boolean

In [63]:
array_3[~np.isnan(array_3)]

array([0., 1., 2.])

cara alternatif menangani NaN adalah mengatur nilainya menjadi 0

In [66]:
array_3[np.isnan(array_3)] = 0
array_3

array([0., 0., 1., 2., 0.])

langkah terbaik dalam mengatasi nilai NaN adalah dengan mengubahnya menjadi suatu nilai dari pada membuangnya

# Loading Iris Data

untuk menampilkan machine learning dengan scikit-learn, kita butuh data.data yang digunakan adalah data iris.


In [69]:
import numpy as np #Load numpy library untuk komputasi array yang lebih cepat
import pandas as pd #data analisis library
import matplotlib.pyplot as plt #pyplot visualisasi

# untuk mempermudah penampilan grafik pada jupyter notebook
%matplotlib inline

dari modul scikit-learn impor dataset diabetes

In [None]:
from sklearn import dataset
dir(dataset)

In [None]:
l