# NumPy (singkatan dari Numerical Python) adalah library Python untuk:

✅ Perhitungan numerik (angka)
✅ Pemrosesan data dalam bentuk array dan matriks
✅ Operasi matematis cepat (tanpa for loop)

# Array
Array di NumPy = kumpulan elemen (angka, bisa juga string) yang:
- Ukurannya tetap
- Tipenya sama (semua int, semua float, dsb)
- Disimpan dalam satu blok memori (jadi cepat dan efisien)


# Perbandingan: List Python vs Array NumPy
| Aspek              | List Python                | Array NumPy                             |
| ------------------ | -------------------------- | --------------------------------------- |
| Tipe data campuran | Bisa campuran (`[1, "a"]`) | Harus 1 tipe data (semua `int`, dsb)    |
| Operasi matematis  | Tidak otomatis             | Bisa langsung (`array * 2`)             |
| Kecepatan          | Lebih lambat               | Lebih cepat (pakai C di belakang layar) |
| Ukuran memori      | Lebih besar                | Lebih kecil                             |


# Kenapa Array Lebih Cepat daripada List?
List di Python adalah struktur data umum yang bisa menyimpan apa saja (string, int, objek, bahkan list lagi) . Tapi karena sifatnya fleksibel, ia tidak efisien untuk operasi numerik besar.

# Sedangkan array NumPy :
Menyimpan satu tipe data saja (misal: int64, float32)
Menyimpan data dalam lokasi memori yang berdekatan → akses lebih cepat
Memungkinkan operasi vektorisasi (tidak perlu loop manual)

In [1]:
# Contoh

# List biasa
a = [1, 2, 3]
b = [4, 5, 6]
print(a + b)       # Gabung list, hasilnya: [1, 2, 3, 4, 5, 6]

# NumPy array
import numpy as np
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b)       # Operasi elemen: [5 7 9]


[1, 2, 3, 4, 5, 6]
[5 7 9]


# Apa Bedanya Array vs Tabel (Seperti di Pandas)?
| Aspek     | NumPy Array                       | Pandas DataFrame (Tabel)               |
| --------- | --------------------------------- | -------------------------------------- |
| Bentuk    | 1D, 2D, nD (array/matriks/tensor) | 2D saja (seperti Excel)                |
| Label     | Tidak ada (akses pakai indeks)    | Ada label (kolom, baris)               |
| Fokus     | Operasi numerik cepat             | Analisis data tabular (label + angka)  |
| Kecepatan | Lebih cepat (karena simpel)       | Sedikit lebih lambat (lebih fleksibel) |

# Contoh Analogi:
Array NumPy = Excel sheet mentah tanpa header, hanya angka.
DataFrame Pandas = Excel sheet lengkap dengan header, bisa campur string, tanggal, dll.


# Kenapa Data Engineer Perlu NumPy?
Walaupun Data Engineer banyak memakai SQL dan Pandas, NumPy penting untuk:
- Melakukan transformasi numerik sebelum loading data
- Optimasi memori saat menangani data besar
- Memahami konsep array yang digunakan juga di Pandas, TensorFlow, PyTorch, Spark

# Istilah di Numpy
| Istilah        | Penjelasan                                                         |
| -------------- | ------------------------------------------------------------------ |
| `ndarray`      | Nama resmi untuk "array" di NumPy                                  |
| `dimensi`      | 1D (list), 2D (matriks), 3D (tensor), dst                          |
| `shape`        | Ukuran array per dimensi, contoh `(3, 4)` artinya 3 baris, 4 kolom |
| `dtype`        | Tipe data array (`int32`, `float64`, dsb)                          |
| `broadcasting` | Cara NumPy menyesuaikan bentuk array saat operasi                  |
| `axis`         | Sumbu array (axis 0 = baris, axis 1 = kolom di array 2D)           |



In [3]:
# Membuat Array 1 Dimensi (1D)

arei = np.array([1,2,3,4,5])
print(arei)

[1 2 3 4 5]


In [13]:
# # Membuat Array 2 Dimensi (2D)

arei = np.array([[1,2,3,4,5], [65120, 65122, 65121, 65123, 65124]])
print(arei)

[[    1     2     3     4     5]
 [65120 65122 65121 65123 65124]]


In [None]:
# Mengecek Info Array

print(arei.shape) # output 2, 5 maksudnya 2 baris, 5 kolom
print(arei.ndim) # output 2 dimensi
print(type(arei)) # objectnya array
print(arei.dtype) 

# Mengapa dtype hasilnya U21 karena :
    # Menggabungkan angka (int) dan teks (str) dalam 1 array.
    # NumPy tidak bisa campur-campur tipe data dalam 1 array seperti Pandas DataFrame.
    # Karena ada teks (string), maka NumPy otomatis mengubah semua elemen jadi string agar seragam.

#  Apa itu <U21?
    # < = little-endian (urutan byte, abaikan untuk sekarang)
    # U = Unicode string
    # 21 = maksimum panjang karakter adalah 21 karakter (karena "Muhammad" punya 8 huruf, "Rasyid" 6, "Shanks" 6, 
                                    #    dst—jadi NumPy alokasikan memori berdasarkan yang terpanjang + cadangan).



(2, 5)
2
<class 'numpy.ndarray'>
int64


In [9]:
# Jika ingin menggabungkan tipe data yang berbeda gunakan pandas dataframe

import pandas as pd

df = pd.DataFrame({
    "Nomor": [1, 2, 3, 4, 5],
    "Nama": ['Muhammad','Rasyid','Ridho','Kaido','Shanks']
})

print(df.dtypes)


Nomor     int64
Nama     object
dtype: object


In [None]:
# Slicing (Memotong Bagian Array)

# 1D
arei2 = np.array(['Muhammad','Rasyid','Ridho','Kaido','Shanks'])
print(arei2[1:4])     # dari indeks 1 ke 3, Rasyid, Ridho, Kaido
print(arei2[:3])      # dari awal ke indeks 2 'Muhammad','Rasyid','Ridho'
print(arei2[::2])     # ambil tiap 2 langkah, langkah pertama dari index 0 yaitu Muhammad, 2 langkah ke depan yaitu Ridho


['Rasyid' 'Ridho' 'Kaido']
['Muhammad' 'Rasyid' 'Ridho']
['Muhammad' 'Ridho' 'Shanks']


In [None]:
# Slicing 2D

arr2d = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])

print(arr2d[:2, 1:])
# [:2, 1:] → ambil baris ke-0 dan 1, dan kolom mulai dari ke-1 ke kanan

[[2 3]
 [5 6]]
