## Introduction to Python

### Pengenalan Python

**Python** adalah bahasa pemrograman tingkat tinggi (high level programming language) yang mudah dibaca dan mudah dipelajari. Python banyak digunakan dalam berbagai bidang seperti :  
- Data Science
- Machine Learning
- Web Development
- Automation
- Artificial Intelligence  
- Python dibuat oleh Guido van Rossum pada tahun 1991 

**Mengapa Python Populer?**  
Beberapa alasan Python sangat populer :  
- Sintaks sederhana dan mudah dipahami
- Banyak library dan framework
- Komunitas besar
- Cocok untuk pemula hingga profesional
- Banyak digunakan di industri teknologi   

Dalam konteks Data Science, Python sering digunakan karena memiliki library seperti :  
- NumPy
- Pandas
- Matplotlib
- Scikit-learn

### Aturan Penulisan Python (Basic Syntax Rules)

Python memiliki aturan penulisan yang harus diikuti agar program bisa berjalan dengan benar.  
**A. Case Sensitive**  
Python bersifat **case-sensitive**, artinya huruf besar dan kecil dianggap berbeda

In [8]:
nama = "Smith"
Nama = "Sam Smith"

**nama** dan **Nama** dianggap sebagai dua variabel yang berbeda.

**B. Indentation**  
Python menggunakan indentasi (spasi di awal baris) untuk menentukan blok kode.

In [9]:
if 5 > 2:
    print("Lima lebih besar dari dua.")

Lima lebih besar dari dua.


Indentasi biasanya menggunakan **4 spasi**  
Tanpa indentasi yang benar, program akan error.

**C. Comment (Komentar)**  
Komentar digunakan untuk memberi penjelasan pada kode.  
Komentar satu baris : 

In [10]:
# Ini adalah komentar satu baris

Komentar multi baris : 

In [11]:
"""
Ini adalah komentar
lebih dari satu baris
"""

'\nIni adalah komentar\nlebih dari satu baris\n'

Komentar tidak akan dieksekusi oleh program

**D. Penamaan Variabel**  
Aturan dasar :  
- Tidak boleh diawali angka  
- Tidak boleh menggunakan spasi
- Tidak boleh menggunakan simbol khusus seperti @,#,$
- Boleh menggunakan underscore _

In [12]:
# Contoh yang benar
nama_user = "Smith"
total_gaji = 5000000

In [13]:
# Contoh yang salah
1nama_user = "Smith"
total gaji = 5000000

SyntaxError: invalid syntax (26478330.py, line 2)

### Variabel pada Python

**Apa itu variabel?**  
Variabel adalah tempat untuk menyimpan data.  
Contoh : 

In [14]:
"""
nama menyimpan teks
umur menyimpan angka
"""

nama = "Smith"
umur = 30

Python tidak perlu mendeklarasikan tipe data secara manual. Tipe data akan ditentukan otomatis. 

### Tipe Data pada Python

**A. Integer (int)**  
Digunakan untuk angka bulat

In [15]:
umur = 30
jumlah = 50

**B. Float**  
Digunakan untuk angka desimal

In [16]:
tinggi = 160.5
berat = 68.5

**C. String (str)**  
Digunakan untuk teks.

In [17]:
"""
String bisa menggunakan tanda petik satu
atau tanda petik dua"
"""

nama = "Smith"
kota = 'Jakarta'

**D. Boolean (bool)**  
Digunakan untuk nilai benar atau salah

In [18]:
is_active = True
is_login = False

Nilainya hanya :
- True
- false

**E. List**  
Digunakan untuk menyimpan banyak data dalam satu variabel

In [19]:
"""
List menggunakan tanda kurung siku []
"""

buah = ["apel", "jeruk", "pisang"]
angka = [1, 2, 3, 4, 5]

**F. Tuple**  
Mirip dengan list, tetapi tidak bisa diubah (immutable)

In [20]:
"""
Menggunakan tanda kurung biasa ()
"""

koordinat = (10, 20)

**G. Dictionary**  
Menyimpan data dalam bentuk pasangan key dan value

In [21]:
"""
Menggunakan tanda kurung kurawal {}
"""

data = {
    "nama": "Smith",
    "umur": 30,
    "kota": "Jakarta"
}

### Mengecek Tipe Data

Untuk mengetahui tipe data suatu variabel, gunakan fungsi :

In [24]:
print(type(nama))

<class 'str'>


### Operasi Numerik pada Python

In [26]:
a = 10
b = 3

print(a + b)       # penjumlahan
print(a - b)       # pengurangan
print(a * b)       # perkalian
print(a / b)       # pembagian
print(a // b)      # pembagian bulat
print(a % b)       # modulus (sisa bagi)
print(a ** b)      # pangkat

13
7
30
3.3333333333333335
3
1
1000


Dalam data science, ini sering dipakai untuk:  
- Hitung rata-rata
- Normalisasi
- Perhitungan statistik sederhana

### Operasi String

In [28]:
nama = "Sam"
print(nama + " Smith")     # concatenation
print(nama.lower())        # huruf kecil
print(nama.upper())        # huruf besar
print(len(nama))           # panjang string

Sam Smith
sam
SAM
3


Dipakai untuk: 
- Cleaning text data
- Feature engineering pada NLP

### Operasi pada List

In [30]:
angka = [1, 2, 3]

print(angka.append(4))
print(angka.remove(2))
print(len(angka))
print(angka[0])

None
None
3
1


List sering dipakai untuk:
- Menyimpan kumpulan data
- Iterasi dengan loop
- Input awal sebelum masuk ke numpy/pandas

### Dictionary (Penting untuk struktur data)

In [32]:
data = {
    "nama" : "Sam",
    "umur" : 26
}

print(data["nama"])
print(data.keys())
print(data.values())

Sam
dict_keys(['nama', 'umur'])
dict_values(['Sam', 26])


Mirip struktur JSON. Sangap penting untuk API dan data processing

### Package pada Python

**Apa itu Package?**  
Package = kumpulan modul/library yang berisi fungsi siap pakai.  
Tanpa package, kita harus bikin semuanya dari nol.  

Install package  :  
**pip install nama_package**  

Contoh :  
pip install numpy  

Import package :  
**import numpy as np**  

### Package Penting untuk Data Science

#### Pandas

**Pandas** digunakan untuk manipulasi dan analisis data tabular.  
Dipakai untuk : 
- Baca CSV
- Cleaning data
- Filtering
- Grouping

Contoh : 

In [34]:
import pandas as pd

df = pd.read_csv("data.csv")
df.head()

Unnamed: 0,No.,Nama,Umur
0,1,Ardi,21
1,2,Andre,22
2,3,Budi,23
3,4,Tina,25
4,5,Anti,28


#### NumPy

Untuk operasi numerik dan array  
Kenapa penting?  
- Lebih cepat dari list
- Mendukung operasi matematis kompleks  

Contoh : 

In [35]:
import numpy as np

arr = np.array([3, 2, 1])
arr.mean()

2.0

#### Matplotlib/Seaborn

Digunakan untuk visualisasi data

#### Scikit-learn

Digunakan untuk proses machine learning :
- Classification 
- Regression
- Clustering

### Collection

**Apa itu Collection?**  
**Collection** adalah tipe data yang bisa menyimpan *lebih dari satu nilai* dalam satu variabel.  
Contoh collection di Python :  
- list
- tuple
- set
- dict  

Kenapa collection penting di Data Science?

Karena : 
- Data hampir selalu berbentuk kumpulan nilai
- Dataset = kumpulan baris dan kolom
- Feature = kumpulan nilai

Collection membantu kita : 
- Menyimpan banyak data
- Mengakses data
- Memanipulasi data

#### Pengenalan List

**Apa itu List?**  
**List** adalah collection yang : 
- Ordered (punya urutan)
- Mutable (bisa diubah)
- Bisa menyimpan berbagai tipe data

Contoh :  

In [36]:
angka = [1, 2, 3, 4, 5]
nama  = ['Sam', 'Smith', 'George']
campuran = [1, 30, 'Belajar', 'Python', True, 3.14]

In [37]:
print(angka)
print(nama)
print(campuran)

[1, 2, 3, 4, 5]
['Sam', 'Smith', 'George']
[1, 30, 'Belajar', 'Python', True, 3.14]


**Akses Elemen (Indexing)**  
Python menggunakan indexing dari 0.  

In [38]:
angka = [20, 30, 40, 50]

print(angka[0])    # 20
print(angka[1])    # 30
print(angka[-1])   # 50 (dari belakang)

20
30
50


**Slicing List**  
Mengambil beberapa elemen sekaligus.  

Format slicing :  
[start:stop]


In [41]:
data = [1, 2, 3, 4, 5]

print(data[0:3])    # [1,2,3]
print(data[:3])     # [1,2,3]
print(data[2:])     # [3,4,5] 

[1, 2, 3]
[1, 2, 3]
[3, 4, 5]


#### Operasi Single List

##### Menambahkan Data

In [43]:
angka = [1, 2, 3, 4]

angka.append(4)     # tambah di akhir
angka.insert(1, 10) # tambah di index tertentu

print(angka)

[1, 10, 2, 3, 4, 4]


##### Menghapus Data

In [44]:
angka.remove(2)     # hapus berdasarkan nilai
angka.pop()         # hapus terakhir
angka.pop(0)        # hapus berdasarkan index

print(angka)

[10, 3, 4]


##### Mengubah Nilai

In [45]:
angka = [1, 2, 3, 4]
angka[0] = 120

print(angka)

[120, 2, 3, 4]


##### Panjang List

In [46]:
len(angka)

4

##### Mengecek Keberadaan

In [47]:
3 in angka

True

#### Operasi Multi List

##### Menggabungkan List

In [49]:
a = [1, 2]
b = [3, 4]

c = a + b
print(c)

[1, 2, 3, 4]


In [51]:
# Cara lain menggabungkan list

a.extend(b)
print(a)

[1, 2, 3, 4, 3, 4]


##### Nested List (List di dalam List)

In [53]:
matrix = [
    [1, 2, 3],
    [4, 5, 6]
]

print(matrix)

[[1, 2, 3], [4, 5, 6]]


In [54]:
# Cara akses elemen nested list

matrix[0]       # [1, 2, 3]
matrix[0][1]    # 2

2

Ini penting karena : 
- Konsep ini mirip struktur data tabular
- Dasar sebelum masuk ke array 2D di NumPy

#### List Manipulation

##### Sorting

In [55]:
angka = [3, 5, 4, 2, 1]
angka.sort()
print(angka)

[1, 2, 3, 4, 5]


In [56]:
# Descending
angka.sort(reverse=True)
print(angka)

[5, 4, 3, 2, 1]


##### Reverse

In [58]:
angka.reverse()
print(angka)

[5, 4, 3, 2, 1]


##### Looping List

In [60]:
for item in angka:
    print(item)

5
4
3
2
1


In [61]:
# dengan index
for i in range(len(angka)):
    print(f"Index {i} : {angka[i]}")

Index 0 : 5
Index 1 : 4
Index 2 : 3
Index 3 : 2
Index 4 : 1


##### List Comprehension (Powerful)

Cara ringkas membuat list baru :

In [62]:
angka = [1, 2, 3, 4, 5]

kuadrat = [x**2 for x in angka]
print(kuadrat)

[1, 4, 9, 16, 25]


In [63]:
# dengan kondisi
genap = [x for x in angka if x % 2 == 0]    
print(genap)

[2, 4]


Ini sering dipakai dalam : 
- Data Transformation
- Feature Engineering

**Kenapa List Penting untuk Data Science?**  
Karena :
- List adalah dasar sebelum masuk ke NumPy array
- Banyak operasi data dimulai dari struktur list
- Looping dan transformation sering pakai list comprehension

#### Pengenalan Set

**Apa itu Set?**  
**Set** adalah collection di Python yang :  
- Tidak memiliki urutan (unordered)
- Tidak mengizinkan duplikat
- Mutable (bisa ditambah/dihapus)
- Menggunakan kurung kurawal {}  

Contoh : 

In [64]:
angka = {1, 2, 3, 4, 5} 
print(angka)

{1, 2, 3, 4, 5}


In [65]:
# Kalau ada duplikat
data = {1, 2, 2, 3, 4}
print(data)

{1, 2, 3, 4}


Duplikat akan otomatis hilang  

**Kenapa Set Penting di Data Science?**  
Karena dalam dunia nyata :  
- Data sering punya duplikat
- Kita perlu cari data unik
- Kita perlu bandingkan dua dataset

Set sangat powerful untuk :
- Deduplication
- Membership checking
- Perbandingan antar kelompok data

#### Membuat Set

In [66]:
# Cara biasa
buah = {"apel", "jeruk", "pisang"}
print(buah)

{'pisang', 'apel', 'jeruk'}


In [67]:
# Dari list
angka = [1, 2, 2, 3, 4, 4]
unique_angka = set(angka)   
print(unique_angka)

{1, 2, 3, 4}


Ini sering dipakai untuk menghapus duplikat data.

#### Operasi Single Set

##### Menambahkan Data

In [68]:
buah = {"apel", "jeruk", "pisang"}
buah.add("mangga")
print(buah)

{'pisang', 'apel', 'jeruk', 'mangga'}


##### Menghapus Data

In [69]:
buah.remove("jeruk")   # error jika elemen tidak ada
buah.discard("jeruk")  # tidak error jika elemen tidak ada
print(buah)

{'pisang', 'apel', 'mangga'}


##### Mengecek Keberadaan

In [70]:
"jeruk" in buah

False

Set sangat cepat untuk membership checking dibanding list

##### Panjang Set

In [71]:
len(buah)

3

#### Operasi Multi Set

Misal kita punya 2 kelompok data :  

In [72]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}

##### Union (Gabungan)

Semua elemen unik dari dua set.  

In [74]:
a.union(b)        # {1, 2, 3, 4, 5, 6}

{1, 2, 3, 4, 5, 6}

In [75]:
# cara lain
a | b

{1, 2, 3, 4, 5, 6}

##### Intersection (Irisan)

Elemen yang sama di kedua set.  

In [76]:
a.intersection(b)   # {3, 4}

{3, 4}

In [77]:
# cara lain
a & b

{3, 4}

##### Difference (Selisih)

Elemen yang ada di a tapi tidak ada di b.  

In [78]:
a.difference(b)     # {1, 2}

{1, 2}

In [79]:
# cara lain
a - b

{1, 2}

##### Symmetric Difference

Elemen yang tidak sama di kedua set.  

In [80]:
a.symmetric_difference(b)   # {1, 2, 5, 6}

{1, 2, 5, 6}

In [81]:
# cara lain
a ^ b

{1, 2, 5, 6}

##### Case 1 - Menghapus Duplikat Customer ID

In [82]:
# Case
customer_id = [101,102,103,101,104,102]

In [83]:
# Solution
unique_customer_id = set(customer_id)
print(unique_customer_id)

{104, 101, 102, 103}


##### Case 2 - Mencari Customer Aktif di Dua Platform

In [None]:
# Case
tokopedia_users = {1,2,3,4}
shopee_users = {3,4,5,6}

In [85]:
# Solution
tokopedia_users & shopee_users

{3, 4}

Insight : user 3 dan 4 aktif di dua platform  
Ini bisa dipakai untuk :
- Cross selling
- Marketing targeting

##### Case 3 - Segmentasi Ekslusif

User yang hanya ada di Tokopedia :  

In [86]:
tokopedia_users - shopee_users

{1, 2}

Bisa jadi target retargeting campaign  

Insight :  
Set mungkin terlihat sederhana.  

Tapi dalam data science :  
- Deduplication = hal yg paling sering dilakukan
- Perbandingan dataset = sangat umum
- Membership checking = penting untuk filtering 

Set malatih cara berpikir logis tentang **"keanggotaan data"**