**Pandas** adalah **library Python** yang sangat populer untuk **manipulasi dan analisis data**, terutama data **berbentuk tabel** (seperti file Excel atau CSV). Kalau kamu sering pakai Excel, maka Pandas bisa dibilang adalah “Excel-nya Python”, tapi jauh lebih powerful dan bisa diprogram.

---

## 🐼 Singkatnya:

> Pandas = Python Data Analysis Library

---

## 📦 Pandas Digunakan Untuk:

| Fungsi                     | Contoh                                           |
| -------------------------- | ------------------------------------------------ |
| Membaca file               | CSV, Excel, SQL, JSON, dll                       |
| Manipulasi data            | Filter, sort, group, merge, join, pivot, dll     |
| Analisis data              | Rata-rata, median, agregasi, missing value, dsb  |
| Waktu dan tanggal          | Parsing waktu, resample, rolling window          |
| Integrasi machine learning | Bersama NumPy, Scikit-learn, Matplotlib, PyTorch |

---

## 📄 Struktur Data Utama di Pandas:

| Struktur    | Deskripsi                   | Mirip                   |
| ----------- | --------------------------- | ----------------------- |
| `Series`    | 1D array dengan label/index | Seperti kolom di Excel  |
| `DataFrame` | 2D tabel (baris x kolom)    | Seperti tabel Excel/SQL |

---

## 🔍 Contoh Pemakaian Dasar

```python
import pandas as pd

# Baca file CSV
df = pd.read_csv('data.csv')

# Tampilkan 5 data pertama
print(df.head())

# Ambil kolom tertentu
print(df['nama'])

# Filter data
filtered = df[df['usia'] > 30]

# Group by dan agregasi
rata2 = df.groupby('kota')['penghasilan'].mean()
```

---

## 📈 Visualisasi (bisa dipakai bareng Matplotlib/Seaborn)

```python
import matplotlib.pyplot as plt

df['usia'].hist(bins=10)
plt.title("Distribusi Usia")
plt.show()
```

---

## 📌 Kenapa Pandas Penting?

* Digunakan di **data science**, **machine learning**, **data engineering**, dan **bisnis analitik**
* Bisa handle **jutaan baris data**
* Terintegrasi dengan banyak tool Python seperti NumPy, Matplotlib, Scikit-learn

---

Kalau kamu mau:

* Contoh project kecil pakai Pandas
* Penjelasan tentang merging data
* Membersihkan data real-world yang berantakan
* Pandas vs Excel

Aku bisa bantu langsung. Mau mulai eksplorasi bagian tertentu?


In [1]:
import pandas as pd

mydataset = {
  'cars': ["BMW", "Ayang", "Ford"],
  'passings': [3, 7, 2]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

    cars  passings
0    BMW         3
1  Ayang         7
2   Ford         2


In [1]:
import pandas as pd

print(pd.__version__)

2.2.3


# Pandas Series 

`Pandas Series` biasanya adalah judul/topik dalam dokumentasi atau tutorial untuk menjelaskan **struktur data dasar di Pandas**, yaitu **`Series`**.

---

## 🧾 Apa itu Pandas **Series**?

> **Series** adalah struktur data **1 dimensi** di Pandas, mirip seperti:

* **array** di NumPy
* **kolom tunggal** dalam Excel
* **list** di Python tapi dengan **index**

---

## 🔍 Contoh Sederhana

```python
import pandas as pd

s = pd.Series([10, 20, 30, 40])
print(s)
```

Output:

```
0    10
1    20
2    30
3    40
dtype: int64
```

> 🧠 Ini adalah array `[10, 20, 30, 40]` dengan **index** `[0, 1, 2, 3]`

---

## 🔑 Ciri Khas Series:

| Fitur         | Penjelasan                                      |
| ------------- | ----------------------------------------------- |
| 1 dimensi     | Hanya 1 kolom data                              |
| Ada index     | Setiap elemen punya label/index (default angka) |
| Bisa dikustom | Index bisa pakai string, tanggal, dsb           |
| Mirip NumPy   | Bisa pakai operasi matematika langsung          |

---

## 📦 Contoh dengan Index Kustom

```python
s = pd.Series([70, 80, 90], index=["Math", "Eng", "Sci"])
print(s)
```

Output:

```
Math    70
Eng     80
Sci     90
dtype: int64
```

Akses seperti dict:

```python
print(s["Eng"])  # Output: 80
```

---

## 🧮 Operasi Series:

```python
s.mean()       # Rata-rata
s.max()        # Nilai maksimum
s + 10         # Tambah semua elemen 10
s[s > 75]      # Filter yang lebih dari 75
```

---

## ⚙️ Kapan Pakai Series?

| Situasi                        | Pakai Series?     |
| ------------------------------ | ----------------- |
| Data 1 kolom + ada label/index | ✅ Ya              |
| Data banyak kolom              | ❌ Pakai DataFrame |
| Vektor numerik di ML           | ✅ Sangat cocok    |

---

Kalau kamu mau:

* Bedakan `Series` vs `DataFrame`
* Uji kasus pakai Series (statistik, filter)
* Konversi list/dict ke Series

Tinggal bilang aja ya. Mau aku buatin contoh real-life kecilnya?


In [3]:
import pandas as pd 

a = [1, 7, 2]

# pandas series itu untuk satu kolom atau array satu dimensi
myvar = pd.Series(a)

print(myvar)

0    1
1    7
2    2
dtype: int64


In [4]:
print(myvar[0])

1


In [5]:
import pandas as pd

a = [1, 7, 2]

# index nya bisa di rubah
myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

x    1
y    7
z    2
dtype: int64


Setelah membuat label, Kita dapat mengakses item dengan merujuk ke label.

In [6]:
print(myvar["y"])

7


## Key/Value Objects as Series



In [None]:
import pandas as pd

# pd series bisa pakai mode dict
# index nya jadi key
calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

day1    420
day2    380
day3    390
dtype: int64


Untuk memilih hanya beberapa item dalam kamus, gunakan indeks argumen dan hanya tentukan item yang ingin Kita sertakan dalam Seri.

In [None]:
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

day1    420
day2    380
dtype: int64
-1   NaN
dtype: float64


# Pandas DataFrame

## 🧾 Apa itu **Pandas DataFrame**?

> **`DataFrame`** adalah struktur data **2 dimensi** di Pandas — mirip **tabel Excel**, **lembar kerja spreadsheet**, atau **tabel SQL**.

Ini adalah struktur data **paling penting** di Pandas dan digunakan untuk hampir semua analisis data real-world.

---

## 🔍 Sederhananya:

```
+--------+--------+--------+
| Nama   | Umur   | Kota   |
+--------+--------+--------+
| Ana    | 21     | Jakarta|
| Budi   | 25     | Bandung|
| Citra  | 22     | Surabaya|
+--------+--------+--------+
```

Ini akan jadi `DataFrame` dengan:

* **Baris**: Data individual (seperti record)
* **Kolom**: Fitur/atribut

---

## 📦 Contoh Kode:

```python
import pandas as pd

data = {
    "Nama": ["Ana", "Budi", "Citra"],
    "Umur": [21, 25, 22],
    "Kota": ["Jakarta", "Bandung", "Surabaya"]
}

df = pd.DataFrame(data)

print(df)
```

Output:

```
    Nama  Umur      Kota
0    Ana    21   Jakarta
1   Budi    25   Bandung
2  Citra    22  Surabaya
```

---

## 🧠 Karakteristik DataFrame:

| Fitur              | Penjelasan                            |
| ------------------ | ------------------------------------- |
| 2D struktur        | Kombinasi **baris** dan **kolom**     |
| Kolom = Series     | Setiap kolom adalah `Series`          |
| Label/index        | Ada index baris dan nama kolom        |
| Dukungan tipe data | Bisa ada berbagai tipe data per kolom |

---

## ⚙️ Operasi Umum di DataFrame

```python
df.head()             # 5 baris pertama
df['Nama']            # Ambil kolom 'Nama'
df.iloc[0]            # Baris pertama (berdasarkan posisi)
df.loc[0]             # Baris pertama (berdasarkan index)
df[df['Umur'] > 22]   # Filter baris
df.describe()         # Statistik deskriptif
df.sort_values("Umur") # Urutkan
```

---

## 📥 Buat DataFrame dari Format Lain:

| Format Asal     | Cara                                   |
| --------------- | -------------------------------------- |
| `dict`          | `pd.DataFrame(data_dict)`              |
| `CSV`           | `pd.read_csv("file.csv")`              |
| `Excel`         | `pd.read_excel("file.xlsx")`           |
| `SQL`           | `pd.read_sql(query, connection)`       |
| `list of lists` | `pd.DataFrame(list_data, columns=...)` |

---

## 🤔 Perbedaan Series vs DataFrame

|                 | Series        | DataFrame             |
| --------------- | ------------- | --------------------- |
| Dimensi         | 1D            | 2D                    |
| Struktur        | Index + nilai | Index + kolom + nilai |
| Contoh          | Kolom tunggal | Tabel penuh           |
| Digunakan untuk | Data 1 kolom  | Data tabel kompleks   |

---

Kalau kamu mau:

* Contoh filtering dan groupby
* Cara eksplorasi dan bersihin data real-world
* Atau bedah struktur internal DataFrame

Tinggal bilang aja ya!


In [9]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data)

print(df)

   calories  duration
0       420        50
1       380        40
2       390        45


# Locate Row 

`Locate Row` biasanya adalah **judul** dalam dokumentasi atau tutorial Pandas yang menjelaskan cara **mengambil/melihat baris tertentu dalam DataFrame**.

Di Pandas, ada **dua cara utama** untuk *melocate* (mengakses) baris:

---

## 🔍 1. `loc[]` → Berdasarkan **label/index**

```python
df.loc[1]   # Akses baris dengan index label 1
```

* Cocok jika index kamu berupa **angka atau label** khusus.
* Bisa pakai **boolean mask**, **list**, **range**, atau **slicing**.

Contoh:

```python
import pandas as pd

df = pd.DataFrame({
    "Nama": ["Ana", "Budi", "Citra"],
    "Umur": [21, 25, 22]
}, index=["a", "b", "c"])

# Ambil baris dengan index 'b'
print(df.loc["b"])
```

---

## 🔢 2. `iloc[]` → Berdasarkan **posisi baris** (integer)

```python
df.iloc[0]   # Baris pertama
df.iloc[-1]  # Baris terakhir
df.iloc[1:3] # Baris ke-2 sampai ke-3
```

> Gunakan `iloc[]` jika kamu tidak tahu label index-nya dan hanya ingin akses berdasarkan posisi.

---

## 🧠 Contoh Lain

```python
# Ambil baris yang Umur > 22
df[df["Umur"] > 22]

# Ambil baris sekaligus kolom: baris ke-0, kolom 'Nama'
df.loc[0, "Nama"]

# Ambil banyak baris dengan index list
df.loc[[0, 2]]
```

---

## 🧭 Perbedaan `loc[]` vs `iloc[]`

|          | `loc[]`                   | `iloc[]`                       |
| -------- | ------------------------- | ------------------------------ |
| Berdasar | Label index               | Posisi numerik                 |
| Tipe     | `str`, `int`, `bool`, dsb | Hanya `int`, `slice`, `list`   |
| Slicing  | **Termasuk** batas akhir  | **Tidak termasuk** batas akhir |
| Contoh   | `df.loc["a"]`             | `df.iloc[0]`                   |

---

Kalau kamu ingin aku buatin:

* Contoh filtering baris kompleks
* Cara ambil baris di DataFrame multi-index
* Atau contoh eksplorasi baris real-world

Langsung bilang aja ya!


In [11]:
print(df)
# akses baris pake index

print(df.loc[0])

   calories  duration
0       420        50
1       380        40
2       390        45
calories    420
duration     50
Name: 0, dtype: int64


In [None]:
# ngambil baris 0 dan 1
print(df.loc[[0, 1]])

   calories  duration
0       420        50
1       380        40


## Named Index

In [16]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)


      calories  duration
day1       420        50
day2       380        40
day3       390        45


In [None]:
#ngambil baris pake index yang udh di define di dataframe nya
print(df.loc["day2"])


# Load Files ke Dataframe

`# Load files to DataFrame` biasanya adalah judul/topik dalam dokumentasi atau tutorial Pandas yang menjelaskan **cara membaca file eksternal (seperti CSV, Excel, JSON, SQL, dll)** ke dalam **`DataFrame`**, yaitu struktur data utama di Pandas.

---

## 📥 Tujuan: **Muat data dari file → menjadi DataFrame**

### Contoh visual:

📄 `data.csv` → 📊 `DataFrame` di Python

---

## 📦 Fungsi Umum untuk Load File:

| Format File | Fungsi Pandas         | Contoh                            |
| ----------- | --------------------- | --------------------------------- |
| CSV         | `pd.read_csv()`       | `pd.read_csv("data.csv")`         |
| Excel       | `pd.read_excel()`     | `pd.read_excel("data.xlsx")`      |
| JSON        | `pd.read_json()`      | `pd.read_json("data.json")`       |
| SQL         | `pd.read_sql()`       | `pd.read_sql(query, conn)`        |
| Parquet     | `pd.read_parquet()`   | `pd.read_parquet("data.parquet")` |
| Clipboard   | `pd.read_clipboard()` | Untuk copy-paste tabel dari web   |
| HTML table  | `pd.read_html()`      | `pd.read_html("url.html")`        |

---

## 🔍 Contoh Penggunaan:

### 1. 📄 CSV

```python
import pandas as pd

df = pd.read_csv("data.csv")
print(df.head())
```

Tambahan:

```python
# Atur delimiter, header, dan encoding
pd.read_csv("data.csv", delimiter=";", encoding="utf-8")
```

---

### 2. 📊 Excel

```python
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
```

> ⚠️ Butuh install `openpyxl` atau `xlrd` tergantung file.

---

### 3. 📋 JSON

```python
df = pd.read_json("data.json")
```

---

### 4. 🗃️ SQL (dari database SQLite misalnya)

```python
import sqlite3

conn = sqlite3.connect("mydb.sqlite")
df = pd.read_sql("SELECT * FROM users", conn)
```

---

### 5. 🪶 Parquet (format hemat dan cepat)

```python
df = pd.read_parquet("data.parquet")
```

---

## 🛠 Tips Penting Saat Load:

| Tips                        | Contoh                                           |
| --------------------------- | ------------------------------------------------ |
| Atur tipe data (`dtype`)    | `pd.read_csv("file.csv", dtype={"id": "int32"})` |
| Batasi baris (`nrows`)      | `pd.read_csv("file.csv", nrows=1000)`            |
| Baca bertahap (`chunksize`) | `pd.read_csv("file.csv", chunksize=10000)`       |
| Hilangkan spasi header      | `df.columns = df.columns.str.strip()`            |

---

Kalau kamu punya file spesifik dan butuh bantuan:

* Menyesuaikan parameter (`encoding`, `delimiter`, dll)
* Load data besar biar tidak habiskan RAM
* Deteksi otomatis kolom dan tipe data

Tinggal kirim filenya atau struktur contohnya, nanti aku bantu sesuaikan kodenya!


In [None]:
import pandas as pd

# akses file untuk dijadikan dataframe, ini pakai file csc
df = pd.read_csv('california_housing_train.csv')

df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


max_rows

Jumlah baris yang dikembalikan ditentukan dalam pengaturan opsi Pandas.

Kita dapat memeriksa baris maksimum sistem Kita dengan pernyataan pd.options.display.max_rows.

In [20]:
pd.options.display.max_rows = 9999

In [21]:
print(df)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -114.31     34.19                15.0       5612.0          1283.0   
1        -114.47     34.40                19.0       7650.0          1901.0   
2        -114.56     33.69                17.0        720.0           174.0   
3        -114.57     33.64                14.0       1501.0           337.0   
4        -114.57     33.57                20.0       1454.0           326.0   
...          ...       ...                 ...          ...             ...   
16995    -124.26     40.58                52.0       2217.0           394.0   
16996    -124.27     40.69                36.0       2349.0           528.0   
16997    -124.30     41.84                17.0       2677.0           531.0   
16998    -124.30     41.80                19.0       2672.0           552.0   
16999    -124.35     40.54                52.0       1820.0           300.0   

       population  households  median_income  media

In [22]:
# ini ngambil baris pertama se jumlah 10 
df.head(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0
7,-114.59,34.83,41.0,812.0,168.0,375.0,158.0,1.7083,48500.0
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
9,-114.6,34.83,46.0,1497.0,309.0,787.0,271.0,2.1908,48100.0


In [None]:
# ini ngambil baris terakhir se jumlah 10
# default untuk head ama tail itu 5
df.tail(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
16990,-124.22,41.73,28.0,3003.0,699.0,1530.0,653.0,1.7038,78300.0
16991,-124.23,41.75,11.0,3159.0,616.0,1343.0,479.0,2.4805,73200.0
16992,-124.23,40.81,52.0,1112.0,209.0,544.0,172.0,3.3462,50800.0
16993,-124.23,40.54,52.0,2694.0,453.0,1152.0,435.0,3.0806,106700.0
16994,-124.25,40.28,32.0,1430.0,419.0,434.0,187.0,1.9417,76100.0
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.3,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.3,41.8,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0
16999,-124.35,40.54,52.0,1820.0,300.0,806.0,270.0,3.0147,94600.0


Metode info() juga memberi tahu kita berapa banyak nilai Non-Null yang ada di setiap kolom, dan dalam kumpulan data kita sepertinya ada 164 dari 169 nilai Non-Null di kolom "calories".

Artinya ada 5 baris tanpa nilai sama sekali, di kolom "calories", untuk alasan apa pun.

Nilai kosong, atau nilai Null, bisa berakibat buruk saat menganalisis data, dan Kita harus mempertimbangkan untuk menghapus baris dengan nilai kosong. Ini adalah langkah menuju apa yang disebut membersihkan data, dan Kita akan mempelajarinya lebih lanjut di bab-bab berikutnya.

In [24]:
# sesuai nama aja, ini func buat deskripsi dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17000 entries, 0 to 16999
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           17000 non-null  float64
 1   latitude            17000 non-null  float64
 2   housing_median_age  17000 non-null  float64
 3   total_rooms         17000 non-null  float64
 4   total_bedrooms      17000 non-null  float64
 5   population          17000 non-null  float64
 6   households          17000 non-null  float64
 7   median_income       17000 non-null  float64
 8   median_house_value  17000 non-null  float64
dtypes: float64(9)
memory usage: 1.2 MB
None


In [None]:
# ngambil baris pake index slice
df.loc[0:2]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0


In [None]:
# ini ngambil baris pake index slice dan pake column
df.loc[0:2, ["housing_median_age", "total_rooms"]]

Unnamed: 0,housing_median_age,total_rooms
0,15.0,5612.0
1,19.0,7650.0
2,17.0,720.0


In [None]:
# ngambil pertama dan kolom pertama
df.iloc[0,0]

-114.31