  # Pengenalan Singkat tentang Analisis dan Manipulasi Data dengan Python dan pandas

  ## Apa itu pandas?

  Jika kalian mulai terjun ke machine learning dan data science dan kalian menggunakan Python, kalian akan menggunakan pandas.

  [pandas](https://pandas.pydata.org/) adalah sebuah library sumber terbuka yang membantu kalian menganalisis dan memanipulasi data.


  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/768px-Pandas_logo.svg.png?20200209204934" alt="kerangka 6 langkah machine learning beserta tools yang dapat digunakan untuk setiap langkah" width="500"/>

  ## Mengapa pandas?

  pandas menyediakan serangkaian fungsi yang mudah digunakan tetapi sangat mumpuni yang bisa kalian gunakan pada data kalian.

  Ini terintegrasi dengan banyak tool data science dan machine learning lainnya yang menggunakan Python sehingga memiliki pemahaman tentangnya akan membantu kalian sepanjang perjalanan kalian.


  Salah satu kasus penggunaan utama yang akan kalian temui adalah menggunakan pandas untuk mengubah data kalian dengan cara yang membuatnya dapat digunakan dengan algoritma machine learning.

  ## Apa yang akan dibahas dalam notebook ini?
  
  Karena library pandas sangat luas, seringkali ada banyak cara untuk melakukan hal yang sama. Notebook ini membahas beberapa fungsi paling fundamental dari library ini, yang lebih dari cukup untuk memulai.

  ## 0. Mengimpor pandas







  Untuk mulai menggunakan pandas, langkah pertama adalah mengimpornya.







  Cara paling umum (dan metode yang harus kalian gunakan) adalah mengimpor pandas sebagai singkatan `pd` (misalnya `pandas` -> `pd`).







  Jika kalian melihat huruf `pd` digunakan di mana pun dalam machine learning atau data science, itu kemungkinan besar mengacu pada library pandas.

In [1]:
import pandas as pd

  ## 1. Tipe data







  pandas memiliki dua tipe data utama, `Series` dan `DataFrame`.



  * [`pandas.Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) - sebuah kolom 1-dimensi dari data.



  * [`pandas.DataFrame`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) (paling umum) - sebuah tabel 2-dimensi dari data dengan baris dan kolom.







  Kita dapat membuat sebuah `Series` menggunakan `pd.Series()` dan memberinya sebuah list Python.

In [2]:
# Membuat sebuah series dari tipe mobil
cars = pd.Series(["BMW", "Toyota", "Honda"])
cars

0       BMW
1    Toyota
2     Honda
dtype: object

In [3]:
# Membuat sebuah series dari warna
colours = pd.Series(["Blue", "Red", "White"])
colours


0     Blue
1      Red
2    White
dtype: object

  Kita dapat membuat sebuah `DataFrame` dengan menggunakan `pd.DataFrame()` dan memberinya sebuah dictionary Python.







  Mari kita gunakan dua `Series` kita sebagai nilainya.

In [4]:
# Membuat sebuah DataFrame dari mobil dan warna
car_data = pd.DataFrame({"Car type": cars, 
                         "Colour": colours})
car_data

Unnamed: 0,Car type,Colour
0,BMW,Blue
1,Toyota,Red
2,Honda,White


  Kalian dapat melihat kunci dari dictionary menjadi judul kolom (teks dalam huruf tebal) dan nilai dari dua `Series` menjadi nilai-nilai dalam DataFrame.







  Penting untuk dicatat, banyak jenis data yang berbeda bisa masuk ke dalam DataFrame.







  Di sini kita hanya menggunakan teks tetapi kalian bisa menggunakan float, integer, tanggal dan lainnya.

  ## 2. Mengimpor data

  Membuat `Series` dan `DataFrame` dari awal adalah bagus tetapi apa yang biasanya akan kalian lakukan adalah mengimpor data kalian dalam bentuk `.csv` (comma separated value), file spreadsheet atau sesuatu yang serupa seperti [database SQL](https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html).

  pandas memungkinkan impor data yang mudah seperti ini melalui fungsi-fungsi seperti [`pd.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) dan [`pd.read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) (untuk file Microsoft Excel).


  Katakanlah kalian ingin mendapatkan informasi ini dari dokumen Google Sheet ini ke dalam sebuah `DataFrame` pandas.

  <img src="https://lh3.googleusercontent.com/d/14HQHwJegenKtDlsAiRY20jro1Mjs50Vn" alt="spreadsheet dengan informasi penjualan mobil" width="600">

  Kalian bisa mengekspornya sebagai file `.csv` lalu mengimpornya menggunakan `pd.read_csv()`.

  > **Tip:** Jika Google Sheet bersifat publik, `pd.read_csv()` dapat membacanya melalui URL, coba cari "pandas read Google Sheet with URL".

  Dalam kasus ini, file `.csv` yang diekspor disebut `car-sales.csv`.

In [5]:
# Impor data penjualan mobil
# car_sales = pd.read_csv("car-sales.csv") 
# mengambil nama file sebagai string sebagai input

# Opsi 2: Baca langsung dari URL/Google Sheets
# Jika kalian membaca dari GitHub, pastikan untuk menggunakan tautan "raw" (tautan asli: https://github.com/mrdbourke/zero-to-mastery-ml/blob/master/data/car-sales.csv)
car_sales = pd.read_csv("https://raw.githubusercontent.com/mrdbourke/zero-to-mastery-ml/master/data/car-sales.csv")
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


  Sekarang kita memiliki data yang sama dari spreadsheet yang tersedia dalam `DataFrame` pandas bernama `car_sales`.







  Memiliki data kalian tersedia dalam sebuah `DataFrame` memungkinkan kalian untuk memanfaatkan semua fungsionalitas pandas padanya.







  Praktik umum lain yang akan kalian lihat adalah data yang diimpor ke `DataFrame` bernama `df` (kependekan dari `DataFrame`).

In [6]:
# Impor data penjualan mobil dan simpan ke df

# Opsi 1: Baca dari file CSV (disimpan di komputer lokal kita)
# df = pd.read_csv(".car-sales.csv")

# Opsi 2: Baca langsung dari URL/Google Sheets (jika file dihosting secara online)
df = pd.read_csv("https://raw.githubusercontent.com/mrdbourke/zero-to-mastery-ml/master/data/car-sales.csv")
df

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


  Sekarang `car_sales` dan `df` berisi informasi yang persis sama, satu-satunya perbedaan adalah nama. Seperti variabel lainnya, kalian dapat memberi nama `DataFrame` kalian sesuai keinginan. Tetapi lebih baik memilih sesuatu yang sederhana.


  ### Anatomi dari sebuah DataFrame

 Gambar ini merangkum beberapa komponen utama dari `DataFrame` dan nama-nama berbeda mereka.

  <img src="https://lh3.googleusercontent.com/d/11G7RDxykN9-UpysNJ81kJ8wJW2te37nQ" alt="dataframe pandas dengan berbagai bagian yang diberi label" width="800"/>

  ## 3. Mengekspor data







  Setelah kalian membuat beberapa perubahan pada data kalian, kalian mungkin ingin mengekspornya dan menyimpannya sehingga orang lain dapat mengakses perubahan tersebut.







  pandas memungkinkan kalian untuk mengekspor `DataFrame` ke format `.csv` menggunakan [`.to_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html) atau format spreadsheet menggunakan [`.to_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html).







  Kita belum membuat perubahan apa pun pada `DataFrame` `car_sales` tetapi mari kita coba ekspor.

In [7]:
# Ekspor DataFrame penjualan mobil ke csv
car_sales.to_csv("exported-car-sales.csv")

  Menjalankan ini akan menyimpan file bernama `export-car-sales.csv` ke folder saat ini.

  <img src="https://lh3.googleusercontent.com/d/1B2koteSpdZJMgwmalwSXT4J9qSMfe_bs" alt="folder dengan file csv penjualan mobil yang diekspor yang disorot" width="600"/>

  ## 4. Menjelaskan data







  Salah satu hal pertama yang akan kalian lakukan setelah mengimpor beberapa data ke dalam `DataFrame` pandas adalah mulai mengeksplorasi data tersebut.







  pandas memiliki banyak fungsi bawaan yang memungkinkan kalian untuk dengan cepat mendapatkan informasi tentang sebuah `DataFrame`.







  Mari kita jelajahi beberapa menggunakan `DataFrame` `car_sales`.

In [8]:
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


  [`.dtypes`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html) menunjukkan tipe data apa yang terdapat di setiap kolom.

In [9]:
car_sales.dtypes

Make             object
Colour           object
Odometer (KM)     int64
Doors             int64
Price            object
dtype: object

  Perhatikan bagaimana kolom `Price` bukan integer seperti `Odometer` atau `Doors`. Jangan khawatir, pandas membuat ini mudah diperbaiki.

  [`.describe()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) memberi kalian ikhtisar statistik cepat dari kolom-kolom numerik.

In [10]:
car_sales.describe()

Unnamed: 0,Odometer (KM),Doors
count,10.0,10.0
mean,78601.4,4.0
std,61983.471735,0.471405
min,11179.0,3.0
25%,35836.25,4.0
50%,57369.0,4.0
75%,96384.5,4.0
max,213095.0,5.0


  [`.info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) menunjukkan sejumlah informasi berguna tentang sebuah `DataFrame` seperti:



  * Berapa banyak entri (baris) yang ada



  * Apakah ada nilai yang hilang (jika nilai non-null kolom kurang dari jumlah entri, maka kolom tersebut memiliki nilai yang hilang)



  * Tipe data dari setiap kolom

In [11]:
car_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Make           10 non-null     object
 1   Colour         10 non-null     object
 2   Odometer (KM)  10 non-null     int64 
 3   Doors          10 non-null     int64 
 4   Price          10 non-null     object
dtypes: int64(2), object(3)
memory usage: 528.0+ bytes


  Kalian juga dapat memanggil berbagai metode statistik dan matematika seperti [`.mean()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html) atau [`.sum()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) secara langsung pada sebuah `DataFrame` atau `Series`.

In [12]:
# Memanggil .mean() pada sebuah DataFrame
car_sales.mean(numeric_only=True) # numeric_only = mendapatkan nilai rata-rata dari kolom numerik saja

Odometer (KM)    78601.4
Doors                4.0
dtype: float64

In [13]:
# Memanggil .mean() pada sebuah Series
car_prices = pd.Series([3000, 3500, 11250])
car_prices.mean()

5916.666666666667

In [14]:
# Memanggil .sum() pada sebuah DataFrame dengan numeric_only=False (default)
car_sales.sum(numeric_only=False)


Make             ToyotaHondaToyotaBMWNissanToyotaHondaHondaToyo...
Colour               WhiteRedBlueBlackWhiteGreenBlueBlueWhiteWhite
Odometer (KM)                                               786014
Doors                                                           40
Price            $4,000.00$5,000.00$7,000.00$22,000.00$3,500.00...
dtype: object

In [15]:
# Memanggil .sum() pada sebuah DataFrame dengan numeric_only=True
car_sales.sum(numeric_only=True)

Odometer (KM)    786014
Doors                40
dtype: int64

In [16]:
# Memanggil .sum() pada sebuah Series
car_prices.sum()

17750

  Memanggil ini pada seluruh `DataFrame` mungkin tidak sebaik menargetkan kolom individual. Tetapi berguna untuk mengetahui bahwa mereka ada.







  `.columns` akan menunjukkan kalian semua kolom dari sebuah `DataFrame`.

In [17]:
car_sales.columns

Index(['Make', 'Colour', 'Odometer (KM)', 'Doors', 'Price'], dtype='object')

  Kalian dapat menyimpannya ke dalam list yang bisa kalian gunakan nanti.

In [18]:
# Simpan kolom car_sales ke dalam list 
car_columns = car_sales.columns
car_columns[0]

'Make'

  `.index` akan menunjukkan nilai-nilai dalam indeks `DataFrame` (kolom di sebelah kiri paling jauh).

In [19]:
car_sales.index

RangeIndex(start=0, stop=10, step=1)

  `DataFrame` pandas, seperti list Python, berindeks 0 (kecuali jika berubah). Ini berarti mereka dimulai dari 0.

  <img src="https://lh3.googleusercontent.com/d/1Ec3d3Ii5zQ-NgmChQaiPV6b-PQPV8xKM" alt="dataframe dengan nomor indeks 0 yang disorot" width="700"/>

In [20]:
# Tampilkan panjang dari sebuah DataFrame
len(car_sales)

10

  Jadi meskipun panjang dataframe `car_sales` kita adalah 10, ini berarti indeksnya berjalan dari 0-9.

  ## 5. Melihat dan memilih data







  Beberapa metode umum untuk melihat dan memilih data dalam sebuah DataFrame pandas meliputi:







  * [`DataFrame.head(n=5)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) - Menampilkan `n` baris pertama dari sebuah DataFrame (misalnya `car_sales.head()` akan menampilkan 5 baris pertama dari DataFrame `car_sales`).



  * [`DataFrame.tail(n=5)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) - Menampilkan `n` baris terakhir dari sebuah DataFrame.



  * [`DataFrame.loc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) - Mengakses sekelompok baris dan kolom berdasarkan label atau array boolean.



  * [`DataFrame.iloc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) - Mengakses sekelompok baris dan kolom berdasarkan indeks integer (misalnya `car_sales.iloc[0]` menampilkan semua kolom dari indeks `0`.



  * [`DataFrame.columns`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html) - Mendaftar label kolom dari DataFrame.



  * `DataFrame['A']` - Memilih kolom bernama `'A'` dari DataFrame.



  * `DataFrame[DataFrame['A'] > 5]` - Pemilihan berdasarkan boolean memfilter baris berdasarkan nilai kolom yang memenuhi suatu kondisi (misalnya semua baris dari kolom `'A'` yang lebih besar dari `5`.



  * [`DataFrame.plot()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) - Membuat plot garis dari kolom-kolom DataFrame (misalnya plot kolom `Make` vs. `Odometer (KM)` dengan `car_sales[["Make", "Odometer (KM)"]].plot();`).



  * [`DataFrame.hist()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html) - Menghasilkan histogram untuk kolom-kolom dalam DataFrame.



  * [`pandas.crosstab()`](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html) - Menghitung tabulasi silang dari dua atau lebih faktor.







  Dalam praktiknya, kalian akan terus-menerus membuat perubahan pada data kalian, dan melihatnya. Mengubahnya, melihatnya, mengubahnya, melihatnya.







  Kalian tidak selalu ingin mengubah semua data dalam `DataFrame` kalian juga. Jadi ada sebanyak itu cara untuk memilih data seperti ada cara untuk melihatnya.







  `.head()` memungkinkan kalian untuk melihat 5 baris pertama dari `DataFrame` kalian. Kalian akan sering menggunakan ini.

In [21]:
# Tampilkan 5 baris pertama dari car_sales
car_sales.head()


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"


  Mengapa 5 baris? Pertanyaan bagus. Aku tidak tahu jawabannya. Tapi 5 terasa seperti jumlah yang bagus.







  Ingin lebih dari 5?







  Tidak masalah, kalian dapat memberi `.head()` sebuah integer untuk menampilkan lebih dari atau kurang dari 5 baris.

In [22]:
# Tampilkan 7 baris pertama dari car_sales
car_sales.head(7)



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"


  `.tail()` memungkinkan kalian untuk melihat 5 baris terakhir dari `DataFrame` kalian. Ini berguna jika perubahan kalian mempengaruhi baris-baris bawah dari data kalian.

In [23]:
# Tampilkan 5 baris terakhir dari car_sales
car_sales.tail()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


  Kalian dapat menggunakan `.loc[]` dan `.iloc[]` untuk memilih data dari `Series` dan `DataFrame` kalian.







  Mari kita lihat.

In [24]:
# Buat sebuah series contoh
animals = pd.Series(["cat", "dog", "bird", "snake", "ox", "lion"], 
                    index=[0, 3, 9, 8, 67, 3])
animals

0       cat
3       dog
9      bird
8     snake
67       ox
3      lion
dtype: object

  [`.loc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) mengambil integer atau label sebagai input. Dan memilih dari `Series` atau `DataFrame` kalian indeks mana pun yang cocok dengan angka tersebut.

In [25]:
# Pilih semua indeks dengan 3
animals.loc[3]

3     dog
3    lion
dtype: object

In [26]:
# Pilih indeks 9
animals.loc[9]

'bird'

  Mari kita coba dengan DataFrame `car_sales` kita.

In [27]:
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


In [28]:
# Pilih baris pada indeks 3
car_sales.loc[3]



Make                    BMW
Colour                Black
Odometer (KM)         11179
Doors                     5
Price            $22,000.00
Name: 3, dtype: object

  [`iloc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) melakukan hal yang serupa tetapi bekerja dengan posisi yang tepat.





In [29]:
animals

0       cat
3       dog
9      bird
8     snake
67       ox
3      lion
dtype: object

In [30]:
# Pilih baris pada posisi 3
animals.iloc[3]


'snake'

  Meskipun `'snake'` muncul pada indeks 8 dalam series, itu ditampilkan menggunakan `.iloc[3]` karena itu berada pada posisi ke-3 (dimulai dari 0).







  Mari kita coba dengan `DataFrame` `car_sales`.

In [31]:
# Pilih baris pada posisi 3
car_sales.iloc[3]

Make                    BMW
Colour                Black
Odometer (KM)         11179
Doors                     5
Price            $22,000.00
Name: 3, dtype: object

  Kalian dapat melihat itu sama dengan `.loc[]` karena indeksnya berurutan, posisi 3 sama dengan indeks 3.







  Kalian juga dapat menggunakan slicing dengan `.loc[]` dan `.iloc[]`.

In [32]:
# Dapatkan semua baris hingga posisi 3
animals.iloc[:3]


0     cat
3     dog
9    bird
dtype: object

In [33]:
# Dapatkan semua baris hingga (dan termasuk) indeks 3
car_sales.loc[:3]

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"


In [34]:
# Dapatkan semua baris dari kolom "Colour"
car_sales.loc[:, "Colour"] # catatan: ":" berarti "semua", misalnya "semua indeks dalam sumbu pertama"

0    White
1      Red
2     Blue
3    Black
4    White
5    Green
6     Blue
7     Blue
8    White
9    White
Name: Colour, dtype: object

  Kapan harus menggunakan `.loc[]` atau `.iloc[]`?



  * Gunakan `.loc[]` ketika kalian memilih baris dan kolom **berdasarkan label atau kondisi** (misalnya mengambil data untuk kolom tertentu).



  * Gunakan `.iloc[]` ketika kalian memilih baris dan kolom **berdasarkan posisi indeks integer** (misalnya mengekstrak sepuluh baris pertama terlepas dari labelnya).







  Namun, dalam mengatakan ini, akan sering membutuhkan sedikit latihan dengan setiap metode sebelum kalian mengetahui mana yang ingin kalian gunakan.

  Jika kalian ingin memilih kolom tertentu, kalian dapat menggunakan `DataFrame.['NAMA_KOLOM']`.

In [35]:
# Pilih kolom Make
car_sales['Make']

0    Toyota
1     Honda
2    Toyota
3       BMW
4    Nissan
5    Toyota
6     Honda
7     Honda
8    Toyota
9    Nissan
Name: Make, dtype: object

In [36]:
# Pilih kolom Colour
car_sales['Colour']


0    White
1      Red
2     Blue
3    Black
4    White
5    Green
6     Blue
7     Blue
8    White
9    White
Name: Colour, dtype: object

  Pemilihan berdasarkan boolean juga bekerja dengan pemilihan kolom. Menggunakannya akan memilih baris-baris yang memenuhi kondisi dalam kurung.

In [37]:
# Pilih mobil dengan odometer lebih dari 100.000
car_sales[car_sales["Odometer (KM)"] > 100000]


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
4,Nissan,White,213095,4,"$3,500.00"


In [38]:
# Pilih mobil yang dibuat oleh Toyota
car_sales[car_sales["Make"] == "Toyota"]


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
5,Toyota,Green,99213,4,"$4,500.00"
8,Toyota,White,60000,4,"$6,250.00"


  `pd.crosstab()` adalah cara yang bagus untuk melihat dua kolom yang berbeda bersama-sama dan membandingkannya.

In [39]:
# Bandingkan Make mobil dengan jumlah pintu
pd.crosstab(car_sales["Make"], car_sales["Doors"])


Doors,3,4,5
Make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BMW,0,0,1
Honda,0,3,0
Nissan,0,2,0
Toyota,1,3,0


  Jika kalian ingin membandingkan lebih banyak kolom dalam konteks kolom lain, kalian dapat menggunakan `.groupby()`.

In [40]:
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


In [41]:
# Kelompokkan berdasarkan kolom Make dan temukan rata-rata dari kolom-kolom lainnya 
car_sales.groupby(["Make"]).mean(numeric_only=True)


Unnamed: 0_level_0,Odometer (KM),Doors
Make,Unnamed: 1_level_1,Unnamed: 2_level_1
BMW,11179.0,5.0
Honda,62778.333333,4.0
Nissan,122347.5,4.0
Toyota,85451.25,3.75


 # 6. Memanipulasi data







  Ada banyak cara kalian dapat memanipulasi data menggunakan pandas.







  Ketika kalian melihat sejumlah fungsi yang berbeda dalam urutan, itu disebut **chaining**. Ini berarti kalian menambahkan bersama serangkaian fungsi semua untuk melakukan satu tugas keseluruhan.







  Mari kita lihat beberapa cara lagi untuk memanipulasi data.







  Mari kita mulai dengan metode string. Karena pandas didasarkan pada Python, bagaimanapun kalian dapat memanipulasi string di Python, kalian dapat melakukan hal yang sama di pandas.







  Kalian dapat mengakses nilai string dari kolom menggunakan `.str`. Mengetahui ini, bagaimana menurut kalian cara kalian mengatur kolom menjadi huruf kecil?

In [42]:
# Atur kolom Make menjadi huruf kecil
car_sales["Make"].str.lower()


0    toyota
1     honda
2    toyota
3       bmw
4    nissan
5    toyota
6     honda
7     honda
8    toyota
9    nissan
Name: Make, dtype: object

  Perhatikan bagaimana itu tidak mengubah nilai dari `DataFrame` `car_sales` asli kecuali kita mengaturnya sama dengan.

In [43]:
# Lihat 5 baris teratas, kolom Make tidak dikecilkan
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"


In [44]:
# Atur kolom Make menjadi huruf kecil
car_sales["Make"] = car_sales["Make"].str.lower()
car_sales.head()


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,toyota,White,150043,4,"$4,000.00"
1,honda,Red,87899,4,"$5,000.00"
2,toyota,Blue,32549,3,"$7,000.00"
3,bmw,Black,11179,5,"$22,000.00"
4,nissan,White,213095,4,"$3,500.00"


  Menetapkan ulang kolom mengubahnya dalam `DataFrame` asli. Tren ini terjadi di seluruh jenis manipulasi data dengan pandas.







  Beberapa fungsi memiliki parameter bernama `inplace` yang berarti `DataFrame` diperbarui di tempat tanpa harus menetapkan ulang.







  Mari kita lihat seperti apa itu dalam kombinasi dengan `.fillna()`, sebuah fungsi yang mengisi data yang hilang. Tetapi masalahnya, tabel kita tidak kehilangan data apa pun.







  Dalam praktiknya, kalian kemungkinan besar akan bekerja dengan dataset yang tidak lengkap. Ini berarti kalian harus memutuskan apakah akan mengisi data yang hilang atau menghapus baris yang memiliki data yang hilang.







  Mari kita lihat seperti apa versi dari `DataFrame` `car_sales` kita dengan nilai yang hilang.

In [45]:
# Opsi 1: Impor data penjualan mobil dengan nilai yang hilang dari file lokal (disimpan di komputer kita)
# car_sales_missing = pd.read_csv("../data/car-sales-missing-data.csv")

# Opsi 2: Impor data penjualan mobil dengan nilai yang hilang dari GitHub (jika file dihosting secara online)
car_sales_missing = pd.read_csv("https://raw.githubusercontent.com/mrdbourke/zero-to-mastery-ml/master/data/car-sales-missing-data.csv")
car_sales_missing


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,,4.0,"$4,500"
6,Honda,,,4.0,"$7,500"
7,Honda,Blue,,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


  Nilai yang hilang ditampilkan oleh `NaN` di pandas. Ini bisa dianggap sebagai ekuivalen dari `None` di Python.







  Mari kita gunakan fungsi [`.fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html) untuk mengisi kolom `Odometer` dengan rata-rata dari nilai-nilai lainnya dalam kolom yang sama.

In [46]:
# Isi nilai yang hilang pada kolom Odometer dengan rata-rata
car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean(), 
                                     inplace=False) # inplace diatur ke False secara default 

0    150043.000000
1     87899.000000
2     92302.666667
3     11179.000000
4    213095.000000
5     92302.666667
6     92302.666667
7     92302.666667
8     60000.000000
9     31600.000000
Name: Odometer, dtype: float64

  Sekarang mari kita cek `DataFrame` `car_sales_missing` asli.

In [47]:
car_sales_missing


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,,4.0,"$4,500"
6,Honda,,,4.0,"$7,500"
7,Honda,Blue,,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


  Karena `inplace` diatur ke `False` (default), masih ada nilai yang hilang dalam kolom `"Odometer"`.







  Alih-alih menggunakan `inplace`, mari kita tetapkan ulang kolom ke versi yang terisi.







  Kita akan menggunakan sintaks `df[col] = df[col].fillna(value)` untuk mengisi nilai-nilai yang hilang dalam kolom `"Odometer"` dengan rata-rata dari nilai-nilai lainnya dalam kolom yang sama.

In [48]:
# Isi nilai-nilai yang hilang pada Odometer dengan rata-rata dengan inplace=True
car_sales_missing["Odometer"] = car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean())


  Sekarang mari kita cek `DataFrame` `car_sales_missing` lagi.

In [49]:
car_sales_missing


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"
6,Honda,,92302.666667,4.0,"$7,500"
7,Honda,Blue,92302.666667,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


  Nilai-nilai yang hilang dalam kolom `Odometer` telah diisi dengan nilai rata-rata dari kolom yang sama.







  Dalam praktiknya, kalian mungkin tidak ingin mengisi nilai-nilai yang hilang dari kolom dengan rata-rata, tetapi contoh ini hanya untuk menunjukkan perbedaan antara `inplace=False` (default) dan `inplace=True`.







  Mana pun yang kalian pilih untuk digunakan akan tergantung pada bagaimana kalian menyusun kode kalian.







  Yang harus kalian ingat hanyalah `inplace=False` mengembalikan salinan dari `DataFrame` yang sedang kalian kerjakan.







  Ini berguna jika kalian ingin membuat duplikat dari `DataFrame` kalian saat ini dan menyimpannya ke variabel lain.







  Di mana, `inplace=True` membuat semua perubahan langsung ke `DataFrame` target.







  Kita telah mengisi beberapa nilai tetapi masih ada nilai yang hilang di `car_sales_missing`. Katakanlah kalian ingin menghapus baris mana pun yang memiliki data yang hilang dan hanya bekerja dengan baris yang memiliki cakupan lengkap.







  Kalian dapat melakukannya menggunakan [`.dropna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html).

In [50]:
# Hapus data yang hilang
car_sales_missing.dropna()


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"


  Sepertinya baris dengan nilai yang hilang telah dihapus, sekarang mari kita periksa untuk memastikan.

In [51]:
car_sales_missing


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"
6,Honda,,92302.666667,4.0,"$7,500"
7,Honda,Blue,92302.666667,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


  Hmm, mereka masih ada, bisakah kalian menebak mengapa?







  Karena `.dropna()` memiliki `inplace=False` sebagai default. Kita dapat mengatur `inplace=True` atau menetapkan ulang `DataFrame` `car_sales_missing`.

In [52]:
# Dua baris berikut melakukan hal yang sama
car_sales_missing.dropna(inplace=True) # Operasi terjadi inplace tanpa penugasan ulang
car_sales_missing = car_sales_missing.dropna() # car_sales_missing ditetapkan ulang ke DataFrame yang sama tetapi dengan nilai yang dihapus  


  Sekarang jika kita cek lagi, baris dengan nilai yang hilang telah hilang dan nomor indeks telah diperbarui.

In [53]:
car_sales_missing


Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,92302.666667,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,92302.666667,4.0,"$4,500"


  Daripada menghapus atau mengisi data, bagaimana jika kalian ingin membuatnya?







  Misalnya, membuat kolom bernama `Seats` untuk jumlah kursi.







  pandas memungkinkan pembuatan kolom tambahan yang sederhana pada `DataFrame`.







  Tiga cara umum adalah:



  1. Menambahkan sebuah `pandas.Series` sebagai kolom.



  2. Menambahkan sebuah list Python sebagai kolom.



  3. Dengan menggunakan kolom yang ada untuk membuat kolom baru.

In [54]:
# Buat kolom dari pandas Series
seats_column = pd.Series([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])
car_sales["Seats"] = seats_column
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats
0,toyota,White,150043,4,"$4,000.00",5
1,honda,Red,87899,4,"$5,000.00",5
2,toyota,Blue,32549,3,"$7,000.00",5
3,bmw,Black,11179,5,"$22,000.00",5
4,nissan,White,213095,4,"$3,500.00",5
5,toyota,Green,99213,4,"$4,500.00",5
6,honda,Blue,45698,4,"$7,500.00",5
7,honda,Blue,54738,4,"$7,000.00",5
8,toyota,White,60000,4,"$6,250.00",5
9,nissan,White,31600,4,"$9,700.00",5


  Membuat kolom mirip dengan memilih kolom, kalian memberikan `DataFrame` target bersama dengan nama kolom baru dalam kurung siku.

In [55]:
# Buat kolom dari list Python
engine_sizes = [1.3, 2.0, 3.0, 4.2, 1.6, 1, 2.0, 2.3, 2.0, 3.0]
car_sales["Engine Size"] = engine_sizes
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size
0,toyota,White,150043,4,"$4,000.00",5,1.3
1,honda,Red,87899,4,"$5,000.00",5,2.0
2,toyota,Blue,32549,3,"$7,000.00",5,3.0
3,bmw,Black,11179,5,"$22,000.00",5,4.2
4,nissan,White,213095,4,"$3,500.00",5,1.6
5,toyota,Green,99213,4,"$4,500.00",5,1.0
6,honda,Blue,45698,4,"$7,500.00",5,2.0
7,honda,Blue,54738,4,"$7,000.00",5,2.3
8,toyota,White,60000,4,"$6,250.00",5,2.0
9,nissan,White,31600,4,"$9,700.00",5,3.0


  Kalian juga dapat membuat kolom dengan langsung menggabungkan nilai-nilai dari kolom lain. Seperti, harga per kilometer pada Odometer.

In [58]:
# Kolom dari kolom lain
car_sales["Price per KM"] = car_sales["Price"] / car_sales["Odometer (KM)"]
car_sales


TypeError: unsupported operand type(s) for /: 'str' and 'int'

 Mencoba menjalankannya meninggalkan kita dengan error. Ini karena kolom "Price" dari car_sales bukan dalam bentuk numerik. Kita bisa melihat ini karena TypeError: unsupported operand type(s) for /: 'str' and 'int' di bagian bawah sel ketika mencoba mengkombinasikannya dengan kolom "Odometer (KM)" yang bertipe numerik.

 Kita dapat memeriksa ini dengan .info().

In [59]:
car_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Make           10 non-null     object 
 1   Colour         10 non-null     object 
 2   Odometer (KM)  10 non-null     int64  
 3   Doors          10 non-null     int64  
 4   Price          10 non-null     object 
 5   Seats          10 non-null     int64  
 6   Engine Size    10 non-null     float64
dtypes: float64(1), int64(3), object(3)
memory usage: 688.0+ bytes


 Jadi apa yang bisa kita lakukan?



 Kita perlu mengonversi kolom `"Price"` ke tipe numerik.



 Bagaimana?



 Kita bisa mencoba beberapa hal yang berbeda sendiri. Tapi mari kita latih pencarian.







 **1.** Buka google dan ketik sesuatu seperti "bagaimana mengonversi kolom price pandas ke integer".



 Dalam hasil pertama, misalnya terdapat [pertanyaan dan jawaban Stack Overflow](https://stackoverflow.com/questions/44469313/price-column-object-to-int-in-pandas) . Di mana seseorang memiliki masalah yang sama dengan kita dan orang lain memberikan jawaban.



 > **Catatan:** Terkadang jawaban yang kalian cari tidak akan ada di hasil pertama, kedua, atau ketiga. Kalian mungkin perlu menggabungkan beberapa solusi yang berbeda. Atau, jika memungkinkan, kalian bisa mencoba bertanya kepada ChatGPT untuk membantu kalian.



 **2.** Dalam praktiknya, kalian akan membaca ini dan melihat apakah itu relevan dengan masalah kalian.



 **3.** Jika iya, kalian dapat menyesuaikan kode dari jawaban Stack Overflow ke masalah kalian sendiri.



 **4.** Jika masih buntu, kalian bisa mencoba berbicara dengan ChatGPT untuk membantu kalian dengan masalah kalian (selama data/masalah yang kalian kerjakan boleh dibagikan. Jangan pernah membagikan data pribadi dengan siapa pun di internet, termasuk chatbot AI).

 <img src="https://lh3.googleusercontent.com/d/1vv8KUBoyh-qvjOvUffZIanOVAruvKPIz" alt="langkah-langkah dalam mencari masalah dengan Google dan Stack Overflow" width="1000"/>


 Yang penting di awal bukan untuk mengingat setiap detail secara hafal tetapi tahu di mana harus mencari. Ingat, jika ragu, tulis kode, jalankan, lihat apa yang terjadi.



 Mari kita salin kode jawaban di sini dan lihat bagaimana hubungannya dengan masalah kita.



 Kode jawaban: ```dataframe['amount'] = dataframe['amount'].str.replace('[\$\,\.]', '').astype(int)```



 Ada banyak hal yang terjadi di sini tetapi yang bisa kita lakukan adalah mengubah bagian yang tidak relevan dengan masalah kita dan tetap menjaga sisanya sama.



 `DataFrame` kita disebut `car_sales` bukan `dataframe`.



 ```car_sales['amount'] = car_sales['amount'].str.replace('[\$\,\.]', '').astype(int)```



 Dan kolom `'amount'` kita disebut `"Price"`.



 ```car_sales["Price"] = car_sales["Price"].str.replace('[\$\,\.]', '').astype(int)```



 Terlihat lebih baik. Kode di sebelah kanan `car_sales["Price"]` berarti "hapus tanda $ dan koma dan ubah tipe sel menjadi int".



 Mari kita lihat apa yang terjadi.

In [60]:
# Ubah kolom Price menjadi integer
car_sales["Price"] = car_sales["Price"].str.replace('[\$\,\.]', '', regex=True)
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size
0,toyota,White,150043,4,400000,5,1.3
1,honda,Red,87899,4,500000,5,2.0
2,toyota,Blue,32549,3,700000,5,3.0
3,bmw,Black,11179,5,2200000,5,4.2
4,nissan,White,213095,4,350000,5,1.6
5,toyota,Green,99213,4,450000,5,1.0
6,honda,Blue,45698,4,750000,5,2.0
7,honda,Blue,54738,4,700000,5,2.3
8,toyota,White,60000,4,625000,5,2.0
9,nissan,White,31600,4,970000,5,3.0


 Keren! tapi ada nol ekstra di kolom `Price`.



 Mari kita hapus itu.

In [61]:
# Hapus 2 nol ekstra dari kolom harga (2200000 -> 22000) dengan mengindeks semua kecuali dua digit terakhir
car_sales["Price"] = car_sales["Price"].str[:-2].astype(int)
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size
0,toyota,White,150043,4,4000,5,1.3
1,honda,Red,87899,4,5000,5,2.0
2,toyota,Blue,32549,3,7000,5,3.0
3,bmw,Black,11179,5,22000,5,4.2
4,nissan,White,213095,4,3500,5,1.6
5,toyota,Green,99213,4,4500,5,1.0
6,honda,Blue,45698,4,7500,5,2.0
7,honda,Blue,54738,4,7000,5,2.3
8,toyota,White,60000,4,6250,5,2.0
9,nissan,White,31600,4,9700,5,3.0


In [62]:
car_sales.dtypes


Make              object
Colour            object
Odometer (KM)      int64
Doors              int64
Price              int32
Seats              int64
Engine Size      float64
dtype: object

Sekarang mari coba membuat kembali kolom baru "Price per KM"

In [63]:

car_sales["Price per KM"] = car_sales["Price"] / car_sales["Odometer (KM)"]
car_sales


Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Price per KM
0,toyota,White,150043,4,4000,5,1.3,0.026659
1,honda,Red,87899,4,5000,5,2.0,0.056883
2,toyota,Blue,32549,3,7000,5,3.0,0.21506
3,bmw,Black,11179,5,22000,5,4.2,1.967976
4,nissan,White,213095,4,3500,5,1.6,0.016425
5,toyota,Green,99213,4,4500,5,1.0,0.045357
6,honda,Blue,45698,4,7500,5,2.0,0.164121
7,honda,Blue,54738,4,7000,5,2.3,0.127882
8,toyota,White,60000,4,6250,5,2.0,0.104167
9,nissan,White,31600,4,9700,5,3.0,0.306962


 Sekarang bisakah kalian memikirkan mengapa ini mungkin bukan kolom yang bagus untuk ditambahkan?







 Ini bisa membingungkan ketika mobil dengan lebih sedikit kilometer pada odometer tampaknya berharga lebih mahal per kilometer daripada yang memiliki lebih banyak.







 Ketika membeli mobil, biasanya lebih sedikit kilometer pada odometer lebih baik.







 Jenis pembuatan kolom ini disebut [**feature engineering**](https://en.wikipedia.org/wiki/Feature_engineering), praktik memperkaya dataset kalian dengan informasi lebih lanjut (baik dari dataset itu sendiri atau dari sumber lain).







 Jika `Make`, `Colour`, `Doors` adalah fitur dari data, membuat `Price per KM` bisa menjadi fitur lain. Tetapi dalam kasus ini, tidak begitu bagus.







 Sebagai tambahan untuk pembuatan kolom, kalian juga dapat membuat kolom baru dengan mengatur semua nilainya ke satu nilai standar.

In [64]:
# Kolom ke semua nilai 1 (jumlah roda)
car_sales["Number of wheels"] = 4
car_sales



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Price per KM,Number of wheels
0,toyota,White,150043,4,4000,5,1.3,0.026659,4
1,honda,Red,87899,4,5000,5,2.0,0.056883,4
2,toyota,Blue,32549,3,7000,5,3.0,0.21506,4
3,bmw,Black,11179,5,22000,5,4.2,1.967976,4
4,nissan,White,213095,4,3500,5,1.6,0.016425,4
5,toyota,Green,99213,4,4500,5,1.0,0.045357,4
6,honda,Blue,45698,4,7500,5,2.0,0.164121,4
7,honda,Blue,54738,4,7000,5,2.3,0.127882,4
8,toyota,White,60000,4,6250,5,2.0,0.104167,4
9,nissan,White,31600,4,9700,5,3.0,0.306962,4


In [65]:
car_sales["Passed road safety"] = True
car_sales



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Price per KM,Number of wheels,Passed road safety
0,toyota,White,150043,4,4000,5,1.3,0.026659,4,True
1,honda,Red,87899,4,5000,5,2.0,0.056883,4,True
2,toyota,Blue,32549,3,7000,5,3.0,0.21506,4,True
3,bmw,Black,11179,5,22000,5,4.2,1.967976,4,True
4,nissan,White,213095,4,3500,5,1.6,0.016425,4,True
5,toyota,Green,99213,4,4500,5,1.0,0.045357,4,True
6,honda,Blue,45698,4,7500,5,2.0,0.164121,4,True
7,honda,Blue,54738,4,7000,5,2.3,0.127882,4,True
8,toyota,White,60000,4,6250,5,2.0,0.104167,4,True
9,nissan,White,31600,4,9700,5,3.0,0.306962,4,True


  Sekarang kalian telah membuat beberapa kolom, kalian memutuskan untuk menunjukkan kolega kalian apa yang telah kalian lakukan. Ketika mereka bertanya tentang kolom `Price per KM`, kalian memberi tahu mereka kalian tidak benar-benar yakin mengapa itu ada di sana.







  Kalian memutuskan lebih baik menghapusnya untuk mencegah kebingungan.







  Kalian dapat menghapus kolom menggunakan [`.drop('NAMA_KOLOM', axis=1)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html).

In [66]:
# Hapus kolom Price per KM
car_sales = car_sales.drop("Price per KM", axis=1) # kolom berada di axis 1
car_sales



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Number of wheels,Passed road safety
0,toyota,White,150043,4,4000,5,1.3,4,True
1,honda,Red,87899,4,5000,5,2.0,4,True
2,toyota,Blue,32549,3,7000,5,3.0,4,True
3,bmw,Black,11179,5,22000,5,4.2,4,True
4,nissan,White,213095,4,3500,5,1.6,4,True
5,toyota,Green,99213,4,4500,5,1.0,4,True
6,honda,Blue,45698,4,7500,5,2.0,4,True
7,honda,Blue,54738,4,7000,5,2.3,4,True
8,toyota,White,60000,4,6250,5,2.0,4,True
9,nissan,White,31600,4,9700,5,3.0,4,True


  Mengapa `axis=1`? Karena itulah axis tempat kolom berada. Baris berada di `axis=0`.







  Katakanlah kalian ingin mengacak urutan `DataFrame` kalian sehingga kalian bisa membaginya menjadi set pelatihan, validasi, dan uji. Dan meskipun urutan sampel kalian acak, kalian ingin memastikan.







  Untuk melakukannya kalian bisa menggunakan [`.sample(frac=1)`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html).







  `.sample()` mengambil sampel acak dari baris yang berbeda dari `DataFrame`.







  Parameter `frac` menentukan pecahan, di mana 1 = 100% dari baris, 0.5 = 50% dari baris, 0.01 = 1% dari baris.







  Kalian juga dapat menggunakan `.sample(n=1)` di mana `n` adalah jumlah baris yang akan diambil sampelnya.

In [69]:
# Sampel dari car_sales
car_sales_sampled = car_sales.sample(frac=1)
car_sales_sampled



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Number of wheels,Passed road safety
5,toyota,Green,99213,4,4500,5,1.0,4,True
3,bmw,Black,11179,5,22000,5,4.2,4,True
8,toyota,White,60000,4,6250,5,2.0,4,True
4,nissan,White,213095,4,3500,5,1.6,4,True
9,nissan,White,31600,4,9700,5,3.0,4,True
0,toyota,White,150043,4,4000,5,1.3,4,True
7,honda,Blue,54738,4,7000,5,2.3,4,True
6,honda,Blue,45698,4,7500,5,2.0,4,True
1,honda,Red,87899,4,5000,5,2.0,4,True
2,toyota,Blue,32549,3,7000,5,3.0,4,True


  Perhatikan bagaimana baris tetap utuh tetapi urutannya diacak (cek indeksnya).







  `.sample(frac=X)` juga berguna ketika kalian bekerja dengan `DataFrame` yang besar.







  Katakanlah kalian memiliki 2.000.000 baris.







  Menjalankan tes, analisis, dan algoritma machine learning pada 2.000.000 baris bisa memakan waktu lama. Dan karena menjadi ilmuwan data atau insinyur machine learning adalah tentang mengurangi waktu antara eksperimen, kalian mungkin mulai dengan sampel dari baris terlebih dahulu.







  Misalnya, kalian bisa menggunakan `40k_rows = 2_mil_rows.sample(frac=0.05)` untuk bekerja pada 40.000 baris dari `DataFrame` bernama `2_mil_rows` yang berisi 2.000.000 baris.







  Bagaimana jika kalian ingin mendapatkan indeks kembali ke urutan semula?







  Kalian bisa melakukannya menggunakan [`.reset_index()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html).

In [70]:
# Reset indeks dari car_sales_sampled
car_sales_sampled.reset_index()



Unnamed: 0,index,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Number of wheels,Passed road safety
0,5,toyota,Green,99213,4,4500,5,1.0,4,True
1,3,bmw,Black,11179,5,22000,5,4.2,4,True
2,8,toyota,White,60000,4,6250,5,2.0,4,True
3,4,nissan,White,213095,4,3500,5,1.6,4,True
4,9,nissan,White,31600,4,9700,5,3.0,4,True
5,0,toyota,White,150043,4,4000,5,1.3,4,True
6,7,honda,Blue,54738,4,7000,5,2.3,4,True
7,6,honda,Blue,45698,4,7500,5,2.0,4,True
8,1,honda,Red,87899,4,5000,5,2.0,4,True
9,2,toyota,Blue,32549,3,7000,5,3.0,4,True


  Memanggil `.reset_index()` pada `DataFrame` mengatur ulang nomor indeks ke default mereka. Ini juga membuat kolom `Index` baru secara default yang berisi nilai indeks sebelumnya.







  Terakhir, bagaimana jika kalian ingin menerapkan fungsi ke kolom. Seperti, mengubah kolom `Odometer` dari kilometer ke mil.







  Kalian dapat melakukannya menggunakan fungsi [`.apply()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html) dan memberinya [fungsi lambda](https://www.w3schools.com/python/python_lambda.asp) Python. Kita tahu ada sekitar 1.6 kilometer dalam satu mil, jadi jika kalian membagi nilai dalam kolom `Odometer` dengan 1.6, itu seharusnya mengonversinya ke mil.

In [71]:
# Ubah nilai-nilai Odometer dari kilometer ke mil
car_sales["Odometer (KM)"].apply(lambda x: x / 1.6)



0     93776.875
1     54936.875
2     20343.125
3      6986.875
4    133184.375
5     62008.125
6     28561.250
7     34211.250
8     37500.000
9     19750.000
Name: Odometer (KM), dtype: float64

  Sekarang mari kita cek `DataFrame` `car_sales` kita.

In [72]:
car_sales



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Number of wheels,Passed road safety
0,toyota,White,150043,4,4000,5,1.3,4,True
1,honda,Red,87899,4,5000,5,2.0,4,True
2,toyota,Blue,32549,3,7000,5,3.0,4,True
3,bmw,Black,11179,5,22000,5,4.2,4,True
4,nissan,White,213095,4,3500,5,1.6,4,True
5,toyota,Green,99213,4,4500,5,1.0,4,True
6,honda,Blue,45698,4,7500,5,2.0,4,True
7,honda,Blue,54738,4,7000,5,2.3,4,True
8,toyota,White,60000,4,6250,5,2.0,4,True
9,nissan,White,31600,4,9700,5,3.0,4,True


  Kolom `Odometer` tidak berubah. Bisakah kalian menebak mengapa?







  Kita tidak menetapkan ulangnya.

In [73]:
# Tetapkan ulang kolom Odometer untuk menjadi mil bukan kilometer
car_sales["Odometer (KM)"] = car_sales["Odometer (KM)"].apply(lambda x: x / 1.6)
car_sales



Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price,Seats,Engine Size,Number of wheels,Passed road safety
0,toyota,White,93776.875,4,4000,5,1.3,4,True
1,honda,Red,54936.875,4,5000,5,2.0,4,True
2,toyota,Blue,20343.125,3,7000,5,3.0,4,True
3,bmw,Black,6986.875,5,22000,5,4.2,4,True
4,nissan,White,133184.375,4,3500,5,1.6,4,True
5,toyota,Green,62008.125,4,4500,5,1.0,4,True
6,honda,Blue,28561.25,4,7500,5,2.0,4,True
7,honda,Blue,34211.25,4,7000,5,2.3,4,True
8,toyota,White,37500.0,4,6250,5,2.0,4,True
9,nissan,White,19750.0,4,9700,5,3.0,4,True


  Jika kalian belum pernah melihat [fungsi lambda](https://www.w3schools.com/python/python_lambda.asp) mereka bisa membingungkan. Baris di atas mengatakan "ambil nilai dalam kolom `Odometer (KM)` (`x`) dan atur ke nilai itu sendiri dibagi 1.6".

  ## 7. Konversi DataFrame



  Salah satu aspek penting dalam bekerja dengan DataFrame adalah kemampuan untuk mengonversinya ke format lain yang mungkin diperlukan untuk berbagai keperluan. Kita sering kali perlu mengonversi DataFrame ke dictionary Python atau ke array numpy untuk keperluan tertentu.



  ### Mengonversi ke Dictionary Python



  Kita dapat mengonversi DataFrame ke dictionary Python menggunakan metode `.to_dict()`. Ini berguna ketika kita ingin bekerja dengan data dalam format yang lebih mudah diproses secara manual atau ketika kita ingin menyimpan data dalam format yang bisa digunakan di luar lingkungan pandas.



  Ada beberapa orientasi yang bisa digunakan dengan `.to_dict()`:

  * `'dict'` - (default) kolom sebagai kunci, nilai sebagai dictionary

  * `'list'` - kolom sebagai kunci, nilai sebagai list

  * `'series'` - kolom sebagai kunci, nilai sebagai Series

  * `'records'` - setiap baris sebagai dictionary dalam list

  * `'index'` - indeks sebagai kunci, nilai sebagai dictionary



  Mari kita lihat contohnya dengan DataFrame car_sales yang telah kita gunakan sebelumnya:



In [74]:
#  # Konversi DataFrame ke dictionary dengan orientasi default
car_sales_dict = car_sales.to_dict()
car_sales_dict


{'Make': {0: 'toyota',
  1: 'honda',
  2: 'toyota',
  3: 'bmw',
  4: 'nissan',
  5: 'toyota',
  6: 'honda',
  7: 'honda',
  8: 'toyota',
  9: 'nissan'},
 'Colour': {0: 'White',
  1: 'Red',
  2: 'Blue',
  3: 'Black',
  4: 'White',
  5: 'Green',
  6: 'Blue',
  7: 'Blue',
  8: 'White',
  9: 'White'},
 'Odometer (KM)': {0: 93776.875,
  1: 54936.875,
  2: 20343.125,
  3: 6986.875,
  4: 133184.375,
  5: 62008.125,
  6: 28561.25,
  7: 34211.25,
  8: 37500.0,
  9: 19750.0},
 'Doors': {0: 4, 1: 4, 2: 3, 3: 5, 4: 4, 5: 4, 6: 4, 7: 4, 8: 4, 9: 4},
 'Price': {0: 4000,
  1: 5000,
  2: 7000,
  3: 22000,
  4: 3500,
  5: 4500,
  6: 7500,
  7: 7000,
  8: 6250,
  9: 9700},
 'Seats': {0: 5, 1: 5, 2: 5, 3: 5, 4: 5, 5: 5, 6: 5, 7: 5, 8: 5, 9: 5},
 'Engine Size': {0: 1.3,
  1: 2.0,
  2: 3.0,
  3: 4.2,
  4: 1.6,
  5: 1.0,
  6: 2.0,
  7: 2.3,
  8: 2.0,
  9: 3.0},
 'Number of wheels': {0: 4,
  1: 4,
  2: 4,
  3: 4,
  4: 4,
  5: 4,
  6: 4,
  7: 4,
  8: 4,
  9: 4},
 'Passed road safety': {0: True,
  1: True,
  2

In [75]:
#  # Konversi DataFrame ke dictionary dengan orientasi 'records'
car_sales_records = car_sales.to_dict('records')
car_sales_records

[{'Make': 'toyota',
  'Colour': 'White',
  'Odometer (KM)': 93776.875,
  'Doors': 4,
  'Price': 4000,
  'Seats': 5,
  'Engine Size': 1.3,
  'Number of wheels': 4,
  'Passed road safety': True},
 {'Make': 'honda',
  'Colour': 'Red',
  'Odometer (KM)': 54936.875,
  'Doors': 4,
  'Price': 5000,
  'Seats': 5,
  'Engine Size': 2.0,
  'Number of wheels': 4,
  'Passed road safety': True},
 {'Make': 'toyota',
  'Colour': 'Blue',
  'Odometer (KM)': 20343.125,
  'Doors': 3,
  'Price': 7000,
  'Seats': 5,
  'Engine Size': 3.0,
  'Number of wheels': 4,
  'Passed road safety': True},
 {'Make': 'bmw',
  'Colour': 'Black',
  'Odometer (KM)': 6986.875,
  'Doors': 5,
  'Price': 22000,
  'Seats': 5,
  'Engine Size': 4.2,
  'Number of wheels': 4,
  'Passed road safety': True},
 {'Make': 'nissan',
  'Colour': 'White',
  'Odometer (KM)': 133184.375,
  'Doors': 4,
  'Price': 3500,
  'Seats': 5,
  'Engine Size': 1.6,
  'Number of wheels': 4,
  'Passed road safety': True},
 {'Make': 'toyota',
  'Colour': 'Gre

 ### Mengonversi ke Array Numpy



  Selain ke dictionary, kita juga dapat mengonversi DataFrame ke array numpy menggunakan atribut `.values`. Ini berguna ketika kita ingin menggunakan data dalam library yang bekerja langsung dengan array numpy, seperti scikit-learn atau ketika kita ingin melakukan operasi numerik murni tanpa overhead pandas.

  Apa itu NumPy? NumPy adalah library dasar untuk komputasi numerik di Python.
  Array NumPy (ndarray) adalah struktur data homogen berdimensi-N yang disimpan secara kontigu di memori sehingga efisien untuk operasi vektor dan broadcasting.
  Berbeda dengan list Python yang bisa berisi berbagai tipe, ndarray menyimpan satu tipe data saja sehingga operasi numerik dapat dijalankan jauh lebih cepat.
  
  > Catatan: selain atribut `.values`, kalian juga bisa menggunakan `DataFrame.to_numpy()` yang memberi kontrol lebih atas `dtype` dan apakah perlu menyalin data atau tidak.


In [76]:
#  # Konversi DataFrame ke array numpy
car_sales_array = car_sales.values
car_sales_array


array([['toyota', 'White', 93776.875, 4, 4000, 5, 1.3, 4, True],
       ['honda', 'Red', 54936.875, 4, 5000, 5, 2.0, 4, True],
       ['toyota', 'Blue', 20343.125, 3, 7000, 5, 3.0, 4, True],
       ['bmw', 'Black', 6986.875, 5, 22000, 5, 4.2, 4, True],
       ['nissan', 'White', 133184.375, 4, 3500, 5, 1.6, 4, True],
       ['toyota', 'Green', 62008.125, 4, 4500, 5, 1.0, 4, True],
       ['honda', 'Blue', 28561.25, 4, 7500, 5, 2.0, 4, True],
       ['honda', 'Blue', 34211.25, 4, 7000, 5, 2.3, 4, True],
       ['toyota', 'White', 37500.0, 4, 6250, 5, 2.0, 4, True],
       ['nissan', 'White', 19750.0, 4, 9700, 5, 3.0, 4, True]],
      dtype=object)

In [77]:
# Periksa tipe data dari array yang dihasilkan
type(car_sales_array)

numpy.ndarray

  Perhatikan bahwa ketika kita mengonversi DataFrame ke array numpy, semua kolom akan diubah menjadi tipe data yang sama (biasanya object jika ada campuran tipe data) untuk memastikan array tetap homogen. Ini penting untuk diingat ketika bekerja dengan DataFrame yang memiliki berbagai tipe data.



  ## Ringkasan







  ### Topik utama yang kita bahas



  * [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) - sebuah kolom tunggal (bisa berupa beberapa baris) dari nilai-nilai.



  * [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html) - beberapa kolom/baris dari nilai-nilai (DataFrame terdiri dari beberapa Series).



  * [Mengimpor data](https://pandas.pydata.org/pandas-docs/stable/reference/io.html) - kita menggunakan [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas-read-csv) untuk membaca file CSV (comma-separated values) tetapi ada beberapa opsi untuk membaca data.



  * [Mengekspor data](https://pandas.pydata.org/pandas-docs/stable/reference/io.html) - kita mengekspor data kita menggunakan `to_csv()`, tetapi ada beberapa metode untuk mengekspor data.



  * [Menjelaskan data](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)



      * `df.dtypes` - temukan tipe data yang ada dalam dataframe.



      * `df.describe()` - temukan berbagai fitur numerik dari dataframe.



      * `df.info()` - temukan jumlah baris dan apakah ada yang kosong atau tidak.



  * [Melihat dan memilih data](https://pandas.pydata.org/docs/user_guide/10min.html#viewing-data)



      * `df.head()` - lihat 5 baris pertama dari `df`.



      * `df.loc` & `df.iloc` - pilih bagian spesifik dari dataframe.



      * `df['A']` - pilih kolom `A` dari `df`.



      * `df[df['A'] > 1000]` - pilih baris kolom `A` dengan nilai lebih dari 1000 dari `df`.



  * [Memanipulasi data dan melakukan operasi](https://pandas.pydata.org/docs/user_guide/10min.html#operations) - pandas memiliki banyak fungsi bawaan yang bisa kalian gunakan untuk memanipulasi data, juga banyak operator Python (misalnya `+`, `-`, `>`, `==`) bekerja dengan pandas.

      * [Konversi DataFrame](https://pandas.pydata.org/docs/user_guide/basics.html#conversion) - mengonversi DataFrame ke format lain seperti dictionary Python atau array numpy

          * `.to_dict()` - mengonversi DataFrame ke dictionary Python

          * `.values` - mengonversi DataFrame ke array numpy







  ### Bacaan lebih lanjut



  Karena pandas adalah library yang sangat besar, akan mustahil untuk membahas semuanya dalam satu sesi.







  Berikut adalah beberapa sumber yang mungkin ingin kalian lihat untuk informasi lebih lanjut.



  * [Python for Data Analysis oleh Wes McKinney](https://wesmckinney.com/book/) - mungkin teks paling lengkap tentang library pandas (selain dokumentasi itu sendiri) yang ditulis oleh pencipta pandas.



  * [Data Manipulation with Pandas (bagian dari Python Data Science Handbook oleh Jake VanderPlas)](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html) - pendekatan sangat langsung terhadap banyak fungsi utama dalam library pandas.







