### SETUP

In [2]:
import pandas as pd
import numpy as np

# Missing Values

## Missing Values di Pandas

Dalam pandas, *missing values* (data yang hilang) direpresentasikan dengan `NaN` untuk data numerik dan `None` untuk data non-numerik (seperti objek atau string). Ini dianggap sebagai representasi standar untuk nilai yang hilang. Mari kita lihat bagaimana pandas menangani nilai yang hilang, baik yang standar maupun yang non-standar:

### Standard Missing Values

#### **NaN**

Dalam pandas, `NaN` (*Not a Number*) adalah representasi default untuk data numerik yang hilang. `NaN` merupakan nilai khusus bertipe *floating-point* yang digunakan untuk menandakan data yang hilang atau tidak terdefinisi. Pandas secara otomatis menangani operasi yang melibatkan `NaN` dengan cara menyebarkannya melalui perhitungan tanpa menghasilkan error. Sebagai contoh:

In [3]:
data = {'A': [1, 2, np.nan, 4, 5],
        'B': [10, 20, 30, np.nan, 50]}
df = pd.DataFrame(data)

df

Unnamed: 0,A,B
0,1.0,10.0
1,2.0,20.0
2,,30.0
3,4.0,
4,5.0,50.0


In [4]:
print(df.mean())
print(df.sum())

A     3.0
B    27.5
dtype: float64
A     12.0
B    110.0
dtype: float64


Pada contoh di atas, nilai `NaN` disebarkan dalam perhitungan rata-rata, sehingga menghasilkan nilai 3.0 untuk kolom 'A' dan 27.5 untuk kolom 'B'.

#### **None**

Dalam pandas, untuk data non-numerik, nilai `None` digunakan untuk merepresentasikan data yang hilang. `None` adalah objek dalam Python yang menunjukkan ketiadaan nilai. Saat bekerja dengan data non-numerik, pandas secara otomatis mengonversi `None` menjadi `NaN`. Sebagai contoh:

In [6]:
data = {'Name': ['Alice', 'Bob', None, 'Eve'],
        'Age': [25, None, 30, 35]}
df = pd.DataFrame(data)

df

Unnamed: 0,Name,Age
0,Alice,25.0
1,Bob,
2,,30.0
3,Eve,35.0


Pada contoh ini, nilai `None` secara otomatis dikonversi menjadi `NaN` dalam kolom 'Age'.

### Nilai Hilang Non-Standar

Nilai hilang non-standar merujuk pada representasi khusus yang digunakan oleh sumber data untuk menunjukkan data yang hilang. Nilai-nilai ini tidak otomatis dikonversi menjadi `NaN` atau `None` oleh pandas, sehingga Anda perlu menanganinya secara eksplisit selama eksplorasi dan praproses data.

Sebagai contoh, beberapa dataset mungkin menggunakan "N/A", "NA", "UNKNOWN", atau nilai khusus lainnya untuk menunjukkan data yang hilang. Saat mengimpor data semacam ini ke dalam pandas, Anda perlu menentukan nilai hilang non-standar tersebut sebagai `na_values` saat proses impor data, seperti berikut:

In [7]:
data = pd.DataFrame({'Column1': [1, 2, 'N/A', 4, 5],
        'Column2': [10, 'NA', 30, 40, 50]})
data

Unnamed: 0,Column1,Column2
0,1.0,10.0
1,2.0,
2,,30.0
3,4.0,40.0
4,5.0,50.0


In [8]:
data.to_csv('data.csv')

In [None]:
df = pd.read_csv('data.csv', na_values=['N/A', 'NA'])
df

Unnamed: 0.1,Unnamed: 0,Column1,Column2
0,0,1.0,10.0
1,1,2.0,
2,2,,30.0
3,3,4.0,40.0
4,4,5.0,50.0


Pada contoh ini, nilai "N/A" dan "NA" diperlakukan sebagai data yang hilang dan dikonversi menjadi `NaN` saat proses impor data.

## Cara Mengecek Nilai Hilang di Pandas

Anda dapat menggunakan metode `isnull()` untuk memeriksa nilai yang hilang di pandas. Metode `isnull()` mengembalikan sebuah DataFrame dengan bentuk yang sama seperti DataFrame asli, di mana setiap sel berisi nilai boolean yang menunjukkan apakah nilai yang sesuai hilang (**True**) atau tidak hilang (**False**).

In [13]:
df = pd.DataFrame({
                  'Order_ID': [101, 102, 103, 104, 105],
                  'Customer_Name': ['Alice', 'Bob', 'Charlie', None, 'Eve'],
                  'Product': ['Laptop', 'Keyboard', 'Monitor', 'Mouse', None],
                  'Quantity': [1, 2, np.nan, 4, 5],
                  'Price': [1000, 500, np.nan, 200, 300]
              })
df

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0
2,103,Charlie,Monitor,,
3,104,,Mouse,4.0,200.0
4,105,Eve,,5.0,300.0


In [14]:
df.isnull()

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,True,True
3,False,True,False,False,False
4,False,False,True,False,False


### Exploring Missing Values

Anda dapat menggunakan metode `info()` untuk mendapatkan ringkasan singkat tentang DataFrame, termasuk jumlah nilai yang tidak hilang (non-null) di setiap kolom. Dengan membandingkan jumlah nilai non-null dengan jumlah total baris, Anda dapat dengan mudah mengidentifikasi kolom yang memiliki nilai hilang.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Order_ID       5 non-null      int64  
 1   Customer_Name  4 non-null      object 
 2   Product        4 non-null      object 
 3   Quantity       4 non-null      float64
 4   Price          4 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 332.0+ bytes


Dalam output tersebut, kolom "Non-Null Count" menunjukkan jumlah nilai yang tidak hilang (non-null) di setiap kolom. Kolom-kolom yang memiliki jumlah nilai non-null lebih sedikit dibandingkan dengan total jumlah baris, menunjukkan bahwa kolom tersebut memiliki nilai yang hilang.

### Counting Missing Values

Untuk menghitung jumlah nilai yang hilang di setiap kolom, Anda dapat menggunakan metode `isnull()` diikuti dengan `sum()`. Metode ini akan memberikan jumlah nilai yang hilang (NaN) pada setiap kolom dalam DataFrame.

In [16]:
df.isnull().sum()

Order_ID         0
Customer_Name    1
Product          1
Quantity         1
Price            1
dtype: int64

In [18]:
print('Total missing values in data:',df.isnull().sum().sum())

Total missing values in data: 4


## Cara Menangani Nilai Hilang di Pandas

Pandas menyediakan beberapa metode untuk menangani nilai yang hilang. Beberapa teknik umum yang dapat digunakan antara lain:

### Dropping Rows or Columns with Missing Values

Anda dapat menggunakan metode `dropna()` untuk menghapus baris atau kolom yang mengandung nilai hilang.

In [None]:
df_cleaned = df.dropna()
df_cleaned

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0


In [20]:
df_cleaned2 = df.dropna(axis=1)
df_cleaned2

Unnamed: 0,Order_ID
0,101
1,102
2,103
3,104
4,105


### Filling Missing Values

Anda dapat menggunakan metode `fillna()` untuk mengisi nilai yang hilang dengan nilai tertentu.

In [28]:
df_filled = df.fillna({'Quantity': df['Quantity'].mean(), 'Price': df['Price'].mean()})
df_filled

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0
2,103,Charlie,Monitor,3.0,500.0
3,104,,Mouse,4.0,200.0
4,105,Eve,,5.0,300.0


### Interpolation

Anda dapat menggunakan metode interpolasi, seperti interpolasi linear atau polinomial, untuk mengisi nilai yang hilang berdasarkan data yang ada.

In [29]:
df #sebelum interpolasi

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0
2,103,Charlie,Monitor,,
3,104,,Mouse,4.0,200.0
4,105,Eve,,5.0,300.0


In [30]:
df_interpolated = df.interpolate() #setelah interpolasi
df_interpolated

  df_interpolated = df.interpolate() #setelah interpolasi


Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0
2,103,Charlie,Monitor,3.0,350.0
3,104,,Mouse,4.0,200.0
4,105,Eve,,5.0,300.0


### Replace Missing Values with Specific Values

Anda dapat menggunakan metode `replace()` untuk mengganti nilai hilang tertentu dengan nilai kustom yang diinginkan.

Metode ini berguna ketika Anda ingin mengganti nilai yang hilang yang teridentifikasi sebagai non-standard missing values, seperti "N/A" atau "UNKNOWN", dengan nilai yang lebih sesuai.

In [31]:
# Replace 'None' dengan 'Unknown'
df_replaced = df.replace(to_replace=[None], value='Unknown')
df_replaced


Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1.0,1000.0
1,102,Bob,Keyboard,2.0,500.0
2,103,Charlie,Monitor,,
3,104,Unknown,Mouse,4.0,200.0
4,105,Eve,Unknown,5.0,300.0


# Invalid Data

In [32]:
# Simulasi
data = {'sakit': ['Yes', 'No', '1', 'No', 'No'],
        'umur': [12, 'no', 13, 20,10]}
df = pd.DataFrame(data)

display(df)

Unnamed: 0,sakit,umur
0,Yes,12
1,No,no
2,1,13
3,No,20
4,No,10


In [33]:
df.dtypes

sakit    object
umur     object
dtype: object

Pada kasus di atas terdapat kesalah dalam kolom `sakit` yaitu terdapat angka atau integer. Sedangkan dalam kolom `umur` yang harusnya bertipe data numerik tapi ternyata terditeksi sebagai `object` dan terdapat nilai `no`.

In [44]:
# Mencoba mengonversi nilai dalam kolom umur menjadi numerik
numeric_check = pd.to_numeric(df['umur'], errors='coerce')
numeric_check

0    12.0
1     NaN
2    13.0
3    20.0
4    10.0
Name: umur, dtype: float64

In [46]:
# Mengidentifikasi baris dengan nilai non-numerik di kolom umur
non_numeric_rows = df[pd.isnull(numeric_check)]
non_numeric_rows

Unnamed: 0,sakit,umur
1,No,no


In [None]:
# Mencoba mengonversi nilai dalam kolom umur menjadi numerik
numeric_check = pd.to_numeric(df['umur'], errors='coerce')

# Mengidentifikasi baris dengan nilai non-numerik di kolom umur
non_numeric_rows = df[pd.isnull(numeric_check)]

# Tampilkan baris dengan nilai non-numerik
print("Baris dengan nilai non-numerik di kolom umur:")
display(non_numeric_rows.tail())

Baris dengan nilai non-numerik di kolom umur:


Unnamed: 0,sakit,umur
1,No,no


In [None]:
df

Unnamed: 0,sakit,umur
0,Yes,12
1,No,no
2,1,13
3,No,20
4,No,10


In [None]:
# Ganti angka No dengan np.nan di kolom 'umur' menggunakan pd.to_numerir
df['umur'] = pd.to_numeric(df['umur'], errors='coerce')
df

Unnamed: 0,sakit,umur
0,Yes,12.0
1,No,
2,1,13.0
3,No,20.0
4,No,10.0


Pada kasus tersebut `pd.to_numeric` digunakan untuk konversi data ke numerik dan jika datanya tidak bisa di ubah ke numerik maka akan menjadi `NaN`

In [None]:
# Ganti angka 1 dengan np.nan di kolom 'sakit'
df.loc[df['sakit'] == '1', 'sakit'] = None
df

Unnamed: 0,sakit,umur
0,Yes,12.0
1,No,
2,,13.0
3,No,20.0
4,No,10.0


In [None]:
df.dtypes

Unnamed: 0,0
sakit,object
umur,float64


In [None]:
df.isnull().sum()

Unnamed: 0,0
sakit,1
umur,1


# Data Duplicate

Mari kita buat sebuah DataFrame dengan baris duplikat berkaitan dengan dataset e-commerce:

In [51]:
# Sample data dengan duplicate rows
data = {
    'Order_ID': [101, 102, 103, 103, 104],
    'Customer_Name': ['Alice', 'Bob', 'Charlie', 'Charlie', 'Eve'],
    'Product': ['Laptop', 'Keyboard', 'Monitor', 'Monitor', 'Mouse'],
    'Quantity': [1, 2, 1, 1, 1],
    'Price': [1000, 500, 300, 300, 200]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1,1000
1,102,Bob,Keyboard,2,500
2,103,Charlie,Monitor,1,300
3,103,Charlie,Monitor,1,300
4,104,Eve,Mouse,1,200


Dalam contoh DataFrame ini, kita memiliki baris duplikat untuk OrderID 103, karena pelanggan "Charlie" memesan produk yang sama, yaitu "Monitor", dua kali.

## Check Data Duplicate in Pandas

Untuk memeriksa baris duplikat dalam DataFrame, Anda dapat menggunakan metode `duplicated()`, yang mengembalikan sebuah Series boolean yang menunjukkan apakah setiap baris merupakan duplikat (True) atau bukan (False).

In [52]:
duplicates = df.duplicated()
duplicates

0    False
1    False
2    False
3     True
4    False
dtype: bool

## Remove Data Duplicate

Untuk menghapus baris duplikat dari DataFrame, Anda dapat menggunakan metode `drop_duplicates()`. Secara default, metode ini akan mempertahankan kemunculan pertama dari setiap baris duplikat dan menghapus duplikat berikutnya.

In [54]:
df_cleaned = df.drop_duplicates()
df_cleaned

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1,1000
1,102,Bob,Keyboard,2,500
2,103,Charlie,Monitor,1,300
4,104,Eve,Mouse,1,200


Baris duplikat dengan 'Order_ID' 102 dan 'Customer_Name' 'Bob' telah dihapus, dan hanya kemunculan pertama yang dipertahankan.

Anda dapat menyesuaikan perilaku menggunakan parameter `keep`:
- **keep='first'**: (default) Menyimpan kemunculan pertama dari setiap baris duplikat dan menghapus duplikat berikutnya.
- **keep='last'**: Menyimpan kemunculan terakhir dari setiap baris duplikat dan menghapus duplikat sebelumnya.
- **keep=False**: Menghapus semua kemunculan dari baris duplikat.

In [56]:
df_cleaned_last = df.drop_duplicates(keep='last')
#df_cleaned_last = df.drop_duplicates(keep='first')
df_cleaned_last

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1,1000
1,102,Bob,Keyboard,2,500
3,103,Charlie,Monitor,1,300
4,104,Eve,Mouse,1,200


Baris duplikat dengan 'Order_ID' 102 dan 'Customer_Name' 'Bob' dihapus, tetapi kemunculan terakhir yang dipertahankan.

## Subset for Duplicates
Anda dapat memeriksa duplikat berdasarkan subset kolom dengan menggunakan parameter `subset`. Ini memungkinkan Anda untuk mengidentifikasi duplikat berdasarkan kolom tertentu, bukan seluruh baris.

In [57]:
duplicates_subset = df.duplicated(subset=['Order_ID', 'Customer_Name'])

duplicates_subset

0    False
1    False
2    False
3     True
4    False
dtype: bool

Dalam contoh ini, baris terakhir (indeks 4) adalah duplikat berdasarkan kolom 'Order_ID' dan 'Customer_Name'.

## Handling Duplicates Based on Key Columns:
Untuk menghapus duplikat berdasarkan subset kolom, Anda dapat menggunakan metode `drop_duplicates()` dengan parameter `subset`.

In [None]:
df_cleaned_subset = df.drop_duplicates(subset=['Order_ID', 'Customer_Name'], keep='last')

df_cleaned_subset

Unnamed: 0,Order_ID,Customer_Name,Product,Quantity,Price
0,101,Alice,Laptop,1,1000
1,102,Bob,Keyboard,2,500
3,103,Charlie,Monitor,1,300
4,104,Eve,Mouse,1,200


Dalam contoh ini, baris duplikat dengan 'Order_ID' 102 dan 'Customer_Name' 'Bob' dihapus, dan hanya kemunculan terakhir yang dipertahankan.

# Incosistent Data Handling

## Data Type Conversion

Konversi tipe data di pandas menggunakan metode `astype()` memungkinkan Anda untuk mengubah tipe data secara eksplisit dari satu atau lebih kolom dalam DataFrame. Operasi ini penting karena terkadang data yang diimpor mungkin tidak memiliki tipe data yang benar, atau Anda mungkin ingin mengonversi data untuk analisis dan pemrosesan yang lebih baik. Anda dapat menggunakan `astype()` untuk mengonversi kolom menjadi tipe data numerik, datetime, string, atau tipe data lain yang sesuai.

In [58]:
# Sample sales transaction data
data = {
    'Order_ID': [101, 102, 103, 104, 105],
    'Date': ['2023-07-15', '2023-07-16', '2023-07-17', '2023-07-18', '2023-07-19'],
    'Customer_ID': ['C001', 'C002', 'C003', 'C004', 'C005'],
    'Product': ['Laptop', 'Keyboard', 'Monitor', 'Mouse', 'Headphones'],
    'Quantity': ['1', '2', '3', '4', '5'],
    'Price': ['1000.50', '250.25', '350.75', '75.20', '120.99']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Order_ID,Date,Customer_ID,Product,Quantity,Price
0,101,2023-07-15,C001,Laptop,1,1000.5
1,102,2023-07-16,C002,Keyboard,2,250.25
2,103,2023-07-17,C003,Monitor,3,350.75
3,104,2023-07-18,C004,Mouse,4,75.2
4,105,2023-07-19,C005,Headphones,5,120.99


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Order_ID     5 non-null      int64 
 1   Date         5 non-null      object
 2   Customer_ID  5 non-null      object
 3   Product      5 non-null      object
 4   Quantity     5 non-null      object
 5   Price        5 non-null      object
dtypes: int64(1), object(5)
memory usage: 368.0+ bytes


Dalam contoh DataFrame ini, kolom 'Date', 'Quantity', dan 'Price' disimpan sebagai string. Kita perlu mengonversinya ke tipe data yang sesuai.

Kolom 'Date' harus dikonversi menjadi tipe data datetime untuk operasi terkait waktu yang lebih baik.

In [59]:
df['Date'] = pd.to_datetime(df['Date'])
print(df.dtypes)

Order_ID                int64
Date           datetime64[ns]
Customer_ID            object
Product                object
Quantity               object
Price                  object
dtype: object


Kolom 'Quantity' mewakili nilai numerik, jadi kita harus mengonversinya ke tipe data integer.

In [60]:
df['Quantity'] = df['Quantity'].astype(int)
print(df.dtypes)

Order_ID                int64
Date           datetime64[ns]
Customer_ID            object
Product                object
Quantity                int64
Price                  object
dtype: object


Kolom 'Price' mewakili nilai mata uang, jadi kita harus mengonversinya ke tipe data float.

In [None]:
df['Price'] = df['Price'].astype(float)
print(df.dtypes)

Order_ID                int64
Date           datetime64[ns]
Customer_ID            object
Product                object
Quantity                int64
Price                 float64
dtype: object


## String

In [61]:
df = pd.DataFrame({
    'Transaction_ID': [101, 102, 103, 104, 105],
    'Customer_Name': ['  John Doe  ', 'Alice', '  Bob  ', 'Charlie', 'Eve'],
    'Product_Description': ['Laptop Asus Core i5', 'Keyboard Logitech', 'Monitor Samsung', 'Mouse HP', 'Headphones Sony']
})

df

Unnamed: 0,Transaction_ID,Customer_Name,Product_Description
0,101,John Doe,Laptop Asus Core i5
1,102,Alice,Keyboard Logitech
2,103,Bob,Monitor Samsung
3,104,Charlie,Mouse HP
4,105,Eve,Headphones Sony


**1. Removing Leading/Trailing Whitespaces**:

Anda dapat menghapus spasi di awal dan akhir dari kolom string menggunakan metode `str.strip()`:

In [None]:
# Remove leading/trailing whitespaces from 'Customer_Name' and 'Product_Description'
df['Customer_Name'] = df['Customer_Name'].str.strip()
df['Product_Description'] = df['Product_Description'].str.strip()
df

Unnamed: 0,Transaction_ID,Customer_Name,Product_Description
0,101,John Doe,Laptop Asus Core i5
1,102,Alice,Keyboard Logitech
2,103,Bob,Monitor Samsung
3,104,Charlie,Mouse HP
4,105,Eve,Headphones Sony


**2. Mengubah Huruf**:

Anda dapat mengubah huruf kapital atau kecil pada kolom string menggunakan metode `str.lower()` atau `str.upper()`:

In [62]:
# Convert 'Customer_Name' to lowercase
df['Customer_Name'] = df['Customer_Name'].str.lower()

# Convert 'Product_Description' to uppercase
df['Product_Description'] = df['Product_Description'].str.upper()

df

Unnamed: 0,Transaction_ID,Customer_Name,Product_Description
0,101,john doe,LAPTOP ASUS CORE I5
1,102,alice,KEYBOARD LOGITECH
2,103,bob,MONITOR SAMSUNG
3,104,charlie,MOUSE HP
4,105,eve,HEADPHONES SONY


**3. Menghapus atau Mengganti Substring**:

Anda dapat menghapus atau mengganti substring tertentu pada kolom string menggunakan metode `str.replace()`:

In [64]:
# Remove 'Core i5' from 'Product_Description'
df['Product_Description'] = df['Product_Description'].str.replace('Core i5', '')

# Replace 'Sony' with 'Sony Corporation' in 'Product_Description'
df['Product_Description'] = df['Product_Description'].str.replace('Sony', 'Sony Corporation')

df

Unnamed: 0,Transaction_ID,Customer_Name,Product_Description
0,101,john doe,LAPTOP ASUS CORE I5
1,102,alice,KEYBOARD LOGITECH
2,103,bob,MONITOR SAMSUNG
3,104,charlie,MOUSE HP
4,105,eve,HEADPHONES SONY


**4. Membagi dan Menyaring Substring**:

Anda dapat membagi dan mengekstrak substring dari kolom string menggunakan metode `str.split()` dan pengindeksan:

In [68]:
# Split 'Product_Description' into two separate columns
df['Product_Description'].str.split(' ', 1, expand=True)


TypeError: StringMethods.split() takes from 1 to 2 positional arguments but 3 positional arguments (and 1 keyword-only argument) were given

In [69]:
df[['Product_Brand', 'Product_Model']] = df['Product_Description'].str.split(' ', 1, expand=True)
df

TypeError: StringMethods.split() takes from 1 to 2 positional arguments but 3 positional arguments (and 1 keyword-only argument) were given

## Datetime

In [70]:
data = {
    'Order_ID': [101, 102, 103, 104, 105],
    'Date_Time': ['2023-07-15 10:30:00', '2023-07-16 15:45:00', '2023-07-17 12:00:00', '2023-07-18 09:00:00', '2023-07-19 16:20:00'],
    'Customer_ID': ['C001', 'C002', 'C003', 'C004', 'C005'],
    'Product': ['Laptop', 'Keyboard', 'Monitor', 'Mouse', 'Headphones'],
    'Quantity': [1, 2, 3, 4, 5],
    'Price': [1000, 250, 350, 75, 120]
}

df = pd.DataFrame(data)
df['Date_Time'] = pd.to_datetime(df['Date_Time'])

df

Unnamed: 0,Order_ID,Date_Time,Customer_ID,Product,Quantity,Price
0,101,2023-07-15 10:30:00,C001,Laptop,1,1000
1,102,2023-07-16 15:45:00,C002,Keyboard,2,250
2,103,2023-07-17 12:00:00,C003,Monitor,3,350
3,104,2023-07-18 09:00:00,C004,Mouse,4,75
4,105,2023-07-19 16:20:00,C005,Headphones,5,120


**1. Extracting Date Components**:

Anda dapat mengekstrak berbagai komponen tanggal dari kolom 'Date_Time', seperti tahun, bulan, hari, jam, menit, dan detik, menggunakan akses `dt`.

In [None]:
# Extract year, month, and day from 'Date_Time'
df['Year'] = df['Date_Time'].dt.year
df['Month'] = df['Date_Time'].dt.month
df['Day'] = df['Date_Time'].dt.day

df[['Date_Time', 'Year', 'Month', 'Day']]

Unnamed: 0,Date_Time,Year,Month,Day
0,2023-07-15 10:30:00,2023,7,15
1,2023-07-16 15:45:00,2023,7,16
2,2023-07-17 12:00:00,2023,7,17
3,2023-07-18 09:00:00,2023,7,18
4,2023-07-19 16:20:00,2023,7,19


**2. Formatting Datetime**:

Anda dapat memformat kolom 'Date_Time' ke dalam format datetime tertentu menggunakan metode `dt.strftime()`.

In [None]:
# Format 'Date_Time' to a specific format (e.g., "yyyy-mm-dd HH:MM")
df['Formatted_Date'] = df['Date_Time'].dt.strftime('%Y-%m-%d %H:%M')

df[['Date_Time', 'Formatted_Date']]

Unnamed: 0,Date_Time,Formatted_Date
0,2023-07-15 10:30:00,2023-07-15 10:30
1,2023-07-16 15:45:00,2023-07-16 15:45
2,2023-07-17 12:00:00,2023-07-17 12:00
3,2023-07-18 09:00:00,2023-07-18 09:00
4,2023-07-19 16:20:00,2023-07-19 16:20


**3. Calculating Time Differences**:

Anda dapat menghitung perbedaan waktu antara dua kolom datetime, seperti selisih antara kolom 'Date_Time' dan waktu saat ini.

In [None]:
# Calculate time difference from the current time
current_time = pd.to_datetime('2023-07-20 10:00:00')
df['Time_Difference'] = current_time - df['Date_Time']

df[['Date_Time', 'Time_Difference']]

Unnamed: 0,Date_Time,Time_Difference
0,2023-07-15 10:30:00,4 days 23:30:00
1,2023-07-16 15:45:00,3 days 18:15:00
2,2023-07-17 12:00:00,2 days 22:00:00
3,2023-07-18 09:00:00,2 days 01:00:00
4,2023-07-19 16:20:00,0 days 17:40:00


**4. Extracting Time Intervals**:

Anda dapat mengekstrak interval waktu, seperti jam dan menit, dari kolom 'Date_Time'.

In [None]:
# Extract hours and minutes from 'Date_Time'
df['Hour'] = df['Date_Time'].dt.hour
df['Minute'] = df['Date_Time'].dt.minute

df[['Date_Time', 'Hour', 'Minute']]

Unnamed: 0,Date_Time,Hour,Minute
0,2023-07-15 10:30:00,10,30
1,2023-07-16 15:45:00,15,45
2,2023-07-17 12:00:00,12,0
3,2023-07-18 09:00:00,9,0
4,2023-07-19 16:20:00,16,20





**5. Handling Timezones**:

Pandas menyediakan dukungan untuk menangani zona waktu dalam data datetime. Anda dapat mengonversi zona waktu pada kolom 'Date_Time' menggunakan metode `dt.tz_localize()`.


In [None]:
# Assuming the original datetime is in UTC and we want to convert it to Jakarta timezone (Asia/Jakarta)
df['Date_Time_Jakarta'] = df['Date_Time'].dt.tz_localize('UTC').dt.tz_convert('Asia/Jakarta')

df[['Date_Time', 'Date_Time_Jakarta']]

Unnamed: 0,Date_Time,Date_Time_Jakarta
0,2023-07-15 10:30:00,2023-07-15 17:30:00+07:00
1,2023-07-16 15:45:00,2023-07-16 22:45:00+07:00
2,2023-07-17 12:00:00,2023-07-17 19:00:00+07:00
3,2023-07-18 09:00:00,2023-07-18 16:00:00+07:00
4,2023-07-19 16:20:00,2023-07-19 23:20:00+07:00


Dalam contoh ini, kami mengonversi kolom 'Date_Time' dari UTC ke zona waktu Jakarta (Asia/Jakarta).

# Python Scripting untuk Data Processing

Anda telah mempelajari cara melakukan wrangling data di Pandas. Sekarang, kita akan melakukan latihan manipulasi data dengan cara yang berbeda.

Bayangkan Anda tidak dapat bekerja menggunakan Google Colab atau Jupyter Notebook. Sebagai gantinya, Anda menggunakan file skrip Python untuk membuat pipeline manipulasi/preprocessing data yang otomatis.

Tujuan kita di bagian ini adalah untuk membuat file excel yang terdiri dari beberapa sheet berdasarkan query dan groupby.

Harapan kita adalah:

```
data.xlsx
 ├── Complete
 ├── Online Channel
 ├── Offline Channel
 └── Countries Summary
```

Pertama-tama, mari kita lihat data:

In [71]:
dat = pd.read_csv('https://github.com/FTDS-learning-materials/phase-0/raw/main/src/travel%20insurance.csv')

dat.head()

Unnamed: 0,Agency,Agency Type,Distribution Channel,Product Name,Claim,Duration,Destination,Net Sales,Commision (in value),Gender,Age
0,CBH,Travel Agency,Offline,Comprehensive Plan,No,186,MALAYSIA,-29.0,9.57,F,81
1,CBH,Travel Agency,Offline,Comprehensive Plan,No,186,MALAYSIA,-29.0,9.57,F,71
2,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,65,AUSTRALIA,-49.5,29.7,,32
3,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,60,AUSTRALIA,-39.6,23.76,,32
4,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,79,ITALY,-19.8,11.88,,41


Untuk membuat pembersihan dan preprocessing data yang otomatis, kita perlu menjelajahi data kita terlebih dahulu untuk memutuskan langkah-langkah apa yang akan kita lakukan selanjutnya.

In [None]:
dat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63326 entries, 0 to 63325
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Agency                63326 non-null  object 
 1   Agency Type           63326 non-null  object 
 2   Distribution Channel  63326 non-null  object 
 3   Product Name          63326 non-null  object 
 4   Claim                 63326 non-null  object 
 5   Duration              63326 non-null  int64  
 6   Destination           63326 non-null  object 
 7   Net Sales             63326 non-null  float64
 8   Commision (in value)  63326 non-null  float64
 9   Gender                18219 non-null  object 
 10  Age                   63326 non-null  int64  
dtypes: float64(2), int64(2), object(7)
memory usage: 5.3+ MB


Berdasarkan ringkasan informasi, terdapat banyak baris yang kosong pada kolom **Gender**. Kita akan menghapus kolom tersebut dari data, dan kemudian kita akan mengganti nama kolom `Commision (in value)` menjadi `Commision`. Semua ini akan kita lakukan langsung dalam skrip.

Namun, kita perlu melakukan preprocessing data dengan tujuan untuk menyimpan data ke dalam masing-masing sheet yang kita perlukan menggunakan query atau pengelompokan. Selanjutnya, kita akan mengeksplorasi kode berdasarkan kebutuhan kita.


In [None]:
from IPython.core.display import display, HTML

display(HTML('<h3><b>Online Channel</b></h3><br>'))
ol_ch = dat[dat['Distribution Channel']=='Online']
display(ol_ch.head())

display(HTML('<h3><b>Offline Channel</b></h3><br>'))
of_ch = dat[dat['Distribution Channel']=='Offline']
display(of_ch.head())

Unnamed: 0,Agency,Agency Type,Distribution Channel,Product Name,Claim,Duration,Destination,Net Sales,Commision (in value),Gender,Age
2,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,65,AUSTRALIA,-49.5,29.7,,32
3,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,60,AUSTRALIA,-39.6,23.76,,32
4,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,79,ITALY,-19.8,11.88,,41
5,JZI,Airlines,Online,Value Plan,No,66,UNITED STATES,-121.0,42.35,F,44
6,CWT,Travel Agency,Online,Rental Vehicle Excess Insurance,No,47,UNITED STATES,-39.6,23.76,,32


Unnamed: 0,Agency,Agency Type,Distribution Channel,Product Name,Claim,Duration,Destination,Net Sales,Commision (in value),Gender,Age
0,CBH,Travel Agency,Offline,Comprehensive Plan,No,186,MALAYSIA,-29.0,9.57,F,81
1,CBH,Travel Agency,Offline,Comprehensive Plan,No,186,MALAYSIA,-29.0,9.57,F,71
400,CSR,Travel Agency,Offline,Comprehensive Plan,No,92,MALAYSIA,29.0,9.57,F,72
401,CSR,Travel Agency,Offline,Comprehensive Plan,No,92,MALAYSIA,29.0,9.57,F,77
402,CCR,Travel Agency,Offline,Comprehensive Plan,No,5,MALAYSIA,29.0,9.57,M,118


In [None]:
display(HTML('<h3><b>Countries Summary</b></h3><br>'))

summary = dat.groupby(['Destination','Agency Type','Distribution Channel','Claim']).agg({'Product Name':'count','Duration':'mean','Net Sales':'max','Commision (in value)':'sum','Age':'mean'}).reset_index()
summary.head()

Unnamed: 0,Destination,Agency Type,Distribution Channel,Claim,Product Name,Duration,Net Sales,Commision (in value),Age
0,ALBANIA,Travel Agency,Online,No,1,28.0,80.0,0.0,36.0
1,ANGOLA,Travel Agency,Online,No,1,2.0,0.0,16.0,19.0
2,ARGENTINA,Travel Agency,Online,No,21,35.904762,114.0,237.35,36.238095
3,ARGENTINA,Travel Agency,Online,Yes,1,30.0,79.2,47.52,30.0
4,ARMENIA,Travel Agency,Online,No,1,232.0,25.0,0.0,36.0


Berikut adalah hasil akhir dari code untuk melakukan preprocessing:

```python
import pandas as pd
import sys

class DataProcessor:
    def __init__(self, file_path):
        self.file_path = file_path
        self.df = None

    def load_data(self):
        self.df = pd.read_csv(self.file_path).reset_index()

    def clean_data(self):

        #Rename Commision (in value) Column
        self.df.rename({'Commision (in value)':'Commision'},axis=1,inplace=True)

        #Take out Gender Column
        self.df.drop(columns='Gender',inplace=True)

        # Drop duplicates
        self.df.drop_duplicates(inplace=True)
    
    def simple_query(self, column, value):
        return self.df[self.df[column]==value].drop(columns='index')

    def summary(self,cols=[],aggs={}):
        self.tmp = self.df.groupby(cols).agg(aggs).reset_index()
        self.renames = dict()
        for col,agg in aggs.items():
            self.renames[col] = f'{agg} {col}'.title()

        return self.tmp.rename(self.renames,axis=1)


    def save_data(self, output_file_path, data, sheet_names):
        with pd.ExcelWriter(output_file_path) as writer:
            self.df.to_excel(writer, sheet_name='Complete', index=False)
            for i,dat in enumerate(data):
              try:
                dat.to_excel(writer, sheet_name=sheet_names[i], index=False)
              except:
                display(dat)
                print(i)


if __name__ == "__main__":
    input_file = sys.argv[2]
    output_file = sys.argv[4]

    print("Data Processing Script Started...")

    # Create an instance of DataCleaning
    proc = DataProcessor(file_path=input_file)

    # Load data
    print("Loading data...")

    try:
      proc.load_data()
    except Exception as e:
      print('Error has occured while loading the data')
      print(e)
      print('Cannot be Continued')
      print('Stop')
      sys.exit()
      

    # Clean data
    print("Cleaning data...")
    proc.clean_data()

    # Preprocess data
    print("Preprocessing data...")
    ol = proc.simple_query('Distribution Channel','Online')
    of = proc.simple_query('Distribution Channel','Offline')
    sum = proc.summary(cols=['Destination','Agency Type','Distribution Channel','Claim'],
              aggs={'index':'count','Duration':'mean','Net Sales':'max','Commision':'sum','Age':'mean'})

    # Save cleaned data
    print("Saving cleaned data...")

    proc.save_data(output_file,data=[ol,of,sum], sheet_names=['Online','Offline','Countries Summary'])

    print("Data Processing Script Completed!")
```

Pada kode di bawah bagian `if __name__ == '__main__'`, terdapat baris-baris berikut:

```
input_file = sys.argv[2]
output_file = sys.argv[4]
```

proses tersebut menggunakan library `sys`.

Lalu, untuk apa ini digunakan? `sys.argv` digunakan untuk memberikan argumen baris perintah sebagai flag. Argumen-argumen ini mirip dengan `**kwargs` pada fungsi Python.

Kita akan mensimulasikan bagaimana jika kita menjalankan skrip Python sederhana dengan memberikan flag dan nilai-nilai tersebut (ingat, flag seperti argumen dalam fungsi).

In [None]:
# contoh simulasi penambahakn flag ketika menjalakn python
# buat file test.py
with open('test.py', 'w') as f:
  f.write('''
import sys
print(sys.argv)
  ''')

# jalankan script python
!python test.py -input 'travel insurance.csv' -output clean.xlsx

['test.py', '-input', 'travel insurance.csv', '-output', 'clean.xlsx']


Anda dapat melihat bahwa setiap perintah setelah kata kunci `python` akan dibaca oleh `sys` dan disimpan dalam sebuah list di `sys.argv`.

Jadi `sys.argv[2]` adalah `travel_insurance.csv`, dan `sys.argv[4]` adalah `clean.xlsx`. Maka `input_file= 'travel_insurance.csv'` dan `output_file='clean.xlsx'`

---
**Notes:**

Untuk mempermudah pembelajaran Anda, Anda tidak perlu berpindah ke VSCode atau cmd/terminal. Anda cukup menggunakan Google Colab untuk menjalankan kode diatas.


Langkah-langkah yang akan kita lakukan adalah:
* Membuat file `data_process.py`
* Mengunduh data ke penyimpanan Google Colab
* Menjalankan skrip tersebut
---

In [None]:
#@title **Creating data_process.py**

with open("data_process.py", "w") as f:
    f.write('''import pandas as pd
import sys

class DataProcessor:
    def __init__(self, file_path):
        self.file_path = file_path
        self.df = None

    def load_data(self):
        self.df = pd.read_csv(self.file_path).reset_index()

    def clean_data(self):

        #Rename Commision (in value) Column
        self.df.rename({'Commision (in value)':'Commision'},axis=1,inplace=True)

        #Take out Gender Column
        self.df.drop(columns='Gender',inplace=True)

        # Drop duplicates
        self.df.drop_duplicates(inplace=True)

    def simple_query(self, column, value):
        return self.df[self.df[column]==value].drop(columns='index')

    def summary(self,cols=[],aggs={}):
        self.tmp = self.df.groupby(cols).agg(aggs).reset_index()
        self.renames = dict()
        for col,agg in aggs.items():
            self.renames[col] = f'{agg} {col}'.title()

        return self.tmp.rename(self.renames,axis=1)


    def save_data(self, output_file_path, data, sheet_names):
        with pd.ExcelWriter(output_file_path) as writer:
            self.df.to_excel(writer, sheet_name='Complete', index=False)
            for i,dat in enumerate(data):
              try:
                dat.to_excel(writer, sheet_name=sheet_names[i], index=False)
              except:
                display(dat)
                print(i)


if __name__ == "__main__":
    input_file = sys.argv[2]
    output_file = sys.argv[4]

    print("Data Processing Script Started...")

    # Create an instance of DataCleaning
    proc = DataProcessor(file_path=input_file)

    # Load data
    print("Loading data...")

    try:
      proc.load_data()
    except Exception as e:
      print('Error has occured while loading the data')
      print(e)
      print('Cannot be Continued')
      print('Stop')
      sys.exit()


    # Clean data
    print("Cleaning data...")
    proc.clean_data()

    # Preprocess data
    print("Preprocessing data...")
    ol = proc.simple_query('Distribution Channel','Online')
    of = proc.simple_query('Distribution Channel','Offline')
    sum = proc.summary(cols=['Destination','Agency Type','Distribution Channel','Claim'],
              aggs={'index':'count','Duration':'mean','Net Sales':'max','Commision':'sum','Age':'mean'})

    # Save cleaned data
    print("Saving cleaned data...")

    proc.save_data(output_file,data=[ol,of,sum], sheet_names=['Online','Offline','Countries Summary'])

    print("Data Processing Script Completed!")
''')

#### **Download travel_insurance.csv**

In [None]:
!wget https://github.com/FTDS-learning-materials/phase-0/raw/main/src/travel%20insurance.csv

--2023-07-19 08:09:27--  https://github.com/FTDS-learning-materials/phase-0/raw/main/src/travel%20insurance.csv
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/FTDS-learning-materials/phase-0/main/src/travel%20insurance.csv [following]
--2023-07-19 08:09:27--  https://raw.githubusercontent.com/FTDS-learning-materials/phase-0/main/src/travel%20insurance.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4570914 (4.4M) [text/plain]
Saving to: ‘travel insurance.csv.1’


2023-07-19 08:09:27 (254 MB/s) - ‘travel insurance.csv.1’ saved [4570914/4570914]



#### **Running the Script**

In [None]:
!python data_process.py -input 'travel insurance.csv' -output clean.xlsx

Data Processing Script Started...
Loading data...
Cleaning data...
Preprocessing data...
Saving cleaned data...
Data Processing Script Completed!


---

# Soal latihan Pembersihan Data

Pada latihan ini peserta pelatihan diberikan waktu 10 menit untuk menangani data yang kotor pada dataset berikut. Setelah 10 menit, instruktur akan mengecek kerjaan peserta dan mempraktekkan untuk memberikan jawaban yang benar.

Ketentuan:
1. Dataset yang digunakan adalah dataset dummy yang kita buat dengan script dan sudah disimpan dalam csv. Lakukanlah read pada file csv tersebut.
2. Setelah read file, lakukan beberapa proses pembersihan berikut ini:
  - Cek apa saja yang bermasalah dalam dataset tersebut
  - hapus kolom yang tidak berguna.
  - Ubah tipe data kolom `tanggal` dan `suhu` menjadi tipe data yang sesuai.
  - Tangani data yang hilang
  - Tangani data yang terduplikasi
  - Ekstraksi atau buatlah kolom baru (tahun, bulan, hari dan Jam)

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Fungsi untuk menghasilkan tanggal dan waktu acak dalam rentang waktu tertentu
def generate_datetime(start_date, end_date, n):
    start = datetime.strptime(start_date, "%Y-%m-%d")
    end = datetime.strptime(end_date, "%Y-%m-%d")
    delta = end - start
    datetimes = []

    for _ in range(n):
        random_day = start + timedelta(days=random.randint(0, delta.days))
        random_hour = random.randint(0, 23)  # Jam acak antara 0 hingga 23
        random_minute = random.randint(0, 59)  # Menit acak antara 0 hingga 59
        random_second = random.randint(0, 59)  # Detik acak antara 0 hingga 59
        random_datetime = random_day.replace(hour=random_hour, minute=random_minute, second=random_second)
        datetimes.append(random_datetime)

    return datetimes

# Set seed untuk reprodusibilitas
random.seed(42)

# Membuat data suhu dengan tanggal dan waktu acak
dates = generate_datetime("2022-01-01", "2023-12-31", 1000)  # 1000 entri acak
temperatures = np.random.normal(loc=25, scale=5, size=1000)  # Suhu acak sekitar 25°C dengan deviasi standar 5°C

# Menambahkan beberapa outliers dan missing values
temperatures[random.sample(range(0, 1000), 10)] = 50  # Menambahkan outliers dengan suhu 50°C
temperatures[random.sample(range(0, 1000), 20)] = np.nan  # Menambahkan missing values

# ubah temperatures menjadi string
temperatures = temperatures.astype(str)

# Mengubah beberapa suhu menjadi NaN untuk mensimulasikan tipe data yang salah
invalid_indices = random.sample(range(0, 1000), 30)  # Indeks acak untuk data yang invalid
for idx in invalid_indices:
    temperatures[idx] = np.nan  # Menandai dengan NaN sebagai nilai yang tidak valid

# Menambahkan "unknown" ke dalam beberapa baris suhu
unknown_indices = random.sample(range(0, 1000), 2)  # Pilih 2 indeks secara acak
for idx in unknown_indices:
    temperatures[idx] = "unknown"  # Menandai dengan string "unknown"

# Membuat DataFrame dengan kolom 'tanggal' dan 'suhu'
df = pd.DataFrame({
    'tanggal': dates,
    'suhu': temperatures
})

# Menambahkan beberapa duplikasi untuk tanggal dan waktu yang sama menggunakan pd.concat
df_duplicate = df.sample(n=50, random_state=42)
df = pd.concat([df, df_duplicate], ignore_index=True)

# Ubah tanggal ke string
df['tanggal'] = df['tanggal'].astype(str)

# Simpan DataFrame ke dalam file CSV
df.to_csv('data_dummy.csv')

In [None]:
# Bacalah file data_dummy.csv
df = pd.read_csv('data_dummy.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,tanggal,suhu
0,0,2023-10-17 03:01:47,21.690474579911903
1,1,2022-10-09 07:14:08,31.716120679532604
2,2,2022-04-15 21:47:57,28.4038591837345
3,3,2023-07-13 02:37:27,12.484197338506174
4,4,2022-02-02 00:05:13,25.464668768123698


silahkan lakukan pembersihan dari dataframe diatas.

In [72]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Order_ID     5 non-null      int64         
 1   Date_Time    5 non-null      datetime64[ns]
 2   Customer_ID  5 non-null      object        
 3   Product      5 non-null      object        
 4   Quantity     5 non-null      int64         
 5   Price        5 non-null      int64         
dtypes: datetime64[ns](1), int64(3), object(2)
memory usage: 372.0+ bytes


# Additional Materials (Complementary - Self Learning)

## Combining Multiple Datasets

Sekarang, Anda akan menggunakan `.concat()` untuk menggabungkan `city_data` dengan `further_city_data`. Misalkan Anda telah berhasil mengumpulkan data untuk dua kota lagi:

In [None]:
city_revenues = pd.Series(
    [4200, 8000, 6500],
    index=["Amsterdam", "Toronto", "Tokyo"]
)
city_employee_count = pd.Series({"Amsterdam": 5, "Tokyo": 8})

further_city_data = pd.DataFrame(
    {"revenue": [7000, 3400], "employee_count": [2, 2]},
    index=["New York", "Barcelona"]
)

city_data = pd.DataFrame({
    "revenue": city_revenues,
    "employee_count": city_employee_count
})

In [None]:
further_city_data

Unnamed: 0,revenue,employee_count
New York,7000,2
Barcelona,3400,2


In [None]:
city_data

Unnamed: 0,revenue,employee_count
Amsterdam,4200,5.0
Tokyo,6500,8.0
Toronto,8000,


DataFrame kedua ini berisi informasi tentang kota "New York" dan "Barcelona".

Anda dapat menambahkan kota-kota ini ke `city_data` menggunakan `.concat()`:

In [None]:
all_city_data = pd.concat([city_data, further_city_data], sort=False)
all_city_data

Unnamed: 0,revenue,employee_count
Amsterdam,4200,5.0
Tokyo,6500,8.0
Toronto,8000,
New York,7000,2.0
Barcelona,3400,2.0


Sekarang, variabel baru `all_city_data` berisi nilai-nilai dari kedua objek DataFrame.

Secara default, `concat()` menggabungkan sepanjang `axis=0`, artinya menambahkan baris. Anda juga dapat menggunakannya untuk menambahkan kolom dengan memberikan parameter `axis=1`:

In [None]:
city_countries = pd.DataFrame({
    "country": ["Holland", "Japan", "Holland", "Canada", "Spain"],
    "capital": [1, 1, 0, 0, 0]},
    index=["Amsterdam", "Tokyo", "Rotterdam", "Toronto", "Barcelona"]
)

city_countries

Unnamed: 0,country,capital
Amsterdam,Holland,1
Tokyo,Japan,1
Rotterdam,Holland,0
Toronto,Canada,0
Barcelona,Spain,0


In [None]:
cities = pd.concat([all_city_data, city_countries], axis=1, sort=False)
cities

Unnamed: 0,revenue,employee_count,country,capital
Amsterdam,4200.0,5.0,Holland,1.0
Tokyo,6500.0,8.0,Japan,1.0
Toronto,8000.0,,Canada,0.0
New York,7000.0,2.0,,
Barcelona,3400.0,2.0,Spain,0.0
Rotterdam,,,Holland,0.0


Perhatikan bagaimana Pandas menambahkan `NaN` untuk nilai yang hilang.

Jika Anda hanya ingin menggabungkan kota-kota yang muncul di kedua objek DataFrame, Anda bisa mengatur parameter `join` menjadi `inner`:

In [None]:
pd.concat([all_city_data, city_countries], axis=1, join="inner")

Unnamed: 0,revenue,employee_count,country,capital
Amsterdam,4200,5.0,Holland,1
Tokyo,6500,8.0,Japan,1
Toronto,8000,,Canada,0
Barcelona,3400,2.0,Spain,0


Meskipun menggabungkan data berdasarkan indeks adalah cara yang paling langsung, itu bukan satu-satunya kemungkinan. Anda dapat menggunakan `.merge()` untuk melakukan operasi gabung yang mirip dengan operasi `JOIN` di SQL:

In [None]:
countries = pd.DataFrame({
    "population_millions": [17, 127, 37],
    "continent": ["Europe", "Asia", "North America"]
}, index=["Holland", "Japan", "Canada"])

Di sini, Anda memberikan parameter `left_on="country"` ke `.merge()` untuk menunjukkan kolom mana yang ingin Anda gabungkan. Hasilnya adalah DataFrame yang lebih besar yang tidak hanya berisi data kota, tetapi juga populasi dan benua dari negara yang bersangkutan.

In [None]:
countries

Unnamed: 0,population_millions,continent
Holland,17,Europe
Japan,127,Asia
Canada,37,North America


In [None]:
cities

Unnamed: 0,revenue,employee_count,country,capital
Amsterdam,4200.0,5.0,Holland,1.0
Tokyo,6500.0,8.0,Japan,1.0
Toronto,8000.0,,Canada,0.0
New York,7000.0,2.0,,
Barcelona,3400.0,2.0,Spain,0.0
Rotterdam,,,Holland,0.0


In [None]:
pd.merge(cities, countries, left_on="country", right_index=True)

Unnamed: 0,revenue,employee_count,country,capital,population_millions,continent
Amsterdam,4200.0,5.0,Holland,1.0,17,Europe
Rotterdam,,,Holland,0.0,17,Europe
Tokyo,6500.0,8.0,Japan,1.0,127,Asia
Toronto,8000.0,,Canada,0.0,37,North America


Perhatikan bahwa hasilnya hanya berisi kota-kota di mana negara tersebut diketahui dan muncul dalam DataFrame yang digabungkan.

Secara default, `.merge()` melakukan *inner join*. Jika Anda ingin memasukkan semua kota dalam hasilnya, Anda perlu memberikan parameter `how`:

In [None]:
pd.merge(
    cities,
    countries,
    left_on="country",
    right_index=True,
    how="left"
)

Unnamed: 0,revenue,employee_count,country,capital,population_millions,continent
Amsterdam,4200.0,5.0,Holland,1.0,17.0,Europe
Tokyo,6500.0,8.0,Japan,1.0,127.0,Asia
Toronto,8000.0,,Canada,0.0,37.0,North America
New York,7000.0,2.0,,,,
Barcelona,3400.0,2.0,Spain,0.0,,
Rotterdam,,,Holland,0.0,17.0,Europe


Dengan *left join* ini, Anda akan melihat semua kota, termasuk yang tidak memiliki data negara.