# 💻 **Introduction**

Sebelum sebuah data dapat dianalisis atau digunakan untuk mengambil keputusan kebijakan tentu data tersebut perlu untuk diekstraksi terlebih dahulu. <b>Ekstraksi data</b> adalah sebuah proses pengumpulan atau pengambilan jenis data yang berbeda dari berbagai sumber, banyak di antaranya mungkin tidak terorganisir dengan baik atau tidak terstruktur sama sekali. Proses ini memungkinkan untuk mengkonsolidasikan, memproses, dan menyempurnakan data sehingga nantinya dapat disimpan di lokasi terpusat untuk diubah atau diproses lebih lanjut.

Python sebagai salah satu <i>tools</i> yang <i>powerful</i> untuk pengolahan data menyediakan berbagai <i>library</i> untuk mendukung proses ekstraksi data. Salah satu library paling banyak digunakan adalah <b>pandas</b>.

Pandas memungkinkan untuk membaca data dari berbagai jenis ekstensi seperti data yang bersumber dari database (sql), <i>excel</i> (<b>.xls</b> atau <b>.xlsx</b>), <i>separated value file</i> (<b>.csv</b>, <b>.tsv</b>, dsb) lalu merubahnya menjadi satu format struktur data yang sama yang disebut <b>DataFrame</b>. DataFrame inilah yang nantinya dapat kita lakukan proses <b>Data Manipulation</b><br><br>

<p align="center">
<img src="https://drive.google.com/uc?export=view&id=18NW3gMMTJjkwwpZX5TXi9DTteXxGAoxa" width="600" height="300">
<p align="center"><b>Gambar 1. Proses Ekstraksi Data dengan <i>pandas</i></b></p>

<br><br>
<p align="right"><sup>docs : <i><a href="https://shorturl.at/xyZ69">https://pandas.pydata.org/docs/user_guide/io.html</i></sup></a></p>


## 🏃🏻‍♂️ **1. First Step : Pandas**

Untuk dapat menggunakan library pandas pada python, perlu untuk mengimpor library tersebut dengan cara mengetikan sintaks berikut

<p align="center"><code><b>import pandas as pd</b></code></p>

lalu jalankan (<i>run</i>) program.

<br><br>
<p align="left"><sup>docs : <i><a href="https://shorturl.at/kzG06">https://pandas.pydata.org/docs/getting_started/install.html</i></sup></a></p>

### 👨‍💻 Task 1

Ketikan kode `import pandas as pd` pada prompt dibawah ini lalu jalankan

In [2]:
# Write your code below here & exec!
import pandas as pd

# 🥨 **Struktur Data Pandas**

* Terdapat dua struktur data utama pada library pandas yang disebut dengan Series dan DataFrame.
<p align="center">
<img src="https://datagy.io/wp-content/uploads/2022/12/Understanding-Pandas-Series-and-DataFrames-1024x576.png" width="550" height="289">
<p align="center"><b>Gambar 2. Series VS DataFrame</b></p>
<br>

* Gabungan beberapa Series yang mempunyai banyak baris yang sama dapat membentuk sebuah DataFrame atau berlaku sebaliknya pada sebuah DataFrame dapat dipecah (di-<i>slicing</i> satu kolom) membentuk sebuah Series.<br><br>

<p align="right"><sup>docs : <i><a href="https://shorturl.at/dezQY">http://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html</i></sup></a></p>

##🛺 **2. Series**

* <a href="">Series</a> merupakan kolom dari sebuah tabel yang bersifat homogen atau mempunyai elemen dengan tipe data yang sejenis.

* Untuk membuat Series gunakan sintaks berikut

<p align="center"><code><b>pd.Series(data)</b></code></p>

<ul>
  data dapat berupa <i>array-like</i>, <i>Iterable</i>, <i>dict</i>, atau <i>scalar</i>
</ul>

<p align="right"><sup>docs : <i><a href="https://shorturl.at/gmtG2">https://pandas.pydata.org/docs/reference/api/pandas.Series.html</i></sup></a></p>



### 👨‍💻 Task 2 - A

<i>Age of Accounts Receivable</i> (Aging AR) adalah istilah yang merujuk pada lamanya piutang dagang yang masih belum tertagih pada suatu periode tertentu. DQTech mecatat distribusi Aging AR tersaji dari list data sebagai berikut \[78, 91, 40, 50, 95\].

Dari data tersebut buatlah sebuah Series yang disimpan pada variabel dengan nama `ar_aging` lalu tampilkan outputnya!

In [3]:
# Inisialisasi data
data_age_of_AR = [78, 91, 40, 50, 95]

# Write your code below here & exec!
ar_aging = pd.Series(data_age_of_AR)

# Menampilkan hasil
display(ar_aging)

Unnamed: 0,0
0,78
1,91
2,40
3,50
4,95


### 👨‍💻 Task 2 - B

Dari data Aging AR yang tercatat, akan diberi detail data sebagai berikut
* Cust 1 memiliki Aging AR sebesar 78
* Cust 2 memiliki Aging AR sebesar 91
* Cust 3 memiliki Aging AR sebesar 40
* Cust 4 memiliki Aging AR sebesar 50
* Cust 5 memiliki Aging AR sebesar 95

Dari data tersebut buatlah sebuah Series yang disimpan pada variabel dengan nama `detail_ar_aging` lalu tampilkan outputnya!

In [4]:
# Inisialisasi data
data_age_of_AR = {
    'Cust1' : 78,
    'Cust2' : 91,
    'Cust3' : 40,
    'Cust4' : 50,
    'Cust5' : 95
}

# Write your code below here & exec!
detail_ar_aging = pd.Series(data_age_of_AR)

# Tampilkan hasilnya
display(detail_ar_aging)

Unnamed: 0,0
Cust1,78
Cust2,91
Cust3,40
Cust4,50
Cust5,95


## 🚴🏻‍♂️ **3. DataFrame**

* <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame">DataFrame</a> adalah struktur data 2 dimensi yang terdiri dari baris dan kolom (seperti tabel) dan dapat menyimpan data dari berbagai jenis (termasuk karakter, bilangan bulat, bilangan real, data kategorikal, dan lainnya).

<p align="center">
<img src="https://www.w3resource.com/w3r_images/pandas-data-frame.svg" width="600" height="300">
<p align="center"><b>Gambar 2. DataFrame Pandas</b></p>
<br>

* <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series">Series</a> merupakan kolom dari sebuah tabel yang bersifat homogen atau mempunyai elemen dengan tipe data yang sejenis.


<p align="center">
<img src="https://datagy.io/wp-content/uploads/2022/12/Understanding-Pandas-Series-and-DataFrames-1024x576.png" width="550" height="300">
<p align="center"><b>Gambar 3. Series VS DataFrame</b></p>
<br>

* Gabungan beberapa Series yang mempunyai banyak baris yang sama dapat membentuk sebuah DataFrame atau berlaku sebaliknya pada sebuah DataFrame dapat dipecah (di-<i>slicing</i> satu kolom) membentuk sebuah Series.<br><br>




### 👨‍💻 Task 3

Data karyawan DQTech disajikan pada dictionary berikut

```
details = {
    'Name' : ['Aksara', 'Antara', 'Sendja', 'Sunyi'],
    'Age' : [23, 21, 22, 21],
    'Role' : ['Jr. Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Scientist']
}
```

konversi dictionary tersebut menjadi DataFrame pandas

In [6]:
# Import library
import pandas as pd

# Initialize Data
details = {
    'Name' : ['Aksara', 'Antara', 'Sendja', 'Sunyi'],
    'Age' : [23, 21, 22, 21],
    'Role' : ['Jr. Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Scientist']
}

# Write your code below here & exec!
dqtech_employee = pd.DataFrame(details)

# Tampilkan data
display(dqtech_employee)

Unnamed: 0,Name,Age,Role
0,Aksara,23,Jr. Data Scientist
1,Antara,21,Data Engineer
2,Sendja,22,Data Analyst
3,Sunyi,21,Data Scientist


In [5]:
# Import library
import pandas as pd

# Initialize Data
details = {
    'Name' : ['Aksara', 'Antara', 'Sendja', 'Sunyi'],
    'Age' : [23, 21, 22, 21],
    'Role' : ['Jr. Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Scientist']
}

# Write your code below here & exec!
dqtech_employee = pd.DataFrame(details)

# Tampilkan data
display(dqtech_employee)

Unnamed: 0,Name,Age,Role
0,Aksara,23,Jr. Data Scientist
1,Antara,21,Data Engineer
2,Sendja,22,Data Analyst
3,Sunyi,21,Data Scientist


## ♖ **4. Parts Of DataFrame**

Untuk lebih memahami objek DataFrame, perlu diketahui bahwa DataFrame terdiri dari tiga komponen sebagai atribut berikut :

<ul>1️⃣ .values : Nilai - nilai yang tertera pada DataFrame</ul>
<ul>2️⃣ .columns : Nama kolom yang ada pada DataFrame</ul>
<ul>3️⃣ .index : Nama atau nomor index pada DataFrame</ul>



### 👨‍💻 Task 4

Pada DataFrame yang telah dibuat pada Task 3, coba buatkan list nama kolomnya!

In [7]:
column_names = list(dqtech_employee.columns)
print(column_names)

['Name', 'Age', 'Role']


In [8]:
# Write your code below here & exec!
column_names = list(dqtech_employee.columns)
print(column_names), type(column_names)

['Name', 'Age', 'Role']


(None, list)

---


# 📊 **Data Manipulation**

Data Manipulation adalah sebuah metode pengorganisasian data agar lebih mudah dibaca, terstruktur dan agar lebih mudah diolah untuk kebutuhan lain kedepannya. Beberapa hal yang biasa dilakukan saat data manipulation adalah sebagai berikut :


<ul>1️⃣ Column selections</ul>
<ul>2️⃣ Filter the data</ul>
<ul>3️⃣ Create a new column or change it</ul>
<ul>4️⃣ Drop a column</ul>
<ul>5️⃣ Apply custom functions</ul>
<ul>6️⃣ Join / Merge the data</ul>
<ul>7️⃣ etc</ul>


## ⚓️ **5. Data Extraction**

* Dalam konteks data extraction, Pandas dapat digunakan untuk membaca data dari berbagai sumber, seperti file CSV, Excel, SQL database, dan lainnya, dan mengubahnya menjadi DataFrames untuk analisis lebih lanjut.

* Beberapa fungsi dan metode Pandas yang umum digunakan untuk data extraction adalah sebagai berikut:

<ul>
<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">pd.read_csv()</a></code>: Digunakan untuk membaca data dari file CSV dan mengonversinya menjadi DataFrame.

<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html">pd.read_excel()</a></code>: Membaca data dari file Excel dan membuat DataFrame dari lembar kerja atau tabel tertentu.

<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html">pd.read_sql()</a></code>: Mengambil data dari basis data SQL menggunakan SQL query dan menyimpannya dalam bentuk DataFrame.
</ul>


### 👨‍💻 Task 5

Untuk melakukan proses ekstraksi data, lakukan instruksi berikut :     

1.   Persiapkan dataset SuperStore.xlsx
2.   Upload ke google colab dengan cara pilih File pada bagian kiri laman (icon 📁), kemudian klik kanan dan pilih upload
3.   Lakukan ekstraksi data excel (.xlsx) dengan library pandas, assign hasilnya ke sebuah variabel bernama <code>data_superstore</code>
4.   Tampilkan hasilnya






In [16]:
# Import library
import pandas as pd

# Proses ekstraksi data
data_superstore = pd.read_excel('SuperStore.xlsx')

# Tampilkeun hasilnya
display(data_superstore)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub_Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.6200,2,0.00,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,2019-06-12,2019-06-16,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2017-110422,TB-21400,33180,FUR-FU-10001889,25.2480,3,0.20,4.1028,Furniture,Furnishings,Ultra Door Pull Handle,2017-01-21,2017-01-23,Second Class,Tom Boeckenhauer,Consumer,United States,Miami,Florida,South
9990,CA-2020-121258,DB-13060,92627,FUR-FU-10000747,91.9600,2,0.00,15.6332,Furniture,Furnishings,Tenex B1-RE Series Chair Mats for Low Pile Car...,2020-02-26,2020-03-03,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9991,CA-2020-121258,DB-13060,92627,TEC-PH-10003645,258.5760,2,0.20,19.3932,Technology,Phones,Aastra 57i VoIP phone,2020-02-26,2020-03-03,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9992,CA-2020-121258,DB-13060,92627,OFF-PA-10004041,29.6000,4,0.00,13.3200,Office Supplies,Paper,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",2020-02-26,2020-03-03,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West


## ⛑ **6. Inspecting Data Information**

* Untuk dapat menginspeksi informasi umum pada data dapat menggunakan sintaks berikut

<p align="center"><code><b>DataFrame.info()</b></code></p>

<ul>Ketika dijalankan, sintaks tersebut akan menghasilkan output informasi umum pada data seperti banyak kolom, nama kolom beserta tipe data dan jumlah data tak kosong (<i>non-null value</i>)</ul><br>

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html</i></sup></a></p>


In [19]:
# Import library
import pandas as pd

# Assuming 'data_superstore' is your DataFrame
data_superstore.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9994 entries, 0 to 9993
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Order_ID       9994 non-null   object        
 1   Customer_ID    9994 non-null   object        
 2   Postal_Code    9994 non-null   int64         
 3   Product_ID     9994 non-null   object        
 4   Sales          9994 non-null   float64       
 5   Quantity       9994 non-null   int64         
 6   Discount       9994 non-null   float64       
 7   Profit         9994 non-null   float64       
 8   Category       9994 non-null   object        
 9   Sub_Category   9994 non-null   object        
 10  Product_Name   9994 non-null   object        
 11  Order_Date     9994 non-null   datetime64[ns]
 12  Ship_Date      9994 non-null   datetime64[ns]
 13  Ship_Mode      9994 non-null   object        
 14  Customer_Name  9994 non-null   object        
 15  Segment        9994 n

In [None]:
from google.colab import drive
drive.mount('/content/drive')

### 👨‍💻 Task 6

Inspeksi informasi umum pada data yang telah diekstraksi dan telah disimpan pada variabel <code>data_superstore</code>. Setelah itu coba uraikan informasi apa yang bisa anda dapatkan setelah melakukan inspeksi informasi umum pada <code>data_superstore</code>?

In [20]:
# Write your code below here & exec!
# Import library
import pandas as pd

# Assuming 'data_superstore' is your DataFrame
data_superstore.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9994 entries, 0 to 9993
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Order_ID       9994 non-null   object        
 1   Customer_ID    9994 non-null   object        
 2   Postal_Code    9994 non-null   int64         
 3   Product_ID     9994 non-null   object        
 4   Sales          9994 non-null   float64       
 5   Quantity       9994 non-null   int64         
 6   Discount       9994 non-null   float64       
 7   Profit         9994 non-null   float64       
 8   Category       9994 non-null   object        
 9   Sub_Category   9994 non-null   object        
 10  Product_Name   9994 non-null   object        
 11  Order_Date     9994 non-null   datetime64[ns]
 12  Ship_Date      9994 non-null   datetime64[ns]
 13  Ship_Mode      9994 non-null   object        
 14  Customer_Name  9994 non-null   object        
 15  Segment        9994 n

## 🔱 **7. Data Selection**

* Untuk memilih kolom tertentu pada sebuah DataFrame dapat menggunakan sintaks berikut

<p align="center"><code><b>DataFrame.loc[baris : nama_kolom]</b></code></p>

* <code>baris</code>
<ul>
  <li>Gunakan simbol ( : ) untuk menampilkan semua data</li>
  <li>Gunakan simbol (m : n) untuk menampilkan data dari index ke - m sampai dengan index ke - n</li>
</ul>

* <code>nama_kolom</code>
<ul>
  <li>Gunakan string untuk mengakses satu kolom saja (<i>return : Series</i>)</li>
  <li>Gunakan list untuk mengakses lebih dari satu kolom  (<i>return : DataFrame</i>)</li>
</ul>


### 👨‍💻 Task 7 - A

Pada DataFrame <code>data_superstore</code>, simpan 10 data teratas ke dalam variabel **order_id** untuk kolom **Order_ID** saja. Kemudian tampilkan data tersebut!

In [25]:
# Write your code below here & exec!
order_id = data_superstore["Order_ID"].head(10)
display(order_id)

Unnamed: 0,Order_ID
0,CA-2019-152156
1,CA-2019-152156
2,CA-2019-138688
3,US-2018-108966
4,US-2018-108966
5,CA-2017-115812
6,CA-2017-115812
7,CA-2017-115812
8,CA-2017-115812
9,CA-2017-115812


In [None]:
# Write your code below here & exec!
order_id = ...

display(order_id)

0    CA-2019-152156
1    CA-2019-152156
2    CA-2019-138688
3    US-2018-108966
4    US-2018-108966
5    CA-2017-115812
6    CA-2017-115812
7    CA-2017-115812
8    CA-2017-115812
9    CA-2017-115812
Name: Order_ID, dtype: object

### 👨‍💻 Task 7 - B

Pada DataFrame <code>data_superstore</code>, tampilkan data dengan index ke-2 sampai dengan index ke-5 kolom **Order_ID**, **Sales**, **Profit** saja

In [27]:
# Write your code below here & exec!
col_selection = ['Order_ID', 'Sales', 'Profit']

data_sales = data_superstore.loc[2:5, col_selection]

display(data_sales)

Unnamed: 0,Order_ID,Sales,Profit
2,CA-2019-138688,14.62,6.8714
3,US-2018-108966,957.5775,-383.031
4,US-2018-108966,22.368,2.5164
5,CA-2017-115812,48.86,14.1694


In [29]:
# Write your code below here & exec!
col_selection = ['Order_ID', 'Sales', 'Profit']

data_sales = data_superstore.loc[2:5, col_selection]

display(data_sales)

Unnamed: 0,Order_ID,Sales,Profit
2,CA-2019-138688,14.62,6.8714
3,US-2018-108966,957.5775,-383.031
4,US-2018-108966,22.368,2.5164
5,CA-2017-115812,48.86,14.1694


atau secara sederhana anda dapat menggunakan `DataFrame[nama_kolom]` untuk menghasilkan sebuah Series satu kolom dan `DataFrame[[nama_kolom1, nama_kolom2, ...]]` untuk menseleksi banyak kolom kedalam bentuk DataFrame

### 👨‍💻 Task 7 - C

Pada DataFrame <code>data_superstore</code>, simpan ke dalam variabel **order_id** untuk kolom **Order_ID** saja (gunakan seleksi sederhana). Kemudian tampilkan data tersebut!

In [31]:
# Write your code below here & exec!
order_id = data_superstore['Order_ID']

display(order_id)

Unnamed: 0,Order_ID
0,CA-2019-152156
1,CA-2019-152156
2,CA-2019-138688
3,US-2018-108966
4,US-2018-108966
...,...
9989,CA-2017-110422
9990,CA-2020-121258
9991,CA-2020-121258
9992,CA-2020-121258


## 🎵 **8. Conditions**

* Salah satu teknik paling sederhana untuk menemukan bagian mana dari kumpulan data yang menarik adalah menemukan subset baris yang cocok dengan beberapa kriteria untuk difilter atau dipilih. Untuk melakukan hal ini cukup mudah yakni dengan menuliskan kondisi seperti berikut

<p align="center"><code><b>DataFrame.loc[conditions]</b></code></p>

* Conditions dapat dibentuk dari 1 atau lebih kriteria boolean dan dihubungkan dengan operator logika and (&), or (|) atau not (~)

<br>

docs : <i>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html</i>

### 👨‍💻 Task 8 - A

Pada DataFrame `data_superstore` tampilkan semua record data yang terjadi di 'Los Angeles' saja

In [32]:
# Write your code below here & exec!

# Assign conditions
conditions = data_superstore['City'] == 'Los Angeles'

# Filter
data_LA = data_superstore.loc[conditions]

# Tampilkeun
display(data_LA)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub_Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country,City,State,Region
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.620,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,2019-06-12,2019-06-16,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
5,CA-2017-115812,BH-11710,90032,FUR-FU-10001487,48.860,7,0.0,14.1694,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
6,CA-2017-115812,BH-11710,90032,OFF-AR-10002833,7.280,4,0.0,1.9656,Office Supplies,Art,Newell 322,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
7,CA-2017-115812,BH-11710,90032,TEC-PH-10002275,907.152,6,0.2,90.7152,Technology,Phones,Mitel 5320 IP Phone VoIP phone,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
8,CA-2017-115812,BH-11710,90032,OFF-BI-10003910,18.504,3,0.2,5.7825,Office Supplies,Binders,DXL Angle-View Binders with Locking Rings by S...,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9976,US-2019-103674,AP-10720,90032,TEC-PH-10002496,249.584,2,0.2,31.1980,Technology,Phones,Cisco SPA301,2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West
9977,US-2019-103674,AP-10720,90032,OFF-FA-10003467,13.860,7,0.0,0.0000,Office Supplies,Fasteners,"Alliance Big Bands Rubber Bands, 12/Pack",2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West
9978,US-2019-103674,AP-10720,90032,OFF-BI-10003727,13.376,4,0.2,4.6816,Office Supplies,Binders,Avery Durable Slant Ring Binders With Label Ho...,2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West
9979,US-2019-103674,AP-10720,90032,OFF-BI-10002026,437.472,14,0.2,153.1152,Office Supplies,Binders,Avery Arch Ring Binders,2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West


### 👨‍💻 Task 8 - B

Pada DataFrame `data_superstore` tampilkan semua record data yang terjadi di 'Los Angeles' untuk kategori Technology

In [33]:
# Write your code below here & exec!

# Assign conditions
conditions1 = data_superstore['City'] == 'Los Angeles'
conditions2 = data_superstore['Category'] == 'Technology'

# Filter
data_LA_tech = data_superstore.loc[conditions1 & conditions2]

# Tampilkeun
display(data_LA_tech)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub_Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country,City,State,Region
7,CA-2017-115812,BH-11710,90032,TEC-PH-10002275,907.152,6,0.2,90.7152,Technology,Phones,Mitel 5320 IP Phone VoIP phone,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
11,CA-2017-115812,BH-11710,90032,TEC-PH-10002033,911.424,4,0.2,68.3568,Technology,Phones,Konftel 250 Conference phone - Charcoal black,2017-06-09,2017-06-14,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
26,CA-2019-121755,EH-13945,90049,TEC-AC-10003027,90.570,3,0.0,11.7741,Technology,Accessories,Imation 8GB Mini TravelDrive USB 2.0 Flash Drive,2019-01-16,2019-01-20,Second Class,Eric Hoffmann,Consumer,United States,Los Angeles,California,West
62,CA-2018-135545,KM-16720,90004,TEC-AC-10004633,13.980,2,0.0,6.1512,Technology,Accessories,Verbatim 25 GB 6x Blu-ray Single Layer Recorda...,2018-11-24,2018-11-30,Standard Class,Kunst Miller,Consumer,United States,Los Angeles,California,West
90,CA-2019-109806,JS-15685,90036,TEC-PH-10004093,73.584,2,0.2,8.2782,Technology,Phones,Panasonic Kx-TS550,2019-09-17,2019-09-22,Standard Class,Jim Sink,Corporate,United States,Los Angeles,California,West
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9884,CA-2017-112291,KE-16420,90008,TEC-AC-10001284,62.310,3,0.0,22.4316,Technology,Accessories,Enermax Briskie RF Wireless Keyboard and Mouse...,2017-04-03,2017-04-08,Standard Class,Katrina Edelman,Corporate,United States,Los Angeles,California,West
9885,CA-2017-112291,KE-16420,90008,TEC-AC-10000736,159.980,2,0.0,57.5928,Technology,Accessories,Logitech G600 MMO Gaming Mouse,2017-04-03,2017-04-08,Standard Class,Katrina Edelman,Corporate,United States,Los Angeles,California,West
9973,US-2019-103674,AP-10720,90032,TEC-PH-10004080,271.960,5,0.2,27.1960,Technology,Phones,Avaya 5410 Digital phone,2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West
9976,US-2019-103674,AP-10720,90032,TEC-PH-10002496,249.584,2,0.2,31.1980,Technology,Phones,Cisco SPA301,2019-12-06,2019-12-10,Standard Class,Anne Pryor,Home Office,United States,Los Angeles,California,West


### 👨‍💻 Task 8 - C

Pada DataFrame `data_superstore` tampilkan record data yang terjadi di 'Los Angeles' untuk kategori Technology. Namun hanya tampilkan kolom 'Order_ID', 'City', 'Category' dan 'Profit'

In [35]:
# Write your code below here & exec!

# Assign conditions
conditions1 = data_superstore['City'] == 'Los Angeles'
conditions2 = data_superstore['Category'] == 'Technology'
list_shown = ['Order_ID', 'City', 'Category', 'Profit']

# Filter
data_LA_tech = data_superstore.loc[conditions1 & conditions2, list_shown]

# Tampilkeun
display(data_LA_tech)

Unnamed: 0,Order_ID,City,Category,Profit
7,CA-2017-115812,Los Angeles,Technology,90.7152
11,CA-2017-115812,Los Angeles,Technology,68.3568
26,CA-2019-121755,Los Angeles,Technology,11.7741
62,CA-2018-135545,Los Angeles,Technology,6.1512
90,CA-2019-109806,Los Angeles,Technology,8.2782
...,...,...,...,...
9884,CA-2017-112291,Los Angeles,Technology,22.4316
9885,CA-2017-112291,Los Angeles,Technology,57.5928
9973,US-2019-103674,Los Angeles,Technology,27.1960
9976,US-2019-103674,Los Angeles,Technology,31.1980


## 📎 **9. Sorting Row**

Menemukan data yang menarik dalam sebuah DataFrame seringkali lebih mudah jika dilakukan pengurutan baris datanya. Pengurutan dibagi menjadi dua yakni pengurutan secara `Ascending` (pengurutan naik A → Z) dan juga pengurutan secara `Descending` (pengurutan turun Z → A). Eksekusi sintaks berikut :

<p align="center"><code><b>DataFrame.sort_values(by, ascending=True, ignore_index=False)</b></code></p>

Jika ingin mengurutkan DataFrame pandas dengan memperhatikan argumen

<ul>
<li><b><i>by</i></b> sebagai satu atau lebih kolom yang ingin dijadikan patokan pengurutan</li>

<li><b><i>ascending</i></b> dapat diisikan True jika ingin terurut naik atau False jika ingin terurut turun (dafault : True)</li>

<li><b><i>ignore_index</i></b> dapat diisikan True jika ingin index masih terurut atau False jika indexnya masih dipertahankan sesuai data awal (dafault : False)</li>

</ul><br>

docs : <i>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html</i>


### 👨‍💻 Task 9 - A

Pada DataFrame `data_superstore`, tampilkan semua record data namun urutkan secara ascending pada kolom Order_ID

In [36]:
# Write your code below here & exec!
sorted_data_asc = data_superstore.sort_values(by='Order_ID', ascending=True)

display(sorted_data_asc)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub_Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country,City,State,Region
2717,CA-2017-100006,DK-13375,10024,TEC-PH-10002075,377.970,3,0.0,109.6113,Technology,Phones,AT&T EL51110 DECT,2017-09-07,2017-09-13,Standard Class,Dennis Kane,Consumer,United States,New York City,New York,East
6288,CA-2017-100090,EB-13705,94122,OFF-BI-10001597,196.704,6,0.2,68.8464,Office Supplies,Binders,"Wilson Jones Ledger-Size, Piano-Hinge Binder, ...",2017-07-08,2017-07-12,Standard Class,Ed Braxton,Corporate,United States,San Francisco,California,West
6287,CA-2017-100090,EB-13705,94122,FUR-TA-10003715,502.488,3,0.2,-87.9354,Furniture,Tables,Hon 2111 Invitation Series Corner Table,2017-07-08,2017-07-12,Standard Class,Ed Braxton,Corporate,United States,San Francisco,California,West
9514,CA-2017-100293,NF-18475,32216,OFF-PA-10000176,91.056,6,0.2,31.8696,Office Supplies,Paper,Xerox 1887,2017-03-14,2017-03-18,Standard Class,Neil Französisch,Home Office,United States,Jacksonville,Florida,South
3083,CA-2017-100328,JC-15340,10024,OFF-BI-10000343,3.928,1,0.2,1.3257,Office Supplies,Binders,"Pressboard Covers with Storage Hooks, 9 1/2"" x...",2017-01-28,2017-02-03,Standard Class,Jasper Cacioppo,Consumer,United States,New York City,New York,East
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5932,US-2020-169551,RL-19615,19120,OFF-ST-10004835,13.392,3,0.2,1.0044,Office Supplies,Storage,Plastic Stacking Crates & Casters,2020-07-07,2020-07-09,First Class,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,East
5930,US-2020-169551,RL-19615,19120,OFF-PA-10004100,15.552,3,0.2,5.4432,Office Supplies,Paper,Xerox 216,2020-07-07,2020-07-09,First Class,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,East
5933,US-2020-169551,RL-19615,19120,TEC-AC-10002018,16.776,3,0.2,4.8231,Technology,Accessories,AmazonBasics 3-Button USB Wired Mouse,2020-07-07,2020-07-09,First Class,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,East
5934,US-2020-169551,RL-19615,19120,TEC-AC-10003033,527.920,2,0.2,85.7870,Technology,Accessories,Plantronics CS510 - Over-the-Head monaural Wir...,2020-07-07,2020-07-09,First Class,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,East


### 👨‍💻 Task 9 - B

Pada DataFrame `data_superstore`, tampilkan semua record data namun urutkan secara descending pada kolom Profit dan urutkan secara ascending pada kolom Quantity

In [37]:
# Write your code below here & exec!
sorted_data = data_superstore.sort_values(by=['Profit', 'Quantity'], ascending=[False, True])

display(sorted_data)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub_Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country,City,State,Region
6826,CA-2019-118689,TC-20980,47905,TEC-CO-10004722,17499.950,5,0.0,8399.9760,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,2019-10-02,2019-10-09,Standard Class,Tamara Chand,Corporate,United States,Lafayette,Indiana,Central
8153,CA-2020-140151,RB-19360,98115,TEC-CO-10004722,13999.960,4,0.0,6719.9808,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,2020-03-23,2020-03-25,First Class,Raymond Buch,Consumer,United States,Seattle,Washington,West
4190,CA-2020-166709,HL-15040,19711,TEC-CO-10004722,10499.970,3,0.0,5039.9856,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,2020-11-17,2020-11-22,Standard Class,Hunter Lopez,Consumer,United States,Newark,Delaware,East
9039,CA-2019-117121,AB-10105,48205,OFF-BI-10000545,9892.740,13,0.0,4946.3700,Office Supplies,Binders,GBC Ibimaster 500 Manual ProClick Binding System,2019-12-17,2019-12-21,Standard Class,Adrian Barton,Consumer,United States,Detroit,Michigan,Central
4098,CA-2017-116904,SC-20095,55407,OFF-BI-10001120,9449.950,5,0.0,4630.4755,Office Supplies,Binders,Ibico EPK-21 Electric Binding System,2017-09-23,2017-09-28,Standard Class,Sanjit Chand,Consumer,United States,Minneapolis,Minnesota,Central
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4991,US-2020-122714,HG-14965,60653,OFF-BI-10001120,1889.990,5,0.8,-2929.4845,Office Supplies,Binders,Ibico EPK-21 Electric Binding System,2020-12-07,2020-12-13,Standard Class,Henry Goldwyn,Corporate,United States,Chicago,Illinois,Central
3011,CA-2020-134845,SR-20425,80027,TEC-MA-10000822,2549.985,5,0.7,-3399.9800,Technology,Machines,Lexmark MX611dhe Monochrome Laser Printer,2020-04-17,2020-04-23,Standard Class,Sharelle Roach,Home Office,United States,Louisville,Colorado,West
9774,CA-2017-169019,LF-17185,78207,OFF-BI-10004995,2177.584,8,0.8,-3701.8928,Office Supplies,Binders,GBC DocuBind P400 Electric Binding System,2017-07-26,2017-07-30,Standard Class,Luke Foster,Consumer,United States,San Antonio,Texas,Central
683,US-2020-168116,GT-14635,27217,TEC-MA-10004125,7999.980,4,0.5,-3839.9904,Technology,Machines,Cubify CubeX 3D Printer Triple Head Print,2020-11-04,2020-11-04,Same Day,Grant Thornton,Corporate,United States,Burlington,North Carolina,South


## 📊 **10. Summarize Data**

Di pandas, method `DataFrame.describe()` digunakan untuk menghasilkan statistik deskriptif dari DataFrame. Metode ini sangat berguna untuk dengan cepat memahami statistik dasar dari data. Berikut adalah statistik utama yang disediakan :

* `Jumlah` : Jumlah nilai non-null dalam setiap kolom.
* `Rata-rata` : Rata-rata aritmetika dari setiap kolom.
* `Standar Deviasi` : Ukuran dispersi nilai-nilai sekitar rata-rata.
* `Minimum` : Nilai minimum dalam setiap kolom.
* `Kuartil 25 (Q1)` : Nilai di bawahnya 25% data berada.
* `Kuartil 50 (Median atau Q2)` : Nilai di bawahnya 50% data berada (yaitu nilai tengah).
* `Kuartil 75 (Q3)` : Nilai di bawahnya 75% data berada.
* `Maksimum` : Nilai maksimum dalam setiap kolom.

### 👨‍💻 Task 10

Pada DataFrame `data_superstore`, lakukan perhitungan statistik deskriptif pada kolom - kolom yang memiliki tipe data numerik

In [38]:
# Write your code below here & exec!
numerical_summary = data_superstore.describe()

display(numerical_summary)

Unnamed: 0,Postal_Code,Sales,Quantity,Discount,Profit,Order_Date,Ship_Date
count,9994.0,9994.0,9994.0,9994.0,9994.0,9994,9994
mean,55190.371023,229.858001,3.789574,0.156203,28.656896,2019-04-30 17:41:20.448268800,2019-05-04 16:42:15.921553152
min,1040.0,0.444,1.0,0.0,-6599.978,2017-01-03 00:00:00,2017-01-07 00:00:00
25%,23223.0,17.28,2.0,0.0,1.72875,2018-05-23 00:00:00,2018-05-27 00:00:00
50%,56430.5,54.49,3.0,0.2,8.6665,2019-06-26 00:00:00,2019-06-29 00:00:00
75%,90008.0,209.94,5.0,0.2,29.364,2020-05-14 00:00:00,2020-05-18 00:00:00
max,99301.0,22638.48,14.0,0.8,8399.976,2020-12-30 00:00:00,2021-01-05 00:00:00
std,32063.70451,623.245101,2.22511,0.206452,234.260108,,


## 🎎 **11. Aggregation**

Agregasi data merupakan serangkaian proses yang dilakukan untuk melakukan pengumpulan data dan dinyatakan dalam bentuk ringkasan sebagai contoh menghitung total yang dikelompokkan berdasarkan kategori tertentu, dsb.

Untuk melakukan agregasi gunakan sintaks berikut

<p align="center"><code><b>DataFrame.group_by(by, as_index).agg(kolom_hasil_aggregasi = (kolom_dihitung, jenis_agregasi))</b></code></p>

Jenis agregasi :
* pd.Series.sum = Menghitung total data
* pd.Series.mean = Menghitung rataan data
* pd.Series.max = Menghitung nilai maksimum data
* pd.Series.min = Menghitung nilai minimum data
* pd.Series.nunique = Menghitung jumlah data unik data
* pd.Series.count = Menghitung banyak data

### 👨‍💻 Task 11 - A

Pada DataFrame `data_superstore`, Category produk apakah yang menghasilkan total profit paling tinggi? dan berapa total profit yang didapatkan?

In [39]:
# Write your code below here & exec!
category_profit = data_superstore.groupby('Category').agg(total_profit=('Profit', 'sum'))
highest_profit_category = category_profit.loc[category_profit['total_profit'].idxmax()]

print(f"Category with highest total profit: {highest_profit_category.name}")
print(f"Total profit: {highest_profit_category['total_profit']}")

Category with highest total profit: Technology
Total profit: 145454.9481


### 👨‍💻 Task 11 - B

Pada DataFrame `data_superstore`, lakukan perhitungan rataan Profit yang dikelompokkan berdasarkan Segment dan Category barang yang terjual

In [40]:
# Write your code below here & exec!
avg_profit_per_category = data_superstore.groupby(['Segment', 'Category'])['Profit'].mean().reset_index()

display(avg_profit_per_category)

Unnamed: 0,Segment,Category,Profit
0,Consumer,Furniture,6.281293
1,Consumer,Office Supplies,18.014174
2,Consumer,Technology,74.445646
3,Corporate,Furniture,11.741201
4,Corporate,Office Supplies,22.102923
5,Corporate,Technology,79.723823
6,Home Office,Furniture,10.705465
7,Home Office,Office Supplies,24.034439
8,Home Office,Technology,89.152458


**Written By :** <br>
<a href="https://linkedin.com/in/Rhamlhan"><img alt="Linked In Link" src="https://img.shields.io/badge/-Ramlanpython-0072b1?style=for-the-badge&logo=None&logoColor=white" align="left"/></a>

<br><br>**for :**

<a href="https://dqlab.id/"><img src="https://dqlab.id/files/dqlab/cache/87e30118ebba5ec7d96f6ea8c9dcc10b_x_118_X_55.png" align="left" /></a>