# 💻 **Introduction**

Sebelum sebuah data dapat dianalisis atau digunakan untuk mengambil keputusan kebijakan tentu data tersebut perlu untuk diekstraksi terlebih dahulu. <b>Ekstraksi data</b> adalah sebuah proses pengumpulan atau pengambilan jenis data yang berbeda dari berbagai sumber, banyak di antaranya mungkin tidak terorganisir dengan baik atau tidak terstruktur sama sekali. Proses ini memungkinkan untuk mengkonsolidasikan, memproses, dan menyempurnakan data sehingga nantinya dapat disimpan di lokasi terpusat untuk diubah atau diproses lebih lanjut.

Python sebagai salah satu <i>tools</i> yang <i>powerful</i> untuk pengolahan data menyediakan berbagai <i>library</i> untuk mendukung proses ekstraksi data. Salah satu library paling banyak digunakan adalah <b>pandas</b>.

Pandas memungkinkan untuk membaca data dari berbagai jenis ekstensi seperti data yang bersumber dari database (sql), <i>excel</i> (<b>.xls</b> atau <b>.xlsx</b>), <i>separated value file</i> (<b>.csv</b>, <b>.tsv</b>, dsb) lalu merubahnya menjadi satu format struktur data yang sama yang disebut <b>DataFrame</b>. DataFrame inilah yang nantinya dapat kita lakukan proses <b>Data Manipulation</b><br><br>

<p align="center">
<img src="https://drive.google.com/uc?export=view&id=18NW3gMMTJjkwwpZX5TXi9DTteXxGAoxa" width="600" height="300">
<p align="center"><b>Gambar 1. Proses Ekstraksi Data dengan <i>pandas</i></b></p>

<br><br>
<p align="right"><sup>docs : <i><a href="https://shorturl.at/xyZ69">https://pandas.pydata.org/docs/user_guide/io.html</i></sup></a></p>


## 🏃🏻‍♂️ **1. First Step : Pandas**

Untuk dapat menggunakan library pandas pada python, perlu untuk mengimpor library tersebut dengan cara mengetikan sintaks berikut

<p align="center"><code><b>import pandas as pd</b></code></p>

lalu jalankan (<i>run</i>) program.

<br><br>
<p align="left"><sup>docs : <i><a href="https://shorturl.at/kzG06">https://pandas.pydata.org/docs/getting_started/install.html</i></sup></a></p>

### 👨‍💻 Task 1

Ketikan kode `import pandas as pd` pada prompt dibawah ini lalu jalankan

In [1]:
# Write your code below here & exec!
import pandas as pd

# 🥨 **Struktur Data Pandas**

* Terdapat dua struktur data utama pada library pandas yang disebut dengan Series dan DataFrame.
<p align="center">
<img src="https://datagy.io/wp-content/uploads/2022/12/Understanding-Pandas-Series-and-DataFrames-1024x576.png" width="550" height="289">
<p align="center"><b>Gambar 2. Series VS DataFrame</b></p>
<br>

* Gabungan beberapa Series yang mempunyai banyak baris yang sama dapat membentuk sebuah DataFrame atau berlaku sebaliknya pada sebuah DataFrame dapat dipecah (di-<i>slicing</i> satu kolom) membentuk sebuah Series.<br><br>

<p align="right"><sup>docs : <i><a href="https://shorturl.at/dezQY">http://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html</i></sup></a></p>

##🛺 **2. Series**

* <a href="">Series</a> merupakan kolom dari sebuah tabel yang bersifat homogen atau mempunyai elemen dengan tipe data yang sejenis.

* Untuk membuat Series gunakan sintaks berikut

<p align="center"><code><b>pd.Series(data)</b></code></p>

<ul>
  data dapat berupa <i>array-like</i>, <i>Iterable</i>, <i>dict</i>, atau <i>scalar</i>
</ul>

<p align="right"><sup>docs : <i><a href="https://shorturl.at/gmtG2">https://pandas.pydata.org/docs/reference/api/pandas.Series.html</i></sup></a></p>



### 👨‍💻 Task 2 - A

<i>Age of Accounts Receivable</i> (Aging AR) adalah istilah yang merujuk pada lamanya piutang dagang yang masih belum tertagih pada suatu periode tertentu. DQTech mecatat distribusi Aging AR tersaji dari list data sebagai berikut \[78, 91, 40, 50, 95\].

Dari data tersebut buatlah sebuah Series yang disimpan pada variabel dengan nama `ar_aging` lalu tampilkan outputnya!

In [2]:
# Inisialisasi data
data_age_of_AR = [78, 91, 40, 50, 95]

# Write your code below here & exec!
ar_aging = pd.Series(data_age_of_AR)

# Menampilkan hasil
print(ar_aging)

0    78
1    91
2    40
3    50
4    95
dtype: int64


In [3]:
display(ar_aging)

Unnamed: 0,0
0,78
1,91
2,40
3,50
4,95


### 👨‍💻 Task 2 - B

Dari data Aging AR yang tercatat, akan diberi detail data sebagai berikut
* Cust 1 memiliki Aging AR sebesar 78
* Cust 2 memiliki Aging AR sebesar 91
* Cust 3 memiliki Aging AR sebesar 40
* Cust 4 memiliki Aging AR sebesar 50
* Cust 5 memiliki Aging AR sebesar 95

Dari data tersebut buatlah sebuah Series yang disimpan pada variabel dengan nama `detail_ar_aging` lalu tampilkan outputnya!

In [4]:
# Inisialisasi data
data_age_of_AR = {
    'Cust1' : 78,
    'Cust2' : 91,
    'Cust3' : 40,
    'Cust4' : 50,
    'Cust5' : 95
}

# Write your code below here & exec!
detail_ar_aging = pd.Series(data_age_of_AR)

# Tampilkan hasilnya
display(detail_ar_aging)

Unnamed: 0,0
Cust1,78
Cust2,91
Cust3,40
Cust4,50
Cust5,95


## 🚴🏻‍♂️ **3. DataFrame**

* <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame">DataFrame</a> adalah struktur data 2 dimensi yang terdiri dari baris dan kolom (seperti tabel) dan dapat menyimpan data dari berbagai jenis (termasuk karakter, bilangan bulat, bilangan real, data kategorikal, dan lainnya).

<p align="center">
<img src="https://www.w3resource.com/w3r_images/pandas-data-frame.svg" width="600" height="300">
<p align="center"><b>Gambar 2. DataFrame Pandas</b></p>
<br>

* <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series">Series</a> merupakan kolom dari sebuah tabel yang bersifat homogen atau mempunyai elemen dengan tipe data yang sejenis.


<p align="center">
<img src="https://datagy.io/wp-content/uploads/2022/12/Understanding-Pandas-Series-and-DataFrames-1024x576.png" width="550" height="300">
<p align="center"><b>Gambar 3. Series VS DataFrame</b></p>
<br>

* Gabungan beberapa Series yang mempunyai banyak baris yang sama dapat membentuk sebuah DataFrame atau berlaku sebaliknya pada sebuah DataFrame dapat dipecah (di-<i>slicing</i> satu kolom) membentuk sebuah Series.<br><br>




### 👨‍💻 Task 3

Data karyawan DQTech disajikan pada dictionary berikut

```
details = {
    'Name' : ['Aksara', 'Antara', 'Sendja', 'Sunyi'],
    'Age' : [23, 21, 22, 21],
    'Role' : ['Jr. Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Scientist']
}
```

konversi dictionary tersebut menjadi DataFrame pandas

In [5]:
# Initialize Data
details = {
    'Name' : ['Aksara', 'Antara', 'Sendja', 'Sunyi'],
    'Age' : [23, 21, 22, 21],
    'Role' : ['Jr. Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Scientist']
}

# Write your code below here & exec!
dqtech_employee = pd.DataFrame(details)

# Tampilkan data
display(dqtech_employee)

Unnamed: 0,Name,Age,Role
0,Aksara,23,Jr. Data Scientist
1,Antara,21,Data Engineer
2,Sendja,22,Data Analyst
3,Sunyi,21,Data Scientist


## ♖ **4. Parts Of DataFrame**

Untuk lebih memahami objek DataFrame, perlu diketahui bahwa DataFrame terdiri dari tiga komponen sebagai atribut berikut :

<ul>1️⃣ .values : Nilai - nilai yang tertera pada DataFrame</ul>
<ul>2️⃣ .columns : Nama kolom yang ada pada DataFrame</ul>
<ul>3️⃣ .index : Nama atau nomor index pada DataFrame</ul>



### 👨‍💻 Task 4

Pada DataFrame yang telah dibuat pada Task 3, coba buatkan list nama kolomnya!

In [6]:
# Write your code below here & exec!
dqtech_employee.columns

Index(['Name', 'Age', 'Role'], dtype='object')

In [7]:
dqtech_employee.values

array([['Aksara', 23, 'Jr. Data Scientist'],
       ['Antara', 21, 'Data Engineer'],
       ['Sendja', 22, 'Data Analyst'],
       ['Sunyi', 21, 'Data Scientist']], dtype=object)

In [8]:
dqtech_employee.index

RangeIndex(start=0, stop=4, step=1)

---


# 📊 **Data Manipulation**

Data Manipulation adalah sebuah metode pengorganisasian data agar lebih mudah dibaca, terstruktur dan agar lebih mudah diolah untuk kebutuhan lain kedepannya. Beberapa hal yang biasa dilakukan saat data manipulation adalah sebagai berikut :


<ul>1️⃣ Column selections</ul>
<ul>2️⃣ Filter the data</ul>
<ul>3️⃣ Create a new column or change it</ul>
<ul>4️⃣ Drop a column</ul>
<ul>5️⃣ Apply custom functions</ul>
<ul>6️⃣ Join / Merge the data</ul>
<ul>7️⃣ etc</ul>


## ⚓️ **5. Data Extraction**

* Dalam konteks data extraction, Pandas dapat digunakan untuk membaca data dari berbagai sumber, seperti file CSV, Excel, SQL database, dan lainnya, dan mengubahnya menjadi DataFrames untuk analisis lebih lanjut.

* Beberapa fungsi dan metode Pandas yang umum digunakan untuk data extraction adalah sebagai berikut:

<ul>
<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">pd.read_csv()</a></code>: Digunakan untuk membaca data dari file CSV dan mengonversinya menjadi DataFrame.

<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html">pd.read_excel()</a></code>: Membaca data dari file Excel dan membuat DataFrame dari lembar kerja atau tabel tertentu.

<code><a href="https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html">pd.read_sql()</a></code>: Mengambil data dari basis data SQL menggunakan SQL query dan menyimpannya dalam bentuk DataFrame.
</ul>


### 👨‍💻 Task 5

Untuk melakukan proses ekstraksi data, lakukan instruksi berikut :     

1.   Persiapkan dataset SuperStore.xlsx
2.   Upload ke google colab dengan cara pilih File pada bagian kiri laman (icon 📁), kemudian klik kanan dan pilih upload
3.   Lakukan ekstraksi data excel (.xlsx) dengan library pandas, assign hasilnya ke sebuah variabel bernama <code>data_superstore</code>
4.   Tampilkan hasilnya






In [9]:
# Proses ekstraksi data
data_superstore = pd.read_excel('/content/Superstore.xlsx')

# Tampilkeun hasilnya
display(data_superstore)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2016-152156,2016-11-08,2016-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.9600,2,0.00,41.9136
1,2,CA-2016-152156,2016-11-08,2016-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.9400,3,0.00,219.5820
2,3,CA-2016-138688,2016-06-12,2016-06-16,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.6200,2,0.00,6.8714
3,4,US-2015-108966,2015-10-11,2015-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775,5,0.45,-383.0310
4,5,US-2015-108966,2015-10-11,2015-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.3680,2,0.20,2.5164
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,9990,CA-2014-110422,2014-01-21,2014-01-23,Second Class,TB-21400,Tom Boeckenhauer,Consumer,United States,Miami,...,33180,South,FUR-FU-10001889,Furniture,Furnishings,Ultra Door Pull Handle,25.2480,3,0.20,4.1028
9990,9991,CA-2017-121258,2017-02-26,2017-03-03,Standard Class,DB-13060,Dave Brooks,Consumer,United States,Costa Mesa,...,92627,West,FUR-FU-10000747,Furniture,Furnishings,Tenex B1-RE Series Chair Mats for Low Pile Car...,91.9600,2,0.00,15.6332
9991,9992,CA-2017-121258,2017-02-26,2017-03-03,Standard Class,DB-13060,Dave Brooks,Consumer,United States,Costa Mesa,...,92627,West,TEC-PH-10003645,Technology,Phones,Aastra 57i VoIP phone,258.5760,2,0.20,19.3932
9992,9993,CA-2017-121258,2017-02-26,2017-03-03,Standard Class,DB-13060,Dave Brooks,Consumer,United States,Costa Mesa,...,92627,West,OFF-PA-10004041,Office Supplies,Paper,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",29.6000,4,0.00,13.3200


## ⛑ **6. Inspecting Data Information**

* Untuk dapat menginspeksi informasi umum pada data dapat menggunakan sintaks berikut

<p align="center"><code><b>DataFrame.info()</b></code></p>

<ul>Ketika dijalankan, sintaks tersebut akan menghasilkan output informasi umum pada data seperti banyak kolom, nama kolom beserta tipe data dan jumlah data tak kosong (<i>non-null value</i>)</ul><br>

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html</i></sup></a></p>


### 👨‍💻 Task 6

Inspeksi informasi umum pada data yang telah diekstraksi dan telah disimpan pada variabel <code>data_superstore</code>. Setelah itu coba uraikan informasi apa yang bisa anda dapatkan setelah melakukan inspeksi informasi umum pada <code>data_superstore</code>?

In [10]:
# Write your code below here & exec!
data_superstore.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9994 entries, 0 to 9993
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Row ID         9994 non-null   int64         
 1   Order ID       9994 non-null   object        
 2   Order Date     9994 non-null   datetime64[ns]
 3   Ship Date      9994 non-null   datetime64[ns]
 4   Ship Mode      9994 non-null   object        
 5   Customer ID    9994 non-null   object        
 6   Customer Name  9994 non-null   object        
 7   Segment        9994 non-null   object        
 8   Country        9994 non-null   object        
 9   City           9994 non-null   object        
 10  State          9994 non-null   object        
 11  Postal Code    9994 non-null   int64         
 12  Region         9994 non-null   object        
 13  Product ID     9994 non-null   object        
 14  Category       9994 non-null   object        
 15  Sub-Category   9994 n

## 🔱 **7. Data Selection**

* Untuk memilih kolom tertentu pada sebuah DataFrame dapat menggunakan sintaks berikut

<p align="center"><code><b>DataFrame.loc[baris, nama_kolom]</b></code></p>

* <code>baris</code>
<ul>
  <li>Gunakan simbol ( : ) untuk menampilkan semua data</li>
  <li>Gunakan simbol (m : n) untuk menampilkan data dari index ke - m sampai dengan index ke - n</li>
</ul>

* <code>nama_kolom</code>
<ul>
  <li>Gunakan string untuk mengakses satu kolom saja (<i>return : Series</i>)</li>
  <li>Gunakan list untuk mengakses lebih dari satu kolom  (<i>return : DataFrame</i>)</li>
</ul>


### 👨‍💻 Task 7 - A

Pada DataFrame <code>data_superstore</code>, simpan 10 data teratas ke dalam variabel **order_id** untuk kolom **Order_ID** saja. Kemudian tampilkan data tersebut!

In [11]:
# Write your code below here & exec!
order_id = data_superstore.loc[:9, 'Order ID']

display(order_id)

Unnamed: 0,Order ID
0,CA-2016-152156
1,CA-2016-152156
2,CA-2016-138688
3,US-2015-108966
4,US-2015-108966
5,CA-2014-115812
6,CA-2014-115812
7,CA-2014-115812
8,CA-2014-115812
9,CA-2014-115812


### 👨‍💻 Task 7 - B

Pada DataFrame <code>data_superstore</code>, tampilkan data dengan index ke-2 sampai dengan index ke-5 kolom **Order_ID**, **Sales**, **Profit** saja

In [12]:
# Write your code below here & exec!
col_selection = ['Order ID', 'Sales', 'Profit']

data_sales = data_superstore.loc[2:5, col_selection]

display(data_sales)

Unnamed: 0,Order ID,Sales,Profit
2,CA-2016-138688,14.62,6.8714
3,US-2015-108966,957.5775,-383.031
4,US-2015-108966,22.368,2.5164
5,CA-2014-115812,48.86,14.1694


atau secara sederhana anda dapat menggunakan `DataFrame[nama_kolom]` untuk menghasilkan sebuah Series satu kolom dan `DataFrame[[nama_kolom1, nama_kolom2, ...]]` untuk menseleksi banyak kolom kedalam bentuk DataFrame

### 👨‍💻 Task 7 - C

Pada DataFrame <code>data_superstore</code>, simpan ke dalam variabel **order_id** untuk kolom **Order_ID** saja (gunakan seleksi sederhana). Kemudian tampilkan data tersebut!

In [13]:
# Write your code below here & exec!
order_id = data_superstore['Order ID']

display(order_id)

Unnamed: 0,Order ID
0,CA-2016-152156
1,CA-2016-152156
2,CA-2016-138688
3,US-2015-108966
4,US-2015-108966
...,...
9989,CA-2014-110422
9990,CA-2017-121258
9991,CA-2017-121258
9992,CA-2017-121258


## 🎵 **8. Conditions**

* Salah satu teknik paling sederhana untuk menemukan bagian mana dari kumpulan data yang menarik adalah menemukan subset baris yang cocok dengan beberapa kriteria untuk difilter atau dipilih. Untuk melakukan hal ini cukup mudah yakni dengan menuliskan kondisi seperti berikut

<p align="center"><code><b>DataFrame.loc[conditions]</b></code></p>

* Conditions dapat dibentuk dari 1 atau lebih kriteria boolean dan dihubungkan dengan operator logika and (&), or (|) atau not (~)

<br>

docs : <i>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html</i>

### 👨‍💻 Task 8 - A

Pada DataFrame `data_superstore` tampilkan semua record data yang terjadi di 'Los Angeles' saja

In [14]:
# Write your code below here & exec!

# Assign conditions
conditions = (data_superstore['City'] == 'Los Angeles')

# Filter
data_LA = data_superstore[conditions]

# Tampilkeun
display(data_LA)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
2,3,CA-2016-138688,2016-06-12,2016-06-16,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.620,2,0.0,6.8714
5,6,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,FUR-FU-10001487,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...,48.860,7,0.0,14.1694
6,7,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,OFF-AR-10002833,Office Supplies,Art,Newell 322,7.280,4,0.0,1.9656
7,8,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,TEC-PH-10002275,Technology,Phones,Mitel 5320 IP Phone VoIP phone,907.152,6,0.2,90.7152
8,9,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,OFF-BI-10003910,Office Supplies,Binders,DXL Angle-View Binders with Locking Rings by S...,18.504,3,0.2,5.7825
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9976,9977,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,TEC-PH-10002496,Technology,Phones,Cisco SPA301,249.584,2,0.2,31.1980
9977,9978,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,OFF-FA-10003467,Office Supplies,Fasteners,"Alliance Big Bands Rubber Bands, 12/Pack",13.860,7,0.0,0.0000
9978,9979,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,OFF-BI-10003727,Office Supplies,Binders,Avery Durable Slant Ring Binders With Label Ho...,13.376,4,0.2,4.6816
9979,9980,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,OFF-BI-10002026,Office Supplies,Binders,Ibico Recycled Linen-Style Covers,437.472,14,0.2,153.1152


### 👨‍💻 Task 8 - B

Pada DataFrame `data_superstore` tampilkan semua record data yang terjadi di 'Los Angeles' untuk kategori Technology

In [15]:
# Write your code below here & exec!

# Assign conditions
conditions1 = (data_superstore['City'] == 'Los Angeles')
conditions2 = (data_superstore['Category'] == 'Technology')

# Filter
data_LA_tech = data_superstore[conditions1 & conditions2]

# Tampilkeun
display(data_LA_tech)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
7,8,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,TEC-PH-10002275,Technology,Phones,Mitel 5320 IP Phone VoIP phone,907.152,6,0.2,90.7152
11,12,CA-2014-115812,2014-06-09,2014-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032,West,TEC-PH-10002033,Technology,Phones,Konftel 250 Conference phone - Charcoal black,911.424,4,0.2,68.3568
26,27,CA-2016-121755,2016-01-16,2016-01-20,Second Class,EH-13945,Eric Hoffmann,Consumer,United States,Los Angeles,...,90049,West,TEC-AC-10003027,Technology,Accessories,Imation 8GB Mini TravelDrive USB 2.0 Flash Drive,90.570,3,0.0,11.7741
62,63,CA-2015-135545,2015-11-24,2015-11-30,Standard Class,KM-16720,Kunst Miller,Consumer,United States,Los Angeles,...,90004,West,TEC-AC-10004633,Technology,Accessories,Verbatim 25 GB 6x Blu-ray Single Layer Recorda...,13.980,2,0.0,6.1512
90,91,CA-2016-109806,2016-09-17,2016-09-22,Standard Class,JS-15685,Jim Sink,Corporate,United States,Los Angeles,...,90036,West,TEC-PH-10004093,Technology,Phones,Panasonic Kx-TS550,73.584,2,0.2,8.2782
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9884,9885,CA-2014-112291,2014-04-03,2014-04-08,Standard Class,KE-16420,Katrina Edelman,Corporate,United States,Los Angeles,...,90008,West,TEC-AC-10001284,Technology,Accessories,Enermax Briskie RF Wireless Keyboard and Mouse...,62.310,3,0.0,22.4316
9885,9886,CA-2014-112291,2014-04-03,2014-04-08,Standard Class,KE-16420,Katrina Edelman,Corporate,United States,Los Angeles,...,90008,West,TEC-AC-10000736,Technology,Accessories,Logitech G600 MMO Gaming Mouse,159.980,2,0.0,57.5928
9973,9974,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,TEC-PH-10004080,Technology,Phones,Avaya 5410 Digital phone,271.960,5,0.2,27.1960
9976,9977,US-2016-103674,2016-12-06,2016-12-10,Standard Class,AP-10720,Anne Pryor,Home Office,United States,Los Angeles,...,90032,West,TEC-PH-10002496,Technology,Phones,Cisco SPA301,249.584,2,0.2,31.1980


### 👨‍💻 Task 8 - C

Pada DataFrame `data_superstore` tampilkan record data yang terjadi di 'Los Angeles' untuk kategori Technology. Namun hanya tampilkan kolom 'Order_ID', 'City', 'Category' dan 'Profit'

In [16]:
# Assign conditions
conditions1 = (data_superstore['City'] == 'Los Angeles')
conditions2 = (data_superstore['Category'] == 'Technology')
list_shown = ['Order ID', 'City', 'Category', 'Profit']

# Filter
data_LA_tech = data_superstore[conditions1 & conditions2][list_shown]

# Tampilkeun
display(data_LA_tech)

Unnamed: 0,Order ID,City,Category,Profit
7,CA-2014-115812,Los Angeles,Technology,90.7152
11,CA-2014-115812,Los Angeles,Technology,68.3568
26,CA-2016-121755,Los Angeles,Technology,11.7741
62,CA-2015-135545,Los Angeles,Technology,6.1512
90,CA-2016-109806,Los Angeles,Technology,8.2782
...,...,...,...,...
9884,CA-2014-112291,Los Angeles,Technology,22.4316
9885,CA-2014-112291,Los Angeles,Technology,57.5928
9973,US-2016-103674,Los Angeles,Technology,27.1960
9976,US-2016-103674,Los Angeles,Technology,31.1980


## 📎 **9. Sorting Row**

Menemukan data yang menarik dalam sebuah DataFrame seringkali lebih mudah jika dilakukan pengurutan baris datanya. Pengurutan dibagi menjadi dua yakni pengurutan secara `Ascending` (pengurutan naik A → Z) dan juga pengurutan secara `Descending` (pengurutan turun Z → A). Eksekusi sintaks berikut :

<p align="center"><code><b>DataFrame.sort_values(by, ascending=True, ignore_index=False)</b></code></p>

Jika ingin mengurutkan DataFrame pandas dengan memperhatikan argumen

<ul>
<li><b><i>by</i></b> sebagai satu atau lebih kolom yang ingin dijadikan patokan pengurutan</li>

<li><b><i>ascending</i></b> dapat diisikan True jika ingin terurut naik atau False jika ingin terurut turun (dafault : True)</li>

<li><b><i>ignore_index</i></b> dapat diisikan True jika ingin index masih terurut atau False jika indexnya masih dipertahankan sesuai data awal (dafault : False)</li>

</ul><br>

docs : <i>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html</i>


### 👨‍💻 Task 9 - A

Pada DataFrame `data_superstore`, tampilkan semua record data namun urutkan secara ascending pada kolom Order_ID

In [17]:
# Write your code below here & exec!
data_superstore\
  .sort_values(by='Order ID', ascending=True, ignore_index=True)\
  .drop('Row ID', axis=1)

Unnamed: 0,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,CA-2014-100006,2014-09-07,2014-09-13,Standard Class,DK-13375,Dennis Kane,Consumer,United States,New York City,New York,10024,East,TEC-PH-10002075,Technology,Phones,AT&T EL51110 DECT,377.970,3,0.0,109.6113
1,CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,United States,San Francisco,California,94122,West,OFF-BI-10001597,Office Supplies,Binders,"Wilson Jones Ledger-Size, Piano-Hinge Binder, ...",196.704,6,0.2,68.8464
2,CA-2014-100090,2014-07-08,2014-07-12,Standard Class,EB-13705,Ed Braxton,Corporate,United States,San Francisco,California,94122,West,FUR-TA-10003715,Furniture,Tables,Hon 2111 Invitation Series Corner Table,502.488,3,0.2,-87.9354
3,CA-2014-100293,2014-03-14,2014-03-18,Standard Class,NF-18475,Neil Französisch,Home Office,United States,Jacksonville,Florida,32216,South,OFF-PA-10000176,Office Supplies,Paper,Xerox 1887,91.056,6,0.2,31.8696
4,CA-2014-100328,2014-01-28,2014-02-03,Standard Class,JC-15340,Jasper Cacioppo,Consumer,United States,New York City,New York,10024,East,OFF-BI-10000343,Office Supplies,Binders,"Pressboard Covers with Storage Hooks, 9 1/2"" x...",3.928,1,0.2,1.3257
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,US-2017-169551,2017-07-07,2017-07-09,First Class,RL-19615,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,19120,East,OFF-ST-10004835,Office Supplies,Storage,Plastic Stacking Crates & Casters,13.392,3,0.2,1.0044
9990,US-2017-169551,2017-07-07,2017-07-09,First Class,RL-19615,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,19120,East,TEC-AC-10002018,Technology,Accessories,AmazonBasics 3-Button USB Wired Mouse,16.776,3,0.2,4.8231
9991,US-2017-169551,2017-07-07,2017-07-09,First Class,RL-19615,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,19120,East,TEC-AC-10003033,Technology,Accessories,Plantronics CS510 - Over-the-Head monaural Wir...,527.920,2,0.2,85.7870
9992,US-2017-169551,2017-07-07,2017-07-09,First Class,RL-19615,Rob Lucas,Consumer,United States,Philadelphia,Pennsylvania,19120,East,FUR-BO-10001519,Furniture,Bookcases,O'Sullivan 3-Shelf Heavy-Duty Bookcases,87.210,3,0.5,-45.3492


### 👨‍💻 Task 9 - B

Pada DataFrame `data_superstore`, tampilkan semua record data namun urutkan secara descending pada kolom Profit dan urutkan secara ascending pada kolom Quantity

In [18]:
# Write your code below here & exec!
sorted_data = data_superstore\
  .sort_values(by=['Profit','Quantity'], ascending=[False,True])\
  .drop('Row ID', axis='columns')

display(sorted_data)

Unnamed: 0,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
6826,CA-2016-118689,2016-10-02,2016-10-09,Standard Class,TC-20980,Tamara Chand,Corporate,United States,Lafayette,Indiana,47905,Central,TEC-CO-10004722,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,17499.950,5,0.0,8399.9760
8153,CA-2017-140151,2017-03-23,2017-03-25,First Class,RB-19360,Raymond Buch,Consumer,United States,Seattle,Washington,98115,West,TEC-CO-10004722,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,13999.960,4,0.0,6719.9808
4190,CA-2017-166709,2017-11-17,2017-11-22,Standard Class,HL-15040,Hunter Lopez,Consumer,United States,Newark,Delaware,19711,East,TEC-CO-10004722,Technology,Copiers,Canon imageCLASS 2200 Advanced Copier,10499.970,3,0.0,5039.9856
9039,CA-2016-117121,2016-12-17,2016-12-21,Standard Class,AB-10105,Adrian Barton,Consumer,United States,Detroit,Michigan,48205,Central,OFF-BI-10000545,Office Supplies,Binders,GBC Ibimaster 500 Manual ProClick Binding System,9892.740,13,0.0,4946.3700
4098,CA-2014-116904,2014-09-23,2014-09-28,Standard Class,SC-20095,Sanjit Chand,Consumer,United States,Minneapolis,Minnesota,55407,Central,OFF-BI-10001120,Office Supplies,Binders,Ibico EPK-21 Electric Binding System,9449.950,5,0.0,4630.4755
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4991,US-2017-122714,2017-12-07,2017-12-13,Standard Class,HG-14965,Henry Goldwyn,Corporate,United States,Chicago,Illinois,60653,Central,OFF-BI-10001120,Office Supplies,Binders,Ibico EPK-21 Electric Binding System,1889.990,5,0.8,-2929.4845
3011,CA-2017-134845,2017-04-17,2017-04-23,Standard Class,SR-20425,Sharelle Roach,Home Office,United States,Louisville,Colorado,80027,West,TEC-MA-10000822,Technology,Machines,Lexmark MX611dhe Monochrome Laser Printer,2549.985,5,0.7,-3399.9800
9774,CA-2014-169019,2014-07-26,2014-07-30,Standard Class,LF-17185,Luke Foster,Consumer,United States,San Antonio,Texas,78207,Central,OFF-BI-10004995,Office Supplies,Binders,GBC DocuBind P400 Electric Binding System,2177.584,8,0.8,-3701.8928
683,US-2017-168116,2017-11-04,2017-11-04,Same Day,GT-14635,Grant Thornton,Corporate,United States,Burlington,North Carolina,27217,South,TEC-MA-10004125,Technology,Machines,Cubify CubeX 3D Printer Triple Head Print,7999.980,4,0.5,-3839.9904


## 📊 **10. Summarize Data**

Di pandas, method `DataFrame.describe()` digunakan untuk menghasilkan statistik deskriptif dari DataFrame. Metode ini sangat berguna untuk dengan cepat memahami statistik dasar dari data. Berikut adalah statistik utama yang disediakan :

* `Jumlah` : Jumlah nilai non-null dalam setiap kolom.
* `Rata-rata` : Rata-rata aritmetika dari setiap kolom.
* `Standar Deviasi` : Ukuran dispersi nilai-nilai sekitar rata-rata.
* `Minimum` : Nilai minimum dalam setiap kolom.
* `Kuartil 25 (Q1)` : Nilai di bawahnya 25% data berada.
* `Kuartil 50 (Median atau Q2)` : Nilai di bawahnya 50% data berada (yaitu nilai tengah).
* `Kuartil 75 (Q3)` : Nilai di bawahnya 75% data berada.
* `Maksimum` : Nilai maksimum dalam setiap kolom.

### 👨‍💻 Task 10

Pada DataFrame `data_superstore`, lakukan perhitungan statistik deskriptif pada kolom - kolom yang memiliki tipe data numerik

In [19]:
# Write your code below here & exec!
data_superstore\
  .describe(include='number')\
  .drop(columns=['Row ID','Postal Code'])

Unnamed: 0,Sales,Quantity,Discount,Profit
count,9994.0,9994.0,9994.0,9994.0
mean,229.858001,3.789574,0.156203,28.656896
std,623.245101,2.22511,0.206452,234.260108
min,0.444,1.0,0.0,-6599.978
25%,17.28,2.0,0.0,1.72875
50%,54.49,3.0,0.2,8.6665
75%,209.94,5.0,0.2,29.364
max,22638.48,14.0,0.8,8399.976


## 🎎 **11. Aggregation**

Agregasi data merupakan serangkaian proses yang dilakukan untuk melakukan pengumpulan data dan dinyatakan dalam bentuk ringkasan sebagai contoh menghitung total yang dikelompokkan berdasarkan kategori tertentu, dsb.

Untuk melakukan agregasi gunakan sintaks berikut

<p align="center"><code><b>DataFrame.group_by(by, as_index).agg(kolom_hasil_aggregasi = (kolom_dihitung, jenis_agregasi))</b></code></p>

Jenis agregasi :
* pd.Series.sum = Menghitung total data
* pd.Series.mean = Menghitung rataan data
* pd.Series.max = Menghitung nilai maksimum data
* pd.Series.min = Menghitung nilai minimum data
* pd.Series.nunique = Menghitung jumlah data unik data
* pd.Series.count = Menghitung banyak data

### 👨‍💻 Task 11 - A

Pada DataFrame `data_superstore`, Category produk apakah yang menghasilkan total profit paling tinggi? dan berapa total profit yang didapatkan?

In [20]:
# Write your code below here & exec!
data_superstore[['Category','Profit']].groupby(by='Category').sum()

Unnamed: 0_level_0,Profit
Category,Unnamed: 1_level_1
Furniture,18451.2728
Office Supplies,122490.8008
Technology,145454.9481


In [21]:
data_superstore.groupby('Category').agg(Total_Profit=('Profit','sum'))

Unnamed: 0_level_0,Total_Profit
Category,Unnamed: 1_level_1
Furniture,18451.2728
Office Supplies,122490.8008
Technology,145454.9481


In [22]:
data_superstore.groupby('Category')['Profit'].sum()

Unnamed: 0_level_0,Profit
Category,Unnamed: 1_level_1
Furniture,18451.2728
Office Supplies,122490.8008
Technology,145454.9481


In [23]:
data_superstore.groupby('Category')\
  .agg(Total_Profit=('Profit','sum'))\
  .sort_values(by='Total_Profit', ascending=False)\
  .head(1)

Unnamed: 0_level_0,Total_Profit
Category,Unnamed: 1_level_1
Technology,145454.9481


### 👨‍💻 Task 11 - B

Pada DataFrame `data_superstore`, lakukan perhitungan rataan Profit yang dikelompokkan berdasarkan Segment dan Category barang yang terjual

In [25]:
# Write your code below here & exec!
avg_profit_per_category = data_superstore\
  .groupby(['Segment','Category'])\
  .agg(Rataan_Profit=('Profit','mean'))

display(avg_profit_per_category)

Unnamed: 0_level_0,Unnamed: 1_level_0,Rataan_Profit
Segment,Category,Unnamed: 2_level_1
Consumer,Furniture,6.281293
Consumer,Office Supplies,18.014174
Consumer,Technology,74.445646
Corporate,Furniture,11.741201
Corporate,Office Supplies,22.102923
Corporate,Technology,79.723823
Home Office,Furniture,10.705465
Home Office,Office Supplies,24.034439
Home Office,Technology,89.152458


In [26]:
avg_profit_per_category = data_superstore\
  .groupby(['Segment','Category'], as_index=False)\
  .agg(Rataan_Profit=('Profit','mean'))

display(avg_profit_per_category)

Unnamed: 0,Segment,Category,Rataan_Profit
0,Consumer,Furniture,6.281293
1,Consumer,Office Supplies,18.014174
2,Consumer,Technology,74.445646
3,Corporate,Furniture,11.741201
4,Corporate,Office Supplies,22.102923
5,Corporate,Technology,79.723823
6,Home Office,Furniture,10.705465
7,Home Office,Office Supplies,24.034439
8,Home Office,Technology,89.152458


**Written By :** <br>
<a href="https://linkedin.com/in/bachtiyarma"><img alt="Linked In Link" src="https://img.shields.io/badge/-Bachtiyar%20M.%20Arief-0072b1?style=for-the-badge&logo=None&logoColor=white" align="left"/></a>

<br><br>**for :**

<a href="https://dqlab.id/"><img src="https://dqlab.id/files/dqlab/cache/87e30118ebba5ec7d96f6ea8c9dcc10b_x_118_X_55.png" align="left" /></a>