# Quiz: Python for Data Analysts

Selamat Anda sudah menyelesaikan materi **Python for Data Analysts**! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami apabila Anda melewatkan kesempatan untuk mengambilnya di kelas.

In [2]:
import pandas as pd

## Data Pre-Processing

Pada kuis ini kita akan menggunakan **Companies dataset**. Anda dapat menggunakan data dalam ekstensi csv file yang tersimpan dalam `companies.csv` file. Companies dataset merupakan sebagian contoh dari data CRM (customer relationship management) yang mengandung beberapa variable sebagai berikut :

- `ID` : identifier unique dari nama cutomer
- `Customer Name` : nama customer (nama company)
- `Consulting Sales` : harga untuk service konsultasi
- `Software Sales` : harga untuk service software
- `Forecasted Growth` : presentase pertumbuhan company dalam kurun waktu tertentu
- `Returns` : dana yang kembali (Returns) dalam kurun waktu tertentu
- `Month` : bulan berdirinya company
- `Day` : tanggal berdirinya company
- `Year` : tahun berdirinya company
- `Location` : lokasi company
- `Account` : jenis customer company

In [3]:
clients = pd.read_csv("data/companies.csv", index_col=0)
clients.head()

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
30940,New Media Group,IDR7125000,IDR5500000,30.00%,"IDR1,500,000",1,10,2017,Jakarta,Enterprise
82391,Li and Partners,IDR420000,IDR820000,10.00%,"IDR400,000",6,15,2016,Jakarta,Startup
18374,PT. Kreasi Metrik Solusi,0,IDR550403,25.00%,0,3,29,2012,Surabaya,Enterprise
57531,PT. Algoritma Data Indonesia,IDR850000,IDR395500,4.00%,0,7,17,2017,Jakarta,Startup
19002,Palembang Konsultansi,IDR2115000,0,-15.00%,0,2,24,2018,Bandung,Startup


Apabila Anda perhatikan, dataset `clients` memiliki format yang sedikit berbeda dengan dataset yang sudah kita gunakan pada materi. Kolom `Returns` memiliki karakter koma (`,`) sebagai pemisah satuan ribuan dan simbol mata uang (`IDR`) pada valuenya.

Mari kita tinjau lebih jauh tipe data pada variabel `clients`:

In [4]:
clients.dtypes

Customer Name        object
Consulting Sales     object
Software Sales       object
Forecasted Growth    object
Returns              object
Month                 int64
Day                   int64
Year                  int64
Location             object
Account              object
dtype: object

Pada hasil tersebut di atas, dapat diketahui bahwa beberapa variable tidak tersimpan pada format tipe data yang tepat. Dapatkah Anda mengubah tipe data beberapa variable tersebut menjadi bentuk tipe data yang tepat?

Apabila Anda sudah mencoba mengubah tipe data menggunakan method `.astype()`, maka Anda akan mendapatkan pesan error ketika mengubah tipe data pada kolom `Consulting Sales` dan `Software Sales`. Hal ini dikarenakan komputasi dan pengubahan tipe data numerik pada python tidak dapat dilakukan ketika terdapat karakter tertentu dalam data. Oleh karena itu, perlu dilakukan penghapusan karakter `IDR` yang terdapat pada kedua kolom tersebut. Penghapusan karakter dapat menggunakan built-in method pada `pandas` yaitu `str.replace()`. Berikut adalah contoh penggunaannya:

In [9]:
clients['Consulting Sales'].str.replace('IDR','')

ID
30940    7125000
82391     420000
18374          0
57531     850000
19002    2115000
31142     960000
Name: Consulting Sales, dtype: object

Untuk mengaplikasikannya pada beberapa kolom dapat menggunakan method `apply` dengan `lambda` sebagai berikut :

In [10]:
clients[['Consulting Sales','Software Sales','Returns']] =\
clients[['Consulting Sales','Software Sales','Returns']].apply(lambda x: x.str.replace('IDR',''))

In [11]:
clients.head()

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise
82391,Li and Partners,420000,820000,10.00%,400000,6,15,2016,Jakarta,Startup
18374,PT. Kreasi Metrik Solusi,0,550403,25.00%,0,3,29,2012,Surabaya,Enterprise
57531,PT. Algoritma Data Indonesia,850000,395500,4.00%,0,7,17,2017,Jakarta,Startup
19002,Palembang Konsultansi,2115000,0,-15.00%,0,2,24,2018,Bandung,Startup


Lengkapi kode program di bawah ini untuk menghilangkan tanda koma (`,`) pada kolom `Returns`! \
Contoh : `clients['Consulting Sales'] = clients['Consulting Sales'].str.replace('IDR','')` digunakan untuk menghilangkan `IDR` pada kolom `Consulting Sales`

In [13]:
## Fill in the blank (___)

clients['Returns'] = clients['Returns'].str.replace(',','')

In [14]:
clients.head()

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise
82391,Li and Partners,420000,820000,10.00%,400000,6,15,2016,Jakarta,Startup
18374,PT. Kreasi Metrik Solusi,0,550403,25.00%,0,3,29,2012,Surabaya,Enterprise
57531,PT. Algoritma Data Indonesia,850000,395500,4.00%,0,7,17,2017,Jakarta,Startup
19002,Palembang Konsultansi,2115000,0,-15.00%,0,2,24,2018,Bandung,Startup


In [21]:
## Your Code Below:
clients[["Consulting Sales","Software Sales"]] = clients[["Consulting Sales","Software Sales"]].astype("int64")

---

In [29]:
clients

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account,Total Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise,12625000
82391,Li and Partners,420000,820000,10.00%,400000,6,15,2016,Jakarta,Startup,1240000
18374,PT. Kreasi Metrik Solusi,0,550403,25.00%,0,3,29,2012,Surabaya,Enterprise,550403
57531,PT. Algoritma Data Indonesia,850000,395500,4.00%,0,7,17,2017,Jakarta,Startup,1245500
19002,Palembang Konsultansi,2115000,0,-15.00%,0,2,24,2018,Bandung,Startup,2115000
31142,PT. Surya Citra Manajemen,960000,503000,19.00%,0,1,19,2019,Jakarta,Enterprise,1463000


## Data Analisis

Sebagai seorang Data Analyst, Anda diminta untuk mendapatkan total penjualan secara keseluruhan dengan mengakumulasikan nilai Consulting Sales dan Software Sales dari setiap perusahaan. Buatlah kolom baru bernama `Total Sales` yang menyimpan total dari kedua nilai tersebut. 

---
1. Berapa total (`sum`) keseluruhan dari `Total Sales`? Tips: Gunakan method `.sum()` pada kolom untuk mengakumulasi nilai totalnya!
    - [ ] 11,470,000
    - [X] 19,238,903
    - [ ]  7,768,903
---    

In [22]:
## Your Code Below:
clients["Total Sales"] = clients["Consulting Sales"] + clients['Software Sales']

In [26]:
clients["Total Sales"].sum()

19238903

Berdasarkan total penjualan yang diperoleh setiap tahunnya, Anda sedang berokus untuk menganalisa penjualan dari masing-masing client pada tahun 2017 silam. Oleh karena itu, saat ini Anda akan fokus pada perusahaan yang menjadi client pada tahun 2017. Lakukanlah subseting untuk mendapatkan informasi data penjualan yang terjadi pada tahun 2017. Gunakanlah metode subseting yang sudah Anda pelajari.

---
2. Perusahaan manakah yang mendapatkan `Total Sales` terbesar di tahun 2017? 
    
    - [X] New Media Group
    - [ ] PT. Algoritma Data Indonesia
    - [ ] Palembang Konsultansi
---

In [50]:
## Your Code Below:
cond = clients["Year"] == 2017
clients[cond]

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account,Total Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise,12625000
57531,PT. Algoritma Data Indonesia,850000,395500,4.00%,0,7,17,2017,Jakarta,Startup,1245500


Setelah itu, kita akan kembali fokus menggunakan seluruh data yang ada. Menggunakan seluruh data yang ada, ternyata perusahaan ingin melakukan *campaign* terhadap perusahaan yang memiliki nilai penjualan lebih dari 1,500,000 IDR. Silahkan gunakan subsetting kembali untuk mengetahui perusahaan yang memiliki penjualan lebih dari 1,500,000 IDR. Ternyata ada dua perusahaan yang nilai penjualannya melebihi 1,500,000 IDR pada data tersebut.

---
3.  Perusahaan mana saja yang memiliki penjualan lebih dari 1,500,000 IDR?

    - [ ] Palembang Konsultansi & PT. Surya Citra Manajemen
    - [ ] PT. Surya Citra Manajemen & New Media Group
    - [X] Palembang Konsultansi & New Media Group
---    

In [34]:
## Your Code Below:
cond2 = clients['Total Sales'] > 1500000
clients[cond2]

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account,Total Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise,12625000
19002,Palembang Konsultansi,2115000,0,-15.00%,0,2,24,2018,Bandung,Startup,2115000


Sebagai seorang Data Anlayst, Anda diminta untuk menganalisa rata-rata dari `Total Sales` untuk seluruh perusahaan yang ada pada data. Dalam menganalisa data untuk mendapatkan suatu pusat data, ada beberapa pengukuran yang dapat digunakan. Diantarana yaitu mean, median, dan modus. Karena yang akan dianalisa berupa nilai numerik maka terkadang nilai numerik dapat terpengaruh oleh suatu nilai-nilai ekstrim atau outlier. Oleh karena itu, penggunaan **median** seringkali lebih relevan dibandingkan menggunakan nilai mean, karena mean lebih mudah terpengaruh terhadap nilai outlier. 

---
4. Berdasarkan analisa diatas, berapakah nilai pusat data dari `Total Sales`?
    
    - [X] 1,354,250
    - [ ] 1,515,875
    - [ ] 3,737,700
---

In [35]:
## Your Code Below:
clients["Total Sales"].median()

1354250.0

Anda saat ini akan fokus untuk menganalisis perusahaan PT. Algoritma Data Indonesia. Menggunakan metode subsetting yang sudah Anda pelajari, jawablah pertanyaan dibawah ini.

---
5. Manakah metode subsetting yang paling sesuai untuk melakukan subsetting secara eksplisit pada ID perusahaan 57531 pada data `clients`?

    - [X] `clients.loc[57531, :]`
    - [ ] `clients.iloc[57531, : ]`
    - [ ] `clients[57531, : ]` 
    
---

In [43]:
## Your Code Below:
clients.loc[57531, :]

Customer Name        PT. Algoritma Data Indonesia
Consulting Sales                           850000
Software Sales                             395500
Forecasted Growth                           4.00%
Returns                                         0
Month                                           7
Day                                            17
Year                                         2017
Location                                  Jakarta
Account                                   Startup
Total Sales                               1245500
Name: 57531, dtype: object

Terakhir, Anda diminta untuk melakukan analisa pada client yang berlokasi di Jakarta dan termasuk kedalam akun Enterprise. Untuk melakukan subsetting, silahkan lengkapi syntax berikut dan jawablah pertanyaan dibawah ini.

```
clients[________ _ ________]
```

---
6. Berdasarkan syntax yang Anda lengkapi diatas, manakah pilihan syntax dibawah ini yang tepat untuk melengkapi?

    - [ ] (clients.Location == "Jakarta") | (clients.Account == "Enterprise")
    - [ ] clients.Location == "Jakarta" & clients.Account == "Enterprise"
    - [X] (clients.Location == "Jakarta") & (clients.Account == "Enterprise")
    - [ ] clients.Location == "Jakarta" | clients.Account == "Enterprise"
---

In [48]:
## Your Code Below:
clients[(clients.Location == "Jakarta") & (clients.Account == "Enterprise")]

Unnamed: 0_level_0,Customer Name,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account,Total Sales
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
30940,New Media Group,7125000,5500000,30.00%,1500000,1,10,2017,Jakarta,Enterprise,12625000
31142,PT. Surya Citra Manajemen,960000,503000,19.00%,0,1,19,2019,Jakarta,Enterprise,1463000
