# Quiz: Exploratory Data Analysis

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat anda sudah menyelesaikan materi *Exploratory Data Analysis*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

# Dataset Bukalapak

## Data Preparation

Pada kuis ini kita akan menggunakan **e-commerce product dataset**. Anda dapat menggunakan data `online_bl.csv` yang tersimpan dalam folder `data_input`. 

Data berisi informasi produk yang dijual pada website e-commerce bukalapak.com. Data tersebut memiliki beberapa variable antara lain :

- `item_link` : link website produk dalam list  
- `title` : nama produk yang dijual
- `price_original` : harga produk
- `price_discount` : harga discount produk
- `sub_category` : sub-category produk
- `time_update` : waktu unggah informasi produk pada website
- `scale` : skala satuan product

Silahkan import data `online_bl.csv` dari folder `data_input` dan simpan kedalam variabel `online_bl`. Gunakan parameter `parse_dates=[__]` pada method `read_csv()` untuk mengubah tipe data pada kolom `time_update`. 

In [102]:
## Import Library & Read Data
import pandas as pd

online_bl = pd.read_csv('./data_input/online_bl.csv', parse_dates=['time_update'])
online_bl.head()

Unnamed: 0,item_link,title,price_original,price_discount,sub_category,time_update,scale
0,https://www.bukalapak.com/p/kesehatan-2359/pro...,Rinso Molto Deterjen Bubuk 1.8 kg,30000.0,,detergent,2018-10-20 01:32:00,1.8 kg
1,https://www.bukalapak.com/p/rumah-tangga/home-...,Terlaris - DETERGENT RINSO ANTI NODA 1.8 KG 1 ...,49000.0,,detergent,2018-09-20 01:02:00,1.8 kg
2,https://www.bukalapak.com/p/rumah-tangga/home-...,Good Rinso Molto Purple 1.8 Kg,50000.0,,detergent,2018-10-13 10:46:00,1.8 kg
3,https://www.bukalapak.com/p/rumah-tangga/home-...,Order Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-24 15:17:00,1.8 kg
4,https://www.bukalapak.com/p/rumah-tangga/home-...,Promonya Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-27 11:16:00,1.8 kg


Anda akan melakukan eksplorasi data `online_bl` untuk memastikan bahwa data tersebut siap untuk dianalisis. Hal yang pertama akan Anda lakukan adalah melakukan pengecekan tipe data.

In [103]:
# your code here
online_bl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 744 entries, 0 to 743
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   item_link       744 non-null    object        
 1   title           744 non-null    object        
 2   price_original  728 non-null    float64       
 3   price_discount  17 non-null     float64       
 4   sub_category    744 non-null    object        
 5   time_update     744 non-null    datetime64[ns]
 6   scale           744 non-null    object        
dtypes: datetime64[ns](1), float64(2), object(4)
memory usage: 40.8+ KB


In [104]:
online_bl.nunique()

item_link         689
title             659
price_original    244
price_discount     15
sub_category        3
time_update       637
scale               4
dtype: int64

Terdapat kolom yang perlu disesuaikan tipe datanya yaitu kolom `sub_category`. Silahkan lakukan pengubahan tipe data pada kolom tersebut kedalam tipe data yang sesuai.

Kolom yang perlu diubah:
- `sub_category` --> category
- `scale` --> category


In [105]:
# your code here
category_cols = ['sub_category', 'scale']
online_bl[category_cols] = online_bl[category_cols].astype('category')
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category            category
time_update       datetime64[ns]
scale                   category
dtype: object

## Analisis

Data `online_bl` menyimpan data beragam barang yang dijual pada suatu e-commerce. Anda diminta untuk melakukan analisis terhadap data untuk menjawab beberapa pertanyaan yang ada.

### Jenis Barang

Anda ingin mencari tahu jenis barang apa saja yang dijual dan jenis barang apakah yang paling banyak dijual pada e-commerce tersebut. Menggunakan informasi dari kolom `sub_category`, silahkan jawab pertanyaan di bawah ini.

1. Berapa banyak jenis barang (`sub_category`) unik yang ada dalam kumpulan data `online_bl`? Apakah kita memiliki lebih banyak produk "detergent" atau "sugar" pada data tersebut?

    - [ ] 2, dimana "detergent" lebih banyak dari pada "Sugar"
    - [ ] 2, dimana "detergent" dan "sugar" memiliki jumlah produk sama banyak
    - [X] 3, dimana "sugar" lebih banyak dari pada detergent
    - [ ] tidak ada opsi yang benar 

- Opsi jawaban Bahasa Inggris:

    - [ ] 2, with more "detergent" than "sugar"
    - [ ] 2, with "detergent" and "sugar" having equal listings
    - [ ] 3, with more "sugar" than detergent
    - [ ] None of above is correct

In [106]:
# Soal 1
online_bl['sub_category'].value_counts()

rice         425
sugar        213
detergent    106
Name: sub_category, dtype: int64

### Skala Barang

Berdasarkan beberapa jenis barang yang dijual diatas, setiap barang dijual dengan beberapa ukuran berdasarkan beratnya, termasuk deterjen. Deterjen yang ada di pasaran memiliki beberapa pilihan ukuran (1kg, 1.8kg, dsb). 

2. Deterjen dengan ukuran berapakah yang paling banyak dijual di situs Bukalapak?

    - [ ] 1 kg
    - [X] 1.8 kg
    - [ ] 5 kg
    - [ ] 800 gr

In [107]:
# Soal 2
online_bl.pivot_table(
    index='sub_category',
    columns='scale',
    values='title',
    aggfunc='count'
).idxmax(axis=1)

sub_category
detergent    1.8 kg
rice           5 kg
sugar          1 kg
dtype: object

Anda sedang membutuhkan produk deterjen. Berdasarkan informasi ukuran deterjen serta harga yang dipasarkan, Anda tertarik untuk membeli deterjen dengan ukuran 1,8 kg dan 800 gram. Namun, Anda ingin mengetahui pada bulan apa deterjen dengan ukuran tersebut dijual dengan rata-rata harga terendah.  

3. Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di harga terendah? Apakah keduanya berada di bulan yang sama?

    - [X] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Agustus
    - [ ] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Oktober
    - [ ] Detergen 1.8 kg: terendah di Agustus, Detergen 800 gr: terendah di Oktober
    - [ ] Detergen 1.8 kg: terendah di August, Detergen 800 gr: terendah di July 
    
- Opsi Jawaban Bahasa Inggris:

    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in August
    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in July   

In [108]:
online_bl['month'] = online_bl['time_update'].dt.month_name()
online_bl.pivot_table(
    index='month',
    columns='scale',
    values='price_original',
    aggfunc='mean'
)[['1.8 kg', '800 gr']].idxmin()

scale
1.8 kg    August
800 gr    August
dtype: object

---

# Dataset Fund Raising

## Data Preparation

Pada analisa kedua, Anda akan menggunakan data **fund raising** yang diperoleh beberapa perusahaan startup di Amerika. Silahkan gunakan data `techcrunch.csv` dari folder `data_input`.  Dataset mengandung variable sebagai berikut :

- `permalink` : nama permalink company
- `company` : nama perusahaan (company)
- `numEmps` : banyaknya media partner
- `category` : kategori perusahaan
- `city` : nama kota lokasi perusahaan
- `state` : kode negara bagian lokasi perusahaan
- `fundedDate` : tanggal pendanaan
- `raisedAmt` : jumlah pendanaan yang diperoleh
- `raisedCurrency` : informasi

In [109]:
## Read Data

fund_raising = pd.read_csv('./data_input/techcrunch.csv', parse_dates=['fundedDate'])
fund_raising.head()

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round
0,lifelock,LifeLock,,web,Tempe,AZ,2007-05-01,6850000,USD,b
1,lifelock,LifeLock,,web,Tempe,AZ,2006-10-01,6000000,USD,a
2,lifelock,LifeLock,,web,Tempe,AZ,2008-01-01,25000000,USD,c
3,mycityfaces,MyCityFaces,7.0,web,Scottsdale,AZ,2008-01-01,50000,USD,seed
4,flypaper,Flypaper,,web,Phoenix,AZ,2008-02-01,3000000,USD,a


In [110]:
fund_raising.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   permalink       1460 non-null   object        
 1   company         1460 non-null   object        
 2   numEmps         567 non-null    float64       
 3   category        1436 non-null   object        
 4   city            1442 non-null   object        
 5   state           1460 non-null   object        
 6   fundedDate      1460 non-null   datetime64[ns]
 7   raisedAmt       1460 non-null   int64         
 8   raisedCurrency  1460 non-null   object        
 9   round           1460 non-null   object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(7)
memory usage: 114.2+ KB


Sebelum melakukan eksplorasi data lebih lanjut, silahkan sesuaikan beberapa kolom yang belum memiliki tipe data yang tepat agar memperkecil memori.

In [111]:
fund_raising.nunique()

permalink         909
company           909
numEmps            72
category            8
city              193
state              33
fundedDate        386
raisedAmt         281
raisedCurrency      3
round               9
dtype: int64

Kolom yang akan diubah:

- `raisedCurrency` --> category
- `round` --> category
- `state` --> category
- `category` --> category
- `city` --> category

In [112]:
# your code here
category_cols = ['raisedCurrency', 'round', 'state', 'category', 'city']
fund_raising[category_cols] = fund_raising[category_cols].astype('category')
fund_raising.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   permalink       1460 non-null   object        
 1   company         1460 non-null   object        
 2   numEmps         567 non-null    float64       
 3   category        1436 non-null   category      
 4   city            1442 non-null   category      
 5   state           1460 non-null   category      
 6   fundedDate      1460 non-null   datetime64[ns]
 7   raisedAmt       1460 non-null   int64         
 8   raisedCurrency  1460 non-null   category      
 9   round           1460 non-null   category      
dtypes: category(5), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 73.4+ KB


## Analisis

### Funding each Category

Sebagai seseorang yang ingin menjalankan sebuah startup, Anda ingin melakukan perencanaan pendanaan yang cukup matang agar perusahaan Anda berjalan dengan lancar. Oleh karena itu, Anda tertarik untuk mencari tahu bidang (`category`) startup mana yang mendapatkan pendanaan tertinggi. Karena ada banyak startup yang bergerak dengan bidang yang sama, Anda ingin mendapatkan summary dari kebanyakan banyaknya pendanaan (`raisedAmt`) yang diberikan. Seperti yang sudah Anda ketahui sebelumnya, nilai rata-rata akan terpengaruhi oleh outlier, sehingga Anda akan menggunakan nilai **median** untuk mendapatkan summary bidang startup yang mendapatkan pendanaan tertinggi.

Berdasarkan kondisi diatas, jawablah pertanyaan dibawah ini.

4. Kategori (`category`) startup manakah yang mendapatkan funding (`raisedAmt`) tertinggi? gunakan `median` untuk menghitung kisaran funding dari tiap kategori!
    
    - [ ] `mobile`
    - [ ] `cleantech`
    - [X] `biotech`
    - [ ] `consulting`

In [115]:
# your code here
fund_raising.pivot_table(
    index='category',
    values='raisedAmt',
    aggfunc='median'
).sort_values(by='raisedAmt', ascending=False)

Unnamed: 0_level_0,raisedAmt
category,Unnamed: 1_level_1
biotech,20000000
cleantech,15500000
hardware,13700000
other,7750000
software,7125000
consulting,7000000
mobile,5000000
web,5000000


### Funding each Company

Sebagai pengguna sosial media, Anda tertarik untuk menganalisa salah satu sosial media yang termasuk dalam daftar startup penerima pendanaan, yaitu **Friendster**. Selama masa pendanaan, Friendster mendapatkan pendanaan yang berbeda-beda. 

5. Pada periode manakah Friendster mendapatkan nilai funding tertinggi mereka?
   
    - [X] 2008-08
    - [ ] 2002-12
    - [ ] 2006-08
    - [ ] 2012-01

In [116]:
# your code here
fund_raising_friendster = fund_raising[fund_raising['company'] == 'Friendster'].copy()
fund_raising_friendster['yearmonth'] = fund_raising_friendster['fundedDate'].dt.to_period('M')
fund_raising_friendster.pivot_table(
    index='yearmonth',
    values='raisedAmt',
    aggfunc='max'
).sort_values(by='raisedAmt', ascending=False)

Unnamed: 0_level_0,raisedAmt
yearmonth,Unnamed: 1_level_1
2008-08,20000000
2003-10,13000000
2006-08,10000000
2002-12,2400000


Setelah melihat beberapa startup yang mendapatkan pendanaan, Anda ingin mengetahui lebih lanjut startup yang berhasil mendapatkan pendanaan di lokasi Anda, yaitu **San Francisco**. Buatlah sebuah agregasi data yang menunjukkan beberapa perusahaan yang mendapatkan pendanaan tertinggi hingga terendah di San Francisco.

6.  Perusahaan apa yang **TIDAK** termasuk 5 perusahaan dengan **total** funding (`raisedAmt`) tertinggi di San Francisco?
    
    - [ ] `OpenTable`
    - [ ] `Friendster`
    - [X] `Facebook`
    - [ ] `Snapfish`
  

In [90]:
# your code here
fund_raising_sf = fund_raising[fund_raising['city'] == 'San Francisco'].copy()
fund_raising_sf.pivot_table(
    index='company',
    values='raisedAmt',
    aggfunc='sum'
).sort_values(by='raisedAmt', ascending=False).iloc[:5]


Unnamed: 0_level_0,raisedAmt
company,Unnamed: 1_level_1
Slide,58000000
freebase,57500000
OpenTable,48000000
Friendster,45400000
Snapfish,43500000
