# Quiz: Exploratory Data Analysis

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat anda sudah menyelesaikan materi *Exploratory Data Analysis*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

# Dataset Bukalapak

## Data Preparation

Pada kuis ini kita akan menggunakan **e-commerce product dataset**. Anda dapat menggunakan data `online_bl.csv` yang tersimpan dalam folder `data_input`. 

Data berisi informasi produk yang dijual pada website e-commerce bukalapak.com. Data tersebut memiliki beberapa variable antara lain :

- `item_link` : link website produk dalam list  
- `title` : nama produk yang dijual
- `price_original` : harga produk
- `price_discount` : harga discount produk
- `sub_category` : sub-category produk
- `time_update` : waktu unggah informasi produk pada website
- `scale` : skala satuan product

Silahkan import data `online_bl.csv` dari folder `data_input` dan simpan kedalam variabel `online_bl`. Gunakan parameter `parse_dates=[__]` pada method `read_csv()` untuk mengubah tipe data pada kolom `time_update`. 

In [51]:
## Import Library & Read Data

import pandas as pd
online_bl = pd.read_csv("data_input/online_bl.csv", parse_dates=["time_update"])
online_bl

Unnamed: 0,item_link,title,price_original,price_discount,sub_category,time_update,scale
0,https://www.bukalapak.com/p/kesehatan-2359/pro...,Rinso Molto Deterjen Bubuk 1.8 kg,30000.0,,detergent,2018-10-20 01:32:00,1.8 kg
1,https://www.bukalapak.com/p/rumah-tangga/home-...,Terlaris - DETERGENT RINSO ANTI NODA 1.8 KG 1 ...,49000.0,,detergent,2018-09-20 01:02:00,1.8 kg
2,https://www.bukalapak.com/p/rumah-tangga/home-...,Good Rinso Molto Purple 1.8 Kg,50000.0,,detergent,2018-10-13 10:46:00,1.8 kg
3,https://www.bukalapak.com/p/rumah-tangga/home-...,Order Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-24 15:17:00,1.8 kg
4,https://www.bukalapak.com/p/rumah-tangga/home-...,Promonya Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-27 11:16:00,1.8 kg
...,...,...,...,...,...,...,...
739,https://www.bukalapak.com/p/rumah-tangga/tempa...,PLASTIK GULA 1 KG-STAND UP POUCH-KEMASAN KOPI ...,1000.0,,sugar,2018-10-10 20:33:00,1 kg
740,https://www.bukalapak.com/p/rumah-tangga/tempa...,PLASTIK GULA 1-1.5 KG-STAND UP POUCH-KEMASAN S...,1100.0,,sugar,2018-10-10 20:32:00,1 kg
741,https://www.bukalapak.com/p/rumah-tangga/tempa...,Plastik PE uk 15x30 - plastik 1 kg Plastik Gu...,5000.0,,sugar,2018-10-22 10:02:00,1 kg
742,https://www.bukalapak.com/p/rumah-tangga/tempa...,STANDING POUCH 1 KG - PLASTIK KLIP - KEMASAN K...,103500.0,,sugar,2018-10-18 13:14:00,1 kg


Anda akan melakukan eksplorasi data `online_bl` untuk memastikan bahwa data tersebut siap untuk dianalisis. Hal yang pertama akan Anda lakukan adalah melakukan pengecekan tipe data.

In [52]:
# your code here

online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category              object
time_update       datetime64[ns]
scale                     object
dtype: object

Terdapat kolom yang perlu disesuaikan tipe datanya yaitu kolom `sub_category`. Silahkan lakukan pengubahan tipe data pada kolom tersebut kedalam tipe data yang sesuai.


In [53]:
# your code here

online_bl["sub_category"] = online_bl["sub_category"].astype("category")

In [54]:
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category            category
time_update       datetime64[ns]
scale                     object
dtype: object

## Analisis

Data `online_bl` menyimpan data beragam barang yang dijual pada suatu e-commerce. Anda diminta untuk melakukan analisis terhadap data untuk menjawab beberapa pertanyaan yang ada.

### Jenis Barang

Anda ingin mencari tahu jenis barang apa saja yang dijual dan jenis barang apakah yang paling banyak dijual pada e-commerce tersebut. Menggunakan informasi dari kolom `sub_category`, silahkan jawab pertanyaan di bawah ini.

1. Berapa banyak jenis barang (`sub_category`) unik yang ada dalam kumpulan data `online_bl`? Apakah kita memiliki lebih banyak produk "detergent" atau "sugar" pada data tersebut?

    - [ ] 2, dimana "detergent" lebih banyak dari pada "Sugar"
    - [ ] 2, dimana "detergent" dan "sugar" memiliki jumlah produk sama banyak
    - [x] 3, dimana "sugar" lebih banyak dari pada detergent
    - [ ] tidak ada opsi yang benar 

- Opsi jawaban Bahasa Inggris:

    - [ ] 2, with more "detergent" than "sugar"
    - [ ] 2, with "detergent" and "sugar" having equal listings
    - [ ] 3, with more "sugar" than detergent
    - [ ] None of above is correct

In [55]:
# your code here

online_bl["sub_category"].value_counts()

rice         425
sugar        213
detergent    106
Name: sub_category, dtype: int64

### Skala Barang

Berdasarkan beberapa jenis barang yang dijual diatas, setiap barang dijual dengan beberapa ukuran berdasarkan beratnya, termasuk deterjen. Deterjen yang ada di pasaran memiliki beberapa pilihan ukuran (1kg, 1.8kg, dsb). 

2. Deterjen dengan ukuran berapakah yang paling banyak dijual di situs Bukalapak?

    - [ ] 1 kg
    - [x] 1.8 kg
    - [ ] 5 kg
    - [ ] 800 gr

In [263]:
pd.crosstab(
    index = online_bl["scale"],
    columns=online_bl["sub_category"]
)

sub_category,detergent,rice,sugar
scale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1 kg,0,212,152
1.8 kg,88,0,0
5 kg,0,213,61
800 gr,18,0,0


Anda sedang membutuhkan produk deterjen. Berdasarkan informasi ukuran deterjen serta harga yang dipasarkan, Anda tertarik untuk membeli deterjen dengan ukuran 1,8 kg dan 800 gram. Namun, Anda ingin mengetahui pada bulan apa deterjen dengan ukuran tersebut dijual dengan rata-rata harga terendah.  

3. Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di rata-rata harga terendah? Apakah keduanya berada di bulan yang sama?

    - [x] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Agustus
    - [ ] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Oktober
    - [ ] Detergen 1.8 kg: terendah di Agustus, Detergen 800 gr: terendah di Oktober
    - [ ] Detergen 1.8 kg: terendah di August, Detergen 800 gr: terendah di July 
    
- Opsi Jawaban Bahasa Inggris:

    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in August
    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in July   

In [262]:
online_bl.groupby(["sub_category","scale"])["price_original","month"].min()

  online_bl.groupby(["sub_category","scale"])["price_original","month"].min()


Unnamed: 0_level_0,Unnamed: 1_level_0,price_original,month
sub_category,scale,Unnamed: 2_level_1,Unnamed: 3_level_1
detergent,1 kg,,
detergent,1.8 kg,25900.0,August
detergent,5 kg,,
detergent,800 gr,12000.0,August
rice,1 kg,1000.0,August
rice,1.8 kg,,
rice,5 kg,700.0,August
rice,800 gr,,
sugar,1 kg,1000.0,August
sugar,1.8 kg,,


In [254]:
online_bl["month"] = online_bl["time_update"].dt.month_name()
online_bl.head()

Unnamed: 0,item_link,title,price_original,price_discount,sub_category,time_update,scale,month
0,https://www.bukalapak.com/p/kesehatan-2359/pro...,Rinso Molto Deterjen Bubuk 1.8 kg,30000.0,,detergent,2018-10-20 01:32:00,1.8 kg,October
1,https://www.bukalapak.com/p/rumah-tangga/home-...,Terlaris - DETERGENT RINSO ANTI NODA 1.8 KG 1 ...,49000.0,,detergent,2018-09-20 01:02:00,1.8 kg,September
2,https://www.bukalapak.com/p/rumah-tangga/home-...,Good Rinso Molto Purple 1.8 Kg,50000.0,,detergent,2018-10-13 10:46:00,1.8 kg,October
3,https://www.bukalapak.com/p/rumah-tangga/home-...,Order Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-24 15:17:00,1.8 kg,September
4,https://www.bukalapak.com/p/rumah-tangga/home-...,Promonya Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-27 11:16:00,1.8 kg,September


# Cara Lain

In [58]:
pd.crosstab(index = online_bl["scale"],columns=online_bl["sub_category"], values=online_bl["price_original"],aggfunc='mean' )

sub_category,detergent,rice,sugar
scale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1 kg,,53673.113208,50292.763158
1.8 kg,41152.272727,,
5 kg,,87967.307692,128268.0
800 gr,24738.888889,,


In [59]:
pd.crosstab(index = online_bl["scale"],columns=online_bl["sub_category"], values=online_bl["price_original"],aggfunc='sum' )

sub_category,detergent,rice,sugar
scale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1 kg,0.0,11378700.0,7644500.0
1.8 kg,3621400.0,0.0,0.0
5 kg,0.0,18297200.0,6413400.0
800 gr,445300.0,0.0,0.0


In [60]:
pd.crosstab(
    index=online_bl['sub_category'],
    columns=online_bl['price_original']
).idxmin(axis=1)

sub_category
detergent     700.0
rice         1100.0
sugar         700.0
dtype: float64

**rata-rata harga terendah**

In [61]:
# Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di rata-rata harga terendah

pd.crosstab(
    index = online_bl["scale"],
    columns=online_bl["month"], 
    values=online_bl["price_original"],
    aggfunc='mean'
)

month,August,January,July,June,March,May,October,September
scale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1 kg,64103.571429,18500.0,53835.294118,86960.0,210100.0,88750.0,47242.608696,56780.769231
1.8 kg,31000.0,,40000.0,,,,41191.836735,42750.0
5 kg,124050.0,,122500.0,87500.0,98966.666667,85000.0,91960.759494,95085.714286
800 gr,20000.0,,30000.0,,,,21945.454545,33475.0


---

# Dataset Fund Raising

## Data Preparation

Pada analisa kedua, Anda akan menggunakan data **fund raising** yang diperoleh beberapa perusahaan startup di Amerika. Silahkan gunakan data `techcrunch.csv` dari folder `data_input`.  Dataset mengandung variable sebagai berikut :

- `permalink` : nama permalink company
- `company` : nama perusahaan (company)
- `numEmps` : banyaknya media partner
- `category` : kategori perusahaan
- `city` : nama kota lokasi perusahaan
- `state` : kode negara bagian lokasi perusahaan
- `fundedDate` : tanggal pendanaan
- `raisedAmt` : jumlah pendanaan yang diperoleh
- `raisedCurrency` : informasi

In [62]:
## Read Data

data_input = pd.read_csv("data_input/techcrunch.csv")
data_input

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round
0,lifelock,LifeLock,,web,Tempe,AZ,1-May-07,6850000,USD,b
1,lifelock,LifeLock,,web,Tempe,AZ,1-Oct-06,6000000,USD,a
2,lifelock,LifeLock,,web,Tempe,AZ,1-Jan-08,25000000,USD,c
3,mycityfaces,MyCityFaces,7.0,web,Scottsdale,AZ,1-Jan-08,50000,USD,seed
4,flypaper,Flypaper,,web,Phoenix,AZ,1-Feb-08,3000000,USD,a
...,...,...,...,...,...,...,...,...,...,...
1455,trusera,Trusera,15.0,web,Seattle,WA,1-Jun-07,2000000,USD,angel
1456,alerts-com,Alerts.com,,web,Bellevue,WA,8-Jul-08,1200000,USD,a
1457,myrio,Myrio,75.0,software,Bothell,WA,1-Jan-01,20500000,USD,unattributed
1458,grid-networks,Grid Networks,,web,Seattle,WA,30-Oct-07,9500000,USD,a


In [63]:
data_input.dtypes

permalink          object
company            object
numEmps           float64
category           object
city               object
state              object
fundedDate         object
raisedAmt           int64
raisedCurrency     object
round              object
dtype: object

In [64]:
data_input.nunique()

permalink         909
company           909
numEmps            72
category            8
city              193
state              33
fundedDate        386
raisedAmt         281
raisedCurrency      3
round               9
dtype: int64

In [65]:
data_input[["category","raisedCurrency","round"]] = data_input[["category","raisedCurrency","round"]].astype("category")

data_input.dtypes

permalink           object
company             object
numEmps            float64
category          category
city                object
state               object
fundedDate          object
raisedAmt            int64
raisedCurrency    category
round             category
dtype: object

Sebelum melakukan eksplorasi data lebih lanjut, silahkan sesuaikan beberapa kolom yang belum memiliki tipe data yang tepat agar memperkecil memori.

## Analisis

### Funding each Category

Sebagai seseorang yang ingin menjalankan sebuah startup, Anda ingin melakukan perencanaan pendanaan yang cukup matang agar perusahaan Anda berjalan dengan lancar. Oleh karena itu, Anda tertarik untuk mencari tahu bidang (`category`) startup mana yang mendapatkan pendanaan tertinggi. Karena ada banyak startup yang bergerak dengan bidang yang sama, Anda ingin mendapatkan summary dari kebanyakan banyaknya pendanaan (`raisedAmt`) yang diberikan. Seperti yang sudah Anda ketahui sebelumnya, nilai rata-rata akan terpengaruhi oleh outlier, sehingga Anda akan menggunakan nilai **median** untuk mendapatkan summary bidang startup yang mendapatkan pendanaan tertinggi.

Berdasarkan kondisi diatas, jawablah pertanyaan dibawah ini.

4. Kategori (`category`) startup manakah yang mendapatkan funding (`raisedAmt`) tertinggi? gunakan `median` untuk menghitung kisaran funding dari tiap kategori!
    
    - [ ] `mobile`
    - [ ] `cleantech`
    - [x] `biotech`
    - [ ] `consulting`

In [66]:
data_input.head()

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round
0,lifelock,LifeLock,,web,Tempe,AZ,1-May-07,6850000,USD,b
1,lifelock,LifeLock,,web,Tempe,AZ,1-Oct-06,6000000,USD,a
2,lifelock,LifeLock,,web,Tempe,AZ,1-Jan-08,25000000,USD,c
3,mycityfaces,MyCityFaces,7.0,web,Scottsdale,AZ,1-Jan-08,50000,USD,seed
4,flypaper,Flypaper,,web,Phoenix,AZ,1-Feb-08,3000000,USD,a


In [253]:
data_input.groupby(["category"])["raisedAmt"].median()

category
biotech       20000000
cleantech     15500000
consulting     7000000
hardware      13700000
mobile         5000000
other          7750000
software       7125000
web            5000000
Name: raisedAmt, dtype: int64

### Funding each Company

Sebagai pengguna sosial media, Anda tertarik untuk menganalisa salah satu sosial media yang termasuk dalam daftar startup penerima pendanaan, yaitu **Friendster**. Selama masa pendanaan, Friendster mendapatkan pendanaan yang berbeda-beda. 

5. Pada periode manakah Friendster mendapatkan nilai funding tertinggi mereka?
   
    - [x] 2008-08
    - [ ] 2002-12
    - [ ] 2006-08
    - [ ] 2012-01

In [172]:
data_input["fundedDate"] = pd.to_datetime(data_input["fundedDate"], dayfirst = True)

data_input.dtypes

permalink                 object
company                 category
numEmps                  float64
category                category
city                      object
state                     object
fundedDate        datetime64[ns]
raisedAmt                  int64
raisedCurrency          category
round                   category
year_month             period[M]
dtype: object

In [175]:
# ubah atau buat column baru dari fundedDate jadi yearMonth

data_input["year_month"] = data_input["fundedDate"] .dt.to_period('M')
data_input["year_month"] 

0       2007-05
1       2006-10
2       2008-01
3       2008-01
4       2008-02
         ...   
1455    2007-06
1456    2008-07
1457    2001-01
1458    2007-10
1459    2008-05
Name: year_month, Length: 1460, dtype: period[M]

In [174]:
data_input.tail()

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round,year_month
1455,trusera,Trusera,15.0,web,Seattle,WA,2007-06-01,2000000,USD,angel,2007-06
1456,alerts-com,Alerts.com,,web,Bellevue,WA,2008-07-08,1200000,USD,a,2008-07
1457,myrio,Myrio,75.0,software,Bothell,WA,2001-01-01,20500000,USD,unattributed,2001-01
1458,grid-networks,Grid Networks,,web,Seattle,WA,2007-10-30,9500000,USD,a,2007-10
1459,grid-networks,Grid Networks,,web,Seattle,WA,2008-05-20,10500000,USD,b,2008-05


In [250]:
# nama company "Friendster"
# periode manakah Friendster mendapatkan nilai funding('raisedAmt') tertinggi mereka

import numpy as np

di_f = data_input[data_input['company'] == 'Friendster'].pivot_table(
    index='year_month',
    values='raisedAmt',
    aggfunc="max"
)

di_f

Unnamed: 0_level_0,raisedAmt
year_month,Unnamed: 1_level_1
2002-12,2400000
2003-10,13000000
2006-08,10000000
2008-08,20000000


In [204]:
di_f.shape

(4, 3)

In [219]:
data_input[data_input['company'] == 'Friendster'].value_counts()

permalink   company     numEmps  category  city           state  fundedDate  raisedAmt  raisedCurrency  round  year_month
friendster  Friendster  465.0    web       San Francisco  CA     2002-12-01  2400000    USD             a      2002-12       1
                                                                 2003-10-01  13000000   USD             b      2003-10       1
                                                                 2006-08-01  10000000   USD             c      2006-08       1
                                                                 2008-08-05  20000000   USD             d      2008-08       1
dtype: int64

Setelah melihat beberapa startup yang mendapatkan pendanaan, Anda ingin mengetahui lebih lanjut startup yang berhasil mendapatkan pendanaan di lokasi Anda, yaitu **San Francisco**. Buatlah sebuah agregasi data yang menunjukkan beberapa perusahaan yang mendapatkan pendanaan tertinggi hingga terendah di San Francisco.

6.  Perusahaan apa yang **TIDAK** termasuk 5 perusahaan dengan **total** funding (`raisedAmt`) tertinggi di San Francisco?
    
    - [ ] `OpenTable`
    - [ ] `Friendster`
    - [x] `Facebook`
    - [ ] `Snapfish`
  

In [245]:
# TIDAK termasuk 5 perusahaan dengan total funding (raisedAmt) tertinggi di San Francisco

pd.crosstab(
    index=data_input['city'],
    columns=data_input['company'],
    values=data_input['raisedAmt'],
    aggfunc='sum'
).loc["San Francisco"].sort_values(ascending=False).head()

company
Slide         58000000
freebase      57500000
OpenTable     48000000
Friendster    45400000
Snapfish      43500000
Name: San Francisco, dtype: int64