# Quiz: Exploratory Data Analysis

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat anda sudah menyelesaikan materi *Exploratory Data Analysis*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

# Dataset Bukalapak

## Data Preparation

Pada kuis ini kita akan menggunakan **e-commerce product dataset**. Anda dapat menggunakan data `online_bl.csv` yang tersimpan dalam folder `data_input`. 

Data berisi informasi produk yang dijual pada website e-commerce bukalapak.com. Data tersebut memiliki beberapa variable antara lain :

- `item_link` : link website produk dalam list  
- `title` : nama produk yang dijual
- `price_original` : harga produk
- `price_discount` : harga discount produk
- `sub_category` : sub-category produk
- `time_update` : waktu unggah informasi produk pada website
- `scale` : skala satuan product

Silahkan import data `online_bl.csv` dari folder `data_input` dan simpan kedalam variabel `online_bl`. Gunakan parameter `parse_dates=[__]` pada method `read_csv()` untuk mengubah tipe data pada kolom `time_update`. 

In [2]:
## Import Library & Read Data
import pandas as pd

online_bl = pd.read_csv("data_input/online_bl.csv", parse_dates=["time_update"])
online_bl.head()

Unnamed: 0,item_link,title,price_original,price_discount,sub_category,time_update,scale
0,https://www.bukalapak.com/p/kesehatan-2359/pro...,Rinso Molto Deterjen Bubuk 1.8 kg,30000.0,,detergent,2018-10-20 01:32:00,1.8 kg
1,https://www.bukalapak.com/p/rumah-tangga/home-...,Terlaris - DETERGENT RINSO ANTI NODA 1.8 KG 1 ...,49000.0,,detergent,2018-09-20 01:02:00,1.8 kg
2,https://www.bukalapak.com/p/rumah-tangga/home-...,Good Rinso Molto Purple 1.8 Kg,50000.0,,detergent,2018-10-13 10:46:00,1.8 kg
3,https://www.bukalapak.com/p/rumah-tangga/home-...,Order Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-24 15:17:00,1.8 kg
4,https://www.bukalapak.com/p/rumah-tangga/home-...,Promonya Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-27 11:16:00,1.8 kg


Anda akan melakukan eksplorasi data `online_bl` untuk memastikan bahwa data tersebut siap untuk dianalisis. Hal yang pertama akan Anda lakukan adalah melakukan pengecekan tipe data.

In [3]:
# your code here
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category              object
time_update       datetime64[ns]
scale                     object
dtype: object

Terdapat kolom yang perlu disesuaikan tipe datanya yaitu kolom `sub_category`. Silahkan lakukan pengubahan tipe data pada kolom tersebut kedalam tipe data yang sesuai.

In [4]:
# your code here
online_bl['sub_category'] = online_bl['sub_category'].astype("category")
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category            category
time_update       datetime64[ns]
scale                     object
dtype: object

## Analisis

Data `online_bl` menyimpan data beragam barang yang dijual pada suatu e-commerce. Anda diminta untuk melakukan analisis terhadap data untuk menjawab beberapa pertanyaan yang ada.

### Jenis Barang

Anda ingin mencari tahu jenis barang apa saja yang dijual dan jenis barang apakah yang paling banyak dijual pada e-commerce tersebut. Menggunakan informasi dari kolom `sub_category`, silahkan jawab pertanyaan di bawah ini.

1. Berapa banyak jenis barang (`sub_category`) unik yang ada dalam kumpulan data `online_bl`? Apakah kita memiliki lebih banyak produk "detergent" atau "sugar" pada data tersebut?

    - [ ] 2, dimana "detergent" lebih banyak dari pada "Sugar"
    - [ ] 2, dimana "detergent" dan "sugar" memiliki jumlah produk sama banyak
    - [X] 3, dimana "sugar" lebih banyak dari pada detergent
    - [ ] tidak ada opsi yang benar 

- Opsi jawaban Bahasa Inggris:

    - [ ] 2, with more "detergent" than "sugar"
    - [ ] 2, with "detergent" and "sugar" having equal listings
    - [X] 3, with more "sugar" than detergent
    - [ ] None of above is correct

In [5]:
# your code here
online_bl["sub_category"].nunique()

3

In [6]:
online_bl["sub_category"].cat.categories

Index(['detergent', 'rice', 'sugar'], dtype='object')

In [7]:
online_bl["sub_category"].value_counts()

rice         425
sugar        213
detergent    106
Name: sub_category, dtype: int64

### Skala Barang

Berdasarkan beberapa jenis barang yang dijual diatas, setiap barang dijual dengan beberapa ukuran berdasarkan beratnya, termasuk deterjen. Deterjen yang ada di pasaran memiliki beberapa pilihan ukuran (1kg, 1.8kg, dsb). 

2. Deterjen dengan ukuran berapakah yang paling banyak dijual di situs Bukalapak?

    - [ ] 1 kg
    - [X] 1.8 kg
    - [ ] 5 kg
    - [ ] 800 gr

In [8]:
cond = online_bl["sub_category"] == "detergent"
online_bl_det = online_bl[cond]

online_bl_det["scale"].value_counts()

1.8 kg    88
800 gr    18
Name: scale, dtype: int64

Anda sedang membutuhkan produk deterjen. Berdasarkan informasi ukuran deterjen serta harga yang dipasarkan, Anda tertarik untuk membeli deterjen dengan ukuran 1,8 kg dan 800 gram. Namun, Anda ingin mengetahui pada bulan apa deterjen dengan ukuran tersebut dijual dengan rata-rata harga terendah.  

3. Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di rata-rata harga terendah? Apakah keduanya berada di bulan yang sama?

    - [X] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Agustus
    - [ ] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Oktober
    - [ ] Detergen 1.8 kg: terendah di Agustus, Detergen 800 gr: terendah di Oktober
    - [ ] Detergen 1.8 kg: terendah di August, Detergen 800 gr: terendah di July 
    
- Opsi Jawaban Bahasa Inggris:

    - [X] Both 1.8 kg and 800 gr detergents lowest price were in August
    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in July   

In [9]:
# Sortil khusus produk detergent
cond = online_bl["sub_category"] == "detergent"
online_bl_det = online_bl[cond]

# Sortil khusus produk "1.8 kg" dan "800 gr" 
cond1 = online_bl_det["scale"] == "1.8 kg"
cond2 = online_bl_det["scale"] == "800 gr"
online_bl_det = online_bl_det[(cond1) | (cond2)]

# Membuat kolom baru month
online_bl_det["month"] = online_bl_det["time_update"].dt.month_name()

# Membuat agregation tables
online_bl_det.pivot_table(
    index="month",
    columns="scale",
    values="price_original",
    aggfunc='mean'
)

scale,1.8 kg,800 gr
month,Unnamed: 1_level_1,Unnamed: 2_level_1
August,31000.0,20000.0
July,40000.0,30000.0
October,41191.836735,21945.454545
September,42750.0,33475.0


---

# Dataset Fund Raising

## Data Preparation

Pada analisa kedua, Anda akan menggunakan data **fund raising** yang diperoleh beberapa perusahaan startup di Amerika. Silahkan gunakan data `techcrunch.csv` dari folder `data_input`.  Dataset mengandung variable sebagai berikut :

- `permalink` : nama permalink company
- `company` : nama perusahaan (company)
- `numEmps` : banyaknya media partner
- `category` : kategori perusahaan
- `city` : nama kota lokasi perusahaan
- `state` : kode negara bagian lokasi perusahaan
- `fundedDate` : tanggal pendanaan
- `raisedAmt` : jumlah pendanaan yang diperoleh
- `raisedCurrency` : informasi

In [10]:
## Read Data
techcrunch = pd.read_csv('data_input/techcrunch.csv')
techcrunch.head()

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round
0,lifelock,LifeLock,,web,Tempe,AZ,1-May-07,6850000,USD,b
1,lifelock,LifeLock,,web,Tempe,AZ,1-Oct-06,6000000,USD,a
2,lifelock,LifeLock,,web,Tempe,AZ,1-Jan-08,25000000,USD,c
3,mycityfaces,MyCityFaces,7.0,web,Scottsdale,AZ,1-Jan-08,50000,USD,seed
4,flypaper,Flypaper,,web,Phoenix,AZ,1-Feb-08,3000000,USD,a


In [11]:
techcrunch.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   permalink       1460 non-null   object 
 1   company         1460 non-null   object 
 2   numEmps         567 non-null    float64
 3   category        1436 non-null   object 
 4   city            1442 non-null   object 
 5   state           1460 non-null   object 
 6   fundedDate      1460 non-null   object 
 7   raisedAmt       1460 non-null   int64  
 8   raisedCurrency  1460 non-null   object 
 9   round           1460 non-null   object 
dtypes: float64(1), int64(1), object(8)
memory usage: 114.2+ KB


In [12]:
techcrunch.nunique()

permalink         909
company           909
numEmps            72
category            8
city              193
state              33
fundedDate        386
raisedAmt         281
raisedCurrency      3
round               9
dtype: int64

Sebelum melakukan eksplorasi data lebih lanjut, silahkan sesuaikan beberapa kolom yang belum memiliki tipe data yang tepat agar memperkecil memori.

In [13]:
# your code here
# Ubah menjadi category
as_category = ['category','raisedCurrency','round']
techcrunch[as_category] = techcrunch[as_category].astype("category")
techcrunch.dtypes

# Ubah menjadi datetime64
techcrunch['fundedDate'] = pd.to_datetime(techcrunch['fundedDate'], dayfirst=True)

# Cek setelah di ubah tipe data
techcrunch.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   permalink       1460 non-null   object        
 1   company         1460 non-null   object        
 2   numEmps         567 non-null    float64       
 3   category        1436 non-null   category      
 4   city            1442 non-null   object        
 5   state           1460 non-null   object        
 6   fundedDate      1460 non-null   datetime64[ns]
 7   raisedAmt       1460 non-null   int64         
 8   raisedCurrency  1460 non-null   category      
 9   round           1460 non-null   category      
dtypes: category(3), datetime64[ns](1), float64(1), int64(1), object(4)
memory usage: 85.1+ KB


## Analisis

### Funding each Category

Sebagai seseorang yang ingin menjalankan sebuah startup, Anda ingin melakukan perencanaan pendanaan yang cukup matang agar perusahaan Anda berjalan dengan lancar. Oleh karena itu, Anda tertarik untuk mencari tahu bidang (`category`) startup mana yang mendapatkan pendanaan tertinggi. Karena ada banyak startup yang bergerak dengan bidang yang sama, Anda ingin mendapatkan summary dari kebanyakan banyaknya pendanaan (`raisedAmt`) yang diberikan. Seperti yang sudah Anda ketahui sebelumnya, nilai rata-rata akan terpengaruhi oleh outlier, sehingga Anda akan menggunakan nilai **median** untuk mendapatkan summary bidang startup yang mendapatkan pendanaan tertinggi.

Berdasarkan kondisi diatas, jawablah pertanyaan dibawah ini.

4. Kategori (`category`) startup manakah yang mendapatkan funding (`raisedAmt`) tertinggi? gunakan `median` untuk menghitung kisaran funding dari tiap kategori!
    
    - [ ] `mobile`
    - [ ] `cleantech`
    - [X] `biotech`
    - [ ] `consulting`

In [14]:
# your code here
techcrunch.pivot_table(
    index="category",
    values='raisedAmt',
    aggfunc="median"
).sort_values(by='raisedAmt').idxmax()

raisedAmt    biotech
dtype: object

### Funding each Company

Sebagai pengguna sosial media, Anda tertarik untuk menganalisa salah satu sosial media yang termasuk dalam daftar startup penerima pendanaan, yaitu **Friendster**. Selama masa pendanaan, Friendster mendapatkan pendanaan yang berbeda-beda. 

5. Pada periode manakah Friendster mendapatkan nilai funding tertinggi mereka?
   
    - [X] 2008-08
    - [ ] 2002-12
    - [ ] 2006-08
    - [ ] 2012-01

In [15]:
# your code here
# Filter khusus perusahaan Friendster
cond3 = techcrunch["company"] == "Friendster"
techcrunch_Fri = techcrunch[cond3]

# Membuat kolom yearmonth
techcrunch_Fri["yearmonth"] = techcrunch_Fri["fundedDate"].dt.to_period("M")

# Sortil nilai terbesar dari raisedAmt
techcrunch_Fri.sort_values(by="raisedAmt").tail(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  techcrunch_Fri["yearmonth"] = techcrunch_Fri["fundedDate"].dt.to_period("M")


Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round,yearmonth
321,friendster,Friendster,465.0,web,San Francisco,CA,2008-08-05,20000000,USD,d,2008-08


Setelah melihat beberapa startup yang mendapatkan pendanaan, Anda ingin mengetahui lebih lanjut startup yang berhasil mendapatkan pendanaan di lokasi Anda, yaitu **San Francisco**. Buatlah sebuah agregasi data yang menunjukkan beberapa perusahaan yang mendapatkan pendanaan tertinggi hingga terendah di San Francisco.

6.  Perusahaan apa yang **TIDAK** termasuk 5 perusahaan dengan **total** funding (`raisedAmt`) tertinggi di San Francisco?
    
    - [ ] `OpenTable`
    - [ ] `Friendster`
    - [X] `Facebook`
    - [ ] `Snapfish`
  

In [79]:
# your code here
# Sortil khusus di kota San Francisco
cond4 = techcrunch["city"] == "San Francisco"
techcrunch_San_Francisco = techcrunch[cond4]

# Membuat aggregation table
pd.crosstab(
    index=techcrunch_San_Francisco["company"],
    columns="Total Funding",
    values=techcrunch_San_Francisco["raisedAmt"],
    aggfunc="sum"
).sort_values(by="Total Funding", ascending=False).head()

col_0,Total Funding
company,Unnamed: 1_level_1
Slide,58000000
freebase,57500000
OpenTable,48000000
Friendster,45400000
Snapfish,43500000
