# Quiz: Exploratory Data Analysis

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat anda sudah menyelesaikan materi *Exploratory Data Analysis*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

# Dataset Bukalapak

## Data Preparation

Pada kuis ini kita akan menggunakan **e-commerce product dataset**. Anda dapat menggunakan data `online_bl.csv` yang tersimpan dalam folder `data_input`. 

Data berisi informasi produk yang dijual pada website e-commerce bukalapak.com. Data tersebut memiliki beberapa variable antara lain :

- `item_link` : link website produk dalam list  
- `title` : nama produk yang dijual
- `price_original` : harga produk
- `price_discount` : harga discount produk
- `sub_category` : sub-category produk
- `time_update` : waktu unggah informasi produk pada website
- `scale` : skala satuan product

Silahkan import data `online_bl.csv` dari folder `data_input` dan simpan kedalam variabel `online_bl`. Gunakan parameter `parse_dates=[__]` pada method `read_csv()` untuk mengubah tipe data pada kolom `time_update`. 

In [4]:
## Import Library & Read Data
import pandas as pd
online_bl = pd.read_csv("data_input/online_bl.csv",parse_dates=['time_update'])

Anda akan melakukan eksplorasi data `online_bl` untuk memastikan bahwa data tersebut siap untuk dianalisis. Hal yang pertama akan Anda lakukan adalah melakukan pengecekan tipe data.

In [5]:
# Cek Type Data
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category              object
time_update       datetime64[ns]
scale                     object
dtype: object

In [7]:
online_bl.nunique()

item_link         689
title             659
price_original    244
price_discount     15
sub_category        3
time_update       637
scale               4
dtype: int64

Terdapat kolom yang perlu disesuaikan tipe datanya yaitu kolom `sub_category`. Silahkan lakukan pengubahan tipe data pada kolom tersebut kedalam tipe data yang sesuai.


In [9]:
# ubah type data
online_bl[['sub_category','scale']]=online_bl[['sub_category','scale']].astype("category")

In [11]:
# cek typr data
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category            category
time_update       datetime64[ns]
scale                   category
dtype: object

In [12]:
#cek missing value
online_bl.isna().sum()

item_link           0
title               0
price_original     16
price_discount    727
sub_category        0
time_update         0
scale               0
dtype: int64

In [16]:
#imputasi kolom "price_original"
online_bl['new_price'] = online_bl['price_original'].fillna(value=online_bl['price_original'].mean())

In [19]:
#cek data
online_bl.isna().sum()

item_link           0
title               0
price_original     16
price_discount    727
sub_category        0
time_update         0
scale               0
new_price           0
dtype: int64

## Analisis

Data `online_bl` menyimpan data beragam barang yang dijual pada suatu e-commerce. Anda diminta untuk melakukan analisis terhadap data untuk menjawab beberapa pertanyaan yang ada.

### Jenis Barang

Anda ingin mencari tahu jenis barang apa saja yang dijual dan jenis barang apakah yang paling banyak dijual pada e-commerce tersebut. Menggunakan informasi dari kolom `sub_category`, silahkan jawab pertanyaan di bawah ini.

1. Berapa banyak jenis barang (`sub_category`) unik yang ada dalam kumpulan data `online_bl`? Apakah kita memiliki lebih banyak produk "detergent" atau "sugar" pada data tersebut?

    - [ ] 2, dimana "detergent" lebih banyak dari pada "Sugar"
    - [ ] 2, dimana "detergent" dan "sugar" memiliki jumlah produk sama banyak
    - [x] 3, dimana "sugar" lebih banyak dari pada detergent
    - [ ] tidak ada opsi yang benar 

- Opsi jawaban Bahasa Inggris:

    - [ ] 2, with more "detergent" than "sugar"
    - [ ] 2, with "detergent" and "sugar" having equal listings
    - [ ] 3, with more "sugar" than detergent
    - [ ] None of above is correct

In [22]:
#banyak unik sub_category
online_bl.sub_category.nunique()

3

In [23]:
#perbandingan banyak detergen dan sugar
pd.crosstab(index=online_bl["sub_category"], columns="Banyak")

col_0,Banyak
sub_category,Unnamed: 1_level_1
detergent,106
rice,425
sugar,213


### Skala Barang

Berdasarkan beberapa jenis barang yang dijual diatas, setiap barang dijual dengan beberapa ukuran berdasarkan beratnya, termasuk deterjen. Deterjen yang ada di pasaran memiliki beberapa pilihan ukuran (1kg, 1.8kg, dsb). 

2. Deterjen dengan ukuran berapakah yang paling banyak dijual di situs Bukalapak?

    - [ ] 1 kg
    - [x] 1.8 kg
    - [ ] 5 kg
    - [ ] 800 gr

In [65]:
#detergen 
pd.crosstab(index=online_bl["scale"], columns=online_bl["sub_category"]).sort_values(by="detergent",ascending=False).loc[:,"detergent"]

scale
1.8 kg    88
800 gr    18
1 kg       0
5 kg       0
Name: detergent, dtype: int64

Anda sedang membutuhkan produk deterjen. Berdasarkan informasi ukuran deterjen serta harga yang dipasarkan, Anda tertarik untuk membeli deterjen dengan ukuran 1,8 kg dan 800 gram. Namun, Anda ingin mengetahui pada bulan apa deterjen dengan ukuran tersebut dijual dengan rata-rata harga terendah.  

3. Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di rata-rata harga terendah? Apakah keduanya berada di bulan yang sama?

    - [x] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Agustus
    - [ ] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Oktober
    - [ ] Detergen 1.8 kg: terendah di Agustus, Detergen 800 gr: terendah di Oktober
    - [ ] Detergen 1.8 kg: terendah di August, Detergen 800 gr: terendah di July 
    
- Opsi Jawaban Bahasa Inggris:

    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in August
    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in July   

In [58]:
online_bl['price_original'].mean()

65660.02747252748

In [26]:
#ganti format ke bulan
online_bl['month']=online_bl['time_update'].dt.month_name()

In [60]:
#dibulan apa detergen paling murah ?
online_bl.pivot_table(index=["scale","sub_category"], columns=["month"], values=["new_price"], aggfunc="mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,new_price,new_price,new_price,new_price,new_price,new_price,new_price,new_price
Unnamed: 0_level_1,month,August,January,July,June,March,May,October,September
scale,sub_category,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1 kg,rice,73465.0,,76800.0,110333.333333,,113333.333333,45177.372263,58489.74359
1 kg,sugar,40700.0,18500.0,21028.571429,51900.0,210100.0,15000.0,50284.946237,55071.794872
1.8 kg,detergent,31000.0,,40000.0,,,,41191.836735,42750.0
5 kg,rice,126052.941176,,73250.0,85000.0,142500.0,85000.0,86439.021555,74973.778999
5 kg,sugar,90000.0,,221000.0,90000.0,11900.0,,117143.484233,115377.580753
800 gr,detergent,20000.0,,30000.0,,,,21945.454545,33475.0


---

# Dataset Fund Raising

## Data Preparation

Pada analisa kedua, Anda akan menggunakan data **fund raising** yang diperoleh beberapa perusahaan startup di Amerika. Silahkan gunakan data `techcrunch.csv` dari folder `data_input`.  Dataset mengandung variable sebagai berikut :

- `permalink` : nama permalink company
- `company` : nama perusahaan (company)
- `numEmps` : banyaknya media partner
- `category` : kategori perusahaan
- `city` : nama kota lokasi perusahaan
- `state` : kode negara bagian lokasi perusahaan
- `fundedDate` : tanggal pendanaan
- `raisedAmt` : jumlah pendanaan yang diperoleh
- `raisedCurrency` : informasi

In [35]:
## Read Data
tc = pd.read_csv("data_input/techcrunch.csv")

Sebelum melakukan eksplorasi data lebih lanjut, silahkan sesuaikan beberapa kolom yang belum memiliki tipe data yang tepat agar memperkecil memori.

In [36]:
# cek type data
tc.dtypes


permalink          object
company            object
numEmps           float64
category           object
city               object
state              object
fundedDate         object
raisedAmt           int64
raisedCurrency     object
round              object
dtype: object

In [37]:
# cek nunique tiap kolom
tc.nunique()

permalink         909
company           909
numEmps            72
category            8
city              193
state              33
fundedDate        386
raisedAmt         281
raisedCurrency      3
round               9
dtype: int64

In [38]:
#ubah type data
tc[["category","state","raisedCurrency","round"]]=tc[["category","state","raisedCurrency","round"]].astype("category")
tc["fundedDate"]=pd.to_datetime(tc["fundedDate"])

In [39]:
# cek kembali type data
tc.dtypes

permalink                 object
company                   object
numEmps                  float64
category                category
city                      object
state                   category
fundedDate        datetime64[ns]
raisedAmt                  int64
raisedCurrency          category
round                   category
dtype: object

In [40]:
#cek missing value
tc.isna().sum()

permalink           0
company             0
numEmps           893
category           24
city               18
state               0
fundedDate          0
raisedAmt           0
raisedCurrency      0
round               0
dtype: int64

## Analisis

### Funding each Category

Sebagai seseorang yang ingin menjalankan sebuah startup, Anda ingin melakukan perencanaan pendanaan yang cukup matang agar perusahaan Anda berjalan dengan lancar. Oleh karena itu, Anda tertarik untuk mencari tahu bidang (`category`) startup mana yang mendapatkan pendanaan tertinggi. Karena ada banyak startup yang bergerak dengan bidang yang sama, Anda ingin mendapatkan summary dari kebanyakan banyaknya pendanaan (`raisedAmt`) yang diberikan. Seperti yang sudah Anda ketahui sebelumnya, nilai rata-rata akan terpengaruhi oleh outlier, sehingga Anda akan menggunakan nilai **median** untuk mendapatkan summary bidang startup yang mendapatkan pendanaan tertinggi.

Berdasarkan kondisi diatas, jawablah pertanyaan dibawah ini.

4. Kategori (`category`) startup manakah yang mendapatkan funding (`raisedAmt`) tertinggi? gunakan `median` untuk menghitung kisaran funding dari tiap kategori!
    
    - [ ] `mobile`
    - [ ] `cleantech`
    - [x] `biotech`
    - [ ] `consulting`

In [41]:
# category startup memiliki pendanaan tertinggi
# your code here
pd.crosstab(index=tc["category"],columns=["Pendanaan"],values=tc["raisedAmt"], aggfunc='median').sort_values(by="Pendanaan",ascending=False).head(3)


col_0,Pendanaan
category,Unnamed: 1_level_1
biotech,20000000
cleantech,15500000
hardware,13700000


### Funding each Company

Sebagai pengguna sosial media, Anda tertarik untuk menganalisa salah satu sosial media yang termasuk dalam daftar startup penerima pendanaan, yaitu **Friendster**. Selama masa pendanaan, Friendster mendapatkan pendanaan yang berbeda-beda. 

5. Pada periode manakah Friendster mendapatkan nilai funding tertinggi mereka?
   
    - [x] 2008-08
    - [ ] 2002-12
    - [ ] 2006-08
    - [ ] 2012-01

In [43]:
# rubah tipe format tanggal
tc['fundedDate'] = tc["fundedDate"].dt.to_period('M')

In [50]:
# 1.Company, 2.Periode(fundedDate), 3.nilai funding(raisedAmt)
pd.crosstab(index=tc["fundedDate"],columns=tc["company"],values=tc["raisedAmt"], aggfunc='sum').sort_values(by="Friendster",ascending=False).loc[:,"Friendster"]

fundedDate
2008-08    20000000.0
2003-10    13000000.0
2006-08    10000000.0
2002-12     2400000.0
1993-09           NaN
              ...    
2008-03           NaN
2008-04           NaN
2008-05           NaN
2008-06           NaN
2008-07           NaN
Freq: M, Name: Friendster, Length: 97, dtype: float64

In [46]:
# cek lagi data
tc.head()

Unnamed: 0,permalink,company,numEmps,category,city,state,fundedDate,raisedAmt,raisedCurrency,round
0,lifelock,LifeLock,,web,Tempe,AZ,2007-05,6850000,USD,b
1,lifelock,LifeLock,,web,Tempe,AZ,2006-10,6000000,USD,a
2,lifelock,LifeLock,,web,Tempe,AZ,2008-01,25000000,USD,c
3,mycityfaces,MyCityFaces,7.0,web,Scottsdale,AZ,2008-01,50000,USD,seed
4,flypaper,Flypaper,,web,Phoenix,AZ,2008-02,3000000,USD,a


Setelah melihat beberapa startup yang mendapatkan pendanaan, Anda ingin mengetahui lebih lanjut startup yang berhasil mendapatkan pendanaan di lokasi Anda, yaitu **San Francisco**. Buatlah sebuah agregasi data yang menunjukkan beberapa perusahaan yang mendapatkan pendanaan tertinggi hingga terendah di San Francisco.

6.  Perusahaan apa yang **TIDAK** termasuk 5 perusahaan dengan **total** funding (`raisedAmt`) tertinggi di San Francisco?
    
    - [ ] `OpenTable`
    - [ ] `Friendster`
    - [x] `Facebook`
    - [ ] `Snapfish`
  

In [57]:
#1.city, 2.total_funding(raisedAmt)
pd.crosstab(index=tc['company'], columns=tc['city'], values=tc['raisedAmt'], aggfunc="sum").sort_values(by='San Francisco',ascending=False).loc[:,'San Francisco'].head()

company
Slide         58000000.0
freebase      57500000.0
OpenTable     48000000.0
Friendster    45400000.0
Snapfish      43500000.0
Name: San Francisco, dtype: float64