# Quiz: Exploratory Data Analysis

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat anda sudah menyelesaikan materi *Exploratory Data Analysis*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

# Dataset Bukalapak

## Data Preparation

Pada kuis ini kita akan menggunakan **e-commerce product dataset**. Anda dapat menggunakan data `online_bl.csv` yang tersimpan dalam folder `data_input`. 

Data berisi informasi produk yang dijual pada website e-commerce bukalapak.com. Data tersebut memiliki beberapa variable antara lain :

- `item_link` : link website produk dalam list  
- `title` : nama produk yang dijual
- `price_original` : harga produk
- `price_discount` : harga discount produk
- `sub_category` : sub-category produk
- `time_update` : waktu unggah informasi produk pada website
- `scale` : skala satuan product

Silahkan import data `online_bl.csv` dari folder `data_input` dan simpan kedalam variabel `online_bl`. Gunakan parameter `parse_dates=[__]` pada method `read_csv()` untuk mengubah tipe data pada kolom `time_update`. 

In [246]:
## Import Library & Read Data
import pandas as pd

online_bl = pd.read_csv('data_input/online_bl.csv', parse_dates=['time_update'])


Anda akan melakukan eksplorasi data `online_bl` untuk memastikan bahwa data tersebut siap untuk dianalisis. Hal yang pertama akan Anda lakukan adalah melakukan pengecekan tipe data.

In [247]:
# your code here
online_bl.dtypes

item_link                 object
title                     object
price_original           float64
price_discount           float64
sub_category              object
time_update       datetime64[ns]
scale                     object
dtype: object

Terdapat kolom yang perlu disesuaikan tipe datanya yaitu kolom `sub_category`. Silahkan lakukan pengubahan tipe data pada kolom tersebut kedalam tipe data yang sesuai.


In [248]:
# your code here
online_bl['sub_category'] = online_bl['sub_category'].astype('category')
online_bl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 744 entries, 0 to 743
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   item_link       744 non-null    object        
 1   title           744 non-null    object        
 2   price_original  728 non-null    float64       
 3   price_discount  17 non-null     float64       
 4   sub_category    744 non-null    category      
 5   time_update     744 non-null    datetime64[ns]
 6   scale           744 non-null    object        
dtypes: category(1), datetime64[ns](1), float64(2), object(3)
memory usage: 35.9+ KB


## Analisis

Data `online_bl` menyimpan data beragam barang yang dijual pada suatu e-commerce. Anda diminta untuk melakukan analisis terhadap data untuk menjawab beberapa pertanyaan yang ada.

### Jenis Barang

Anda ingin mencari tahu jenis barang apa saja yang dijual dan jenis barang apakah yang paling banyak dijual pada e-commerce tersebut. Menggunakan informasi dari kolom `sub_category`, silahkan jawab pertanyaan di bawah ini.

1. Berapa banyak jenis barang (`sub_category`) unik yang ada dalam kumpulan data `online_bl`? Apakah kita memiliki lebih banyak produk "detergent" atau "sugar" pada data tersebut?

    - [ ] 2, dimana "detergent" lebih banyak dari pada "Sugar"
    - [ ] 2, dimana "detergent" dan "sugar" memiliki jumlah produk sama banyak
    - [X] 3, dimana "sugar" lebih banyak dari pada detergent
    - [ ] tidak ada opsi yang benar 

- Opsi jawaban Bahasa Inggris:

    - [ ] 2, with more "detergent" than "sugar"
    - [ ] 2, with "detergent" and "sugar" having equal listings
    - [X] 3, with more "sugar" than detergent
    - [ ] None of above is correct

In [249]:
# your code here
num_categories = online_bl['sub_category'].nunique()
print("Jumlah jenis barang yang unik:", num_categories)

# menghitung jumlah produk  pada setiap jenis barang
prod_count = online_bl['sub_category'].value_counts()
print("Jumlah produk  pada setiap jenis berang:\n", prod_count)


Jumlah jenis barang yang unik: 3
Jumlah produk  pada setiap jenis berang:
 rice         425
sugar        213
detergent    106
Name: sub_category, dtype: int64


### Skala Barang

Berdasarkan beberapa jenis barang yang dijual diatas, setiap barang dijual dengan beberapa ukuran berdasarkan beratnya, termasuk deterjen. Deterjen yang ada di pasaran memiliki beberapa pilihan ukuran (1kg, 1.8kg, dsb). 

2. Deterjen dengan ukuran berapakah yang paling banyak dijual di situs Bukalapak?

    - [ ] 1 kg
    - [X] 1.8 kg
    - [ ] 5 kg
    - [ ] 800 gr

In [257]:
online_bl.head()


Unnamed: 0,item_link,title,price_original,price_discount,sub_category,time_update,scale,year,month
0,https://www.bukalapak.com/p/kesehatan-2359/pro...,Rinso Molto Deterjen Bubuk 1.8 kg,30000.0,,detergent,2018-10-20 01:32:00,1.8 kg,2018,10
1,https://www.bukalapak.com/p/rumah-tangga/home-...,Terlaris - DETERGENT RINSO ANTI NODA 1.8 KG 1 ...,49000.0,,detergent,2018-09-20 01:02:00,1.8 kg,2018,9
2,https://www.bukalapak.com/p/rumah-tangga/home-...,Good Rinso Molto Purple 1.8 Kg,50000.0,,detergent,2018-10-13 10:46:00,1.8 kg,2018,10
3,https://www.bukalapak.com/p/rumah-tangga/home-...,Order Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-24 15:17:00,1.8 kg,2018,9
4,https://www.bukalapak.com/p/rumah-tangga/home-...,Promonya Rinso Molto Purple 1.8 Kg,49000.0,,detergent,2018-09-27 11:16:00,1.8 kg,2018,9


In [251]:
counts = online_bl['scale'].value_counts()
counts

1 kg      364
5 kg      274
1.8 kg     88
800 gr     18
Name: scale, dtype: int64

In [252]:
# hitung frekuensi penjualan
deterjen = online_bl[online_bl['sub_category']=='detergent']
freq = deterjen['scale'].value_counts()

In [253]:
total = freq.index[0]
total

'1.8 kg'

Anda sedang membutuhkan produk deterjen. Berdasarkan informasi ukuran deterjen serta harga yang dipasarkan, Anda tertarik untuk membeli deterjen dengan ukuran 1,8 kg dan 800 gram. Namun, Anda ingin mengetahui pada bulan apa deterjen dengan ukuran tersebut dijual dengan rata-rata harga terendah.  

3. Di bulan apakah produk deterjen dengan ukuran 1,8 kg dan 800 gram berada di rata-rata harga (`price_original`) terendah? Apakah keduanya berada di bulan yang sama?

    - [X] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Agustus 
    - [ ] Detergen 1.8 kg maupun 800 gr memiliki harga terendah di bulan Oktober
    - [ ] Detergen 1.8 kg: terendah di Agustus, Detergen 800 gr: terendah di Oktober
    - [ ] Detergen 1.8 kg: terendah di August, Detergen 800 gr: terendah di July 
    
- Opsi Jawaban Bahasa Inggris:

    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in August
    - [ ] Both 1.8 kg and 800 gr detergents lowest price were in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in October
    - [ ] 1.8 kg detergents: Lowest in August, 800 gr: Lowest in July   

In [266]:
online_bl['year'] = online_bl['time_update'].dt.year
online_bl['month'] = online_bl['time_update'].dt.month

In [274]:
filtered = online_bl[(online_bl['scale'] == '1.8 kg') | (online_bl['scale'] == '800 gram')]

In [275]:
monthly = filtered.groupby(['year', 'month', 'scale']).mean().reset_index()

In [289]:
minim = monthly.loc[monthly.groupby('scale')['price_original'].idxmin()]


In [291]:
minim

Unnamed: 0,year,month,scale,price_original,price_discount
1,2018,8,1.8 kg,31000.0,


In [263]:
online_bl['scale'].unique()

array(['1.8 kg', '800 gr', '1 kg', '5 kg'], dtype=object)

saya masih ragu dengan jawaban diatas :v

---

# Dataset Fund Raising

## Data Preparation

Pada analisa kedua, Anda akan menggunakan data **fund raising** yang diperoleh beberapa perusahaan startup di Amerika. Silahkan gunakan data `techcrunch.csv` dari folder `data_input`.  Dataset mengandung variable sebagai berikut :

- `permalink` : nama permalink company
- `company` : nama perusahaan (company)
- `numEmps` : banyaknya media partner
- `category` : kategori perusahaan
- `city` : nama kota lokasi perusahaan
- `state` : kode negara bagian lokasi perusahaan
- `fundedDate` : tanggal pendanaan
- `raisedAmt` : jumlah pendanaan yang diperoleh
- `raisedCurrency` : informasi

In [None]:
## Read Data
df = pd.read_csv('data_input/techcrunch.csv')
df.head()


Sebelum melakukan eksplorasi data lebih lanjut, silahkan sesuaikan beberapa kolom yang belum memiliki tipe data yang tepat agar memperkecil memori.

In [None]:
# your code here
df.nunique()

In [None]:
df.info()

In [None]:
# df['numEmps '] = df['numEmps'].astype('int64')fundedDate
df['numEmps'] = df['numEmps'].fillna(0).astype(int)
df['fundedDate'] = pd.to_datetime(df['fundedDate'])
df.info()

## Analisis

### Funding each Category

Sebagai seseorang yang ingin menjalankan sebuah startup, Anda ingin melakukan perencanaan pendanaan yang cukup matang agar perusahaan Anda berjalan dengan lancar. Oleh karena itu, Anda tertarik untuk mencari tahu bidang (`category`) startup mana yang mendapatkan pendanaan tertinggi. Karena ada banyak startup yang bergerak dengan bidang yang sama, Anda ingin mendapatkan summary dari kebanyakan banyaknya pendanaan (`raisedAmt`) yang diberikan. Seperti yang sudah Anda ketahui sebelumnya, nilai rata-rata akan terpengaruhi oleh outlier, sehingga Anda akan menggunakan nilai **median** untuk mendapatkan summary bidang startup yang mendapatkan pendanaan tertinggi.

Berdasarkan kondisi diatas, jawablah pertanyaan dibawah ini.

4. Kategori (`category`) startup manakah yang mendapatkan funding (`raisedAmt`) tertinggi? gunakan `median` untuk menghitung kisaran funding dari tiap kategori!
    
    - [ ] `mobile`
    - [ ] `cleantech`
    - [X] `biotech`
    - [ ] `consulting`

In [None]:
# your code here
median = df.groupby('category')['raisedAmt'].median()
median.head(1)

### Funding each Company

Sebagai pengguna sosial media, Anda tertarik untuk menganalisa salah satu sosial media yang termasuk dalam daftar startup penerima pendanaan, yaitu **Friendster**. Selama masa pendanaan, Friendster mendapatkan pendanaan yang berbeda-beda. 

5. Pada periode manakah Friendster mendapatkan nilai funding tertinggi mereka?
   
    - [ ] 2008-08
    - [X] 2002-12
    - [ ] 2006-08
    - [ ] 2012-01

In [None]:
# your code here
df['year'] = pd.to_datetime(df['fundedDate'])


In [None]:
friendster_df = df[df['company'] == 'Friendster']


In [None]:
max_funding = friendster_df.groupby('year')['raisedAmt'].max()

In [292]:
max_funding.head(1)

year
2002-12-01    2400000
Name: raisedAmt, dtype: int64

Setelah melihat beberapa startup yang mendapatkan pendanaan, Anda ingin mengetahui lebih lanjut startup yang berhasil mendapatkan pendanaan di lokasi Anda, yaitu **San Francisco**. Buatlah sebuah agregasi data yang menunjukkan beberapa perusahaan yang mendapatkan pendanaan tertinggi hingga terendah di San Francisco.

6.  Perusahaan apa yang **TIDAK** termasuk 5 perusahaan dengan **total** funding (`raisedAmt`) tertinggi di San Francisco?
    
    - [ ] `OpenTable`
    - [ ] `Friendster`
    - [X] `Facebook`
    - [ ] `Snapfish`
  

In [None]:
# your code here
startup = df[df['city'] == 'San Francisco']

In [None]:
total = startup.groupby('company')['raisedAmt'].sum().sort_values(ascending=False)

In [None]:
total.head(5)