# 1. Import các thư viện cần thiết

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup
import time, json, csv, re, os

In [1]:
import math

import pandas as pd
from datetime import date
import datetime

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import FunctionTransformer, KBinsDiscretizer, OneHotEncoder

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

from sklearn.pipeline import make_pipeline

from sklearn.neural_network import MLPClassifier

from sklearn.compose import make_column_transformer

from sklearn import set_config
set_config(display='diagram')

---

# 2. Thu thập dữ liệu

[Kickstarter](https://www.kickstarter.com) là trang web cho phép người dùng gọi vốn từ cộng đồng để phát triển một sản phẩm nào đó thuộc lĩnh vực như là: nghệ thuật, truyện tranh, chế tác, phim ảnh, thực phẩm, báo chí, âm nhạc, game, thiết kế, ...

Trong đồ án, nhóm chúng em sẽ thu thập môt số dữ liệu về các dự án hiện có trên nền tảng kickstarter. Theo như file [robots.txt](https://www.kickstarter.com/robots.txt) của kickstarter thì trang không cho phép thu thập thông tin về người hỗ trợ, số tiền đã được góp vốn, widget trong từng trang dự án và trang hồ sơ người dùng, còn lại thì không bị cấm. Nhóm thực hiện thu thập trên trang [discover](https://www.kickstarter.com/discover?ref=nav) nên không vi phạm yêu cầu của kickstarter.

Ở đây nhóm sử dụng thư viện Selenium vì cần phải thực hiện một số thao tác click chuột và cuộn trang thì kickstarter mới tải thêm dữ liệu.

- Sử dụng thư viện Selenium truy cập trang [discover](https://www.kickstarter.com/discover?ref=nav) của kickstarter và thu thập thông tin của tất cả project hiện có.
- Dữ liệu của các dự án được thu thập bao gồm: id, tên, lời giới thiệu, số tiền mục tiêu, số tiền đã kêu gọi, quốc gia, hạn chót, ngày tạo, ngày khởi động, số người tham gia hỗ trợ, tỉ giá ngoại tê, thể loại, thể loại chính và kết quả gọi vốn của dự án.
- Dữ liệu thu thập được lưu vào file projects_raw.tsv

In [None]:
# tạo file tsv lưu dữ liệu
projects_data = open('projects_raw.tsv', 'w', newline='', encoding='utf-8')

In [None]:
# tạo danh sách các cột
columns = ['id','name','blurb','goal','pledged','country','deadline','created_at','launched_at',
           'backers_count','fx_rate','category','main_category','state']

# tạo danh sách các cột có thể thu thập trực tiếp
cols_collect_data = columns.copy()
cols_collect_data.remove('category')
cols_collect_data.remove('main_category')

In [None]:
# tạo đối tượng ghi file và ghi vào tên cột
writer = csv.DictWriter(projects_data, fieldnames=columns,delimiter='\t')
writer.writeheader()

In [None]:
# tạo đối tượng webdriver và truy cập trang kickstarter.com mục discover
# browser = webdriver.Chrome(executable_path = './browser_drivers/chromedriver.exe')
browser = webdriver.Edge(executable_path = '../browser_drivers/msedgedriver.exe')
browser.get('https://www.kickstarter.com/discover?ref=nav')

In [None]:
# parse trang vừa tải
html_tree = BeautifulSoup(browser.page_source, 'html.parser')

In [None]:
# tìm đường dẫn tới những thể loại, lĩnh vực
categories_ls = []
cat_filter = html_tree.find('select', {'name':'category_id'})

In [None]:
# tìm tag option và có thuộc tính data-urls
# kiểm tra tag option có thuộc tính data-parent-id hay không
# nếu có thì thêm vào danh sách đường dẫn
option = cat_filter.find('option', {'data-urls':True})
while True:
    main_cat = False

    try:
        option['data-parent-id']
    except:
        main_cat = True

    if not main_cat:
        categories_ls.append(re.search('"(http:.+)"', option['data-urls']).group(1))

    option = option.next_sibling
    if option == None:
        break

In [None]:
# tạo từ điển lưu dữ liệu thu thập được
data_collect = dict.fromkeys(cols_collect_data)

# truy cập trang của từng thể loại chính và thu thập dữ liệu
for category_link in categories_ls:
    time.sleep(5) # đợi 1 khoảng thời gian trước khi tải trang mới

    # tải trang và tìm nút 'load more'
    browser.get(category_link)
    browser.find_element_by_class_name('load_more').click()

    # cuộn tới cuối trang để tải thêm project
    last_height = browser.execute_script("return document.body.scrollHeight")
    while True:
        browser.execute_script('window.scrollTo(0, document.body.scrollHeight);')
        time.sleep(2)
        new_height = browser.execute_script("return document.body.scrollHeight")

        if new_height == last_height:
            break

        last_height = new_height

    # sử dụng BeautifulSoup để parse trang web
    html_tree = BeautifulSoup(browser.page_source, 'html.parser')

    # tìm tất cả các tag chứa thông tin về các project
    data_project = html_tree.find_all('div', {'data-project': True})

    # với mỗi project tìm thuộc tính data-project và thu thập dữ liệu
    for project in project_cards:
        data = json.loads(project['data-project'])
        
        # thu thập dữ liệu có thể thu thập trực tiếp
        for attr in cols_collect_data:
            data_collect[attr] = data[attr]

        data_collect['category'] = data['category']['name']
        data_collect['main_category'] = data['category']['parent_name']

        # ghi dữ liệu thu thập dược vào file
        writer.writerow(data_collect)

    # lưu dữ liệu thu thập được
    projects_data.flush()
    os.fsync(projects_data.fileno())

    project_cards.clear()

In [None]:
# đóng trình duyệt và đóng file
browser.quit()
projects_data.close()

---

# 3. Khám phá dữ liệu

In [None]:
# tạo dataframe
projects_df = pd.read_table('../data/projects_raw.tsv', index_col=0)
projects_df.head()

## **Dữ liệu có bao nhiêu dòng và cột?**

In [None]:
projects_df.shape

## Mỗi dòng có ý nghĩa gì?

Mỗi dòng chứa thông tin về một dự án góp vốn cộng đồng trên kickstarter.

## Dữ liệu có các dòng hay cột bị lặp hay bị thiếu không?

In [None]:
projects_df.duplicated().sum()

In [None]:
projects_df.index.duplicated().sum()

In [None]:
projects_df.isna().describe()

In [None]:
projects_df.isna().sum()

Như vậy là có 3 dòng bị trùng và có 3 dòng bị thiếu dữ liệu ở cột blurb trong tập dữ liệu. Do số dòng bị trùng và thiếu ít nên để đơn giản nhóm thực hiện xóa các dòng trên.

In [None]:
projects_df.drop_duplicates(inplace=True)
projects_df.shape

In [None]:
projects_df.dropna(inplace=True)
projects_df.shape

## Ý nghĩa của mỗi cột

Cột | Ý nghĩa
--- | -------
id | Mã định danh cho từng dự án.
name | Tên của dự án.
blurb | Lời giới thiệu ngắn gọn về dự án.
goal | Số tiền dự án yêu cầu.
pledged | Số tiền đã kêu gọi thành công.
country | Quốc gia của người/nhóm chủ dự án.
deadline | Hạn chót kêu gọi góp vốn.
create_at | Ngày tạo dự án.
launched_at | Ngày bắt đầu kêu gọi góp vốn.
backers_count | Số người đã góp vốn cho dự án.
fx_rate | Tỷ giá các đơn vị tiền tệ so với đơn vị tiền tệ được chọn
category | Thể loại của dự án.
main_category | Thể loại chính của dự án.
state | Kết quả gọi vốn của dự án.

## Mỗi cột hiện đang có kiểu dữ liệu gì?

In [None]:
projects_df.dtypes

## Tỷ lệ các giá trị của cột kết quả như thế nào?

In [None]:
projects_df['state'].value_counts(normalize=True) * 100

**Trong đó:**

Trạng thái | Ý nghĩa
---------- | -------
successful | Dự án đã gọi vốn thành công
failed | Dự án gọi vốn thất bại
canceled | Dự án bị hủy
live | Dự án đang trong thời gian gọi vốn

Trong tập dữ liệu có một số dự án đang trong thời gian gọi vốn - có trạng thái 'live', vì vậy chưa có kết quả cuối cùng. Những dự án như dạng này không hữu ích cho quá trình học của mô hình cũng như để kiểm tra độ lỗi khi sử dụng mô hình để dự đoán do chưa có kết quả cuối cùng. Vì vậy nhóm thực hiện tách các dòng dữ liệu chưa có kết quả trước khi thực hiện chia tập huấn luyện, validation và kiểm tra.

In [None]:
live_projects = projects_df[projects_df['state'] == 'live']
projects_df.drop(live_projects.index, inplace=True)
projects_df.shape

---

# 4. Đưa ra câu hỏi cần trả lời

Với tập dữ liệu trên thì cột output là cột state - thể hiện kết quả gọi vốn của một dự án. Như vậy câu hỏi mà nhóm đặt ra với tập dữ liệu này là:

*Output - kết quả* - củ một dự án góp vốn cộng đồng có thể được tính từ *input - các thông tin về dự án* - theo công thức nào?

Việc tìm ra câu trả lời cho câu hỏi này có thể giúp cho một người/nhóm người có ý định kêu gọi góp vốn cộng đồng cho một sản phẩm nào đó họ muốn phát triển có thể phần nào đoán được kết quả của việc gọi vốn, qua đó có thể điều chỉnh dự án của mình - nếu cần thiết - để đạt được kết quả gọi vốn tốt nhất.

---

# 5. Tách các tập huấn luyện, validation và kiểm tra

In [None]:
# tạo tập input và output
y_sr = projects_df['state']
X_df = projects_df.drop(columns='state', axis=1)

In [None]:
# Tách tập kiểm tra với tỷ lệ 20% tập dữ liệu ban đầu
train_X_df, test_X_df, train_y_sr, test_y_sr = train_test_split(X_df, y_sr, test_size=0.2, stratify=y_sr, random_state=42)

In [None]:
# Tách tập validation với tỷ lệ 20% tập dữ liệu sau khi tách tập kiểm tra
train_X_df, val_X_df, train_y_sr, val_y_sr = train_test_split(train_X_df, train_y_sr, test_size=0.2, stratify=train_y_sr,
                                                             random_state=42)

In [None]:
train_X_df.shape

In [None]:
train_y_sr.shape

In [None]:
val_X_df.shape

In [None]:
val_y_sr.shape

In [None]:
test_X_df.shape

In [None]:
test_y_sr.shape

# 6. Khám phá dữ liệu trên tập huấn luyện

Mỗi cột input có kiểu dữ liệu gì?

In [None]:
train_X_df.dtypes

Có thể thấy các cột deadline, created_at và launched_at có ý nghĩa liên quan đến ngày tháng nhưng hiện đang ở dạng timestamp và có kiểu dữ liệu int64

### Tiền xử lý: Thực hiện chuyển đổi các cột nêu trên về kiểu dữ liệu datetime

In [None]:
def colToDatetime(df):
    date_cols = ['deadline', 'created_at', 'launched_at']
    
    new_df = df.copy()
    new_df[date_cols] = new_df[date_cols].applymap(date.fromtimestamp).apply(pd.to_datetime)
    
    return new_df

In [None]:
preprocess_df = colToDatetime(train_X_df)
preprocess_df.head()

In [None]:
preprocess_df.dtypes

### Tiếp tục khám phá dữ liệu

Cột pledged có ý nghĩa là số tiền mà những người dùng đã đăng ký đóng góp cho một dự án. Tuy nhiên với những dự án chưa bắt đầu gọi vốn thì không thể nào biết được giá trị ở cột pledged. Vì vậy cột pledged không thể dùng để huấn luyện mô hình và phải bị xóa.

Tương tự, cột backers_count thể hiện đã có bao nhiêu người tham gia hỗ trợ một dự án. Với những dự án chưa bắt đầu gọi vốn thì không có người nào tham gia hỗ trợ. Vì vậy cũng cần loại bỏ cột này.

### Tiền xử lý: xóa cột pledged và backers_count

In [None]:
preprocess_df.drop(columns=['pledged', 'backers_count'], inplace=True)
preprocess_df.head()

### Tiếp tục khám phá dữ liệu

Ta thấy cột fx_rate có ý nghĩa là tỷ giá của các đơn vị tiền tệ so với đơn vị tiền tệ được chọn để hiển thị khi truy cập trang web kickstarter. Đồng USD được chọn mặc định khi truy cập kickstarter từ quốc gia không có đơn vị tiền tệ được kickstarter sử dụng. Vì vậy dữ liệu trong cột fx_rate là tỷ giá các đơn vị tiền tệ so với đồng USD.

Cột fx_rate có các giá trị khác nhau, cho thấy rằng các dự án yêu cầu số tiền với các đơn vị khác nhau. Việc có nhiều đơn vị tiền tệ có thể làm việc học bị sai lệch, vì vậy nhóm thực hiện tiền xử lý quy đổi các đơn vị tiền tệ về đồng USD - do tỷ giá là so với USD.

### Tiền xử lý: quy đổi đơn vị ở cột goal

Thực hiện nhân cột fx_rate với cột goal để quy đổi tiền tệ về một đơn vị là USD, sau đó xóa cột fx_rate.

In [None]:
def currencyExchange(df):
    fx_df = df.copy()
    fx_df['goal'] = (fx_df['goal'] * fx_df['fx_rate']).round(1)
    
    fx_df.drop(columns='fx_rate', inplace=True)
    
    return fx_df

In [None]:
preprocess_df = currencyExchange(preprocess_df)
preprocess_df.head()

### Tiếp tục khám phá dữ liệu

Với các cột deadline, created_at và launched_at, nhóm nhận thấy là có thể suy ra được khoảng thời gian gọi vốn của một dự án cũng như là thời gian từ khi hồ sơ dự án được tạo cho đến khi dự án bắt đầu gọi vốn. Thêm vào đó, hiện tại các cột này đang có kiểu datetime, không phú hợp với kiểu dữ liệu đầu vào khi thực hiện mô hình hóa dữ liệu.

Vì vậy nhóm thực hiện tiền xử lý cho các cột trên với các công việc sau:
1. Thêm cột mới lưu các khoảng thời gian như đã mô tả.
- cột num_days_funding: cho biết khoảng thời gian theo ngày từ khi một dự án bắt đầu đến khi kết thúc việc gọi vốn.
- cột create_to_launch: cho biết thời gian từ khi hồ sơ dự án được tạo đến khi dự án bắt đầu gọi vốn.
2. Xóa các cột deadline, created_at và launched_at

### Tiền xử lý: tính khoảng thời gian từ các cột deadline, created_at và launched_at

In [None]:
def dateCalc(X_df):
    calc_df = X_df.copy()
    
    calc_df['num_days_funding'] = (calc_df['deadline'] - calc_df['launched_at']).dt.days
    calc_df['create_to_launch'] = (calc_df['launched_at'] - calc_df['created_at']).dt.days
    
    calc_df.drop(columns=['deadline', 'created_at', 'launched_at'], inplace=True)
    
    return calc_df

In [None]:
preprocess_df = dateCalc(preprocess_df)
preprocess_df.head()

---

# 7. Tiền xử lý

Qua bước khám phá dữ liệu, nhóm quyết định thực hiện các bước tiền xủ lý như sau:
- Xóa cột backers_count và pledged vì 2 cột này chỉ có giá trị sau khi một dự án đã bắt đầu gọi vốn, không thể dùng để dự đoán dự án chưa bắt đầu.
- Sử dụng cột fx_rate để quy đổi đơn vị cho cột goal và xóa cột fx_rate.
- Đối với các cột deadline, created_at và launched_at:
    - Chuyển đổi giá trị các cột từ dạng timestamp sang datetiem
    - Tính các khoảng thời gian (đơn vị là ngày):
        - Khoảng thời gian gọi vốn của dự án và lưu vào cột 'num_days_funding'.
        - Thời gian từ khi dự án được tạo đến khi bắt đầu gọi vốn, lưu vào cột 'create_to_launch'.
    - Cuối cùng là xóa các cột deadline, created_at và launched_at.

Sau các bước trên ta thấy các cột "num_days_funding", "create_to_launch" và cột "goal" là những thuộc tính liên tục có miền giá trị là các số >= 0, vì vậy cần rời rạc hóa các cột này.

Đối với các cột không phải dạng số và không có thứ tự bao gồm: "country", "category" và "main_category" thực hiện chuyển về dạng số bằng phương pháp mã hóa one-hot.

Còn lại cột name và blurb có dạng chuỗi, nhóm quyết định thực hiện chuyển đổi về các véc-tơ biểu diễn dạng số sử dụng 
TF-IDF.

## Tạo các pipeline tiền xử lý

In [None]:
del_cols = ['pledged', 'backers_count']
unorder_cat_cols = ['country', 'category', 'main_category']
txt_cols = ['name', 'blurb']

# tạo column transformer cho các cột thuộc tính liên tục và định danh không thứ tự
custom_transformer = make_column_transformer(('drop', del_cols), (KBinsDiscretizer(strategy='kmeans'), ['goal']),
                                             (KBinsDiscretizer(strategy='uniform'), ['num_days_funding', 'create_to_launch']),
                                             (OneHotEncoder(handle_unknown='ignore'), unorder_cat_cols),
                                             (TfidfVectorizer(strip_accents='unicode', ngram_range=(1,2)), 'name'),
                                             (TfidfVectorizer(strip_accents='unicode', ngram_range=(1,2)), 'blurb'),
                                                 remainder='passthrough')


#Tạo pipeline cho mô hình
full_pipeline = make_pipeline(FunctionTransformer(currencyExchange), FunctionTransformer(colToDatetime),
                          FunctionTransformer(dateCalc), custom_transformer,
                          MLPClassifier(random_state=42, max_iter=3000))

In [None]:
full_pipeline

## Thử nghiệm các mô hình

Thử nghiệm mô hình với các siêu tham số:
- Siêu tham số `hidden_layer_sizes` của `MLPClassifier` với 5 giá trị khác nhau: (2,), (4,), (8,), (16,), (32,)
- Siêu tham số `alpha` với các giá trị e^i với 0 <= i < 5

In [None]:
# tạo danh sách các siêu tham số để thử nghiệm mô hình
layers = [(2 ** x,) for x in range(5, 9)]
alphas = [math.exp(x) for x in range(-1, 6)]

In [None]:
train_errs = []
val_errs = []
best_val_err = float('inf'); best_layer_size = None; best_alpha = None

for layer_size in layers:
    full_pipeline.set_params(mlpclassifier__hidden_layer_sizes=layer_size)
    
    for a in alphas:        
        full_pipeline.set_params(mlpclassifier__alpha=a)
        
        # fit và predict với pipeline sử dụng Tf-idf
        full_pipeline.fit(train_X_df, train_y_sr)
        val_y_pred = full_pipeline.predict(val_X_df)
        
        # ghi lại độ lỗi với các siêu tham số đang xét
        train_err = (1 - full_pipeline.score(train_X_df, train_y_sr)) * 100
        val_err = (val_y_pred != val_y_sr).mean() * 100
        
        if val_err < best_val_err:
            best_val_err = val_err
            best_layer_size = layer_size
            best_alpha = a