# Báo cáo BTL môn Học máy
- Mã lớp: 2021II_INT3405_20 (GV: Trần Quốc Long)
- Sinh viên: Trần Tuấn Anh
- MSSV: 18020149

# Mô tả bài toán

Quora là một nền tảng cho phép mọi người học hỏi lẫn nhau. Trên Quora, mọi người có thể đặt câu hỏi và kết nối với những người khác, những người đóng góp thông tin chi tiết độc đáo và câu trả lời chất lượng. Một thách thức quan trọng là loại bỏ những câu hỏi thiếu chân thành - những câu hỏi được đặt ra dựa trên những tiền đề sai lầm hoặc có ý định đưa ra một tuyên bố hơn là tìm kiếm những câu trả lời hữu ích.

Bài toán đặt ra là phân loại câu hỏi trên quora xem đâu là chân thành hay thiếu chân thành.
- Input: Câu hỏi dưới dạng văn bản
- Output: 0/1 (Yes/No)

# Nội dung bài báo cáo

1. Khảo sát dữ liệu
2. Xử lý dữ liệu
3. Chuẩn bị mô hình huấn luyện
4. Huấn luyện và dự đoán
5. Thử nghiệm và cải thiện
6. Submit test

**Import các module cần thiết**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
import gc
import re
import spacy

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

from nltk.stem import PorterStemmer, SnowballStemmer
from nltk.stem.lancaster import LancasterStemmer

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras import backend as K
from keras.layers import *
from keras.models import *
from keras.initializers import Constant
from keras.utils import plot_model
from keras.optimizers import Adam

from sklearn import metrics
from sklearn.model_selection import train_test_split, KFold, StratifiedKFold
from sklearn.datasets import make_classification

from tqdm.notebook import tqdm
from IPython.core.display import display, HTML
tqdm().pandas()

pd_ctx = pd.option_context('display.max_colwidth', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# 1. Khảo sát dữ liệu

In [None]:
# đọc file dữ liệu để train
TRAIN_FILE = '/kaggle/input/quora-insincere-questions-classification/train.csv'
TEST_FILE = '/kaggle/input/quora-insincere-questions-classification/test.csv'
df = pd.read_csv(TRAIN_FILE)
df.info()

test_df = pd.read_csv(TEST_FILE)
with pd_ctx:
    print("Sincere question")
    display(df[df['target'] == 0].head())
    print("Insincere question")
    display(df[df['target'] == 1].head())

**Kích thước train.csv:**
* Số dòng: 1.31 millions
* Số cột: 3

**Data field**
+ `qid`: mã số của câu hỏi (question identifier)
+ `quesntion_text`: nội dung của câu hỏi cần phân loại (type: text)
+ `target`: nhãn của câu hỏi, câu chứa nội dung toxic có nhãn là 1, ngược lại là 0 (type: int)

Không có dữ liệu nào bất thường (missing, null)

In [None]:
df['word_count']= df.question_text.progress_apply(lambda x: len(x.split()))
data_neg = df[df['target']==0]
data_pos = df[df['target']==1]
statistic = pd.merge(
    data_neg[['word_count']].describe(percentiles=[.8, .9999]), 
    data_pos[['word_count']].describe(percentiles=[.8, .9999]), 
    left_index=True, right_index=True, suffixes=('_sincere', '_insincere')
)
colLabels = statistic.columns
cellText = statistic.round(2).values
rowLabels = statistic.index

fig, axes = plt.subplots(nrows=1, ncols=2)
axes[0] = fig.add_axes([0,0,1,1])
axes[0].bar(['sincere question', 'insincere question'], df.target.value_counts())
for p in axes[0].patches:
    width = p.get_width()
    height = p.get_height()
    percent = height / len(df)
    x, y = p.get_xy() 
    axes[0].annotate(f'{percent:.2%}', (x + width/2, y + height + 0.01*len(df)), ha='center')
axes[1].axis('off')
mpl_table = axes[1].table(cellText = cellText, colLabels=colLabels, rowLabels = rowLabels, bbox=[2, 0, 2, 1.5], )
mpl_table.auto_set_font_size(False)
mpl_table.set_fontsize(14)

**Nhận xét về phân lớp dữ liệu**

Dựa vào biểu đồ trên, ta nhận thấy dữ liệu được chia thành 2 class: 0 (sincere question) và 1 (insincere question)

- class 0 : 1225312 dữ liệu chiếm 93.81%
- class 1 : 80810 dữ liệu chiếm 6.19%

=> Bộ dữ liệu để đào tạo bị mất cân bằng (kết quả negative gấp 15 lần positive)

Tỉ lệ dữ liệu 15:1 thường sẽ dẫn đến ngộ nhận chất lượng mô hình. Khi đó thước đo đánh giá mô hình là độ chính xác (accuracy) có thể đạt được rất cao mà không cần tới mô hình. Ví dụ, một dự báo ngẫu nhiên đưa ra tất cả đều là nhóm đa số thì độ chính xác đã đạt được là 93%. Do đó không nên lựa chọn độ chính xác làm chỉ số đánh giá mô hình để tránh lạc quan sai lầm về chất lượng.

=> Trong phần báo cáo này, mình sẽ sử dụng chỉ số `F1_score` để đánh giá mô hình.

**Nói qua về [F1 score](https://en.wikipedia.org/wiki/F-score):**

`F1_score` là trung bình điều hòa giữa `precision` (độ chính xác) và `recall` (độ bao phủ)

Precision: trong tập tìm được thì bao nhiêu cái (phân loại) đúng.

Recall: trong số các tồn tại, tìm ra được bao nhiêu cái (phân loại).




**Nhận xét độ dài của các câu trong bộ dữ liệu**

- Câu chân thành
        Độ dài chung bình khoảng 12,5 từ. Câu dài nhất là 134 từ.
        80% số câu có ít hơn hoặc bằng 15 từ.
        Hầu như đều có dưới 53 từ.
- Câu không chân thành 
        Độ dài trung bình là 17.3 từ. Câu dài nhát là 64 từ.
        80% số câu ít hơn hoặc bằng 25 từ.
        Hầu như đều có dưới 54 từ.

=> Câu không chân thành có xu hướng dài hơn câu chân thành. Và độ dài của các câu chủ yếu nhỏ hơn 60 ký tự (giá trị này sẽ được dùng sau này)

### Khảo sát các từ xuất hiện nhiều trong từ phân lớp

In [None]:
def cloud(docs, title):
    wordcloud = WordCloud(width=800, height=400, collocations=False, background_color="white").generate(" ".join(docs))
    fig = plt.figure(figsize=(10,7), facecolor='w')
    plt.imshow(wordcloud)
    plt.axis('off')
    plt.title(title, fontsize=25,color='k')
    plt.tight_layout(pad=0)
    plt.show()
cloud(data_neg.question_text, "Sincere question")
cloud(data_pos.question_text, "Insincere question")

**Nhận xét**

- Word Cloud là một kỹ thuật trực quan hóa dữ liệu được sử dụng để biểu diễn dữ liệu văn bản, trong đó kích thước của mỗi từ cho biết tần suất hoặc tầm quan trọng của nó.
- 2 word cloud khá tương tự nhau (khi so sánh về các từ nổi bật)
- Các danh từ riêng xuất hiện nhiều hơn ở câu không chân thành


**Thống kê**

In [None]:
def statistic(df):
    stats = pd.DataFrame();
    stats['question_text'] = df['question_text']
    stats['sp_char_words'] = stats['question_text'].str.findall(r'[^a-zA-Z0-9 ]').str.len()
    stats['num_capital'] = stats['question_text'].progress_map(lambda x: len([c for c in str(x) if c.isupper()]))
    stats['num_numerics'] = stats['question_text'].progress_map(lambda x: sum(c.isdigit() for c in x))
    stats['num_stopwords'] = stats['question_text'].progress_map(lambda x: len([c for c in str(x).lower().split() if c in STOPWORDS]))
    return stats
# df_stat = statistic(df)
# df_stat[['sp_char_words','num_capital', 'num_numerics', 'num_stopwords']].describe()

Nhận xét: Nhìn chung, dữ liệu dạng text chứa khá nhiều yêu tố gây nhiễu (kí tự đặc biệt, kí tự số, chữ hoa chữ thường)

Vì vậy ta cần có bước xử lý các ký tự đặc biệt, stopword (nếu cần)



# 2. Xử lý dữ liệu

Sau khi đánh giá ta thấy dữ liệu còn khá phức tạp và nhiều nhiễu. Để đơn giản hoá dữ liệu ta có thể thực hiện một số bước sau:
- Loại bỏ các công thức toán học, đường dẫn
- Chuẩn hóa các từ viết tắt thành dạng đầy đủ của nó
- Sửa lỗi một số từ đặc biệt, hoặc bị sai chính tả 
- Xóa bỏ các ký tự đặc biệt (chỉ giữ lại số và chữ)

Riêng về stopword, em nhân thấy rằng sau khi bỏ thì khả năng phân loại của mô hình bị giảm xuống, nên phần xử lý dữ liệu em sẽ để nguyên stopword

In [None]:
# dữ liệu để huấn luyện
train = df.sample(frac = 1,random_state=123).reset_index(drop=True) # shuffle dữ liệu

# Để demo nhanh, ở đây mình lấy ra 100 mẫu dữ liệu sample
sample = train.sample(n=100, random_state=123)
with pd_ctx:
    display(sample)

## a. Cleaning data

**`clean_tag()`:** hàm này sẽ loại bỏ các biểu thức toán học, thay thế chúng bằng 'MATH EQUATION' và thay thế các đường liên kết bằng 'URL'. Bởi vì các biểu thức toán học và các đường link thường không mang nhiều ý nghĩa, không những vậy nó còn có thể gây ra nhiễu.

**`contraction_fix()`:** Chuyển những từ viết tắt thành hoàn chỉnh để tránh xảy ra sự hiểu lầm.

**`misspell_fix()`:** Do dữ liệu được thu thập trên Qoura, nên không thể tránh được việc bị sai chính tả. Nên việc sửa các từ bị sai chính tả là cần thiết, mục đích cũng giống với sửa các từ viết tắt. Nhưng ta không thể biết được hết các khả năng sai chính tả được, nên mình sẽ chỉ sửa những từ sai chính tả thường gặp, hoặc thay thế một số từ tối nghĩa thành từ đồng nghĩa với nó.

In [None]:
# Làm sạch câu
contractions= {"i'm": 'i am',"i'm'a": 'i am about to',"i'm'o": 'i am going to',"i've": 'i have',"i'll": 'i will',"i'll've": 'i will have',"i'd": 'i would',"i'd've": 'i would have',"Whatcha": 'What are you',"amn't": 'am not',"ain't": 'are not',"aren't": 'are not',"'cause": 'because',"can't": 'can not',"can't've": 'can not have',"could've": 'could have',"couldn't": 'could not',"couldn't've": 'could not have',"daren't": 'dare not',"daresn't": 'dare not',"dasn't": 'dare not',"didn't": 'did not','didn’t': 'did not',"don't": 'do not','don’t': 'do not',"doesn't": 'does not',"e'er": 'ever',"everyone's": 'everyone is',"finna": 'fixing to',"gimme": 'give me',"gon't": 'go not',"gonna": 'going to',"gotta": 'got to',"hadn't": 'had not',"hadn't've": 'had not have',"hasn't": 'has not',"haven't": 'have not',"he've": 'he have',"he's": 'he is',"he'll": 'he will',"he'll've": 'he will have',"he'd": 'he would',"he'd've": 'he would have',"here's": 'here is',"how're": 'how are',"how'd": 'how did',"how'd'y": 'how do you',"how's": 'how is',"how'll": 'how will',"isn't": 'is not',"it's": 'it is',"'tis": 'it is',"'twas": 'it was',"it'll": 'it will',"it'll've": 'it will have',"it'd": 'it would',"it'd've": 'it would have',"kinda": 'kind of',"let's": 'let us',"luv": 'love',"ma'am": 'madam',"may've": 'may have',"mayn't": 'may not',"might've": 'might have',"mightn't": 'might not',"mightn't've": 'might not have',"must've": 'must have',"mustn't": 'must not',"mustn't've": 'must not have',"needn't": 'need not',"needn't've": 'need not have',"ne'er": 'never',"o'": 'of',"o'clock": 'of the clock',"ol'": 'old',"oughtn't": 'ought not',"oughtn't've": 'ought not have',"o'er": 'over',"shan't": 'shall not',"sha'n't": 'shall not',"shalln't": 'shall not',"shan't've": 'shall not have',"she's": 'she is',"she'll": 'she will',"she'd": 'she would',"she'd've": 'she would have',"should've": 'should have',"shouldn't": 'should not',"shouldn't've": 'should not have',"so've": 'so have',"so's": 'so is',"somebody's": 'somebody is',"someone's": 'someone is',"something's": 'something is',"sux": 'sucks',"that're": 'that are',"that's": 'that is',"that'll": 'that will',"that'd": 'that would',"that'd've": 'that would have',"em": 'them',"there're": 'there are',"there's": 'there is',"there'll": 'there will',"there'd": 'there would',"there'd've": 'there would have',"these're": 'these are',"they're": 'they are',"they've": 'they have',"they'll": 'they will',"they'll've": 'they will have',"they'd": 'they would',"they'd've": 'they would have',"this's": 'this is',"those're": 'those are',"to've": 'to have',"wanna": 'want to',"wasn't": 'was not',"we're": 'we are',"we've": 'we have',"we'll": 'we will',"we'll've": 'we will have',"we'd": 'we would',"we'd've": 'we would have',"weren't": 'were not',"what're": 'what are',"what'd": 'what did',"what've": 'what have',"what's": 'what is',"what'll": 'what will',"what'll've": 'what will have',"when've": 'when have',"when's": 'when is',"where're": 'where are',"where'd": 'where did',"where've": 'where have',"where's": 'where is',"which's": 'which is',"who're": 'who are',"who've": 'who have',"who's": 'who is',"who'll": 'who will',"who'll've": 'who will have',"who'd": 'who would',"who'd've": 'who would have',"why're": 'why are',"why'd": 'why did',"why've": 'why have',"why's": 'why is',"will've": 'will have',"won't": 'will not',"won't've": 'will not have',"would've": 'would have',"wouldn't": 'would not',"wouldn't've": 'would not have',"y'all": 'you all',"y'all're": 'you all are',"y'all've": 'you all have',"y'all'd": 'you all would',"y'all'd've": 'you all would have',"you're": 'you are',"you've": 'you have',"you'll've": 'you shall have',"you'll": 'you will',"you'd": 'you would',"you'd've": 'you would have','jan.': 'january','feb.': 'february','mar.': 'march','apr.': 'april','jun.': 'june','jul.': 'july','aug.': 'august','sep.': 'september','oct.': 'october','nov.': 'november','dec.': 'december','I’m': 'I am','I’m’a': 'I am about to','I’m’o': 'I am going to','I’ve': 'I have','I’ll': 'I will','I’ll’ve': 'I will have','I’d': 'I would','I’d’ve': 'I would have','amn’t': 'am not','ain’t': 'are not','aren’t': 'are not','’cause': 'because','can’t': 'can not','can’t’ve': 'can not have','could’ve': 'could have','couldn’t': 'could not','couldn’t’ve': 'could not have','daren’t': 'dare not','daresn’t': 'dare not','dasn’t': 'dare not','doesn’t': 'does not','e’er': 'ever','everyone’s': 'everyone is','gon’t': 'go not','hadn’t': 'had not','hadn’t’ve': 'had not have','hasn’t': 'has not','haven’t': 'have not','he’ve': 'he have','he’s': 'he is','he’ll': 'he will','he’ll’ve': 'he will have','he’d': 'he would','he’d’ve': 'he would have','here’s': 'here is','how’re': 'how are','how’d': 'how did','how’d’y': 'how do you','how’s': 'how is','how’ll': 'how will','isn’t': 'is not','it’s': 'it is','’tis': 'it is','’twas': 'it was','it’ll': 'it will','it’ll’ve': 'it will have','it’d': 'it would','it’d’ve': 'it would have','let’s': 'let us','ma’am': 'madam','may’ve': 'may have','mayn’t': 'may not','might’ve': 'might have','mightn’t': 'might not','mightn’t’ve': 'might not have','must’ve': 'must have','mustn’t': 'must not','mustn’t’ve': 'must not have','needn’t': 'need not','needn’t’ve': 'need not have','ne’er': 'never','o’': 'of','o’clock': 'of the clock','ol’': 'old','oughtn’t': 'ought not','oughtn’t’ve': 'ought not have','o’er': 'over','shan’t': 'shall not','sha’n’t': 'shall not','shalln’t': 'shall not','shan’t’ve': 'shall not have','she’s': 'she is','she’ll': 'she will','she’d': 'she would','she’d’ve': 'she would have','should’ve': 'should have','shouldn’t': 'should not','shouldn’t’ve': 'should not have','so’ve': 'so have','so’s': 'so is','somebody’s': 'somebody is','someone’s': 'someone is','something’s': 'something is','that’re': 'that are','that’s': 'that is','that’ll': 'that will','that’d': 'that would','that’d’ve': 'that would have','there’re': 'there are','there’s': 'there is','there’ll': 'there will','there’d': 'there would','there’d’ve': 'there would have','these’re': 'these are','they’re': 'they are','they’ve': 'they have','they’ll': 'they will','they’ll’ve': 'they will have','they’d': 'they would','they’d’ve': 'they would have','this’s': 'this is','those’re': 'those are','to’ve': 'to have','wasn’t': 'was not','we’re': 'we are','we’ve': 'we have','we’ll': 'we will','we’ll’ve': 'we will have','we’d': 'we would','we’d’ve': 'we would have','weren’t': 'were not','what’re': 'what are','what’d': 'what did','what’ve': 'what have','what’s': 'what is','what’ll': 'what will','what’ll’ve': 'what will have','when’ve': 'when have','when’s': 'when is','where’re': 'where are','where’d': 'where did','where’ve': 'where have','where’s': 'where is','which’s': 'which is','who’re': 'who are','who’ve': 'who have','who’s': 'who is','who’ll': 'who will','who’ll’ve': 'who will have','who’d': 'who would','who’d’ve': 'who would have','why’re': 'why are','why’d': 'why did','why’ve': 'why have','why’s': 'why is','will’ve': 'will have','won’t': 'will not','won’t’ve': 'will not have','would’ve': 'would have','wouldn’t': 'would not','wouldn’t’ve': 'would not have','y’all': 'you all','y’all’re': 'you all are','y’all’ve': 'you all have','y’all’d': 'you all would','y’all’d’ve': 'you all would have','you’re': 'you are','you’ve': 'you have','you’ll’ve': 'you shall have','you’ll': 'you will','you’d': 'you would','you’d’ve': 'you would have'}
missing_spell = {'colour': 'color', 'centre': 'center', 'favourite': 'favorite', 'travelling': 'traveling', 'counselling': 'counseling', 'theatre': 'theater', 'cancelled': 'canceled', 'labour': 'labor', 'organisation': 'organization', 'wwii': 'world war 2', 'citicise': 'criticize', 'youtu ': 'youtube ', 'Qoura': 'Quora', 'sallary': 'salary', 'Whta': 'What', 'narcisist': 'narcissist', 'howdo': 'how do', 'whatare': 'what are', 'howcan': 'how can', 'howmuch': 'how much', 'howmany': 'how many', 'whydo': 'why do', 'doI': 'do I', 'theBest': 'the best', 'howdoes': 'how does', 'mastrubation': 'masturbation', 'mastrubate': 'masturbate', "mastrubating": 'masturbating', 'pennis': 'penis', 'Etherium': 'bitcoin', 'narcissit': 'narcissist', 'bigdata': 'big data', '2k17': '2017', '2k18': '2018', 'qouta': 'quota', 'exboyfriend': 'ex boyfriend', 'airhostess': 'air hostess', "whst": 'what', 'watsapp': 'whatsapp', 'demonitisation': 'demonetization', 'demonitization': 'demonetization', 'demonetisation': 'demonetization','electroneum':'bitcoin','nanodegree':'degree','hotstar':'star','dream11':'dream','ftre':'fire','tensorflow':'framework','unocoin':'bitcoin','lnmiit':'limit','unacademy':'academy','altcoin':'bitcoin','altcoins':'bitcoin','litecoin':'bitcoin','coinbase':'bitcoin','cryptocurency':'cryptocurrency','simpliv':'simple','quoras':'quora','schizoids':'psychopath','remainers':'remainder','twinflame':'soulmate','quorans':'quora','brexit':'demonetized','iiest':'institute','dceu':'comics','pessat':'exam','uceed':'college','bhakts':'devotee','boruto':'anime','cryptocoin':'bitcoin','blockchains':'blockchain','fiancee':'fiance','redmi':'smartphone','oneplus':'smartphone','qoura':'quora','deepmind':'framework','ryzen':'cpu','whattsapp':'whatsapp','undertale':'adventure','zenfone':'smartphone','cryptocurencies':'cryptocurrencies','koinex':'bitcoin','zebpay':'bitcoin','binance':'bitcoin','whtsapp':'whatsapp','reactjs':'framework','bittrex':'bitcoin','bitconnect':'bitcoin','bitfinex':'bitcoin','yourquote':'your quote','whyis':'why is','jiophone':'smartphone','dogecoin':'bitcoin','onecoin':'bitcoin','poloniex':'bitcoin','7700k':'cpu','angular2':'framework','segwit2x':'bitcoin','hashflare':'bitcoin','940mx':'gpu','openai':'framework','hashflare':'bitcoin','1050ti':'gpu','nearbuy':'near buy','freebitco':'bitcoin','antminer':'bitcoin','filecoin':'bitcoin','whatapp':'whatsapp','empowr':'empower','1080ti':'gpu','crytocurrency':'cryptocurrency','8700k':'cpu','whatsaap':'whatsapp','g4560':'cpu','payymoney':'pay money','fuckboys':'fuck boys','intenship':'internship','zcash':'bitcoin','demonatisation':'demonetization','narcicist':'narcissist','mastuburation':'masturbation','trignometric':'trigonometric','cryptocurreny':'cryptocurrency','howdid':'how did','crytocurrencies':'cryptocurrencies','phycopath':'psychopath','bytecoin':'bitcoin','possesiveness':'possessiveness','scollege':'college','humanties':'humanities','altacoin':'bitcoin','demonitised':'demonetized','brasília':'brazilia','accolite':'accolyte','econimics':'economics','varrier':'warrier','quroa':'quora','statergy':'strategy','langague':'language','splatoon':'game','7600k':'cpu','gate2018':'gate 2018','in2018':'in 2018','narcassist':'narcissist','jiocoin':'bitcoin','hnlu':'hulu','7300hq':'cpu','weatern':'western','interledger':'blockchain','deplation':'deflation', 'cryptocurrencies':'cryptocurrency', 'bitcoin':'blockchain cryptocurrency'}

def clean_tag(x):
    if '[math]' in x:
        x = re.sub('\[math\].*?math\]', 'math equation', x) #replacing with [MATH EQUATION]
    if 'http' in x or 'www' in x:
        x = re.sub('(?:(?:https?|ftp):\/\/)?[\w/\-?=%.]+\.[\w/\-?=%.]+', 'url', x) #replacing with [url]
    return x

def contraction_fix(word):
    try:
        a=contractions[word]
    except KeyError:
        a=word
    return a

def misspell_fix(word):
    try:
        a=missing_spell[word]
    except KeyError:
        a=word
    return a


def clean_text(text):
    text = clean_tag(text) # thay thế các tag thành từ cố định
    text = " ".join([contraction_fix(w) for w in text.split()]) # sửa từ viết tắt
    text = " ".join([misspell_fix(w) for w in text.split()]) # sửa từ viết sai chính tả
    text = re.sub(r'[^a-zA-Z0-9]', ' ', text) # Loại bỏ các ký tự không phải chữ và số
#     text = text.lower()
    return text

def apply_clean_text(question_text):
    tmp = pd.DataFrame()
    tmp['question_text'] = question_text;
    tmp['clean'] = tmp.question_text.progress_map(clean_text)
    with pd_ctx:
        display(tmp)
    return tmp['clean']
        
sample['clean'] = apply_clean_text(sample.question_text)

## b. Mã hóa cột văn bản và chuyển đổi chúng thành vectơ

Do trường `question_text` là dạng văn bản, nên để dễ huấn luyện ta cần mã hóa để chuyển thành vecto của các số nguyên.

Tokenize là quá trình chia nhỏ văn bản thành các phần nhỏ hơn được gọi là token. Mỗi token sẽ biểu diễn 1 từ trong câu.

Module `keras.Tokenizer` sẽ giúp ta thực hiện viêc tokenize.

Bản chất nó sẽ duyệt qua các từ trong toàn bộ văn bản đê xây dựng lên 1 bộ từ điển. Sau đó sẽ sắp xếp các từ theo tần xuất xuất hiện của nó. Từ xuất hiện càng nhiều thì có index càng thấp. Sau đó sẽ sử dụng từ điển này để transform từng câu ở dạng text sang dạng sequence của số.

### Tạo từ điển

**`create_tokenizer()`:** sẽ tạo ra một từ điển từ tập văn bản truyền vào.

`OOV_TOKEN`: là token cho các từ mà không xuất hiện trong tập từ điển.

`word_index` là `dict` chứa ánh xạ của 1 từ sang index của nó

index càng nhỏ => tần suất xuất hiện càng nhiều

In [None]:
OOV_TOKEN = '<OOV>' # out of vocab token: thay thế các từ không có trong từ điển thành từ mà ta chọn
def create_tokenizer(docs):
    tokenizer = Tokenizer(oov_token=OOV_TOKEN)
    tokenizer.fit_on_texts(list(docs))
    print("Size of vocabulary: ", len(tokenizer.word_index))
    return tokenizer
tokenizer = create_tokenizer(sample['clean'])
print("20 từ đầu tiên trong từ điển:")
list(tokenizer.word_index.items())[:20]

### Sử dụng từ điển chuyển text thành sequence

Như đã nói ở bên trên, phần này sẽ chuyển các câu text thành các chuỗi số. Mục đích là để cho máy có thể hiểu và dễ dàng học được thôi.

In [None]:
word_sequences = tokenizer.texts_to_sequences(sample['clean'])
# Độ dài của mỗi chuỗi
print("Length of 20 first word_sequences:")
print(list(map(lambda x: len(x) ,word_sequences[:20])))

print("\n20 first word_sequences:")
for sequence in word_sequences[:20]:
    print(sequence)

Dễ dàng thấy độ dài của mỗi chuỗi không bằng nhau (chuỗi dài, chuỗi ngắn) => sẽ gây khó khắn cho quá trình huấn luyện mô hình.

Ta chuẩn hóa tất cả các input về cùng một độ dài cố định bằng ký thuật padding và truncating 

- `padding`: nếu chuỗi bị ngắn thì thực hiện padding bằng các thêm 0 vào đăng sau chuỗi.
    
- `truncating`: nếu chuỗi bị dài thì ta làm ngắn bằng cách bỏ đi phần dư ra ở cuối chuỗi.

Về phần padding và truncating ta sẽ làm các chuỗi sẽ có cùng một độ dài cố đinh, nhưng bao nhiêu thì hợp lý ?

Nhớ lại phần thống kê bên trên, ta thấy rằng có 99,99% dữ liệu có dưới 54 từ. (0.01% còn lại tương ứng với khoảng 100 bản ghi)

Để an toàn thì mình sẽ chọn chiều dài tối đa là 60 => đảm bảo không ảnh hưởng đến quá trình trainning.



In [None]:
MAX_SENTENCE_LENGTH = 60 # Độ dài tối đa của chuỗi
PADDING_TYPE = 'post' # kiểu padding, post = cuối chuỗi
TRUNCATE_TYPE = 'post'# kiểu truncating, post = cuối chuỗi
def create_sequence(tokenizer, docs):
    word_sequeces = tokenizer.texts_to_sequences(docs)
    padded_word_sequences = pad_sequences(word_sequeces, maxlen=MAX_SENTENCE_LENGTH, padding=PADDING_TYPE, truncating=TRUNCATE_TYPE)
    return padded_word_sequences
padded_sequences = create_sequence(tokenizer, sample['clean'])

    
# Độ dài của mỗi chuỗi
print("Kích thước mảng:",padded_sequences.shape)

print("Length of 20 first word_sequences:")
print(list(map(lambda x: len(x) ,padded_sequences[:20])))

print("\n10 first word_sequences:")
for sequence in padded_sequences[:10]:
    print(sequence)


Sau bước này, độ dài của tất cả các chuỗi đều bằng nhau (len = 60)
Về cơ bản thì phần tiền xứ lý dữ liệu đã xong.

**Áp dụng phần tiền xử lý cho dữ liệu**

In [None]:
# Thực hiện làm sạch cho dữ liêu huấn luyện và dữ liêu test để chuẩn bị qua quá trình train
trainY = train.target

print("Clean train question")
trainX_text = apply_clean_text(train.question_text)
print("Clean test question")
testX_text = apply_clean_text(test_df.question_text)

## Chia thành dữ liệu thành 2 tập train và valid

Chia dữ liêu train thành 2 tập có tỉ lệ 2 class bằng với ban đầu.
- 80% để huấn luyện
- 20% để xác thực 

In [None]:
# Chia thành tập train và validate
X_train, X_val, y_train, y_val = train_test_split(trainX_text, trainY, test_size=0.2, random_state=123)

# 3. Chuẩn bị mô hình huấn luyện

## Đầu tiên mình sẽ tìm hiểu một số khái niệm:

`One-hot vector`: Đây là kỹ thuật biểu diễn từ bằng vector có số chiều bằng số từ vựng. Vector này có duy nhất một chiều có giá trị bằng 1 ứng với từ đang biểu diễn, các vị trí khác có giá trị 0. Ví dụ [1,0,0,0…0]. Biểu diễn này giải quyết được mẫu thuẫn tiềm năng của biểu diễn bằng số. Tuy nhiên, nhược điểm của phương pháp này là số chiều vector rất lớn, ảnh hưởng đến quá trình xử lý cũng như lưu trữ.

`Embedding`: Do số lượng đặc trưng (từ trong từ điển) là khá lớn (nhược điểm của one-hot vector), nên người ta sinh ra kỹ thuật Embedding để giảm số chiều của không gian đặc trưng. Cụ thể là mỗi từ sẽ được biểu diễn bằng một vecto có số chiều xác định.

Có 2 cách để biểu diễn embedding:
- Sử dụng vector ngẫu nhiên: Với cách này, mỗi từ được biểu thị bằng một vector có giá trị của các chiều là ngẫu nhiên. Do đó, số lượng chiều chúng ta cần sử dụng ít hơn nhiều so với sử dụng one-hot. Ví dụ: nếu bạn có 1 triệu từ, bạn có thể biểu thị tất cả các từ đó trong không gian 3D, mỗi từ là một điểm trong không gian 3 chiều.
- Sử dụng Word embedding: Đây được coi là cách tốt nhất để thể hiện các từ trong văn bản. Kỹ thuật này cũng gán mỗi từ với một vector, nhưng ưu việt hơn kỹ thuật vector ngẫu nhiên vì các vector này được tính toán để biểu diễn quan hệ tương đồng giữa các từ

`SpatialDropout1D`: mỗi bước khi train model thì ngẫu nhiên (1-p%) các node bị loại bỏ nên model không thể phụ thuộc vào bất kì node nào của layer trước mà thay vào đó có xu hướng trải đều weight. Do đó mô hình sẽ có thể gây ra những đột biết, có thể thoát ra các lỗi mòn để đột phá. Dó đó có thể hạn chế được sự overfitting.

`RNN` `(Mạng nơ ron truy hồi)`: ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin từ từ những bước tính toán xử lý trước để dựa vào nó có thể đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại, Tuy nhiên nhược điểm là nó không xử lí hiệu quả được các thông tin dài hạn (vanishing gradient)

Để đối phó với vấn đề của mạng`RNN` truyền thống, người ta sử dụng Gated Recurrent Unit (GRU) và Long short term memory (LSTM)

`LSTM/GRU`: LSTM không khác mô hình truyền thống của RNN,nhưng chúng sử dụng hàm tính toán khác ở các trạng thái ẩn. GRU là một phiên bản ít phức tạp hơn LSTM.

## Để giải quyết bài toán hiện tại, mình sẽ kết hợp các layer trên thành một mô hình như sau:

![model.png](attachment:12c8c1ee-6ef2-4993-a6fd-2e701c3fa3e3.png)

In [None]:
EMBEDDING_DIM = 300
learning_rate = 0.001

def createModel_bidirectional_LSTM_GRU(features,embedding_matrix = None):
    output_bias = Constant(np.log([len(data_pos)/len(data_neg)])) # Khởi tạo gia trị đầu cho bias
    
    x_input = Input(shape=(MAX_SENTENCE_LENGTH))
    if not(embedding_matrix is None):
        embedding = Embedding(features, EMBEDDING_DIM, input_length=MAX_SENTENCE_LENGTH, weights=[embedding_matrix], trainable=False)(x_input)
    else:
        embedding = Embedding(features, EMBEDDING_DIM, input_length=MAX_SENTENCE_LENGTH)(x_input)
    x = SpatialDropout1D(0.2)(embedding)
    
    lstm = Bidirectional(LSTM(256, return_sequences=True))(x)
    gru = Bidirectional(GRU(128, return_sequences=True))(lstm)
    
    x = Concatenate()([lstm, gru])
    x = GlobalAveragePooling1D()(x)
    
    x_output = Dense(1, activation='sigmoid', bias_initializer=output_bias)(x)
    
    model = Model(inputs=x_input, outputs=x_output)
    opt = Adam(lr=learning_rate)
    model.compile(loss='binary_crossentropy', optimizer= opt, metrics=[f1_m])
    return model


# Sử dụng hàm này để tính f1_score trong khi train model
# không biết vì sao e dùng metrics.f1_score lại bị lỗi :(
def f1_m(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
    predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
    
    recall = true_positives / (possible_positives + K.epsilon())
    precision = true_positives / (predicted_positives + K.epsilon())
    
    return 2*((precision*recall)/(precision+recall+K.epsilon()))

## Threshold

Bình thường, đối với phân lớp nhị phân kết quả dự đoán sẽ thuộc (0,1), threshold = 0.5 .

Nếu threshold < 0.5 thì phân lớp là negative, ngược lại thì là positive

Nhưng trong một số trường hợp, giá trị 0.5 này có thể chưa phải là tốt nhất. 

Do đó, ta thử điều chỉnh giá trị threshold này để tìm ra giá trị nào mà cho f1_score là tốt nhất => best_threshold

In [None]:
def best_threshold(y_train,train_preds):
    tmp = [0,0,0] # idx, cur, max
    delta = 0
    for tmp[0] in tqdm(np.arange(0.1, 0.9, 0.01)):
        tmp[1] = metrics.f1_score(y_train, np.array(train_preds)>tmp[0])
        if tmp[1] > tmp[2]:
            delta = tmp[0]
            tmp[2] = tmp[1]
    return delta, tmp[2] # threshold, f1_score

# 4. Huấn luyện và dự đoán



Tận dụng TPU của kaggle để giảm thời gian huấn luyện.

In [None]:
# khởi tạo strategy sử dụng TPU để train model => tăng tốc độ train
strategy = None
try:
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect() # TPU detection
    strategy = tf.distribute.TPUStrategy(tpu)
    print('Use TPU')
except ValueError:
    if len(tf.config.list_physical_devices('GPU')) > 0:
        strategy = tf.distribute.MirroredStrategy()
        print('Use GPU')
    else:
        strategy = tf.distribute.get_strategy()
        print('Use CPU')

`class_weight`: Nhận thấy tỉ lệ dữ liệu class 0: class 1 = 15:1 (dữ liệu bị lệch), để giảm thiểu ảnh hưởng thì mình sử dụng class_weight để cân bằng trọng số cho hàm mất mát trong khi huấn luyện. 
Sau khi thử nghiệm với nhiều class_weight khác nhau, e thấy chọn tỉ lệ 1:3 mang lại hiệu quả ổn nhất.

**Early Stop Callback:**

Nói một cách ngắn gọn là Early Stop Callback dùng để dừng quá trình train sớm, sau khi mà thông số chúng ta quan sát (có thể là validation accuracy hay validaiton loss) không “khá lên” sau một vài epochs.

![early-stopping.png](attachment:2b38866d-87c3-44a1-84b3-8cfee66059ce.png)

Đây cũng là một kỹ thuật hay được dùng để tránh overfit. Không phải cứ train với nhiều epochs là tốt, chúng ta train nhiều quá mà không thấy val_loss giảm nữa hoặc val_acc tăng nữa mà vẫn tiếp tục train thì sẽ dẫn đến có khả năng overfit.

**Reduce Learning rate:**

Khi bắt đầu training, em sẽ chọn learning rate lớn một xíu để tăng tốc quá trình train. Sau đó sẽ giảm tốc độ học đi nếu sau một số epochs, độ lỗi trên tập validation không giảm

In [None]:
class_weight = {
    0: 1,
    1: 3,
}
batch_size = 1024
n_epochs = 30

early_stopping=tf.keras.callbacks.EarlyStopping(
                                                monitor="val_loss",
                                                patience=3,
                                                mode="min",
                                                restore_best_weights=True
                                              )
### Giảm learning rate khi model không được cải thiên (càng học càng ngu)
reduce_lr=tf.keras.callbacks.ReduceLROnPlateau(
                                                monitor="val_loss",
                                                factor=0.2,
                                                patience=2,
                                                verbose=1,
                                                mode="auto"
                                            )

my_callbacks=[early_stopping,reduce_lr]
def train_model_and_predict(X_train, y_train, X_val, y_val, X_test, embedding_vec=None):
    # tokenize and convert to sequence
    print("Create vocab...")
    tokenizer = create_tokenizer(X_train)
    print("Create sequences...")
    X_train_seq = create_sequence(tokenizer, X_train)
    X_val_seq = create_sequence(tokenizer, X_val)
    X_test_seq = create_sequence(tokenizer, X_test)
    embedding_matrix = None
    if not(embedding_vec is None):
        embedding_matrix = load_embedding(embedding_vec, tokenizer.word_index)
    
    # build model and training
    model = createModel_bidirectional_LSTM_GRU(len(tokenizer.word_index)+1, embedding_matrix)
    model.fit(X_train_seq, y_train, batch_size=batch_size, epochs=n_epochs, validation_data=(X_val_seq, y_val), class_weight=class_weight, callbacks=my_callbacks)
    
    # get f1_score, threshold
    val_pred = model.predict(X_val_seq, verbose=1, batch_size=256)
    threshold, f1_score = best_threshold(y_val, val_pred)
    
    test_pred = model.predict(X_test_seq, verbose=1, batch_size=256)
    
    return threshold, f1_score, val_pred, test_pred

# 5. Thử nghiệm và cải thiện

## Train model without Pretrained Embeddings
Thử nghiệm với mô hình với lớp embedding sẽ không sử dụng bất kì pretrain word embeddings nào (mô hình học lại từ đầu)

Khi đó phần trọng số của layer embedding sẽ được khởi tạo ngẫu nhiên, sau đó được cải thiện từ từ trong quá trình huấn luyện

In [None]:
# train
with strategy.scope():
    threshold, f1_score, val_pred, test_pred = train_model_and_predict(X_train, y_train, X_val, y_val, testX_text)
print(metrics.classification_report(y_val,(val_pred>threshold).astype(int)))

Mô hình đã nhận diện được hầu hết các câu negative.

Tuy nhiên đối với các câu positive thì độ chính xác chưa được cao lắm, đồng thời cũng không thực sự nhạy (recall ~ 0.7). Dẫn đến F1 score chỉ được 0.65

## Train model with Pretrained Embeddings
Thử nghiệm với mô hình kết hợp các word embeddings được pretained

Ta xẽ xem xét các tập trọng số của embedding được trainning sẵn có cải thiện mô hình không.

Phần này ta sẽ thử qua các embedding sau:
- GloVe embedding
- Paragram embedding
- Wiki-news embedding

### Đọc file embeddings

Các file embedding có dạng text, mỗi dòng chứa 1 word và kèm sau đó là 1 vector tương ứng

Ta cần lấy các word có trong từ điển kèm với vecto tương ứng để tạo thành 1 dict để có thể tra cứu nhanh các vecto tương ứng với các từ



In [None]:
# tách từ và vecto tương ứng với nó
def get_coefs(word, *arr): 
    return word, np.asarray(arr, dtype='float32')
# lấy số dòng của file embeddings 
def get_lines_count(file_name): 
    return sum(1 for _ in open(file_name, encoding="utf8", errors='ignore'))
# chuyển file embeddigns thành dict
def load_vec(file_name): 
    return dict(
        get_coefs(*o.split(" ")) 
            for o in tqdm(open(
                file_name, encoding="utf8", errors='ignore'), 
                total=get_lines_count(file_name)
            ) if len(o) > 100
    )

Ta cần tạo một mảng chưa weight của các từ tương ứng với `tokenizer.word_index`

Nhận thấy các từ trong từ điển có khả năng không dó trong word embeddings. 

=> Để hiệu quả nhất thì với mỗi từ mà ta không tìm thấy trong word embeddings thì ta sẽ thử biến đổi từ sao cho tìm được vecto gần nó nhất. Bởi vì như vậy chắc chắn sẽ tốt hơn là không có thông tin gì

Để biến đổi từ thì ta sẽ sử dụng một số ký thuật sau:
- Chuyển thành chữ viết hoa
- Chuyển thành chữ thường
- Chuyển thành chữ hoa
- Sử dụng các thư viện để stem từ (cắt đi một phần kí tự ở cuối từ)

Chiến thuật là tìm được càng nhiều từ càng tốt.

In [None]:
EMBEDDING_DIM = 300 # chọn số chiều của vecto embedding là 300

ps = PorterStemmer()
lc = LancasterStemmer()
sb = SnowballStemmer('english')

def load_embedding(word2vec, word2index):
    oov_count = 0 # Số lượng từ không tìm thấy vecto embeddings
    vocab_count = 0 # Số lượng từ có vecto embeddings
    vocab_size = len(word2index)
    
    embedding_weights = np.zeros((vocab_size+1, EMBEDDING_DIM)) # khởi tạo trọng số weight = 0
    unknown_vector = np.zeros((EMBEDDING_DIM,), dtype=np.float32) - 1
    unknown_words = []

    # Tìm kiếm từng từ trong embeddings, nếu không thấy thì lần lượt thực hiện các kỹ thuật biến đổi từ để tìm ra từ gần nghĩa.
    # => hi vọng embeddings cho trước phủ được càng nhiều từ càng tốt.
    for key, i in tqdm(word2index.items()):
        word = key
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue

        word = key.capitalize()       
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
        
        word = key.upper()       
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
        
        word = key.lower()       
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
        
        # PorterStemmer ("python","pythoner","pythoning","pythoned" => "python")
        word = ps.stem(key)        
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
        
        # LancasterStemmer
        word = lc.stem(key)        
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
            
        # SnowballStemmer (connection, connections, connective, connected, and connecting => connect)
        word = sb.stem(key)        
        if word in word2vec:
            embedding_weights[i] = word2vec[word]
            continue
            
        unknown_words.append(key)
            
        embedding_weights[i] = unknown_vector

    print('Top 10 Null word embeddings: ')
    print(unknown_words[:10])
#      % np.sum(np.sum(embedding_weights, axis=1) == -1 * EMBEDDING_DIM)
    print('\nNull word embeddings: %d' % len(unknown_words))
    print("There are {:.2f}% word out of embedding file".format(100*len(unknown_words)/vocab_size))
    return embedding_weights

**1. GloVe embeddings**

GloVe là viết tắt của global vectors, một dự án mã nguồn mở của Stanford nhằm tạo ra các véc tơ biểu diễn cho các từ. 

In [None]:
GLOVE_FILE = 'glove.840B.300d/glove.840B.300d.txt'
!unzip -n /kaggle/input/quora-insincere-questions-classification/embeddings.zip {GLOVE_FILE} -d .
print('loading glove_vec')
glove_vec = load_vec(GLOVE_FILE)

In [None]:
with strategy.scope():
    glove_threshold, glove_f1_score, glove_val_pred, glove_test_pred = train_model_and_predict(X_train, y_train, X_val, y_val, testX_text, glove_vec)
print(metrics.classification_report(y_val,(glove_val_pred>glove_threshold).astype(int)))

Sử dụng GloVe embedding đã cải thiện được hiệu quả của model, F1_score tăng rõ rệt (từ 0.65 lên 0.69) so với khi không sử dụng.

Hiệu năng được cải thiện không nằm ngoài dự đoán do việc sử dụng trọng số từ file embedding nó giúp các từ gần nghĩa với nhau sẽ có biểu diễn tương tự nhau => tăng khả năng đọc hiểu của model.


In [None]:
# Xóa để giải phóng bộ nhớ
del glove_vec
gc.collect()

**2. Paragram embeddings**

Tiếp tục thử nghiệm với một embedding khác

In [None]:
PARA_FILE = 'paragram_300_sl999/paragram_300_sl999.txt'
!unzip -n /kaggle/input/quora-insincere-questions-classification/embeddings.zip {PARA_FILE} -d .
print('loading para_vec')
para_vec = load_vec(PARA_FILE)

In [None]:
with strategy.scope():
    para_threshold, para_f1_score, para_val_pred, para_test_pred = train_model_and_predict(X_train, y_train, X_val, y_val, testX_text, para_vec)
print(metrics.classification_report(y_val,(para_val_pred>para_threshold).astype(int)))

Với paragram embedding, ta thấy nó bao phủ được nhiều từ vựng hơn so với GloVe (GloVe ~ 81%, paragram ~ 83%)

Tuy nhiên F1_score lại bị giảm so với GloVe, nhưng vẫn hiệu quả hơn so với khi không sử dụng pretrain.

In [None]:
# Xóa để giải phóng bộ nhớ
del para_vec
gc.collect()

**3. Wiki-news embeddings**

Tiếp tục thử nghiệm với wiki-news

In [None]:
WIKI_FILE = 'wiki-news-300d-1M/wiki-news-300d-1M.vec'
!unzip -n /kaggle/input/quora-insincere-questions-classification/embeddings.zip {WIKI_FILE} -d .
print('loading wiki_vec')
wiki_vec = load_vec(WIKI_FILE)

In [None]:
with strategy.scope():
    wiki_threshold, wiki_f1_score, wiki_val_pred, wiki_test_pred = train_model_and_predict(X_train, y_train, X_val, y_val, testX_text, wiki_vec)
print(metrics.classification_report(y_val,(wiki_val_pred>wiki_threshold).astype(int)))

 Sử dụng wiki-news embeddings, ta thấy số lượng từ không năm trong file này tăng nhiều hơn so với GloVe, nhưng bất hiệu năng của mô hình vẫn xấp xỉ với GloVe (F1_score ~ 0.69)

In [None]:
# Xóa để giải phóng bộ nhớ
del wiki_vec
gc.collect()

### Stack Models Prediction

Tổng kết lại thì có thể thấy được rằng hiệu năng của model với các ma trận embeddings Glove, Paragram và Wiki-news khá tương đồng với nhau, cả về độ phủ, cả về f1_score và những yếu tố khác.

Tuy nhiên tại sao chúng ta không kết hợp lại các kết quả của từ mô hình bên trên, rồi đưa ra kết quả cuối cùng.

Ta sẽ lấy kết quả trung bình của 3 lần huấn luyện bên trên.

In [None]:
val_prod = np.zeros((len(X_val),), dtype=np.float32)

val_prod += 1/3 * np.squeeze(glove_val_pred)
val_prod += 1/3 * np.squeeze(para_val_pred)
val_prod += 1/3 *np.squeeze(wiki_val_pred)
threshold_global, f1_global = best_threshold(y_val, val_prod)
print(metrics.classification_report(y_val,(val_prod>threshold_global).astype(int)))

Kết quả được cải thiện nhẹ, F1_score tăng lên gần 0.7

# 6. Submit test

In [None]:
pred_prob = np.zeros((len(testX_text),), dtype=np.float32)
pred_prob += 1/3 * np.squeeze(glove_test_pred)
pred_prob += 1/3 * np.squeeze(para_test_pred)
pred_prob += 1/3 * np.squeeze(wiki_test_pred)
y_test_pre=((pred_prob>threshold_global).astype(int))

## Creating the submission File
submit = pd.DataFrame()
submit["qid"]=test_df.qid
submit["prediction"]=y_test_pre
submit.to_csv("submission.csv",index=False)