# 4. Building a "fake news" classifier

Anda akan menerapkan dasar-dasar apa yang telah Anda pelajari bersama dengan beberapa *supervised machine learning* untuk membangun detektor **"fake news/berita palsu"**. Anda akan mulai dengan mempelajari dasar-dasar *supervised machine learning*, dan kemudian bergerak maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi dan mengklasifikasikan artikel berita palsu.

## Classifying fake news using supervised learning with NLP

### What is supervised learning?

* Bentuk dari machine learning
  * Masalah memiliki training data yang telah ditentukan sebelumnya
  * Data ini memiliki label (atau hasil) yang model Anda ingin pelajari
  * Masalah klasifikasi
  * Tujuan: Membuat hipotesis yang baik tentang spesies berdasarkan fitur geometris
  
<img src="datasets/iris-data.png" width=500px height=500px align=left />

### Supervised learning with NLP

* Perlu menggunakan bahasa alih-alih fitur geometris
* **scikit-learn**: Powerful open-source library
* Bagaimana cara membuat data pembelajaran yang diawasi (*supervised learning*) dari teks?
  * Gunakan fitur `bag-of-words` atau `tf-idf` sebagai fitur

### IMDB Movie Dataset

* Goal: Memprediksi genre film berdasarkan ringkasan plot
* Fitur Categorikal yang dihasilkan menggunakan preprocessing

<img src="datasets/imdb-datasets.png" width=500px height=500px align=left />

### Supervised learning steps

* Mengumpulkan dan preprocess data
* Tentukan label (Contoh: Genre film)
* Membagi data menjadi training dan test sets
* Ekstrak fitur dari teks untuk membantu memprediksi label
  * Bag-of-words vektor dibangun menjadi scikit-learn
* Mengevaluasi model yang sudah di training menggunakan set test

### Fitur apa yang mungkin?

Berikut ini merupakan fitur yang mungkin untuk masalah klasifikasi teks:

* Jumlah kata dalam dokumen.
* Specific named entities.
* Language.

### Training and testing

Dataset apa yang dibutuhkan untuk pembelajaran yang diawasi?

* **training dan testing data**.

## Building word count vectors with scikit-learn

### Predicting movie genre

* Dataset terdiri dari plot film dan genre yang sesuai
* Goal: Buat vektor bag-of-word untuk plot film
  * Bisakah kita memprediksi genre berdasarkan kata-kata yang digunakan dalam ringkasan plot?

### Count Vectorizer with Python

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

df = ... # Load data into DataFrame
y = df['Sci-Fi']
X_train, X_test, y_train, y_test = train_test_split( df['plot'], y, test_size=0.33, random_state=53)
count_vectorizer = CountVectorizer(stop_words='english')
count_train = count_vectorizer.fit_transform(X_train.values)
count_test = count_vectorizer.transform(X_test.values)
```

### CountVectorizer for text classification

Sudah waktunya untuk mulai membangun *text classifier* Anda! [Data](https://s3.amazonaws.com/assets.datacamp.com/production/course_3629/fake_or_real_news.csv) telah dimuat ke dalam DataFrame yang disebut `df`.

Dalam latihan ini, Anda akan menggunakan pandas bersama scikit-learn untuk membuat *sparse text vectorizer* yang dapat Anda gunakan untuk melatih dan menguji model sederhana supervised. Untuk memulai, Anda akan menyiapkan `CountVectorizer` dan menyelidiki beberapa fitur-fiturnya.

In [1]:
import pandas as pd

df = pd.read_csv("datasets/fake_or_real_news.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,title,text,label
0,8476,You Can Smell Hillary’s Fear,"Daniel Greenfield, a Shillman Journalism Fello...",FAKE
1,10294,Watch The Exact Moment Paul Ryan Committed Pol...,Google Pinterest Digg Linkedin Reddit Stumbleu...,FAKE
2,3608,Kerry to go to Paris in gesture of sympathy,U.S. Secretary of State John F. Kerry said Mon...,REAL
3,10142,Bernie supporters on Twitter erupt in anger ag...,"— Kaydee King (@KaydeeKing) November 9, 2016 T...",FAKE
4,875,The Battle of New York: Why This Primary Matters,It's primary day in New York and front-runners...,REAL


In [2]:
# Import the necessary modules
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

# Create a series to store the labels: y
y = df.label

# Create training and test sets
X_train, X_test, y_train, y_test = train_test_split(df["text"], y, test_size=0.33, random_state=53)

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = CountVectorizer(stop_words="english")

# Transform the training data using only the 'text' column values: count_train 
count_train = count_vectorizer.fit_transform(X_train.values)

# Transform the test data using only the 'text' column values: count_test 
count_test = count_vectorizer.transform(X_test.values)

# Print the first 10 features of the count_vectorizer
print(count_vectorizer.get_feature_names()[:10])

['00', '000', '0000', '00000031', '000035', '00006', '0001', '0001pt', '000ft', '000km']


### TfidfVectorizer for text classification

Mirip dengan `CountVectorizer` yang dibuat dalam latihan sebelumnya, Anda akan bekerja membuat vektor tf-idf untuk dokumen Anda. Anda akan mengatur `TfidfVectorizer` dan menyelidiki beberapa fitur-fiturnya.

In [3]:
# Import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = TfidfVectorizer(stop_words="english", max_df=0.7)

# Transform the training data: tfidf_train 
tfidf_train = tfidf_vectorizer.fit_transform(X_train.values)

# Transform the test data: tfidf_test 
tfidf_test = tfidf_vectorizer.transform(X_test.values)

# Print the first 10 features
print(tfidf_vectorizer.get_feature_names()[:10])

# Print the first 5 vectors of the tfidf training data
print(tfidf_train.A[:5])

['00', '000', '0000', '00000031', '000035', '00006', '0001', '0001pt', '000ft', '000km']
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


### Inspecting the vectors

Untuk mendapatkan ide yang lebih baik tentang cara kerja vektor, Anda akan menyelidikinya dengan mengonversinya menjadi `pandas` DataFrames.

Di sini, Anda akan menggunakan struktur data yang sama yang Anda buat dalam dua latihan sebelumnya ( `count_train`, `count_vectorizer`, `tfidf_train`, `tfidf_vectorizer` ).

In [None]:
# Create the CountVectorizer DataFrame: count_df
count_df = pd.DataFrame(count_train.A, columns=count_vectorizer.get_feature_names())

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = pd.DataFrame(tfidf_train.A, columns=tfidf_vectorizer.get_feature_names())

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(count_df.columns) - set(tfidf_df.columns)
print(difference)

# Check whether the DataFrames are equal
print(count_df.equals(tfidf_df))

## Training and testing a classification model with scikit-learn

### Naive Bayes classifier

* Naive Bayes Model
  * Biasa digunakan untuk menguji masalah klasifikasi NLP
  * Dasar dalam probability
* Mengingat sepotong data tertentu, seberapa besar kemungkinan hasilnya?
* Contoh:
  * Jika plot memiliki spaceship, seberapa besar kemungkinannya menjadi sci-fi?
  * Diberi spaceship dan alien, seberapa mungkin sci-fi sekarang?
* Setiap kata dari `CountVectorizer` bertindak sebagai fitur
* Naive Bayes: Sederhana dan efektif

### Naive Bayes with scikit-learn

In [5]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

nb_classifier = MultinomialNB()
nb_classifier.fit(count_train, y_train)
pred = nb_classifier.predict(count_test)
metrics.accuracy_score(y_test, pred)

0.893352462936394

### Confusion Matrix

```python
metrics.confusion_matrix(y_test, pred, labels=[0,1])
```

<img src="datasets/confusion-matrix.png" width=400px height=400px align=left />

### Text classification models

Manakah dari model yang paling masuk akal untuk digunakan saat melatih model baru yang diawasi menggunakan data vektor teks?

* Naive Bayes

### Training and testing the "fake news" model with `CountVectorizer`

Sekarang giliran Anda untuk melatih model "fake news" menggunakan fitur yang Anda identifikasi dan ekstrak. Dalam latihan pertama ini Anda akan melatih dan menguji model Naive Bayes menggunakan data `CountVectorizer`.

Data training dan test telah dibuat, `count_vectorizer`, `count_train`, dan `count_test` telah dihitung.

In [8]:
# Import the necessary modules
from sklearn import metrics
from sklearn.naive_bayes import MultinomialNB

# Instantiate a Multinomial Naive Bayes classifier: nb_classifier
nb_classifier = MultinomialNB()

# Fit the classifier to the training data
nb_classifier.fit(count_train, y_train)

# Create the predicted tags: pred
pred = nb_classifier.predict(count_test)

# Calculate the accuracy score: score
score = metrics.accuracy_score(y_test, pred)
print(score)

# Calculate the confusion matrix: cm
cm = metrics.confusion_matrix(y_test, pred, labels=['FAKE', 'REAL'])
print(cm)

0.893352462936394
[[ 865  143]
 [  80 1003]]


### Training and testing the "fake news" model with `TfidfVectorizer`

Sekarang setelah Anda mengevaluasi model menggunakan `CountVectorizer`, Anda akan melakukan hal yang sama dengan menggunakan `TfidfVectorizer` dengan model Naive Bayes.

Data training dan test telah dibuat, `tfidf_vectorizer`, `tfidf_train`, dan `tfidf_test` telah dihitung.

In [9]:
# Create a Multinomial Naive Bayes classifier: nb_classifier
nb_classifier = MultinomialNB()

# Fit the classifier to the training data
nb_classifier.fit(tfidf_train, y_train)

# Create the predicted tags: pred
pred = nb_classifier.predict(tfidf_test)

# Calculate the accuracy score: score
score = metrics.accuracy_score(y_test, pred)
print(score)

# Calculate the confusion matrix: cm
cm = metrics.confusion_matrix(y_test, pred, labels=['FAKE', 'REAL'])
print(cm)

0.8565279770444764
[[ 739  269]
 [  31 1052]]


## Simple NLP, complex problems

### Improving the model

* Tweaking alpha levels.
* Mencoba model klasifikasi baru.
* Training pada dataset yang lebih besar.
* Memperbaiki preprocessing teks.

Tugas Anda dalam latihan ini adalah menguji beberapa level alpha yang berbeda menggunakan vektor `Tfidf` untuk menentukan apakah ada kombinasi yang berkinerja lebih baik.

In [14]:
# Import numpy
import numpy as np

# Create the list of alphas: alphas
alphas = np.arange(0, 1, step=0.1)

# Define train_and_predict()
def train_and_predict(alpha):
    # Instantiate the classifier: nb_classifier
    nb_classifier = MultinomialNB(alpha=alpha)
    # Fit to the training data
    nb_classifier.fit(tfidf_train, y_train)
    # Predict the labels: pred
    pred = nb_classifier.predict(tfidf_test)
    # Compute accuracy: score
    score = metrics.accuracy_score(y_test, pred)
    return score

# Iterate over the alphas and print the corresponding score
for alpha in alphas:
    print('Alpha: ', alpha)
    print('Score: ', train_and_predict(alpha))
    print()

Alpha:  0.0
Score:  0.8813964610234337

Alpha:  0.1
Score:  0.8976566236250598

Alpha:  0.2
Score:  0.8938307030129125

Alpha:  0.30000000000000004
Score:  0.8900047824007652

Alpha:  0.4
Score:  0.8857006217120995

Alpha:  0.5


  'setting alpha = %.1e' % _ALPHA_MIN)


Score:  0.8842659014825442

Alpha:  0.6000000000000001
Score:  0.874701099952176

Alpha:  0.7000000000000001
Score:  0.8703969392635102

Alpha:  0.8
Score:  0.8660927785748446

Alpha:  0.9
Score:  0.8589191774270684



### Inspecting your model

Sekarang Anda telah membuat classifier "fake news" classifier, Anda akan menyelidiki apa yang telah dipelajarinya. Anda dapat memetakan bobot vektor penting kembali ke kata-kata aktual menggunakan beberapa teknik inspeksi sederhana.

Anda memiliki classifier tfidf Naive Bayes yang berkinerja baik tersedia sebagai `nb_classifier`, dan vektor-vektornya sebagai `tfidf_vectorizer`.

In [15]:
# Get the class labels: class_labels
class_labels = nb_classifier.classes_

# Extract the features: feature_names
feature_names = tfidf_vectorizer.get_feature_names()

# Zip the feature names together with the coefficient array and sort by weights: feat_with_weights
feat_with_weights = sorted(zip(nb_classifier.coef_[0], feature_names))

# Print the first class label and the top 20 feat_with_weights entries
print(class_labels[0], feat_with_weights[:20])

# Print the second class label and the bottom 20 feat_with_weights entries
print(class_labels[1], feat_with_weights[-20:])

FAKE [(-11.316312804238807, '0000'), (-11.316312804238807, '000035'), (-11.316312804238807, '0001'), (-11.316312804238807, '0001pt'), (-11.316312804238807, '000km'), (-11.316312804238807, '0011'), (-11.316312804238807, '006s'), (-11.316312804238807, '007'), (-11.316312804238807, '007s'), (-11.316312804238807, '008s'), (-11.316312804238807, '0099'), (-11.316312804238807, '00am'), (-11.316312804238807, '00p'), (-11.316312804238807, '00pm'), (-11.316312804238807, '014'), (-11.316312804238807, '015'), (-11.316312804238807, '018'), (-11.316312804238807, '01am'), (-11.316312804238807, '020'), (-11.316312804238807, '023')]
REAL [(-7.742481952533027, 'states'), (-7.717550034444668, 'rubio'), (-7.703583809227384, 'voters'), (-7.654774992495461, 'house'), (-7.649398936153309, 'republicans'), (-7.6246184189367, 'bush'), (-7.616556675728881, 'percent'), (-7.545789237823644, 'people'), (-7.516447881078008, 'new'), (-7.448027933291952, 'party'), (-7.411148410203476, 'cruz'), (-7.410910239085596, 'st