# Enthusiastics Statistics Weekend 2017

## Intro to Text Processing Using Python
#### Module yang akan digunakan adalah re, nltk, 

## Implement Natural Language Processing in Python

### 1. Introduction to Natural Language Processing

NLP adalah cabang ilmu data (data science) yang terdiri dari proses sistematis untuk menganalisa, memahami, dan memperoleh informasi dari data teks secara cerdas dan efisien. Dengan memanfaatkan NLP dan komponennya, seseorang dapat mengatur potongan besar data teks, melakukan banyak tugas otomatis dan memecahkan berbagai masalah seperti :
- automatic summarization (Ringkasan Otomatis),
- machine translation (Mesin Terjemahan),
- named entity recognition (Pengenalan Entitas),
- relationship extraction (Ekstaksi Hubungan), 
- sentiment analysis (Analsiis Sentimen),
- speech recognition (Pengenalan Suara),
- topic segmentation (Segmentasi Topik), and etc.

Sebelum melangkah lebih jauh, saya ingin menjelaskan beberapa istilah yang akan digunakan:
- Tokenisasi  : proses mengubah teks menjadi token
- Token       : kata atau entitas yang ada dalam teks
- Text Object : kalimat atau frase atau kata atau artikel

### 2. Text Preprocessing

Teks adalah bentuk yang paling tidak terstruktur dari semua data yang ada, berbagai jenis noise ada di dalamnya dan data tidak mudah dianalisis tanpa pre-processing. Seluruh proses pembersihan dan standardisasi teks, sehingga bebas noise dan siap untuk analisis dikenal sebagai text preprocessing.

Hal ini terutama terdiri dari tiga langkah:
- Noise Removal
- Lexicon Normalization
- Object Standardization

#### 2.1 Noise Removal

Setiap teks yang tidak relevan dengan konteks data dan output akhir, dapat ditentukan sebagai noise.

Misalnya - bahasa stopword (kata bahasa yang umum digunakan : adalah, dari, ke, untuk, dll), URL atau tautan, entitas media sosial (mention, hashtag), tanda baca dan kata-kata spesifik industri. Langkah ini berkaitan dengan penghapusan semua jenis entitas noise yang ada dalam teks.

Pendekatan umum untuk menghilangkan noise adalah menyiapkan kamus entitas yang noise, dan mengulangi objek teks dengan token (atau dengan kata-kata), menghilangkan token yang ada dalam kamus.

Following is the python code for the same purpose.

In [8]:
noise_list = ["alias", "ini", "untuk", "..."] 
def _remove_noise(input_text):
    words = input_text.split()
    noise_free_words = [i for i in words if i not in noise_list] 
    noise_free_text = " ".join(noise_free_words) 
    return noise_free_text

In [16]:
_remove_noise("Enthusiastics Statistics Weekend UII alias ESW2017 untuk Mahasiswa Statistika UII")

'Enthusiastics Statistics Weekend UII ESW2017 Mahasiswa Statistika UII'

In [21]:
import re

def _remove_regex(input_text, regex_pattern):
    urls = re.finditer(regex_pattern, input_text) 
    for i in urls: 
        input_text = re.sub(i.group().strip(), '', input_text)
    return input_text

regex_pattern = "#[\w]*"

In [22]:
_remove_regex("Jangan lupa foto yak, #hashtag #statisticsuii #esw2017 yang heboh", regex_pattern)

'Jangan lupa foto yak,    yang heboh'

#### 2.2 Lexicon Normalization

Tipe noise tekstual lainnya adalah tentang beberapa representasi (ambigue) yang ada dalam satu kata (bukan dari segi makna loh ya).

Misalnya - "bermain", "pemain", "mainan", "mainkan" dan "main" adalah variasi kata yang berbeda - "main", Meskipun itu berarti berbeda (makna) tapi secara kontekstual semuanya serupa. Langkah ini mengubah semua perbedaan kata menjadi bentuk dasar/normal mereka (juga dikenal sebagai lemma). Normalisasi adalah langkah penting untuk rekayasa fitur dengan teks karena mengubah fitur dimensi tinggi (fitur yang berbeda) ke ruang berdimensi rendah (1 fitur), yang merupakan model ideal untuk model ML.

Praktik normalisasi lexicon yang paling umum adalah:
- Stemming: Stemming adalah proses berbasis aturan dasar yang menghilangkan sufiks/imbuhan ("an", "kan", "ber", "pe" dll) atau kalau dalam bahasa inggris (“ing”, “ly”, “es”, “s” etc) dari sebuah kata.
- Lemmatisasi: Lemmatisasi, di sisi lain, adalah prosedur terorganisir & langkah demi langkah untuk mendapatkan bentuk akar kata, penggunaan kosa kata (kamus penting kata-kata) dan analisis morfologi (struktur kata dan hubungan tata bahasa).

In [39]:
word = "shoping" 

from nltk.stem.wordnet import WordNetLemmatizer 
lem = WordNetLemmatizer()
lem.lemmatize(word, "v")

# FORMAT LEM
# for help : lem.lemmatize?
# Signature: lem.lemmatize(word, pos='n')
# Docstring: <no docstring>
# File:      c:\users\kofera laptop\anaconda3\lib\site-packages\nltk\stem\wordnet.py
# Type:      method
# ADJ, ADJ_SAT, ADV, NOUN, VERB = 'a', 's', 'r', 'n', 'v'

'shop'

In [40]:
from nltk.stem.porter import PorterStemmer 
stem = PorterStemmer()
stem.stem(word)

# Signature: stem.stem(word)
# Docstring:
  ## Strip affixes from the token and return the stem.

  ## :param token: The token that should be stemmed.
  ## :type token: str
# File:      c:\users\kofera laptop\anaconda3\lib\site-packages\nltk\stem\porter.py
# Type:      method

'shope'

### 2.3 Object Standardization

Data teks sering mengandung kata atau frasa yang tidak ada dalam kamus leksikal standar manapun. Potongan-potongan ini tidak dikenali oleh search engine dan model.

Beberapa contohnya adalah - akronim, hashtag dengan kata-kata terlampir, dan bahasa sehari-hari. Dengan bantuan ungkapan reguler dan kamus data yang disiapkan secara manual, jenis kebisingan ini dapat diperbaiki, kode di bawah ini menggunakan metode pencarian kamus untuk menggantikan slang(bahasa tidak resmi, biasanya musiman) media sosial dari sebuah teks.

In [31]:
lookup_dict = {'rt':'Retweet', 'dm':'direct message', "awsm" : "awesome", "luv" :"love"}
def _lookup_words(input_text):
    words = input_text.split() 
    new_words = [] 
    for word in words:
        if word.lower() in lookup_dict:
            word = lookup_dict[word.lower()]
        new_words.append(word) 
        new_text = " ".join(new_words) 
        return new_text

In [37]:
_lookup_words("RT Statistika UII hari ini ada EWS loh")

'Retweet'

### TAMBAHAN

In [25]:
doc1 = "ESW UII 2017. Kegiatan yang bertujuan untuk belajar bersama." 
doc2 = "Statistika UII yang menjadi tuan rumah sekaligus yang mempunyai inisiatif."
doc3 = "Berawal dari keinginan untuk memperdalam ilmu dan mengetahui lebih luas dunia data science."
doc_complete = [doc1, doc2, doc3]
doc_clean = [doc.split() for doc in doc_complete]

In [26]:
import gensim
from gensim import corpora

# Creating the term dictionary of our corpus, where every unique term is assigned an index.  
dictionary = corpora.Dictionary(doc_clean)

# Converting list of documents (corpus) into Document Term Matrix using dictionary prepared above. 
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]

# Creating the object for LDA model using gensim library
Lda = gensim.models.ldamodel.LdaModel

# Running and Training LDA model on the document term matrix
ldamodel = Lda(doc_term_matrix, num_topics=3, id2word = dictionary, passes=50)

# Results 
hasilldamodel.print_topics()

[(0, '0.073*"untuk" + 0.073*"2017." + 0.073*"Kegiatan" + 0.073*"bertujuan" + 0.073*"bersama." + 0.073*"belajar" + 0.073*"ESW" + 0.073*"UII" + 0.072*"yang" + 0.018*"rumah"'), (1, '0.121*"yang" + 0.069*"UII" + 0.069*"tuan" + 0.069*"menjadi" + 0.069*"mempunyai" + 0.069*"Statistika" + 0.069*"inisiatif." + 0.069*"sekaligus" + 0.069*"rumah" + 0.017*"untuk"'), (2, '0.060*"untuk" + 0.060*"mengetahui" + 0.060*"lebih" + 0.060*"luas" + 0.060*"science." + 0.060*"dunia" + 0.060*"keinginan" + 0.060*"dan" + 0.060*"memperdalam" + 0.060*"data"')]


### UNTUK LEBIH JELASNYA

In [12]:
doc1 = "cat dog" 
doc2 = "dog lion"
doc3 = "cat lion"
doc4 = "banana orange" 
doc5 = "apple orange"
doc6 = "banana apple"
doc_complete = [doc1, doc2, doc3,doc4, doc5, doc6]
doc_clean = [doc.split() for doc in doc_complete]
# Creating the term dictionary of our corpus, where every unique term is assigned an index.  
dictionary = corpora.Dictionary(doc_clean)
print(dictionary)

# Converting list of documents (corpus) into Document Term Matrix using dictionary prepared above. 
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]
print(doc_term_matrix)

# Creating the object for LDA model using gensim library
Lda = gensim.models.ldamodel.LdaModel

# Running and Training LDA model on the document term matrix
ldamodel = Lda(doc_term_matrix, num_topics=2, id2word = dictionary, passes=50)

# Results 
print(ldamodel.print_topics())

Dictionary(6 unique tokens: ['cat', 'dog', 'lion', 'banana', 'orange']...)
[[(0, 1), (1, 1)], [(1, 1), (2, 1)], [(0, 1), (2, 1)], [(3, 1), (4, 1)], [(4, 1), (5, 1)], [(3, 1), (5, 1)]]
[(0, '0.277*"lion" + 0.277*"cat" + 0.277*"dog" + 0.057*"banana" + 0.057*"orange" + 0.057*"apple"'), (1, '0.277*"apple" + 0.277*"orange" + 0.277*"banana" + 0.057*"dog" + 0.057*"cat" + 0.057*"lion"')]


In [23]:
data = "dog banana dog"
vec = dictionary.doc2bow(data.split())
topics_list = ldamodel[vec]
print(topics_list)

[(0, 0.64273936166093593), (1, 0.35726063833906413)]
