# Frequency Analyses

Pada pendeketan statistik machine learning menggunakan, hal pertama yang harus dilakukan adalah menghitungan jumlah kata - khususnya untuk unigram yang memiliki keterkaitan kata. Untuk itu NLTK menyediakan class untuk melakukannya. Terdapat beberapa fungsi yang tersedia seperti dibawah ini: 

- `FreqDist`
- `ConditionalFreqDist` 

Melalui pondasi dari fungsi ini maka probabilitas dan statistik analisis dapat dilakukan.
Pertama yang akan kita hitung adalah sebagai berikut:
- Menghitung jumlah kata
- Menghitung jumlah kota kata(*vocabulary*)


In [3]:
import nltk
from pprint import pprint
reuters = nltk.corpus.reuters # Corpus of news articles
counts  = nltk.FreqDist(reuters.words())
vocab   = len(counts.keys())
words   = sum(counts.values())
lexdiv  = float(words) / float(vocab)

print ("Corpus has %i types and %i tokens for a lexical diversity of %0.3f" % (vocab, words, lexdiv))

Corpus has 41600 types and 1720901 tokens for a lexical diversity of 41.368


## Implmetansi NLP

Kita akan menggunakan NLP untuk mengelola sebuah berita online dengan menggunakan beberapa fitur yang tersedia. Seperti:
- Boilerpipe untuk melakukan  pengambilan data menggunakan algoritma [Boilerplate Detection using Shallow Text Features](https://www.l3s.de/~kohlschuetter/publications/wsdm187-kohlschuetter.pdf)

In [4]:
import feedparser
import os
import time
from urlparse import urlparse
from boilerpipe.extract import Extractor


ModuleNotFoundError: No module named 'feedparser'

In [None]:
url="http://www.beritasatu.com/politik/463625-presiden-jokowi-dijadwalkan-buka-kongres-trisakti-gmni-di-manado.html"
extractor = Extractor(extractor='ArticleExtractor', url=url)
content = extractor.getText() 
content=content.lower()
content

In [None]:
%matplotlib inline
from pprint import pprint
import matplotlib.pyplot as plt
from wordcloud import WordCloud

cloud = WordCloud(max_words=1200)
cloud.generate_from_text(content)
plt.figure(figsize=(12,8))
plt.imshow(cloud)
plt.axis('off')
plt.show()


Setelah kita mendapatkan informasi yang di inginkan selanjutnya kita melakukan analisa dengan memisahkan kalimat menggunakan fungsi nltk 

In [None]:
from nltk.tokenize import sent_tokenize
array_kalimat=sent_tokenize(content)
array_kalimat

In [None]:
from nltk.tokenize import word_tokenize
array_word=word_tokenize(content)
array_word

In [None]:
f=open("data/StopWordID")
stopword_id=f.read()
indonesia_stopwords  =word_tokenize(stopword_id)
indonesia_stopwords
import string
punctuation=string.punctuation
additional_punctuation=[".","-","``"]
array_punctuation=word_tokenize(punctuation)
stopword=indonesia_stopwords+array_punctuation +additional_punctuation


In [None]:
filter_kata=[kata for kata in array_word if kata not in stopword]
filter_kata

In [None]:
import nltk
counts  = nltk.FreqDist(filter_kata)
counts

In [None]:
vocab   = len(counts.keys())
words   = sum(counts.values())
lexdiv  = float(words) / float(vocab)

print "Corpus has %i types and %i tokens for a lexical diversity of %0.3f" % (vocab, words, lexdiv)

Bila kita analisa dengan menggunakan tag cloud maka hasil yang di dapatkan adalah sebagai berikut:

In [None]:
from nltk import ngrams
sentence = 'this is a foo bar sentences and i want to ngramize it'
n = 6
sixgrams = ngrams(sentence.split(), n)
for grams in sixgrams:
  print grams
