# การวิเคราะห์ข้อความจากเว็บไซต์

## Dependencies
Install libraries
- `pythainlp` สำหรับจัดการภาษาไทย
- `emoji` สำหรับจัดการ emoji ในข้อความ ใช้ใน `pythainlp`
- `beautifulsoup4` ใช้ parse HTML

In [0]:
!pip install https://github.com/PyThaiNLP/pythainlp/archive/dev.zip
!pip install emoji

!pip install beautifulsoup4

## Download webpage
Libraries
- `requests` สำหรับส่ง http request

**References**:
- https://requests.readthedocs.io/en/master/

In [0]:
from bs4 import BeautifulSoup
import requests

In [0]:
URL = ''

In [0]:
page = requests.get(URL)
page.content

## Parse HTML
Libraries
- `bs4` ใช้ parse HTML

**References**:
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#quick-start

In [0]:
soup = BeautifulSoup(page.content, 'html.parser')

### เลือก HTML tag ที่ต้องการ

- Inspect element ใน browser

## ตัดคำ
Libraries
- `pythainlp` ใช้เซตอักขระภาษาไทย
- `pythainlp.ulmfit` ใช้ฟังก์ชัน `process_thai` ในการตัดคำ
- `re` ใช้ตัดคำที่ไม่มีอักขระไทยเลยออก

**References**:
- https://www.thainlp.org/pythainlp/tutorials/notebooks/pythainlp_get_started.html#Thai-Characters
- https://www.thainlp.org/pythainlp/docs/dev/api/ulmfit.html
- https://docs.python.org/3/library/re.html


In [0]:
import pythainlp
from pythainlp.ulmfit import process_thai
import re

## นับความถี่
Libraries
- `pythainlp.util` ใช้ฟังก์ชัน `rank` สามารถตัด stopword ได้

หรือจะใช้
- `collections` และคลาส `Counter` ก็ได้ แต่ต้องตัด stopword เอง

**References**:
- https://www.thainlp.org/pythainlp/docs/dev/api/util.html
- https://docs.python.org/3/library/collections.html#collections.Counter

In [0]:
from pythainlp.util import rank

## Word cloud
Libraries
- `wordcloud` สำหรับสร้าง word cloud
- `matplotlib.pyplot` สำหรับวาดกราฟ (เอา word cloud ไปใส่)

**References**:
- https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html
- https://matplotlib.org/api/_as_gen/matplotlib.pyplot.html#module-matplotlib.pyplot

In [0]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

### Download font ภาษาไทย

In [0]:
!wget https://github.com/Phonbopit/sarabun-webfont/raw/master/fonts/thsarabunnew-webfont.ttf

--2020-04-27 12:23:55--  https://github.com/Phonbopit/sarabun-webfont/raw/master/fonts/thsarabunnew-webfont.ttf
Resolving github.com (github.com)... 140.82.118.4
Connecting to github.com (github.com)|140.82.118.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/Phonbopit/sarabun-webfont/master/fonts/thsarabunnew-webfont.ttf [following]
--2020-04-27 12:23:55--  https://raw.githubusercontent.com/Phonbopit/sarabun-webfont/master/fonts/thsarabunnew-webfont.ttf
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 98308 (96K) [application/octet-stream]
Saving to: ‘thsarabunnew-webfont.ttf’


2020-04-27 12:23:55 (10.5 MB/s) - ‘thsarabunnew-webfont.ttf’ saved [98308/98308]



### Plot

ต้องกำหนด font ให้รองรับภาษาไทยด้วย

หากให้ `freq` เก็บ dict หรือ Counter ของคำและความถี่ จะ plot ได้ดังนี้

In [0]:
wordcloud = WordCloud(font_path='thsarabunnew-webfont.ttf',
                      width=800,
                      height=800,
                      min_font_size=10,
                      background_color='white').generate_from_frequencies(freq)
plt.figure(figsize = (15,15))
plt.axis('off')
plt.imshow(wordcloud)
plt.show()

## Simple sentiment analysis
- พจนานุกรมคำบวกและลบจาก `pythainlp`

### Download พจนานุกรม

In [0]:
!wget https://raw.githubusercontent.com/PyThaiNLP/lexicon-thai/master/sentiment/positive_new.txt
!wget https://raw.githubusercontent.com/PyThaiNLP/lexicon-thai/master/sentiment/negative_new.txt

--2020-04-27 12:26:42--  https://raw.githubusercontent.com/PyThaiNLP/lexicon-thai/master/sentiment/positive_new.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7319 (7.1K) [text/plain]
Saving to: ‘positive_new.txt’


2020-04-27 12:26:42 (81.9 MB/s) - ‘positive_new.txt’ saved [7319/7319]

--2020-04-27 12:26:43--  https://raw.githubusercontent.com/PyThaiNLP/lexicon-thai/master/sentiment/negative_new.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 15150 (15K) [text/plain]
Saving to: ‘negative_new.txt’


2020-04-27 12:26:44 (4.23 MB/s) 

In [0]:
with open('positive_new.txt') as f:
  pos = set(word.strip() for word in f)
with open('negative_new.txt') as f:
  neg = set(word.strip() for word in f)

### นับคำบวก/ลบ

### Plot กราฟ
Libraries
- `matplotlib` ต้องตั้งค่า default font ของกราฟเพื่อแสดงภาษาไทยในแกน

Plot
- 10 คำบวกที่มีความถี่สูงที่สุด
- 10 คำลบที่มีความถี่สูงที่สุด

**Reference**:
- https://matplotlib.org/api/font_manager_api.html#matplotlib.font_manager.FontManager
- https://matplotlib.org/api/_as_gen/matplotlib.pyplot.barh.html#matplotlib.pyplot.barh

In [0]:
import matplotlib as mpl
mpl.font_manager.fontManager.addfont('thsarabunnew-webfont.ttf') # 3.2+
mpl.rc('font', family='TH Sarabun New')