<img src="figs/NTU_logo.png" align="left" width="50" height="50" alt="NTU logo"> 
<h1 style="text-align:center"> XỬ LÝ DỮ LIỆU LỚN </h1>

<h1 style="text-align:center"> Bài thực hành 2: Word Count </h1>

- [Giới thiệu](#intro) <br>
- [Hadoop Streaming](#hadoop_streaming) <br>
- [Chương trình đếm từ](#word_count) <br>
    * [Cách giải quyết thông thường ](#conventional_approach)
    * [Cách giải quyết Big Data ](#bigdata_approach)

- [Chạy ứng dụng trên Hadoop](#run_program) <br>
    * [Khởi động Hadoop](#start_hadoop)
    * [Chuẩn bị dữ liệu](#data_preparation)
    * [Chạy ứng dụng MapReduce](#run_mapreduce_job)
- [Bài tập](#excercises)


## Giới thiệu <a name="intro"/>
Bài thực hành này thực hiện đếm số lần xuất hiện của mỗi từ trong một tập dữ liệu văn bản. Chương trình được viết bằng Python và được thực thi thông qua tính năng Hadoop Streaming.

Chương trình Python chạy trên Hadoop MapReduce dựa theo [Michael Noll](https://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/), có sửa chữa để tương thích với Python3 và xử lý ký tự UTF-8 từ Hadoop Streaming. Dữ liệu lấy từ dự án thư viện sách miễn phí [Gutenberg](http://www.gutenberg.org), gồm 3 cuốn:
- [The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson](http://www.gutenberg.org/ebooks/20417.txt.utf-8)
- [The Notebooks of Leonardo Da Vinci](http://www.gutenberg.org/files/5000/5000-8.txt)
- [Ulysses by James Joyce](http://www.gutenberg.org/files/4300/4300-0.txt)

## Hadoop Streaming <a name="hadoop_streaming"/>

Hadoop cung cấp tính năng streaming cho phép tạo và thực thi ứng dụng MapReduce với các ngôn ngữ lập trình khác Java, chẳng hạn như Python hay Ruby. Các chương trình xử lý ở pha Map và Reduce đọc dữ liệu từ thiết bị nhập chuẩn (stdin) và đưa kết quả xử lý ra thiết bị xuất chuẩn (stdout). Hadoop tạo tác vụ MapReduce, gửi tới hệ thống yêu cầu thực thi và giám sát tác vụ cho đến khi hoàn tất.

## Chương trình đếm từ <a name="word_count"/>
### Cách giải quyết thông thường <a name="conventional_approach"/>
Cho một tập dữ liệu văn bản gồm nhiều file chứa trong một thư mục. Chương trình Python sau đây thực hiện mở lần lượt từng file và đếm số lần xuất hiện của mỗi từ.

In [1]:
import os

# Xác định thư mục chứa dữ liệu:
data_foder = "data/gutenberg"

# Khởi tạo từ điển: 
word_counts = {}

# Mở lần lượt các file văn bản trong thư mục dữ liệu để đếm từ:
for fname in os.listdir(data_foder):
    if fname.endswith(".txt"):
        try:
            f = open(os.path.join(data_foder, fname))
            for line in f.readlines():
                for word in line.split():
                    if word in word_counts:
                        word_counts[word] += 1
                    else:
                        word_counts[word] = 1
            f.close()
        except:
            pass

# In ra 10 từ đầu tiên và số lần xuất hiện tương ứng:
print('{:15}{:10}'.format('Từ', 'Tần số'))
print('-------------------------')

for w in list(word_counts)[0:10]:
    print ('{:15}{:10}'.format(w, word_counts[w])) 

Từ             Tần số    
-------------------------
The                  2448
Project               106
Gutenberg              40
EBook                   3
of                  15813
Notebooks               4
Leonardo              357
Da                      7
Vinci,                 24
Complete                2


Chương trình trên xử lý tuần tự trên một máy đơn. Với tập dữ liệu rất lớn thì việc xử lý sẽ mất nhiều thời gian. <br>
Một cách giải quyết là sử dụng Hadoop để thực hiện xử lý phân tán.  

## Giải pháp Big Data: Hadoop MapReduce <a name="bigdata_approach"/>

Nền tảng Hadoop MapReduce cho phép triển khai các ứng dụng xử lý dữ liệu lớn (hàng TB)song song trên cụm (cluster) lên đến hàng ngàn máy tính với độ tin cậy và khả năng chịu lỗi cao.
<p align="center">
<img src="figs/MapReduce.png" width="70%">
<center><caption>Minh họa giải quyết bài toán đếm từ với MapReduce</caption></center>
</p>

## Bài tập <a name="excercises"/>
### Bài 1: Xử lý văn bản
Từ file văn bản


### Bài 2
### Bài 3: Xử lý dữ liệu Twitter
Cho file văn bản `data/elonmusk_tweets.csv` chứa các dòng tweets của [Elon Musk](https://en.wikipedia.org/wiki/Elon_Musk) từ 2011-2017.
Dữ liệu được chia sẻ bởi [Adam Helsinger](https://data.world/adamhelsingerhttps://data.world/adamhelsinger/elon-musk-tweets-until-4-6-17).
Từ file dữ liệu trên, hãy thực hiện các xử lý sau:
- Liệt kê top 20 từ được Elon nhắc đến nhiều nhất.
- Liệt kê top 10 tài khoản được Elon nhắc đến nhiều nhất.
- Hãy xác định thời điểm trong ngày (0-24 giờ) Elon đăng bài nhiều nhất.
### Bài 4: Phân tích mạng xã hội 
Cho file văn bản `data/twitter_following.txt` chứa thông tin về việc tài khoản người dùng theo dõi tài khoản khác trên cùng mạng xã hội.
Mỗi dòng file văn bản có dạng:
```code
<user_id1> <user_id2>
```
cho biết người dùng với `user_id1` theo dõi người dùng `user_id2`. Nếu `user_id2` cũng theo dõi `user_id1` thì cặp tài khoản này được gọi là theo dõi lẫn nhau (mutual followers).

Yêu cầu: Vận dụng cả 2 phương pháp (1) truyền thống và (2) dữ liệu lớn giải quyết các bài toán sau:
- Thống kê số lượng người theo dõi (followers) của mỗi tài khoản người dùng.
- Liệt kê top 5 người dùng có nhiều theo dõi nhất.
- Liệt kê tất cả các cặp người dùng theo dõi lẫn nhau trong file dữ liệu được cho. 