## Packages & helper functions

In [41]:
import numpy as np
import pandas as pd
from pymongo import MongoClient

In [42]:
def connect_mongo(host, port, username, password, db):
    """ A util for making a connection to mongo """

    if username and password:
        mongo_uri = 'mongodb://%s:%d@%s:%s/%s' % (username, password, host, port, db)
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)


    return conn[db]

In [43]:
def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
    """ Read from Mongo and Store into DataFrame """

    # Connect to MongoDB
    db = connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

## Prepare data

In [44]:
raw_data = read_mongo('baochi', 'tuoitre')
raw_data.head(10)

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
2,Ấn Độ yêu cầu mạng xã hội gỡ cụm từ 'biến thể ...,Công nghệ
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
4,Cảnh sát Ấn Độ 'cảnh báo' Công ty Twitter TTO ...,Công nghệ
5,Sủng Cỏ thiên đường hoang sơ nơi cửa vịnh Đà N...,Du lịch
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
7,Google bỏ cookie theo dõi người dùng là để 'là...,Công nghệ
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
9,Bánh trứng thời nghèo khó Dan Bing bỗng len lỏ...,Du lịch


In [45]:
raw_data.groupby('category').size()

category
Công nghệ    1579
Du lịch      2535
Thể thao     3058
dtype: int64

In [70]:
num_of_rows = 50
thethao = raw_data[raw_data.category == 'Thể thao']
thethao = thethao.iloc[:num_of_rows]

congnghe = raw_data[raw_data.category == 'Công nghệ']
congnghe = congnghe.iloc[:num_of_rows]

dulich = raw_data[raw_data.category == 'Du lịch']
dulich = dulich.iloc[:num_of_rows]

In [71]:
thethao

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
11,"Duy Mạnh, Đình Trọng, Minh Vương đã bình phục ...",Thể thao
12,Vòng đấu cuối Giải ngoại hạng Anh (Premier Lea...,Thể thao
16,Đội tuyển Việt Nam tiếp tục xét nghiệm COVID-1...,Thể thao
19,Video: Thống kê và phong độ của ba thủ môn đội...,Thể thao
21,HLV Nishino 'hài lòng' dù đội tuyển Thái Lan t...,Thể thao


In [72]:
congnghe

Unnamed: 0,content,category
2,Ấn Độ yêu cầu mạng xã hội gỡ cụm từ 'biến thể ...,Công nghệ
4,Cảnh sát Ấn Độ 'cảnh báo' Công ty Twitter TTO ...,Công nghệ
7,Google bỏ cookie theo dõi người dùng là để 'là...,Công nghệ
10,Nga ra tối hậu thư với Google: 'Xóa nội dung b...,Công nghệ
15,‘Dũng sĩ hút bụi’ Dyson chạm ngõ gia đình Việt...,Công nghệ
22,Các mạng xã hội nước ngoài bị buộc đặt cơ sở d...,Công nghệ
24,Bàn phím Logitech mỏng nhất thế giới TTO - Log...,Công nghệ
27,Juky San hé lộ cách ‘bật’ cảm hứng mùa ‘hát tạ...,Công nghệ
29,Facebook bỏ chặn các ‘tút’ kêu gọi thủ tướng Ấ...,Công nghệ
30,Bốn ông tướng World Cup ở bảng G TTO - Một điề...,Công nghệ


In [73]:
dulich

Unnamed: 0,content,category
5,Sủng Cỏ thiên đường hoang sơ nơi cửa vịnh Đà N...,Du lịch
9,Bánh trứng thời nghèo khó Dan Bing bỗng len lỏ...,Du lịch
13,"Chò nâu khoe sắc, xoay tít như chong chóng giữ...",Du lịch
14,Du lịch miền Trung phải bắt tay nhau để cùng t...,Du lịch
17,Tiền đạo Văn Toàn: 'Chiến thắng sẽ giúp mọi ng...,Du lịch
18,"5 tỉnh miền Trung bắt tay Hà Nội, TP.HCM kéo k...",Du lịch
20,Du lịch phải 'nắm tay nhau cùng đi' TTO - Chiề...,Du lịch
25,InterContinental Phu Quoc bắt nhịp xu hướng du...,Du lịch
26,Tour Phú Quốc 3 ngày 2 đêm từ TP.HCM ưu đãi ch...,Du lịch
28,Có gì ở giai đoạn 2 dự án Yoko Onsen Quang Han...,Du lịch


In [74]:
data = thethao
data = data.append(congnghe)
data = data.append(dulich)
data

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
...,...,...
113,"Du khách vội vàng hủy tour, các công ty du lịc...",Du lịch
117,Đại sứ Ukraine ở Thái Lan bất ngờ qua đời TTO ...,Du lịch
118,Khách đến Đà Nẵng dịp lễ 30-4 và 1-5 chỉ đạt 5...,Du lịch
123,Liên kết vùng để kích cầu du lịch TTO - Chiều ...,Du lịch


In [76]:
data.to_csv('raw_data.csv', sep=',', index=False)