## Packages & helper functions

In [1]:
import numpy as np
import pandas as pd
from pymongo import MongoClient

In [2]:
def connect_mongo(host, port, username, password, db):
    """ A util for making a connection to mongo """

    if username and password:
        mongo_uri = 'mongodb://%s:%d@%s:%s/%s' % (username, password, host, port, db)
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)


    return conn[db]

In [3]:
def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
    """ Read from Mongo and Store into DataFrame """

    # Connect to MongoDB
    db = connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

## Prepare data

In [4]:
raw_data = read_mongo('baochi', 'tuoitre')
raw_data.head(10)

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
2,Ấn Độ yêu cầu mạng xã hội gỡ cụm từ 'biến thể ...,Công nghệ
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
4,Cảnh sát Ấn Độ 'cảnh báo' Công ty Twitter TTO ...,Công nghệ
5,Sủng Cỏ thiên đường hoang sơ nơi cửa vịnh Đà N...,Du lịch
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
7,Google bỏ cookie theo dõi người dùng là để 'là...,Công nghệ
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
9,Bánh trứng thời nghèo khó Dan Bing bỗng len lỏ...,Du lịch


In [5]:
raw_data.groupby('category').size()

category
Công nghệ    1579
Du lịch      2535
Thể thao     3058
dtype: int64

In [8]:
# raw_data.to_csv('raw_data.csv', sep=',', index=False)

In [6]:
num_of_rows = 500
thethao = raw_data[raw_data.category == 'Thể thao']
thethao = thethao.iloc[:num_of_rows]

congnghe = raw_data[raw_data.category == 'Công nghệ']
congnghe = congnghe.iloc[:num_of_rows]

dulich = raw_data[raw_data.category == 'Du lịch']
dulich = dulich.iloc[:num_of_rows]

In [7]:
thethao

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
...,...,...
1425,​Marin Cilic dừng bước ở vòng 3 US Open TTO - ...,Thể thao
1426,Tay vợt Nhật Bản Naomi Osaka vô địch US Open 2...,Thể thao
1427,Lịch trực tiếp bóng đá châu Âu ngày 21-2: Arse...,Thể thao
1428,"Hạ Arsenal, Man City thắng trận thứ 18 liên ti...",Thể thao


In [8]:
congnghe

Unnamed: 0,content,category
2,Ấn Độ yêu cầu mạng xã hội gỡ cụm từ 'biến thể ...,Công nghệ
4,Cảnh sát Ấn Độ 'cảnh báo' Công ty Twitter TTO ...,Công nghệ
7,Google bỏ cookie theo dõi người dùng là để 'là...,Công nghệ
10,Nga ra tối hậu thư với Google: 'Xóa nội dung b...,Công nghệ
15,‘Dũng sĩ hút bụi’ Dyson chạm ngõ gia đình Việt...,Công nghệ
...,...,...
1524,Facebook trả 1 cơ quan báo chí 3 triệu USD/năm...,Công nghệ
1526,Facebook muốn dùng tin và trả tiền cho báo chí...,Công nghệ
1531,"46 bang kiện Facebook độc quyền, dùng tiền để ...",Công nghệ
1533,"Doanh thu Facebook, Apple tăng kỷ lục trong CO...",Công nghệ


In [9]:
dulich

Unnamed: 0,content,category
5,Sủng Cỏ thiên đường hoang sơ nơi cửa vịnh Đà N...,Du lịch
9,Bánh trứng thời nghèo khó Dan Bing bỗng len lỏ...,Du lịch
13,"Chò nâu khoe sắc, xoay tít như chong chóng giữ...",Du lịch
14,Du lịch miền Trung phải bắt tay nhau để cùng t...,Du lịch
17,Tiền đạo Văn Toàn: 'Chiến thắng sẽ giúp mọi ng...,Du lịch
...,...,...
1573,"Bệnh nhân 3051 nhập cảnh trái phép, lây từ Lào...",Du lịch
1574,Ánh mắt TTO - Chúng tôi gặp hai mẹ con người H...,Du lịch
1576,"Ngày và đêm 17-1, Hà Giang, Lào Cai có thể xuấ...",Du lịch
1579,"Món cá tỉ đô người Tây mê! TTO - Độ trước Tết,...",Du lịch


In [10]:
data = thethao
data = data.append(congnghe)
data = data.append(dulich)
data

Unnamed: 0,content,category
0,Võ sĩ MMA bị knock-out lạ kỳ vì... 'đụng đầu' ...,Thể thao
1,"Thi đấu từ máy bay ở độ cao 6.096m, ngôi sao 6...",Thể thao
3,Tay đua 19 tuổi Jason Dupasquier qua đời sau t...,Thể thao
6,"Giận liên đoàn, CĐV Indonesia không vào sân cổ...",Thể thao
8,"Võ sĩ hạng nặng đánh nhau trên sàn đấu, khán g...",Thể thao
...,...,...
1573,"Bệnh nhân 3051 nhập cảnh trái phép, lây từ Lào...",Du lịch
1574,Ánh mắt TTO - Chúng tôi gặp hai mẹ con người H...,Du lịch
1576,"Ngày và đêm 17-1, Hà Giang, Lào Cai có thể xuấ...",Du lịch
1579,"Món cá tỉ đô người Tây mê! TTO - Độ trước Tết,...",Du lịch


In [11]:
data.to_csv('raw_data.csv', sep=',', index=False)