In [4]:
''' 
MSSV:  22H1120016
Họ tên: Trần Đăng Nam

Dataset tagged acording being ham (legitimate) or spam
https://archive.ics.uci.edu/dataset/228/sms+spam+collection

1. Đếm xem có bao nhiêu dòng và bao nhiêu dòng xuất hiện spam và bao nhiêu dòng xuất hiện ham trong file trên
2. Đếm xem có bao nhiêu từ (các từ ngăn cách bởi khoảng trắng, và không phải chữ số)
3. Đếm xem có bao nhiêu từ 'you' (không phân biệt hoa thường)
4. Đếm xem có bao nhiêu từ khác nhau (không phân biết hoa thường)
5. Liệt kê 10 từ khóa xuất hiện nhiều nhất trong file dữ liệu (không phân biết hoa thường)

''' 


" \nMSSV:  22H1120016\nHọ tên: Trần Đăng Nam\n\nDataset tagged acording being ham (legitimate) or spam\nhttps://archive.ics.uci.edu/dataset/228/sms+spam+collection\n\n1. Đếm xem có bao nhiêu dòng và bao nhiêu dòng xuất hiện spam và bao nhiêu dòng xuất hiện ham trong file trên\n2. Đếm xem có bao nhiêu từ (các từ ngăn cách bởi khoảng trắng, và không phải chữ số)\n3. Đếm xem có bao nhiêu từ 'you' (không phân biệt hoa thường)\n4. Đếm xem có bao nhiêu từ khác nhau (không phân biết hoa thường)\n5. Liệt kê 10 từ khóa xuất hiện nhiều nhất trong file dữ liệu (không phân biết hoa thường)\n\n"

In [3]:
#1. Count rows in the dataset  + count "ham" + count "spam"
#since dataset contains non-letter characters, -> encode utf-8
with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
    lines = f.readlines() #this line will read entire file at once -> each line is stored in a "list string"

total_lines = len(lines) #implicit list (array)

# More Pythonic way to count lines
spam_count = sum(1 for line in lines if line.startswith('spam')) 
ham_count = sum(1 for line in lines if line.startswith('ham'))

print(f'Total rows: {total_lines}')
print(f'Rows consist "spam": {spam_count}')
print(f'Rows consist "ham": {ham_count}')



# More friendly code :D --> use when work large file (require less RAM compare with f.readlines())

# spam_count = ham_count = total_lines = 0
# with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
#     for line in f:  # Reads one line at a time
#         total_lines += 1
#         if line.startswith('spam'):
#             spam_count += 1
#         elif line.startswith('ham'):
#             ham_count += 1

# print(f'Total lines: {total_lines}')
# print(f'Spam count: {spam_count}')
# print(f'Ham count: {ham_count}')

Total rows: 5574
Rows consist "spam": 747
Rows consist "ham": 4827


In [12]:
#2. Đếm xem có bao nhiêu từ (các từ ngăn cách bởi khoảng trắng, và không phải chữ số)
# lib: re = "regular expression" use for "Text processing" - searching, matching, and manipulating text patterns efficiently.
import re
word_count = 0

with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
    lines = f.readlines()

for line in lines:

    # input (<pattern>, string) -> purpose: iterate the string
    # then find a word, base on pattern -> return list of words 
    # explain pattern: \b: word boundary, \d: digit, \w: word character, +: one or more
    # r'': raw string, not escape character 
    # [a-zA-Z]: all alphabet 

    words = re.findall(r"\b[a-zA-Z]+\b", line)
    word_count += len(words) # len of words list 


print(f'Total of words, include word contain tags(not contain numbers, and other symbols): {word_count}')


Total of words, include word contain tags(not contain numbers, and other symbols): 91295


In [17]:
#3. Đếm xem có bao nhiêu từ 'you' (không phân biệt hoa thường)

import re
word_count = 0

with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
    lines = f.readlines()

you_count = 0

for line in lines:
    # use finndall() to find all occurrences of 'you' in the line - input and pattern
    #pattern take whole you" as a word
    you_count += len(re.findall(r'\byou\b', line, re.IGNORECASE))

print(f'Total words "you": {you_count}')

Total words "you": 2249


In [19]:
# 4. Đếm xem có bao nhiêu từ khác nhau (không phân biết hoa thường)
with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
    lines = f.readlines()
#set - auto store unique value
unique = set()

for line in lines:
    # same as count word in 1 line & lower case -> prevent the case sensitive duplicate
    words = re.findall(r'\b[a-zA-Z]+\b', line.lower())
    unique.update(words)

unique_word_count = len(unique)
print(f'Total distictive words: {unique_word_count}')

Total distictive words: 7612


In [21]:
# 5. Liệt kê 10 từ khóa xuất hiện nhiều nhất trong file dữ liệu (không phân biết hoa thường)
from collections import Counter
# counter is same like dictionary - but it can count number of each key (key is word: number of time appear)

with open('SMSSpamCollection', 'r', encoding='utf-8') as f:
    lines = f.readlines()

word_counter = Counter()

for line in lines:
    # same as count words - 3rd exercise
    words = re.findall(r'\b[a-zA-Z]+\b', line.upper())
    word_counter.update(words) #update the word - as a key, and the number will be automatically increase

# most common - built in get top most
most_common_words = word_counter.most_common(10)

print('Top 10 most appear word:')
for word, count in most_common_words:
    print(f'{word}: {count} Times')

Top 10 most appear word:
HAM: 4829 Times
I: 3021 Times
TO: 2253 Times
YOU: 2249 Times
A: 1450 Times
THE: 1339 Times
U: 1207 Times
AND: 980 Times
IN: 903 Times
IS: 897 Times
