1) Xây dựng một lớp TextStats như sau:
- Hàm khởi tạo nhận vào đường dẫn đến một file text
- Hàm stat() trả về một hashtable với key là từ và
value là số lần xuất hiện của từ đó
- Hàm top(k) trả về danh sách k từ có số lần xuất
hiện cao nhất
- Hàm save() lưu danh sách các từ word kèm theo
số lần xuất hiện n của nó theo thứ tự n giảm dần.
Định đạng lưu trữ là file text, mỗi dòng là thông tin
một từ cách nhau bằng khoảng trắng: **word n**


In [1]:
%%writefile text.txt
Abstract In recent years, deep neural networks have been successful in both industry and academia, especially for computer vision tasks. The great success of deep learning is mainly due to its scalability to encode large-scale data and to maneuver billions of model parameters. However, it is a challenge to deploy these cumbersome deep models on devices with limited resources, e.g., mobile phones and embedded devices, not only because of the high computational complexity but also the large storage requirements. To this end, a variety of model compression and acceleration techniques have been developed. As a representative type of model compression and acceleration, knowledge distillation effectively learns a small student model from a large teacher model. It has received rapid increasing attention from the community. This paper provides a comprehensive survey of knowledge distillation from the perspectives of knowledge categories, training schemes, teacher-student architecture, distillation algorithms, performance comparison and applications. Furthermore, challenges in knowledge distillation are briefly reviewed and comments on future research are discussed and forwarded. 

Writing text.txt


In [2]:
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from collections import Counter
from pprint import pprint

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [3]:
class TextStats:
  def __init__(self, txt_dir):
    self.file =  open(txt_dir, 'r', encoding='utf-8')
    self.vocab_dict = Counter()
  def stat(self):
    for content in self.file:
      sentences = sent_tokenize(content)
      for sentence in sentences:
        sentence = sentence.lower()
        words_dict = Counter(word_tokenize(sentence))
        for word in words_dict.keys():
          if word in self.vocab_dict:
            self.vocab_dict[word] += words_dict[word]
          else:
            self.vocab_dict[word] = words_dict[word]
    return self.vocab_dict
  
  def top(self, k):
    return self.vocab_dict.most_common(k)

  def save(self):
    save_dict = {k: v for k, v in sorted(self.vocab_dict.items(), key=lambda item: item[1], reverse=True)}
    with open("vocab_dict.txt", 'w') as f: 
      for key, value in save_dict.items(): 
          f.write(f"{key} {value}\n")
    print(">> Saved in vocab_dict.txt")

In [4]:
textstats = TextStats("/content/text.txt")

In [5]:
stat = textstats.stat()
pprint(stat)

Counter({',': 13,
         'and': 8,
         '.': 8,
         'of': 7,
         'a': 6,
         'the': 5,
         'to': 5,
         'model': 5,
         'knowledge': 4,
         'distillation': 4,
         'in': 3,
         'deep': 3,
         'from': 3,
         'have': 2,
         'been': 2,
         'is': 2,
         'it': 2,
         'on': 2,
         'devices': 2,
         'large': 2,
         'this': 2,
         'compression': 2,
         'acceleration': 2,
         'are': 2,
         'abstract': 1,
         'recent': 1,
         'years': 1,
         'neural': 1,
         'networks': 1,
         'successful': 1,
         'both': 1,
         'industry': 1,
         'academia': 1,
         'especially': 1,
         'for': 1,
         'computer': 1,
         'vision': 1,
         'tasks': 1,
         'great': 1,
         'success': 1,
         'learning': 1,
         'mainly': 1,
         'due': 1,
         'its': 1,
         'scalability': 1,
         'encode': 1,
         'larg

In [6]:
k = 10
top = textstats.top(k)
pprint(top)

[(',', 13),
 ('and', 8),
 ('.', 8),
 ('of', 7),
 ('a', 6),
 ('the', 5),
 ('to', 5),
 ('model', 5),
 ('knowledge', 4),
 ('distillation', 4)]


In [7]:
textstats.save()

>> Saved in vocab_dict.txt


2) Xây dựng một lớp Matrix để thể hiện ma trận với
các yêu cầu sau:
- Hàm input() nhập ma trận. Để tạo mảng hai chiều,
cần tạo mảng một chiều của các mảng một chiều

mảng = []

mảng.append([])

mảng[i].append(x)

- Hàm sum(b) cộng ma trận hiện tại với ma trận b,
trả về một ma trận tổng.
- Hàm mult(b) nhân ma trận hiện tại với ma trận b,
trả về một ma trận kết quả.

In [8]:
import numpy as np

In [9]:
class Matrix:
  def __init__(self, row, column):
    self.row = row
    self.column = column
    self.matrix = np.zeros((row, column))
  
  def input(self):
    for i in range(self.row):
      arr = input(f"Enter row {i}: ")
      arr = arr.split()
      assert len(arr) == self.column, "Number of elements did not match the number of column"
      arr = list(map(int, arr))
      self.matrix[i, :] += arr
    
  def sum(self, b):
    assert self.matrix.shape == b.matrix.shape, "Matrix dimension does not match"

    self.matrix = self.matrix + b.matrix
  
  def mult(self, b):
    assert self.matrix.shape == b.matrix.shape, "Matrix dimension does not match"

    self.matrix = self.matrix * b.matrix

In [10]:
matrix_1 = Matrix(2, 3)
matrix_1.input()
matrix_1.matrix

Enter row 0: 1 2 3
Enter row 1: 4 5 6


array([[1., 2., 3.],
       [4., 5., 6.]])

In [11]:
matrix_2 = Matrix(2, 3)
matrix_2.input()
matrix_2.matrix

Enter row 0: 4 5 6
Enter row 1: 7 8 9


array([[4., 5., 6.],
       [7., 8., 9.]])

In [12]:
matrix_1.sum(matrix_2)
matrix_1.matrix

array([[ 5.,  7.,  9.],
       [11., 13., 15.]])

In [13]:
matrix_1.mult(matrix_2)
matrix_1.matrix

array([[ 20.,  35.,  54.],
       [ 77., 104., 135.]])

1) Viết chương trình nhập vào một dãy số, sắp xếp
theo thứ tự giảm dần.

In [14]:
9
arr = []
n = int(input("Enter the number of elements in array: "))
for i in range(n):
  arr.append(int(input(f"Nhap phan tu thu {i}: ")))
print(sorted(arr, reverse=True))

Enter the number of elements in array: 6
Nhap phan tu thu 0: 5
Nhap phan tu thu 1: 9
Nhap phan tu thu 2: 4
Nhap phan tu thu 3: 6
Nhap phan tu thu 4: 3
Nhap phan tu thu 5: 8
[9, 8, 6, 5, 4, 3]


2) Nhập vào danh sách tọa độ và in ra hai điểm gần
nhau nhất.

In [15]:
from scipy.spatial.distance import euclidean

In [16]:
arr = []
n = int(input("Enter the number of coordinates: "))
for i in range(n):
  a, b = input("Enter x and y: ").split()
  arr.append([int(a), int(b)])
print(arr)

Enter the number of coordinates: 3
Enter x and y: 1 6
Enter x and y: 2 5
Enter x and y: 3 7
[[1, 6], [2, 5], [3, 7]]


In [17]:
min_dis = 100.0
a = 0
b = 0
for i in range(len(arr) - 1):
  for j in range(i+1, len(arr)):
    distance = euclidean(arr[i], arr[j])
    print(arr[i], arr[j], distance)
    if distance < min_dis:
      min_dis = distance
      a = i
      b = j
print(f"2 data points which have minimum distance is {arr[a]} and {arr[b]}")

[1, 6] [2, 5] 1.4142135623730951
[1, 6] [3, 7] 2.23606797749979
[2, 5] [3, 7] 2.23606797749979
2 data points which have minimum distance is [1, 6] and [2, 5]
