# Init Spark

In [2]:
import pyspark
from pyspark.sql import SparkSession

In [3]:
spark = ( 
    SparkSession.builder
            .appName('test').master("yarn")
            .getOrCreate()
)

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/03/22 11:41:02 INFO SparkEnv: Registering MapOutputTracker
24/03/22 11:41:02 INFO SparkEnv: Registering BlockManagerMaster
24/03/22 11:41:02 INFO SparkEnv: Registering BlockManagerMasterHeartbeat
24/03/22 11:41:02 INFO SparkEnv: Registering OutputCommitCoordinator


.master("local[*]").  Nếu chạy local. Dấu * tượng trưng cho ý spark được phép dùng hết tài nguyên của máy ( CPU/RAM ) để xử lý 

.master("yarn"). Nếu chạy trên cluster YARN


Có thể thêm config vào. Một số config để connect với s3

  - .config("spark.jars", "aws-sdk-java-2.17.81.jar") 

  - .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
  
  - .config("spark.hadoop.fs.s3a.access.key", "<your_access_key_id>")
  
  - .config("spark.hadoop.fs.s3a.secret.key", "<your_secret_access_key>")

In [4]:
spark

In [5]:
!pyspark --version and spark-shell --version 

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.5.0
      /_/
                        
Using Scala version 2.12.18, OpenJDK 64-Bit Server VM, 11.0.20.1
Branch dataproc-branch-3.5.0
Compiled by user  on 2024-03-06T22:47:14Z
Revision 8c74211db15b74df03f0cfb2fd46a60ebe95f5c8
Url https://bigdataoss-internal.googlesource.com/third_party/apache/spark
Type --help for more information.


# Read File

In [9]:
data_storage = "gs://dang_crawldata/2024/%m/22/DuongTuanKiet_First.parquet"

df = spark.read.parquet(data_storage)

                                                                                

In [10]:
df.printSchema()

root
 |-- Link: string (nullable = true)
 |-- Lawname: string (nullable = true)
 |-- Title: string (nullable = true)
 |-- Answer: string (nullable = true)



In [11]:
df.show()

                                                                                

+--------------------+-------+--------------------+--------------------+
|                Link|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

# Read Spark with Schema

In [12]:
from pyspark.sql import types

In [16]:
schema = types.StructType([
    types.StructField('Link', types.StringType(), True),
    types.StructField('Lawname', types.StringType(), True),
    types.StructField('Title', types.StringType(), True),
    types.StructField('Answer', types.StringType(), True),
])

In [17]:
df = spark.read \
    .schema(schema) \
    .parquet(data_storage)

In [18]:
df.show()

[Stage 3:>                                                          (0 + 1) / 1]

+--------------------+-------+--------------------+--------------------+
|                Link|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

                                                                                

# Làm việc với cột ( columns ) 

In [19]:
df = df.withColumnRenamed("Link", "Link_dang")

In [20]:
df.show()

[Stage 4:>                                                          (0 + 1) / 1]

+--------------------+-------+--------------------+--------------------+
|           Link_dang|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

                                                                                

In [21]:
df.select("Lawname","Answer").describe().show()

[Stage 7:>                                                          (0 + 1) / 1]

+-------+-------+--------------------+
|summary|Lawname|              Answer|
+-------+-------+--------------------+
|  count|     30|                  30|
|   mean|   NULL|                NULL|
| stddev|   NULL|                NULL|
|    min|   dang|Buổi tọa đàm do B...|
|    max|   dang| Thủ tướng Phạm M...|
+-------+-------+--------------------+



                                                                                

In [22]:
df.printSchema()

root
 |-- Link_dang: string (nullable = true)
 |-- Lawname: string (nullable = true)
 |-- Title: string (nullable = true)
 |-- Answer: string (nullable = true)



# Pyspark và SQL

### SELECT

In [23]:
df.select("*").show()

[Stage 8:>                                                          (0 + 1) / 1]

+--------------------+-------+--------------------+--------------------+
|           Link_dang|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

                                                                                

In [24]:
df.select("*").head()

                                                                                

Row(Link_dang='https://dangcongsan.vn/lanh-dao-dang-nha-nuoc/thu-tuong-tiep-pho-chu-tich-ha-vien-chu-tich-nhom-nghi-si-huu-nghi-australia-viet-nam-660821.html', Lawname='dang', Title='Thủ tướng tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam', Answer='Thủ tướng Phạm Minh Chính tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam,\xa0bà Sharon Claydon. Trong chương trình thăm chính thức Australia, chiều 7/3, tại thủ đô Canberra, Thủ tướng Chính phủ Phạm Minh Chính đã tiếp bà Sharon Claydon, Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam và các cộng sự. Tại buổi tiếp, Thủ tướng Phạm Minh Chính trân trọng cảm ơn sự đón tiếp chu đáo, trọng thị và nồng ấm mà Nhóm Nghị sĩ hữu nghị nói riêng, Chính phủ và nhân dân Australia nói chung đã dành cho Đoàn đại biểu Chính phủ Việt Nam; để lại những ấn tượng sâu đậm về một đất nước Australia tươi đẹp, thanh bình, phát triển và giàu lòng mến khách. Thủ tướng cảm ơn Aus

In [25]:
df.select(
    "Lawname",
    "Answer",
    "Title").show()

[Stage 10:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|              Answer|               Title|
+-------+--------------------+--------------------+
|   dang|Thủ tướng Phạm Mi...|Thủ tướng tiếp Ph...|
|   dang|Lễ đón Thủ tướng ...|Việt Nam và Austr...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng gặp gỡ ...|
|   dang|Thủ tướng Phạm Mi...|Thúc đẩy hợp tác ...|
|   dang|Thủ tướng Phạm Mi...|Tuyên bố chung về...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng hội kiế...|
|   dang| Chủ tịch Quốc hộ...|Ghi nhận sự đóng ...|
|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|   dang|Trong chương trìn...|Đưa hợp tác giáo ...|
|   dang|Thủ tướng Phạm Mi...|​Quan hệ Việt Nam...|
|   dang|Sáng 7/3, tại Phủ...|Kiểm sát viên Việ...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng làm việ...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng gặp Hội...|
|   dang|Thủ tướng Chính p...|Thủ tướng Phạm Mi...|
|   dang| Thủ tướng Phạm M...|Thủ tướng Phạm Mi...|
|   dang|Thủ

                                                                                

In [26]:
df.select("Title").distinct().show()

[Stage 11:>                                                         (0 + 1) / 1]

+--------------------+
|               Title|
+--------------------+
|Thủ tướng gặp Hội...|
|Thủ tướng Phạm Mi...|
|Trao Huy hiệu 40 ...|
|Việt Nam và Austr...|
|Thủ tướng Phạm Mi...|
|Thúc đẩy hợp tác ...|
|Chủ tịch Quốc hội...|
|Thúc đẩy hợp tác ...|
|Ghi nhận sự đóng ...|
|Thủ tướng làm việ...|
|Thủ tướng Phạm Mi...|
|Chủ tịch nước Võ ...|
|Thủ tướng Phạm Mi...|
|Thủ tướng hội kiế...|
|Thúc đẩy hợp tác ...|
|Thủ tướng Phạm Mi...|
|Thủ tướng Phạm Mi...|
|Thủ tướng tiếp Ph...|
|Kiểm sát viên Việ...|
|Tuyên bố chung về...|
+--------------------+
only showing top 20 rows



                                                                                

In [27]:
from pyspark.sql import functions as F

In [28]:
df.select(
    F.col("Title"),
    F.col("Answer"),
).distinct().show()

[Stage 14:>                                                         (0 + 1) / 1]

+--------------------+--------------------+
|               Title|              Answer|
+--------------------+--------------------+
|Tuyên bố báo chí ...|Thủ tướng Phạm Mi...|
|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|Kiểm sát viên Việ...|Sáng 7/3, tại Phủ...|
|Trao Huy hiệu 40 ...|Sáng 11/3, tại Nh...|
|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|Thúc đẩy hợp tác ...|Chiều 14/3, tại T...|
|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|Đẩy mạnh hợp tác ...|Chủ tịch nước Võ ...|
|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|Nỗ lực đưa quan h...|Trong chương trìn...|
|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|Đưa hợp tác giáo ...|Trong chương trìn...|
|Thúc đẩy hợp tác ...|Sáng 11/3, giờ đị...|
|Chủ tịch nước Võ ...|  Chủ tịch nước V...|
|Thủ tướng Phạm Mi...|Thủ tướng 

                                                                                

In [35]:
df

DataFrame[Link_dang: string, Lawname: string, Title: string, Answer: string]

### WHERE

In [43]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer"),
).filter(F.col("Title").contains("Thủ tướng")).show()

[Stage 29:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Chính p...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ tướng New Zea...|Thủ tướng New Zea...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Buổi tọa đàm do B...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
+-------+--------------------+--------------------+



                                                                                

In [44]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer"),
).filter(F.col("Answer").contains("New Zealand")).show()

[Stage 30:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Chính p...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ tướng New Zea...|Thủ tướng New Zea...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Buổi tọa đàm do B...|
|   dang|Thúc đẩy hợp tác ...|Sáng 11/3, giờ đị...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Nỗ lực đưa quan h...|Trong chương trìn...|
|   dang|Tuyên bố báo chí ...|Thủ tướng Phạm Mi...|
+-------+--------------------+--------------------+



                                                                                

In [45]:
condition = (F.col("Title").contains("Nỗ lực")) & (F.col("Answer").contains("Phạm Minh Chính"))

df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer"),
).filter(condition).show()

[Stage 31:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Nỗ lực đưa quan h...|Trong chương trìn...|
+-------+--------------------+--------------------+



                                                                                

### ORDER BY

In [48]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer")
).filter(F.col("Lawname").contains("dang")).orderBy("Lawname").show()


[Stage 32:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|   dang|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|   dang|Kiểm sát viên Việ...|Sáng 7/3, tại Phủ...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Chính p...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ

                                                                                

In [51]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer")
).filter(F.col("Lawname").contains("dang")).orderBy(F.col("Title").desc()).show()


[Stage 35:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|   dang|Đẩy mạnh hợp tác ...|Chủ tịch nước Võ ...|
|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Tuyên bố báo chí ...|Thủ tướng Phạm Mi...|
|   dang|Trao Huy hiệu 40 ...|Sáng 11/3, tại Nh...|
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Buổi tọa đàm do B...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ

                                                                                

In [52]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer")
).filter(F.col("Lawname").contains("dang")).sort(F.col("Title").desc()).show()


[Stage 36:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|   dang|Đẩy mạnh hợp tác ...|Chủ tịch nước Võ ...|
|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Tuyên bố báo chí ...|Thủ tướng Phạm Mi...|
|   dang|Trao Huy hiệu 40 ...|Sáng 11/3, tại Nh...|
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Buổi tọa đàm do B...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ

                                                                                

In [55]:
df.select(
    F.col("Lawname"),
    F.col("Title"),
    F.col("Answer")
).filter(F.col("Lawname").contains("dang")).sort(F.col("Title")).limit(5).show()


[Stage 38:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|   dang|Chủ tịch nước Võ ...|  Chủ tịch nước V...|
|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|   dang|Kiểm sát viên Việ...|Sáng 7/3, tại Phủ...|
|   dang|Nỗ lực đưa quan h...|Trong chương trìn...|
+-------+--------------------+--------------------+



                                                                                

### GROUP BY 

In [57]:
 (
    df.select(
        F.col("Title"),
        F.col("Answer")
    )
     .groupBy("Answer")
     .count()
     .show()
 )

[Stage 42:>                                                         (0 + 1) / 1]

+--------------------+-----+
|              Answer|count|
+--------------------+-----+
|Chiều 14/3, tại T...|    1|
|Thủ tướng Phạm Mi...|    1|
|Sáng 7/3, tại Phủ...|    1|
|Thủ tướng Phạm Mi...|    1|
|Lễ đón Thủ tướng ...|    1|
|Thủ tướng New Zea...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Chính p...|    1|
|  Chủ tịch nước V...|    1|
|Chủ tịch nước Võ ...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
| Thủ tướng Phạm M...|    1|
|Sáng 11/3, giờ đị...|    1|
|Thủ tướng Phạm Mi...|    1|
|Thủ tướng Phạm Mi...|    1|
+--------------------+-----+
only showing top 20 rows



                                                                                

# User Define Function ( UDF )

In [58]:
def convert_case(string):
    return string.upper()

convert_case_udf = F.udf(convert_case, returnType=types.StringType())

In [87]:
( 
    df
    .withColumn('Lawname_dang', convert_case_udf(F.col("Lawname")))
    .select('Lawname_dang','Lawname') 
    .show()
)

[Stage 68:>                                                         (0 + 1) / 1]

+------------+-------+
|Lawname_dang|Lawname|
+------------+-------+
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
|        DANG|   dang|
+------------+-------+
only showing top 20 rows



                                                                                

# Spark SQL

In [88]:
df.createOrReplaceTempView("df")
# df.registerTempTable("df")

In [89]:
spark.sql(" SELECT * from df ").show()

[Stage 69:>                                                         (0 + 1) / 1]

+--------------------+-------+--------------------+--------------------+
|           Link_dang|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

                                                                                

In [90]:
query = """
SELECT Lawname, Title, Answer
FROM df WHERE Lawname == 'dang'

""" 
spark.sql(query).show()


[Stage 70:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|   dang|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|   dang|Kiểm sát viên Việ...|Sáng 7/3, tại Phủ...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Chính p...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ

                                                                                

# Ghi kết quả ra file parquet 

In [91]:
query = """

SELECT Link_dang, Lawname, Title, Answer
FROM df WHERE Lawname = 'dang'

""" 

spark.sql(query).write.parquet("gs://dang_crawldata/2024/%m/22/DuongTuanKiet_Last.parquet",
                               mode = "overwrite")

#Dùng  write.partitionBy(col).parquet để partition

                                                                                

In [92]:
result_df = spark.read.parquet("gs://dang_crawldata/2024/%m/22/DuongTuanKiet_Last.parquet")

                                                                                

In [93]:
result_df.show()

[Stage 73:>                                                         (0 + 1) / 1]

+--------------------+-------+--------------------+--------------------+
|           Link_dang|Lawname|               Title|              Answer|
+--------------------+-------+--------------------+--------------------+
|https://dangcongs...|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|https://dangcongs...|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|https://dangcongs...|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|https://dangcongs...|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|https://dangcongs...|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|https://dangcongs...|   dang|​Quan hệ Việt Nam...|

                                                                                

# Ví dụ thực tế.

In [95]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types

spark = ( 
    SparkSession.builder
            .master("yarn") 
            .appName('Google Dang')
            .getOrCreate()
)

schema = types.StructType([
    types.StructField('Link', types.StringType(), True),
    types.StructField('Lawname', types.StringType(), True),
    types.StructField('Title', types.StringType(), True),
    types.StructField('Answer', types.StringType(), True),
])

data_storage = "gs://dang_crawldata/2024/%m/22/DuongTuanKiet_First.parquet"
data_write = "gs://dang_crawldata/2024/%m/22/google_dang"

df = spark.read.parquet(data_storage)

df.createOrReplaceTempView("df")
query = """

SELECT Lawname, Title, Answer
FROM df WHERE Lawname == 'dang'

""" 

spark.sql(query).write.parquet(data_write,
                        mode = "overwrite")

                                                                                

In [96]:
result_df = spark.read.parquet("gs://dang_crawldata/2024/%m/22/google_dang")

                                                                                

In [97]:
result_df.printSchema()

root
 |-- Lawname: string (nullable = true)
 |-- Title: string (nullable = true)
 |-- Answer: string (nullable = true)



In [98]:
result_df.show()

[Stage 78:>                                                         (0 + 1) / 1]

+-------+--------------------+--------------------+
|Lawname|               Title|              Answer|
+-------+--------------------+--------------------+
|   dang|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|   dang|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|   dang|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|   dang|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|   dang|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|   dang|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|   dang|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|   dang|Đưa hợp tác giáo ...|Trong chương trìn...|
|   dang|​Quan hệ Việt Nam...|Thủ tướng Phạm Mi...|
|   dang|Kiểm sát viên Việ...|Sáng 7/3, tại Phủ...|
|   dang|Thủ tướng làm việ...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng gặp Hội...|Thủ tướng Phạm Mi...|
|   dang|Thủ tướng Phạm Mi...|Thủ tướng Chính p...|
|   dang|Thủ tướng Phạm Mi...| Thủ tướng Phạm M...|
|   dang|Thủ

                                                                                

# RDD

In [99]:
df.select( 
    F.col('Title'),
    F.col('Answer')
).limit(10).show()

[Stage 79:>                                                         (0 + 1) / 1]

+--------------------+--------------------+
|               Title|              Answer|
+--------------------+--------------------+
|Thủ tướng tiếp Ph...|Thủ tướng Phạm Mi...|
|Việt Nam và Austr...|Lễ đón Thủ tướng ...|
|Thủ tướng gặp gỡ ...|Thủ tướng Phạm Mi...|
|Thúc đẩy hợp tác ...|Thủ tướng Phạm Mi...|
|Tuyên bố chung về...|Thủ tướng Phạm Mi...|
|Thủ tướng Phạm Mi...|Thủ tướng Phạm Mi...|
|Thủ tướng hội kiế...|Thủ tướng Phạm Mi...|
|Ghi nhận sự đóng ...| Chủ tịch Quốc hộ...|
|Chủ tịch Quốc hội...|Chủ tịch Quốc hội...|
|Đưa hợp tác giáo ...|Trong chương trìn...|
+--------------------+--------------------+



                                                                                

In [100]:
rdd_dang_body = df.select("Title","Answer").rdd

In [101]:
rdd_dang_body

MapPartitionsRDD[303] at javaToPython at NativeMethodAccessorImpl.java:0

In [102]:
rdd_dang_body.take(1)

                                                                                

[Row(Title='Thủ tướng tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam', Answer='Thủ tướng Phạm Minh Chính tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam,\xa0bà Sharon Claydon. Trong chương trình thăm chính thức Australia, chiều 7/3, tại thủ đô Canberra, Thủ tướng Chính phủ Phạm Minh Chính đã tiếp bà Sharon Claydon, Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam và các cộng sự. Tại buổi tiếp, Thủ tướng Phạm Minh Chính trân trọng cảm ơn sự đón tiếp chu đáo, trọng thị và nồng ấm mà Nhóm Nghị sĩ hữu nghị nói riêng, Chính phủ và nhân dân Australia nói chung đã dành cho Đoàn đại biểu Chính phủ Việt Nam; để lại những ấn tượng sâu đậm về một đất nước Australia tươi đẹp, thanh bình, phát triển và giàu lòng mến khách. Thủ tướng cảm ơn Australia đã ủng hộ Việt Nam trong suốt chiều dài lịch sử, trong phục hồi sau chiến tranh, phát triển kinh tế - xã hội, nhất là trong cung cấp ODA cho Việt Nam, gần đây nhất l

In [103]:
all_data = rdd_dang_body.collect()

                                                                                

In [104]:
rdd_dang_body.getNumPartitions()

1

In [105]:
rdd_dang_body.repartition(4).getNumPartitions()

4

In [106]:
rdd_dang_body.getNumPartitions()

1

### Map

In [107]:
def count_len(row):
    Title = row.Title
    Answer = row.Answer
    return (Title, Answer)
        
rdd_dang_body.map(count_len).take(10)

                                                                                

[('Thủ tướng tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam',
  'Thủ tướng Phạm Minh Chính tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam,\xa0bà Sharon Claydon. Trong chương trình thăm chính thức Australia, chiều 7/3, tại thủ đô Canberra, Thủ tướng Chính phủ Phạm Minh Chính đã tiếp bà Sharon Claydon, Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam và các cộng sự. Tại buổi tiếp, Thủ tướng Phạm Minh Chính trân trọng cảm ơn sự đón tiếp chu đáo, trọng thị và nồng ấm mà Nhóm Nghị sĩ hữu nghị nói riêng, Chính phủ và nhân dân Australia nói chung đã dành cho Đoàn đại biểu Chính phủ Việt Nam; để lại những ấn tượng sâu đậm về một đất nước Australia tươi đẹp, thanh bình, phát triển và giàu lòng mến khách. Thủ tướng cảm ơn Australia đã ủng hộ Việt Nam trong suốt chiều dài lịch sử, trong phục hồi sau chiến tranh, phát triển kinh tế - xã hội, nhất là trong cung cấp ODA cho Việt Nam, gần đây nhất là trong phòng,

In [108]:
def count_word(row):
    Title = row.Title
    for word in Title.split(" "):
        yield (word,1)
        
rdd_dang_body.flatMap(count_word).take(10)

                                                                                

[('Thủ', 1),
 ('tướng', 1),
 ('tiếp', 1),
 ('Phó', 1),
 ('Chủ', 1),
 ('tịch', 1),
 ('Hạ', 1),
 ('viện,', 1),
 ('Chủ', 1),
 ('tịch', 1)]

In [110]:
def filter_product(row):
    Answer = row.Answer
    return Answer != "Thủ tướng"
        
( 
    rdd_dang_body
        .filter(filter_product)
        .map(count_len)
        .take(10)
)

                                                                                

[('Thủ tướng tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam',
  'Thủ tướng Phạm Minh Chính tiếp Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam,\xa0bà Sharon Claydon. Trong chương trình thăm chính thức Australia, chiều 7/3, tại thủ đô Canberra, Thủ tướng Chính phủ Phạm Minh Chính đã tiếp bà Sharon Claydon, Phó Chủ tịch Hạ viện, Chủ tịch Nhóm Nghị sĩ hữu nghị Australia - Việt Nam và các cộng sự. Tại buổi tiếp, Thủ tướng Phạm Minh Chính trân trọng cảm ơn sự đón tiếp chu đáo, trọng thị và nồng ấm mà Nhóm Nghị sĩ hữu nghị nói riêng, Chính phủ và nhân dân Australia nói chung đã dành cho Đoàn đại biểu Chính phủ Việt Nam; để lại những ấn tượng sâu đậm về một đất nước Australia tươi đẹp, thanh bình, phát triển và giàu lòng mến khách. Thủ tướng cảm ơn Australia đã ủng hộ Việt Nam trong suốt chiều dài lịch sử, trong phục hồi sau chiến tranh, phát triển kinh tế - xã hội, nhất là trong cung cấp ODA cho Việt Nam, gần đây nhất là trong phòng,

In [112]:
def sort_by_value(record):
    return record[1]

(
    rdd_dang_body
        .filter(filter_product)
        .map(count_len)
        .sortBy(sort_by_value,ascending = False)
        .take(10)
)


                                                                                

[('Thủ tướng Phạm Minh Chính làm việc với giới khoa học, doanh nhân New Zealand',
  '\xa0Thủ tướng Phạm Minh Chính làm việc với giới khoa học, doanh nhân New Zealand để nắm bắt tình hình; tìm hiểu nhu cầu, tiềm năng, khả năng, cơ hội hợp tác; chia sẻ kinh nghiệm; kết nối hợp tác trong các lĩnh vực. * Thủ tướng Chính phủ Phạm Minh Chính làm việc với Nhóm khoa học công nghệ người Việt tại New Zealand (VietTech NZ) Các nhà khoa học người Việt tại New Zealand cho biết, VietTech NZ là cộng đồng kết nối các cá nhân Việt Nam sinh sống, làm việc, nghiên cứu tại New Zealand để tham gia đóng góp các sáng kiến khoa học, công nghệ; trao đổi, chia sẻ các thành tựu nghiên cứu, cũng như quảng bá hình ảnh đất nước, con người, tri thức Việt Nam tại New Zealand. Các đại biểu giới thiệu với Thủ tướng Chính phủ về tiềm năng, những dự án, chương trình cụ thể đã, đang và có thể hỗ trợ, hợp tác với Việt Nam; chia sẻ kinh nghiệm trong nhiều lĩnh vực khác nhau như khoa học công nghệ, giáo dục đào tạo, y tế, nă

### Reduce

In [113]:
def my_sum(x,y):
    return x + y

In [114]:
(
    rdd_dang_body
        .map(count_len)
        .reduceByKey(my_sum)
        .sortBy(sort_by_value,ascending = False)
        .take(10)
)

                                                                                

[('Thủ tướng Phạm Minh Chính làm việc với giới khoa học, doanh nhân New Zealand',
  '\xa0Thủ tướng Phạm Minh Chính làm việc với giới khoa học, doanh nhân New Zealand để nắm bắt tình hình; tìm hiểu nhu cầu, tiềm năng, khả năng, cơ hội hợp tác; chia sẻ kinh nghiệm; kết nối hợp tác trong các lĩnh vực. * Thủ tướng Chính phủ Phạm Minh Chính làm việc với Nhóm khoa học công nghệ người Việt tại New Zealand (VietTech NZ) Các nhà khoa học người Việt tại New Zealand cho biết, VietTech NZ là cộng đồng kết nối các cá nhân Việt Nam sinh sống, làm việc, nghiên cứu tại New Zealand để tham gia đóng góp các sáng kiến khoa học, công nghệ; trao đổi, chia sẻ các thành tựu nghiên cứu, cũng như quảng bá hình ảnh đất nước, con người, tri thức Việt Nam tại New Zealand. Các đại biểu giới thiệu với Thủ tướng Chính phủ về tiềm năng, những dự án, chương trình cụ thể đã, đang và có thể hỗ trợ, hợp tác với Việt Nam; chia sẻ kinh nghiệm trong nhiều lĩnh vực khác nhau như khoa học công nghệ, giáo dục đào tạo, y tế, nă

# World Count  bằng rdd

In [115]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql import types

def count_word(row):
    Title_count = row.Title
    for word in Title_count.split(" "):
        yield (word,1)

def my_sum(x,y):
    return x + y

spark = ( 
    SparkSession.builder
            .master("yarn") 
            .appName('Word Count')
            .getOrCreate()
)

schema = types.StructType([
    types.StructField('Link', types.StringType(), True),
    types.StructField('Lawname', types.StringType(), True),
    types.StructField('Title', types.StringType(), True),
    types.StructField('Answer', types.StringType(), True),
])

data_storage = "gs://dang_crawldata/2024/%m/22/DuongTuanKiet_First.parquet"
data_write = "gs://dang_crawldata/2024/%m/22/word_count"

df = spark.read.schema(schema).parquet(data_storage)
rdd_dang_body = df.select("Title").rdd
(
    rdd_dang_body
        .flatMap(count_word)
        .reduceByKey(my_sum)
        .saveAsTextFile(data_write)
)


24/03/22 14:15:59 WARN SparkSession: Using an existing Spark session; only runtime SQL configurations will take effect.
                                                                                

In [117]:
from google.cloud import storage

def download_blob(bucket_name, source_blob_name):
    """Downloads a blob from the bucket."""
    storage_client = storage.Client()
    bucket = storage_client.bucket(bucket_name)
    blob = bucket.blob(source_blob_name)
    print(blob.download_as_text())

bucket_name = "dang_crawldata"
dang_blob_name = "2024/%m/22/word_count/part-00000"
download_blob(bucket_name, source_blob_name)


('Thủ', 17)
('tướng', 17)
('tiếp', 5)
('Phó', 1)
('Chủ', 8)
('tịch', 8)
('Hạ', 1)
('viện,', 1)
('Nhóm', 1)
('Nghị', 1)
('sĩ', 1)
('hữu', 1)
('nghị', 2)
('Australia', 9)
('-', 10)
('Việt', 16)
('Nam', 16)
('và', 5)
('nâng', 3)
('cấp', 2)
('quan', 4)
('hệ', 5)
('lên', 3)
('Đối', 3)
('tác', 8)
('Chiến', 2)
('lược', 2)
('Toàn', 2)
('diện', 3)
('gặp', 3)
('gỡ', 2)
('cán', 1)
('bộ,', 1)
('nhân', 4)
('viên', 2)
('Đại', 3)
('sứ', 3)
('quán', 1)
('cộng', 1)
('đồng', 1)
('người', 1)
('tại', 5)
('Thúc', 3)
('đẩy', 3)
('hợp', 5)
('khoa', 2)
('học', 1)
('công', 1)
('nghệ', 1)
('giữa', 2)
('CSIRO', 1)
('Tuyên', 2)
('bố', 2)
('chung', 2)
('về', 1)
('việc', 3)
('toàn', 2)
('Autralia', 1)
('Phạm', 10)
('Minh', 10)
('Chính', 10)
('Lãnh', 1)
('đạo', 1)
('Đảng', 2)
('Tự', 1)
('do', 1)
('hội', 8)
('kiến', 3)
('với', 5)
('Thượng', 1)
('viện', 1)
('Sue', 1)
('Lines', 1)
('Ghi', 1)
('nhận', 1)
('sự', 1)
('đóng', 1)
('góp', 1)
('to', 1)
('lớn', 1)
('của', 1)
('các', 3)
('nữ', 1)
('đại', 1)
('biểu', 1)
('Quốc',