In [1]:
# ===== FIXED SETUP FOR JUPYTER =====
import os
import sys

# Clear any existing Spark environment variables
spark_env_vars = ['SPARK_HOME', 'SPARK_LOCAL_DIRS', 'SPARK_CONF_DIR']
for var in spark_env_vars:
    if var in os.environ:
        del os.environ[var]

# Set clean environment
os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

# Import and create SparkContext (only once!)
from pyspark import SparkContext, SparkConf

# Check if SparkContext already exists
try:
    # Try to access existing SparkContext
    sc.version
    print("✅ Using existing SparkContext")
except:
    # Create new SparkContext if none exists
    conf = SparkConf().setAppName("Lab2_Complete").setMaster("local[*]")
    sc = SparkContext(conf=conf)
    print("✅ Created new SparkContext")

print(f"✅ SparkContext ready - Version: {sc.version}")
print(f"✅ Application: {sc.appName}")


25/09/25 10:21:18 WARN Utils: Your hostname, thuan-precision-5560 resolves to a loopback address: 127.0.1.1; using 192.168.1.5 instead (on interface wlp0s20f3)
25/09/25 10:21:18 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/09/25 10:21:19 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/09/25 10:21:19 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
25/09/25 10:21:19 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.


✅ Created new SparkContext
✅ SparkContext ready - Version: 3.5.6
✅ Application: Lab2_Complete


In [5]:
# Step 2: Đọc file bằng Spark
print("Step 2: Đọc file README.md bằng Spark")

readme_path = "../../data/README.md"

# Đọc file thành RDD
lines_rdd = sc.textFile(readme_path)

print(f"✅ File đã được đọc thành RDD")
print(f"✅ Tổng số dòng: {lines_rdd.count()}")
print(f"✅ Số phân vùng: {lines_rdd.getNumPartitions()}")

print(f"partitions: {lines_rdd.glom().collect()}")

# Hiển thị tất cả dòng để kiểm tra
print(f"\n📖 Tất cả các dòng trong file:")
all_lines = lines_rdd.collect()
for i, line in enumerate(all_lines, 1):
    print(f"  {i:2}: {line}")

Step 2: Đọc file README.md bằng Spark
✅ File đã được đọc thành RDD
✅ Tổng số dòng: 6
✅ Số phân vùng: 2
partitions: [['# Welcome to Apache Spark', 'Apache Spark is a powerful big data processing engine.', 'This lab teaches Spark RDD operations.', 'Spark provides distributed computing capabilities.'], ['Big Data Analytics with Spark framework.', 'Python is great for data science.']]

📖 Tất cả các dòng trong file:
   1: # Welcome to Apache Spark
   2: Apache Spark is a powerful big data processing engine.
   3: This lab teaches Spark RDD operations.
   4: Spark provides distributed computing capabilities.
   5: Big Data Analytics with Spark framework.
   6: Python is great for data science.


In [7]:
# Step 3: Lọc các dòng chứa từ 'Spark'
print("\nStep 3: Lọc các dòng có chứa từ 'Spark'")

# Áp dụng filter với lambda function
spark_lines_rdd = lines_rdd.filter(lambda line: "Spark" in line)

print("✅ Filter đã được áp dụng (lazy evaluation)")

# Đếm số dòng chứa 'Spark'
spark_count = spark_lines_rdd.count()
print(f"✅ Số dòng chứa 'Spark': {spark_count}")

# Hiển thị các dòng đã lọc
print(f"\n🔍 Các dòng chứa từ 'Spark':")
filtered_lines = spark_lines_rdd.collect()
for i, line in enumerate(filtered_lines, 1):
    print(f"  {i}: {line}")
    # Highlight the word 'Spark' in output
    highlighted = line.replace('Spark', '**Spark**')
    print(f"     → {highlighted}")


Step 3: Lọc các dòng có chứa từ 'Spark'
✅ Filter đã được áp dụng (lazy evaluation)
✅ Số dòng chứa 'Spark': 5

🔍 Các dòng chứa từ 'Spark':
  1: # Welcome to Apache Spark
     → # Welcome to Apache **Spark**
  2: Apache Spark is a powerful big data processing engine.
     → Apache **Spark** is a powerful big data processing engine.
  3: This lab teaches Spark RDD operations.
     → This lab teaches **Spark** RDD operations.
  4: Spark provides distributed computing capabilities.
     → **Spark** provides distributed computing capabilities.
  5: Big Data Analytics with Spark framework.
     → Big Data Analytics with **Spark** framework.


In [8]:
# Step 5: Lưu kết quả vào file
print("\nStep 5: Lưu các dòng chứa 'Spark' vào file")

# Đường dẫn output
output_path = "../../results/Bai3_spark_lines"
print(f"Output path: {output_path}")

# Xóa thư mục output cũ nếu tồn tại
import shutil
if os.path.exists(output_path):
    shutil.rmtree(output_path)
    print("✅ Đã xóa thư mục output cũ")

# Tạo thư mục results nếu chưa có
os.makedirs("../../results", exist_ok=True)

# Lưu RDD vào file
spark_lines_rdd.saveAsTextFile(output_path)
print("✅ Đã lưu kết quả vào file")

# Kiểm tra các file được tạo
if os.path.exists(output_path):
    files = os.listdir(output_path)
    print(f"\n📁 Các file được tạo trong {output_path}:")
    for file in sorted(files):
        file_path = os.path.join(output_path, file)
        if os.path.isfile(file_path):
            size = os.path.getsize(file_path)
            print(f"  📄 {file} ({size} bytes)")
else:
    print("❌ Thư mục output không được tạo")



Step 5: Lưu các dòng chứa 'Spark' vào file
Output path: ../../results/Bai3_spark_lines
✅ Đã lưu kết quả vào file

📁 Các file được tạo trong ../../results/Bai3_spark_lines:
  📄 ._SUCCESS.crc (8 bytes)
  📄 .part-00000.crc (12 bytes)
  📄 .part-00001.crc (12 bytes)
  📄 _SUCCESS (0 bytes)
  📄 part-00000 (171 bytes)
  📄 part-00001 (41 bytes)
