## Hệ  thống phân tích và so sánh nội dung WIKIPEDIA

- Thu thập nội dung Wikipedia từ hai phiên bản ngôn ngữ khác nhau , trường hợp cụ thể trong dự án là Chiến tranh Việt Nam(tiếng Việt và tiếng Anh)
- Phân tích nội dung:
  - So sánh 2 bài viết về mặt nội dung, phân tích từ ngữ, giọng văn,độ dài và các yếu tố liên quan
  - Tìm ra điểm tương đồng và khác biệt
- Phân tích cấu trúc:
  - So sánh cấu trúc bài viết, bao gồm cách sắp xếp các mục, độ dài của các phần, số lượng liên kết và trích dẫn.
- Tạo biểu đồ trực quan:
  - Tạo ra các trực quan hóa (visualizations) dưới dạng biểu đồ hoặc hình ảnh minh họa về các thông tin phân tích, giúp người dùng dễ dàng nhận thấy sự khác biệt hoặc tương đồng.
- Tạo report :
  - xuất ra báo cáo tổng hợp dưới dạng JSON và HTML, bao gồm các phần nội dung đã phân tích và các biểu đồ trực quan để cung cấp cái nhìn sâu sắc về sự khác nhau giữa các phiên bản ngôn ngữ của bài viết.

In [1]:
import requests
from bs4 import BeautifulSoup
import re
from collections import Counter
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from textblob import TextBlob
import seaborn as sns
import networkx as nx
from wordcloud import WordCloud
from sklearn.feature_extraction.text import TfidfVectorizer
import logging
import json
from datetime import datetime
from pathlib import Path
import os

- requests: Dùng để gửi các yêu cầu HTTP trong Python, giúp lấy nội dung từ một URL
- BeautifulSoup (từ bs4): Thư viện để phân tích cú pháp HTML và XML.
- re: Đây là thư viện về biểu thức chính quy (regular expressions) của Python, được dùng để tìm kiếm và xử lý các chuỗi dựa trên mẫu.
- collections.Counter: Là một dạng từ điển đặc biệt để đếm các đối tượng hashable
- nltk (Natural Language Toolkit): Thư viện xử lý ngôn ngữ tự nhiên
    -  word_tokenize và sent_tokenize: Tách văn bản thành từ hoặc câu.
    -  stopwords: Danh sách các từ phổ biến (ví dụ: "the", "is") thường bị loại bỏ trong quá trình xử lý văn bản.
- matplotlib.pyplot: Thư viện phổ biến để vẽ đồ thị
- pandas: Thư viện dùng để phân tích và xử lý dữ liệu dạng bảng
- numpy: Thư viện cho các thao tác toán học, đặc biệt là với các mảng (arrays) và tính toán số học.
- TextBlob: Thư viện xử lý văn bản, cung cấp API đơn giản cho các tác vụ như phân tích cảm xúc và trích xuất cụm danh từ.
- seaborn: Thư viện vẽ biểu đồ thống kê, xây dựng trên matplotlib, tạo ra các đồ thị trực quan đẹp mắt và có tính thống kê cao.
- networkx: Thư viện dùng để tạo, thao tác và nghiên cứu các mạng
- TfidfVectorizer: Thuộc scikit-learn, dùng để chuyển đổi một tập hợp các tài liệu văn bản thành ma trận của các đặc trưng TF-ID
- logging: Thư viện tiêu chuẩn của Python để ghi lại và quản lý các thông điệp log
- json: Thư viện hỗ trợ xử lý dữ liệu JSON
- os: Thư viện tương tác với hệ điều hành

In [3]:
# Cấu hình logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('wikipedia_analysis.log'),
        logging.StreamHandler()
    ]
)

- Hàm này dùng để cấu hình hệ thống ghi log (logging system). Nó đặt các cài đặt cơ bản cho các thông điệp log như mức độ (level), định dạng (format) và nơi lưu trữ (handlers).
- level=logging.INFO  : Mức độ thông báo của log,những thông báo có mức độ từ Info trở lên sẽ được báo cáo
- handlers : Danh sách các nơi mà log sẽ được gửi đến

In [5]:
logger = logging.getLogger(__name__)

In [7]:
class WikipediaAnalysisSystem:
    def __init__(self, output_dir='output'):
        """Khởi tạo hệ thống phân tích Wikipedia"""
        self.output_dir = Path(output_dir)
        self.output_dir.mkdir(exist_ok=True)
        
        # Tải các resource cần thiết từ NLTK
        try:
            nltk.download('punkt')
            nltk.download('stopwords')
            logger.info("NLTK resources downloaded successfully")
        except Exception as e:
            logger.error(f"Error downloading NLTK resources: {e}")

        # Khởi tạo stopwords
        self.vietnamese_stopwords = set([
            "của", "và", "các", "có", "là", "được", "trong", "đã", "cho", "những",
            "với", "này", "về", "như", "để", "từ", "theo", "tại", "một", "không",
            "còn", "bị", "khi", "làm", "nhưng", "có thể", "vì", "do", "người", "cũng",
            "sau", "phải", "trên", "đến", "đang", "ra", "thì", "nên", "việc", "cần"
        ])
        self.english_stopwords = set(stopwords.words('english'))

- Định nghĩa lớp khởi tạo
- Tải các tài nguyên cần thiét từ NLTK:
    - punkt là một gói từ NLTK giúp tách (tokenize) văn bản thành câu và từ.
    - stopwords là một gói cung cấp danh sách các từ dừng (stopwords) trong nhiều ngôn ngữ. Stopwords là những từ phổ biến như "là", "và", "của" thường bị loại bỏ trong phân tích văn bản.
    - Khởi tạo một stopwords tiếng việtboiwr vì nltk chưa hỗ trợ
 
- Tóm lại : Lớp WikipediaAnalysisSystem này giúp khởi tạo một hệ thống phân tích Wikipedia. Nó thiết lập thư mục đầu ra để lưu trữ kết quả, tải các tài nguyên cần thiết từ NLTK để phân tích ngôn ngữ, và khởi tạo danh sách các từ dừng (stopwords) cho tiếng Việt và tiếng Anh.

In [9]:
class WikipediaArticle:
    def __init__(self, url, language):
        """Khởi tạo đối tượng bài viết Wikipedia"""
        self.url = url
        self.language = language
        self.soup = None
        self.content = None
        self.title = None
        self.metadata = {}

    def fetch_content(self):
        """Lấy nội dung bài viết từ Wikipedia"""
        try:
            response = requests.get(self.url)
            response.raise_for_status()
            self.soup = BeautifulSoup(response.content, 'html.parser')
            self.content = self.soup.find(id="mw-content-text").get_text()
            self.title = self.soup.find(id="firstHeading").get_text()
            logger.info(f"Successfully fetched content for {self.title}")
            return True
        except Exception as e:
            logger.error(f"Error fetching content from {self.url}: {e}")
            return False

    def extract_metadata(self):
        """Trích xuất metadata của bài viết"""
        try:
            self.metadata = {
                'title': self.title,
                'url': self.url,
                'language': self.language,
                'last_modified': self.soup.find(id="footer-info-lastmod").get_text(),
                'word_count': len(self.content.split()),
                'fetch_time': datetime.now().isoformat()
            }
            return self.metadata
        except Exception as e:
            logger.error(f"Error extracting metadata: {e}")
            return {}


- Khởi tạo đối tượng WikipediaArticle với các thuộc tính:
  -  self.url: Lưu trữ URL của bài viết Wikipedia.
  -  self.language: Lưu trữ ngôn ngữ của bài viết.
  -  self.soup: Đây sẽ là đối tượng BeautifulSoup sau khi lấy nội dung HTML từ Wikipedia.
  -  self.content: Lưu trữ nội dung chính của bài viết.
  -  self.title: Lưu trữ tiêu đề của bài viết.
  -  self.metadata: Đây là dictionary để lưu trữ các thông tin metadata (siêu dữ liệu) về bài viết.
- Hàm fetch_content :
  - requests.get(self.url): Gửi một yêu cầu HTTP GET đến URL của bài viết Wikipedia để lấy nội dung HTML.
  - response.raise_for_status(): Kiểm tra xem yêu cầu có thành công hay không (nếu có lỗi HTTP, sẽ phát sinh lỗi và không tiếp tục thực thi các dòng mã sau đó).
  - self.soup = BeautifulSoup(response.content, 'html.parser'): Tạo một đối tượng BeautifulSoup từ nội dung HTML đã nhận được từ Wikipedia, giúp phân tích cú pháp trang web.
  - self.content = self.soup.find(id="mw-content-text").get_text():
    - Tìm thẻ HTML có id="mw-content-text", đây là nơi chứa nội dung chính của bài viết Wikipedia.
    - .get_text(): Lấy toàn bộ văn bản (text) từ thẻ này và lưu vào self.content.
  - Tìm thẻ có id="firstHeading" để lấy tiêu đề của bài viết.
  - logger.info(f"Successfully fetched content for {self.title}"): Ghi lại log khi lấy nội dung thành công
  - return True: Trả về True nếu việc lấy nội dung thành công.
  -  Nếu có lỗi xảy ra trong quá trình lấy nội dung, chương trình sẽ bắt lỗi và ghi lại thông báo lỗi qua logger. Trả về False nếu không thể lấy nội dung bài viết.
- Hàm extract_metadat :
  - self.metadata: Trích xuất các thông tin metadata từ bài viết và lưu vào dictionary self.metadata với các trường:
    - title: Tiêu đề của bài viết.
    - url: Đường dẫn URL của bài viết.
    - language: Ngôn ngữ của bài viết.
    - last_modified: Thông tin về lần cuối cùng bài viết được chỉnh sửa, được lấy từ thẻ HTML có id="footer-info-lastmod".
    - word_count: Số lượng từ trong bài viết (được tính bằng cách tách từ trong self.content và đếm số phần tử).
    - fetch_time: Thời gian mà nội dung bài viết được lấy về, sử dụng hàm datetime.now().isoformat() để lấy thời gian hiện tại theo định dạng ISO 8601.
  - return self.metadata: Trả về dictionary chứa metadata của bài viết.

  - except Exception as e: Nếu có lỗi xảy ra khi trích xuất metadata, chương trình sẽ ghi lại lỗi và trả về một dictionary rỗng.

In [11]:
class ContentAnalyzer:
    def __init__(self, article_vi, article_en, system):
        """Khởi tạo bộ phân tích nội dung"""
        self.article_vi = article_vi
        self.article_en = article_en
        self.system = system

    def analyze_text_content(self):
        """Phân tích nội dung văn bản"""
        results = {
            'word_frequency': self._analyze_word_frequency(),
            'sentiment': self._analyze_sentiment(),
            'readability': self._analyze_readability(),
            'complexity': self._analyze_complexity(),
            'named_entities': self._extract_named_entities(),
            'temporal_references': self._analyze_temporal_references()
        }
        return results

    def _analyze_word_frequency(self):
        """Phân tích tần suất từ"""
        def get_frequency(text, stopwords):
            words = word_tokenize(text.lower())
            words = [w for w in words if w.isalnum() and w not in stopwords]
            return Counter(words).most_common(20)

        return {
            'vietnamese': get_frequency(self.article_vi.content, self.system.vietnamese_stopwords),
            'english': get_frequency(self.article_en.content, self.system.english_stopwords)
        }

    def _analyze_sentiment(self):
        """Phân tích tình cảm/quan điểm"""
        def get_sentiment(text):
            blob = TextBlob(text)
            return {
                'polarity': blob.sentiment.polarity,
                'subjectivity': blob.sentiment.subjectivity
            }

        return {
            'vietnamese': get_sentiment(self.article_vi.content),
            'english': get_sentiment(self.article_en.content)
        }

    def _analyze_readability(self):
        """Phân tích độ dễ đọc"""
        def calculate_readability(text):
            sentences = sent_tokenize(text)
            words = word_tokenize(text)
            return {
                'sentence_count': len(sentences),
                'word_count': len(words),
                'avg_sentence_length': len(words) / len(sentences) if sentences else 0,
                'avg_word_length': sum(len(word) for word in words) / len(words) if words else 0
            }

        return {
            'vietnamese': calculate_readability(self.article_vi.content),
            'english': calculate_readability(self.article_en.content)
        }
        
    def _analyze_complexity(self):
        """Phân tích độ phức tạp của văn bản"""
        def calculate_complexity(text):
            words = word_tokenize(text)
            complex_words = len([w for w in words if len(w) > 6])
            
            sentences = sent_tokenize(text)
            complex_word_ratio = complex_words / len(words) if words else 0
            avg_sentence_length = len(words) / len(sentences) if sentences else 0
            
            return {
                'complex_words_count': complex_words,
                'complex_word_ratio': complex_word_ratio,
                'avg_sentence_length': avg_sentence_length,
                'gunning_fog_index': 0.4 * (avg_sentence_length + 100 * complex_word_ratio)
            }

        return {
            'vietnamese': calculate_complexity(self.article_vi.content),
            'english': calculate_complexity(self.article_en.content)
        }

    def _extract_named_entities(self):
        """Trích xuất các thực thể có tên"""
        def extract_entities(text):
            capitalized_words = re.findall(r'\b[A-Z][a-zA-Z]*(?:\s+[A-Z][a-zA-Z]*)*\b', text)
            entities = sorted(set(capitalized_words))
            
            return {
                'count': len(entities),
                'entities': entities[:20]
            }

        return {
            'vietnamese': extract_entities(self.article_vi.content),
            'english': extract_entities(self.article_en.content)
        }

    def _analyze_temporal_references(self):
        """Phân tích các tham chiếu thời gian"""
        def find_temporal_references(text):
            patterns = {
                'years': r'\b\d{4}\b',
                'dates': r'\b\d{1,2}/\d{1,2}/\d{2,4}\b',
                'months': r'\b(January|February|March|April|May|June|July|August|September|October|November|December)\b'
            }
            
            results = {}
            for key, pattern in patterns.items():
                matches = re.findall(pattern, text)
                results[key] = {
                    'count': len(matches),
                    'examples': sorted(set(matches))[:10]
                }
                
            return results

        return {
            'vietnamese': find_temporal_references(self.article_vi.content),
            'english': find_temporal_references(self.article_en.content)
        }

- Lớp ContentAnalyzer có nhiệm vụ phân tích nội dung văn bản từ hai bài viết Wikipedia bằng tiếng Việt và tiếng Anh. Các phương thức chính bao gồm:
  - analyze_text_content: Phân tích toàn bộ nội dung văn bản và trả về kết quả của các phân tích con.
  - _analyze_word_frequency: Phân tích tần suất từ và lọc từ thông dụng dựa trên danh sách stopwords.
  - _analyze_sentiment: Đánh giá tình cảm/quan điểm của văn bản qua độ phân cực và tính chủ quan.
  - _analyze_readability: Đánh giá độ dễ đọc qua số câu, số từ, độ dài trung bình của câu và từ.
  - _analyze_complexity: Phân tích độ phức tạp của văn bản, tính tỷ lệ từ phức tạp và chỉ số Gunning Fog Index.
  - _extract_named_entities: Trích xuất các thực thể có tên (danh từ riêng, tên địa danh...).
  - _analyze_temporal_references: Tìm kiếm các tham chiếu về thời gian như năm, ngày tháng, tên tháng.

In [13]:
class StructureAnalyzer:
    def __init__(self, article_vi, article_en):
        """Khởi tạo bộ phân tích cấu trúc"""
        self.article_vi = article_vi
        self.article_en = article_en

    def analyze_structure(self):
        """Phân tích cấu trúc bài viết"""
        results = {
            'sections': self._analyze_sections(),
            'links': self._analyze_links(),
            'citations': self._analyze_citations(),
            'images': self._analyze_images()
        }
        return results

    def _analyze_sections(self):
        """Phân tích các phần của bài viết"""
        def get_sections(soup):
            sections = []
            for heading in soup.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
                level = int(heading.name[1])
                title = heading.get_text().strip()
                sections.append({'level': level, 'title': title})
            return sections

        return {
            'vietnamese': get_sections(self.article_vi.soup),
            'english': get_sections(self.article_en.soup)
        }

    def _analyze_links(self):
        """Phân tích các liên kết trong bài viết"""
        def get_links(soup):
            links = []
            for link in soup.find_all('a', href=True):
                href = link.get('href')
                if href.startswith('/wiki/'):
                    links.append(href)
            return links

        return {
            'vietnamese': get_links(self.article_vi.soup),
            'english': get_links(self.article_en.soup)
        }

    def _analyze_citations(self):
        """Phân tích các trích dẫn"""
        def get_citations(soup):
            citations = soup.find_all('cite')
            return [cite.get_text() for cite in citations]

        return {
            'vietnamese': get_citations(self.article_vi.soup),
            'english': get_citations(self.article_en.soup)
        }

    def _analyze_images(self):
        """Phân tích các hình ảnh"""
        def get_images(soup):
            images = []
            for img in soup.find_all('img'):
                images.append({
                    'src': img.get('src', ''),
                    'alt': img.get('alt', '')
                })
            return images

        return {
            'vietnamese': get_images(self.article_vi.soup),
            'english': get_images(self.article_en.soup)
        }

- Lớp StructureAnalyzer phân tích cấu trúc của hai bài viết Wikipedia bằng tiếng Việt và tiếng Anh. Các phương thức chính bao gồm:
    - analyze_structure: Phân tích cấu trúc toàn bộ bài viết, bao gồm các phần, liên kết, trích dẫn và hình ảnh.
    - _analyze_sections: Phân tích các tiêu đề trong bài viết, lấy ra danh sách các phần với cấp độ (h1, h2, h3,...) và tiêu đề của chúng.
    - _analyze_links: Trích xuất các liên kết (links) trong bài viết, chỉ tập trung vào các liên kết nội bộ của Wikipedia (bắt đầu bằng "/wiki/").
    - _analyze_citations: Trích xuất các trích dẫn (citations) từ bài viết, lưu lại văn bản của các phần trích dẫn.
    - _analyze_images: Phân tích các hình ảnh trong bài viết, lưu lại thông tin về nguồn ảnh (src) và mô tả ảnh (alt).

In [34]:
class VisualizationGenerator:
    def __init__(self, content_analysis, structure_analysis, output_dir):
        """Khởi tạo bộ tạo trực quan hóa"""
        self.content_analysis = content_analysis
        self.structure_analysis = structure_analysis
        self.output_dir = output_dir

    def generate_visualizations(self):
        """Tạo tất cả các trực quan hóa"""
        self._generate_word_frequency_plot()
        self._generate_sentiment_plot()
        self._generate_structure_plot()
        
        self._generate_citation_plot()
        self._generate_readability_plot()

    def _generate_word_frequency_plot(self):
        """Tạo biểu đồ tần suất từ"""
        plt.figure(figsize=(15, 6))
        
        # Tạo dữ liệu cho biểu đồ
        vi_words, vi_freqs = zip(*self.content_analysis['word_frequency']['vietnamese'][:10])
        en_words, en_freqs = zip(*self.content_analysis['word_frequency']['english'][:10])
        
        # Vẽ biểu đồ cột cho tiếng Việt
        plt.subplot(1, 2, 1)
        plt.barh(vi_words, vi_freqs)
        plt.title('Top Words (Vietnamese)')
        plt.xlabel('Frequency')
        
        # Vẽ biểu đồ cột cho tiếng Anh
        plt.subplot(1, 2, 2)
        plt.barh(en_words, en_freqs)
        plt.title('Top Words (English)')
        plt.xlabel('Frequency')
        
        plt.tight_layout()
        plt.savefig(self.output_dir / 'word_frequency.png')
        plt.close()

    def _generate_sentiment_plot(self):
        """Tạo biểu đồ phân tích tình cảm"""
        plt.figure(figsize=(10, 6))
        
        # Lấy dữ liệu sentiment
        vi_sentiment = self.content_analysis['sentiment']['vietnamese']
        en_sentiment = self.content_analysis['sentiment']['english']
        
        # Tạo dữ liệu cho biểu đồ
        languages = ['Vietnamese', 'English']
        polarity = [vi_sentiment['polarity'], en_sentiment['polarity']]
        subjectivity = [vi_sentiment['subjectivity'], en_sentiment['subjectivity']]
        
        # Vẽ biểu đồ
        x = np.arange(len(languages))
        width = 0.35
        
        plt.bar(x - width/2, polarity, width, label='Polarity')
        plt.bar(x + width/2, subjectivity, width, label='Subjectivity')
        
        plt.ylabel('Score')
        plt.title('Sentiment Analysis')
        plt.xticks(x, languages)
        plt.legend()
        
        plt.tight_layout()
        plt.savefig(self.output_dir / 'sentiment.png')
        plt.close()

    def _generate_structure_plot(self):
        """Tạo biểu đồ cấu trúc"""
        plt.figure(figsize=(12, 6))
        
        # Lấy dữ liệu cấu trúc
        vi_sections = len(self.structure_analysis['sections']['vietnamese'])
        en_sections = len(self.structure_analysis['sections']['english'])
        vi_links = len(self.structure_analysis['links']['vietnamese'])
        en_links = len(self.structure_analysis['links']['english'])
        vi_citations = len(self.structure_analysis['citations']['vietnamese'])
        en_citations = len(self.structure_analysis['citations']['english'])
        vi_images = len(self.structure_analysis['images']['vietnamese'])
        en_images = len(self.structure_analysis['images']['english'])
        
        # Tạo dữ liệu cho biểu đồ
        categories = ['Sections', 'Links', 'Citations', 'Images']
        vi_data = [vi_sections, vi_links, vi_citations, vi_images]
        en_data = [en_sections, en_links, en_citations, en_images]
        
        x = np.arange(len(categories))
        width = 0.35
        
        plt.bar(x - width/2, vi_data, width, label='Vietnamese')
        plt.bar(x + width/2, en_data, width, label='English')
        
        plt.ylabel('Count')
        plt.title('Article Structure Comparison')
        plt.xticks(x, categories)
        plt.legend()
        
        plt.tight_layout()
        plt.savefig(self.output_dir / 'structure.png')
        plt.close()
   

    def _generate_citation_plot(self):
        """Tạo biểu đồ trích dẫn"""
        plt.figure(figsize=(10, 6))
        
        # Lấy số lượng trích dẫn
        vi_citations = len(self.structure_analysis['citations']['vietnamese'])
        en_citations = len(self.structure_analysis['citations']['english'])
        
        # Vẽ biểu đồ pie
        plt.pie([vi_citations, en_citations], 
                labels=['Vietnamese', 'English'],
                autopct='%1.1f%%',
                colors=['lightblue', 'lightgreen'])
        
        plt.title('Citation Distribution')
        plt.axis('equal')
        
        plt.savefig(self.output_dir / 'citations.png')
        plt.close()

    def _generate_readability_plot(self):
        """Tạo biểu đồ độ dễ đọc"""
        plt.figure(figsize=(12, 6))
        
        # Lấy dữ liệu độ dễ đọc
        vi_readability = self.content_analysis['readability']['vietnamese']
        en_readability = self.content_analysis['readability']['english']
        
        # Tạo dữ liệu cho biểu đồ
        metrics = ['Sentence Count', 'Word Count', 'Avg Sentence Length', 'Avg Word Length']
        vi_data = [vi_readability[k.lower().replace(' ', '_')] for k in metrics]
        en_data = [en_readability[k.lower().replace(' ', '_')] for k in metrics]
        
        x = np.arange(len(metrics))
        width = 0.35
        
        plt.bar(x - width/2, vi_data, width, label='Vietnamese')
        plt.bar(x + width/2, en_data, width, label='English')
        
        plt.ylabel('Value')
        plt.title('Readability Metrics')
        plt.xticks(x, metrics, rotation=45)
        plt.legend()
        
        plt.tight_layout()
        plt.savefig(self.output_dir / 'readability.png')
        plt.close()
   

- Lớp VisualizationGenerator tạo ra các biểu đồ trực quan để minh họa kết quả phân tích nội dung và cấu trúc của hai bài viết (tiếng Việt và tiếng Anh). Các phương thức chính bao gồm:
  - generate_visualizations: Gọi các phương thức phụ để tạo tất cả các biểu đồ, gồm tần suất từ, phân tích tình cảm, cấu trúc bài viết, trích dẫn, và độ dễ đọc.
  - _generate_word_frequency_plot: Tạo biểu đồ cột ngang cho top 10 từ phổ biến nhất trong hai bài viết (tiếng Việt và tiếng Anh).
  - _generate_sentiment_plot: Tạo biểu đồ cột so sánh mức độ "Polarity" (tính tích cực) và "Subjectivity" (tính chủ quan) giữa hai bài viết.
  - _generate_structure_plot: Tạo biểu đồ cột để so sánh số lượng phần, liên kết, trích dẫn, và hình ảnh giữa hai bài viết.
  - _generate_citation_plot: Tạo biểu đồ tròn để so sánh số lượng trích dẫn giữa hai bài viết.
  - _generate_readability_plot: Tạo biểu đồ cột so sánh các chỉ số về độ dễ đọc (số câu, số từ, độ dài trung bình câu, độ dài trung bình từ) giữa hai bài viết.
- Mỗi biểu đồ đều được lưu vào thư mục đầu ra (output_dir) dưới định dạng ảnh (.png).

In [22]:
class ReportGenerator:
    def __init__(self, content_analysis, structure_analysis, visualizations, output_dir):
        """Khởi tạo bộ tạo báo cáo"""
        self.content_analysis = content_analysis
        self.structure_analysis = structure_analysis
        self.visualizations = visualizations
        self.output_dir = output_dir

    def generate_report(self):
        """Tạo báo cáo phân tích đầy đủ"""
        report = {
            'metadata': {
                'generated_at': datetime.now().isoformat(),
                'version': '1.0'
            },
            'content_analysis': self.content_analysis,
            'structure_analysis': self.structure_analysis,
            'visualizations': list(map(str, self.output_dir.glob('*.png')))
        }

        # Lưu báo cáo JSON
        with open(self.output_dir / 'report.json', 'w', encoding='utf-8') as f:
            json.dump(report, f, ensure_ascii=False, indent=2)

        # Tạo báo cáo HTML
        self._generate_html_report(report)

    def _generate_html_report(self, report):
        """Tạo báo cáo HTML"""
        html_content = f"""
        <!DOCTYPE html>
        <html>
        <head>
            <title>Wikipedia Analysis Report</title>
            <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.1.3/dist/css/bootstrap.min.css" rel="stylesheet">
            <style>
                .visualization-section img {{
                    max-width: 100%;
                    height: auto;
                    margin: 20px 0;
                }}
                .metrics-section {{
                    margin: 20px 0;
                }}
            </style>
        </head>
        <body>
            <div class="container mt-5">
                <h1 class="mb-4">Wikipedia Analysis Report</h1>
                
                <div class="metrics-section">
                    <h2>Content Analysis</h2>
                    <div class="card">
                        <div class="card-body">
                            <pre>{json.dumps(self.content_analysis, indent=2)}</pre>
                        </div>
                    </div>
                </div>
                
                <div class="metrics-section">
                    <h2>Structure Analysis</h2>
                    <div class="card">
                        <div class="card-body">
                            <pre>{json.dumps(self.structure_analysis, indent=2)}</pre>
                        </div>
                    </div>
                </div>
                
                <div class="visualization-section">
                    <h2>Visualizations</h2>
                    {self._generate_visualization_html()}
                </div>
            </div>
            
            <script src="https://cdn.jsdelivr.net/npm/bootstrap@5.1.3/dist/js/bootstrap.bundle.min.js"></script>
        </body>
        </html>
        """
        with open(self.output_dir / 'report.html', 'w', encoding='utf-8') as f:
            f.write(html_content)

    def _generate_visualization_html(self):
        """Tạo HTML cho phần trực quan hóa"""
        html = ""
        for img_path in sorted(self.output_dir.glob('*.png')):
            if img_path.name.endswith('.png'):
                html += f"""
                <div class="card mb-4">
                    <div class="card-header">
                        <h5 class="card-title">{img_path.stem.replace('_', ' ').title()}</h5>
                    </div>
                    <div class="card-body">
                        <img src="{img_path.name}" alt="{img_path.stem}" class="img-fluid">
                    </div>
                </div>
                """
        return html 

- generate_report:
  - Tạo báo cáo dạng JSON chứa:
        - Thông tin metadata về thời gian tạo báo cáo và phiên bản.
        - Dữ liệu phân tích nội dung (content_analysis).
        - Dữ liệu phân tích cấu trúc (structure_analysis).
        - Danh sách các hình ảnh trực quan đã tạo.
    - Báo cáo JSON này được lưu vào tệp report.json.
    - Sau đó, nó gọi phương thức phụ để tạo báo cáo HTML.
- _generate_html_report:
  - Tạo một báo cáo HTML sử dụng Bootstrap để tạo giao diện đẹp và responsive
  - Báo cáo bao gồm các phần:
    - Content Analysis: Hiển thị phân tích nội dung dưới dạng JSON.
    - Structure Analysis: Hiển thị phân tích cấu trúc dưới dạng JSON.
    - Visualizations: Hiển thị tất cả hình ảnh trực quan dưới dạng thẻ Bootstrap.
- _generate_visualization_html:Tạo phần HTML để hiển thị từng hình ảnh trực quan.
- Output
  -  report.json: Lưu trữ toàn bộ dữ liệu phân tích dưới dạng JSON.
  -  report.html: Báo cáo HTML với nội dung phân tích và hình ảnh trực quan đi kèm.

In [26]:
def main():
    # Khởi tạo hệ thống
    system = WikipediaAnalysisSystem()

    # Tạo các đối tượng bài viết
    article_vi = WikipediaArticle(
        "https://vi.wikipedia.org/wiki/Chiến_tranh_Việt_Nam",
        "vietnamese"
    )
    article_en = WikipediaArticle(
        "https://en.wikipedia.org/wiki/Vietnam_War",
        "english"
    )

    # Lấy nội dung
    if not article_vi.fetch_content() or not article_en.fetch_content():
        logger.error("Failed to fetch content for one or both articles")
        return

    # Phân tích nội dung
    content_analyzer = ContentAnalyzer(article_vi, article_en, system)
    content_analysis = content_analyzer.analyze_text_content()

    # Phân tích cấu trúc
    structure_analyzer = StructureAnalyzer(article_vi, article_en)
    structure_analysis = structure_analyzer.analyze_structure()

    # Tạo trực quan hóa
    visualization_generator = VisualizationGenerator(
        content_analysis,
        structure_analysis,
        system.output_dir
    )
    visualization_generator.generate_visualizations()

    # Tạo báo cáo
    report_generator = ReportGenerator(
        content_analysis,
        structure_analysis,
        visualization_generator,
        system.output_dir
    )
    report_generator.generate_report()

    logger.info("Analysis completed successfully")

- Hàm main() kết hợp tất cả các bước từ việc thu thập nội dung, phân tích, tạo trực quan hóa, đến việc tạo báo cáo tổng hợp chi tiết.

In [36]:
if __name__ == "__main__":
    try:
        main()
    except Exception as e:
        logger.error(f"An error occurred during execution: {e}", exc_info=True)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\84388\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\84388\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
2024-10-22 15:43:27,436 - __main__ - INFO - NLTK resources downloaded successfully
--- Logging error ---
Traceback (most recent call last):
  File "C:\Users\84388\anaconda3\Lib\logging\__init__.py", line 1163, in emit
    stream.write(msg + self.terminator)
  File "C:\Users\84388\anaconda3\Lib\encodings\cp1252.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
UnicodeEncodeError: 'charmap' codec can't encode character '\u1ebf' in position 80: character maps to <undefined>
Call stack:
  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 8