## Set up

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from loguru import logger
import json

import sys
sys.path.insert(0, '..')

In [3]:
import os
from tqdm.notebook import tqdm

In [4]:
import nest_asyncio

nest_asyncio.apply()

In [5]:
from dotenv import load_dotenv

load_dotenv()

True

## Load config

## Set up llms

In [6]:
from llama_index.llms.ollama import Ollama

llm = Ollama(
    base_url="https://535a-34-32-249-223.ngrok-free.app/",
    model='reader-lm:1.5b-fp16',
    request_timeout=200.0
)

## Extract data from web

In [7]:
import requests
from bs4 import BeautifulSoup

In [8]:
markdown_content = llm.complete(test)
print(markdown_content)

NameError: name 'test' is not defined

In [10]:
from typing import List
from pydantic import BaseModel, Field

In [11]:
DEFAULT_TAGS = ["p", "h1", "h2", "h3", "h4", "h5", "h6", "li", "b", "i", "u", "section"]
tags: List[str] = DEFAULT_TAGS

In [12]:
tags

['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'li', 'b', 'i', 'u', 'section']

In [25]:
import re
import requests
import asyncio
from pathlib import Path
from tqdm.notebook import tqdm
from asyncio import Semaphore
from typing import List
from loguru import logger
from tenacity import retry, wait_random_exponential, stop_after_attempt


class CrawlData():
    DEFAULT_TAGS = ["p", "h1", "h2", "h3", "h4", "h5", "h6", "li", "b", "i", "u", "section"]
    PATTERN = r'^\d+\.\s*'
    BASE_URL = "https://www.vinmec.com"
    DATA_PATH = 'data/crawl'
    
    def __init__(self):
        self.tags: List[str] = self.DEFAULT_TAGS

        if not Path(self.DATA_PATH).exists():
            Path(self.DATA_PATH).mkdir(parents=True, exist_ok=True)

        self.data_path = self.DATA_PATH
    
    async def extract_batch(self, list_url: List[str], max_concurrency_calls: int = 10):
        from bs4 import BeautifulSoup
        
        sem = Semaphore(max_concurrency_calls)
        @retry(
            wait=wait_random_exponential(multiplier=1, min=10, max=90),
            stop=stop_after_attempt(3)
        )
        async def extract(url: str):
            phrase = {}
            current_h2 = None
            content_accumulator = []
            async with sem:
                html = requests.get(url).text
                soup = BeautifulSoup(html, 'html.parser')
                content = soup.find('div', {'class':'col-8 main-col'})
                tags = content.find_all(self.tags)
                for tag in tags:
                    tag_text = await self._extract_text_from_tag(tag)
                    if tag.name == "h2":
                        if current_h2:
                            phrase[current_h2] = " ".join(content_accumulator)
                        current_h2 = re.sub(self.PATTERN, '', tag_text.strip()) 
                        content_accumulator = []
                    else:
                        content_accumulator.append(tag_text.strip())
                if current_h2:
                    phrase[current_h2] = " ".join(content_accumulator)
            if len(phrase) != 0:
                return phrase
        coros = [extract(url) for url in tqdm(list_url, total=len(list_url))]
        phrases = await asyncio.gather(*coros)
        phrases = [phrase for phrase in phrases if phrase and phrase is not None]
        if isinstance(phrases, type(None)) or all(phrase is None for phrase in phrases):
            return
        return phrases
                
    async def _extract_text_from_tag(self, tag: str) -> str:
        from bs4 import NavigableString
        texts = []
        for element in tag.children:
            if isinstance(element, NavigableString):
                if element.strip():
                    texts.append(element.strip())
            elif element.name in self.tags:
                continue
            else:
                texts.append(element.get_text().strip())
        return "\n".join(texts)

    def get_urls(self):
        categories = {
            # 'vie/chan-thuong-chinh-hinh-y-hoc-the-thao': 287,
            # 'vie/trung-tam-cong-nghe-cao': 17,
            # 'vie/trung-tam-nhi': 990,
            # 'vie/trung-tam-suc-khoe-phu-nu': 902,
            # 'vie/trung-tam-vu': 32,
            # 'vie/suc-khoe-tong-quat': 1167,
            # 'vie/than-kinh': 7,
            # 'vie/tieu-hoa-gan-mat': 414,
            # 'vie/tim-mach': 290,
            # 'vie/ung-buou': 235,
            # 'vie/trung-tam-vac-xin': 230,
            # 'vie/te-bao-goc-va-cong-nghe-gen': 21,
            # 'vie/y-hoc-co-truyen': 97,
            # 'vie/tham-my': 86,
            # 'vie/dinh-duong': 226,
            # 'vie/song-khoe': 153,
            'vie/mien-dich-di-ung': 16
        }
        for category, pages in categories.items():
            print(category, pages)
            for page in range(1, pages+1):
                yield f"{self.BASE_URL}/{category}/page_{page}"

    async def get_article_urls(self, page_url: str) -> List[str]:
        from bs4 import BeautifulSoup
        
        html = requests.get(page_url).text
        articles = BeautifulSoup(html, 'html.parser')
        tags = articles.find_all('div', {'class': 'col-3'})
        article_urls = [self.BASE_URL + tag.find('a').get('href') for tag in tags]
        
        return article_urls

    def _save_json(self, data, page_url):
        logger.info(f"data {data}")
        if data is not None and len(data) != 0:
            category_folder = page_url.split('/')[-2]
            if not Path(self.data_path + '/' + category_folder).exists():
                Path(self.data_path + '/' + category_folder).mkdir(exist_ok=True, parents=True)
            
            page_id = page_url.split('/')[-1]
            logger.info(f'Save {category_folder + '/' + page_id} into : {self.data_path}')
            with open(self.data_path + f'/{category_folder}/{page_id}.json', 'w') as f:
                json.dump(data, f, indent=4, ensure_ascii=False)
            
    async def run(self):
        page_urls = self.get_urls()
        
        for page_url in page_urls:
            article_urls = await self.get_article_urls(page_url)
            logger.info(f"Extract {len(article_urls)} article from {page_url}")
            articles = await self.extract_batch(article_urls)
            
            self._save_json(articles, page_url)
            

In [26]:
crawl = CrawlData()

In [27]:
res = await crawl.run()

vie/mien-dich-di-ung 16


[32m2024-10-14 17:31:35.315[0m | [1mINFO    [0m | [36m__main__[0m:[36mrun[0m:[36m128[0m - [1mExtract 8 article from https://www.vinmec.com/vie/mien-dich-di-ung/page_1[0m


  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:36.592[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Triệu chứng khi bị dị ứng lông chó': 'Người bị\ndị ứng lông chó\nthường có các triệu chứng tương tự như các loại dị ứng mũi khác, bao gồm: Ho, khò khè, khó thở. Đỏ mắt, ngứa mắt và chảy nước mắt. Chảy nước mũi, hắt hơi, ngứa mũi và\nnghẹt mũi\n. Một số người bị dị ứng lông chó không chỉ cảm thấy ngứa ngáy và hắt hơi mà còn có thể xảy ra phản ứng trên da. Da của bệnh nhân có thể nổi mẩn đỏ sau khi bị chó liếm. Đặc biệt nguy hiểm, những người mắc\nhen suyễn\nhoặc\ndị ứng với thú cưng\ncó thể gặp phải các triệu chứng nghiêm trọng.', 'Các nguyên nhân gây ra dị ứng lông chó': 'Các protein gây dị ứng có mặt trong da chết, lông, nước bọt và nước tiểu của chó.\nHệ miễn dịch\nphản ứng quá mức với những protein này, gây ra phản ứng dị ứng. Mức độ dị ứng còn phụ thuộc vào giống chó do sự đa dạng về loại dị nguyên và loại lông. Ngoài ra, chất gây dị ứng từ chó thường bám vào lông,

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:38.828[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Những điều cần biết về hệ miễn dịch': 'Trong cơ thể mỗi con người luôn có một hệ thống cực kỳ phức tạp mang tên\nHệ miễn dịch\n, hay tên tiếng anh là “Immune System”. Nó được tạo thành từ một mạng lưới xuyên suốt cơ thể, có thể được tìm thấy trong hệ thống tiêu hóa, tủy xương, lá lách, niêm mạc mỏng trong mũi, họng và bộ phận sinh dục, bên dưới lớp da cũng như ở Amidan cổ họng. Nhờ vào sự phân bố rộng khắp này, hệ miễn dịch có thể hoạt động liên tục để giữ cho cơ thể khỏe mạnh. Một trong số những tế bào quan trọng của hệ miễn dịch có thể kể đến là tế bào bạch cầu - có nhiệm vụ tìm kiếm, tiêu diệt các loại vi khuẩn truyền nhiễm có hại, từ đó dẫn đến phản ứng miễn dịch. Trong điều kiện bình thường và khỏe mạnh, hệ miễn dịch có thể tạo ra rào cản ngăn chặn các mầm bệnh hoặc kháng nguyên lạ xâm nhập vào cơ thể chúng ta. Nếu kháng nguyên xâm nhập vào bên trong cơ thể, phản 

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:40.450[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Cơ địa dị ứng là gì?': 'là một trở ngại đối với hệ thống miễn dịch, khiến bệnh nhân dễ bị ảnh hưởng bởi các bệnh dị ứng hơn. Gen của bệnh nhân là nguyên nhân chính gây ra vấn đề này Cơ địa dị ứng Khi mắc dị ứng,\nhệ thống miễn dịch\ncủa bệnh nhân trở nên nhạy cảm hơn đối với các tác nhân gây bệnh. Điều này dẫn đến phản ứng của cơ thể bệnh nhân đối với các chất kích thích (như bụi, phấn hoa, đậu phộng hoặc lông động vật) mạnh hơn so với người bình thường. Nếu bệnh nhân phát hiện mình mắc dị ứng hoặc\nhen suyễn\n, nguyên nhân có thể do cơ địa dị ứng.', 'Điều gì xảy ra khi người bệnh có cơ địa dị ứng': 'Khi cơ thể bệnh nhân tiếp xúc với chất gây dị ứng, hệ thống miễn dịch sẽ xem chất gây dị ứng như một mối nguy hiểm và bắt đầu sản xuất kháng thể\nimmunoglobulin E\n(IgE). Những kháng thể này kích thích một số tế bào giải phóng các chất gây dị ứng, dẫn đến các triệu chứng n

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:41.735[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Cơ chế thuốc chống dị ứng không gây buồn ngủ': 'Khác với thuốc kháng histamin truyền thống vốn thường gây buồn ngủ, thuốc kháng histamin thế hệ thứ hai lại không có tác dụng phụ này. Các loại thuốc dị ứng này làm dịu các triệu chứng dị ứng mà không gây\nmệt mỏi\nnhờ thành phần hóa học đặc biệt. Thuốc kháng histamin thế hệ thứ hai được dùng để khắc phục các phản ứng dị ứng và ngứa. Cơ chế hoạt động của loại thuốc này dựa trên việc ngăn chặn sự gắn kết của histamin vào các thụ thể thần kinh. Nhờ đó, quá trình giải phóng histamin gây ra các triệu chứng dị ứng như: Co thắt ống phế quản. Co thắt các cơ trơn. Sưng tấy. Hạ huyết áp. Suy yếu hệ thần kinh trung ương. Rối loạn nhịp tim. Bằng cách ngăn chặn sự giải phóng histamin, thuốc kháng histamin đã hiệu quả trong việc làm giảm các triệu chứng dị ứng. Đây là loại thuốc đã được FDA phê duyệt vì chúng an toàn hơn so với thuốc 

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:43.707[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Dị ứng thời tiết là gì?': 'Dị ứng thời tiết\nthường xuất hiện trong giai đoạn chuyển mùa do sự thay đổi đột ngột của nhiệt độ - từ nóng sang lạnh hoặc ngược lại. Sự thay đổi độ ẩm tạo điều kiện cho sự phát triển của nấm mốc hoặc thay đổi nồng độ phấn hoa trong không khí, từ đó ảnh hưởng đến hệ miễn dịch của cơ thể. Rối loạn trong hệ miễn dịch là nguyên nhân chính dẫn đến dị ứng thời tiết, khiến cơ thể phản ứng và sản sinh các kháng thể cũng như chất hóa học để chống lại các tác nhân kích thích từ môi trường bên ngoài. Đây là cơ chế quan trọng giúp bảo vệ cơ thể khỏi các yếu tố gây hại.', 'Biểu hiện của dị ứng thời tiết': 'Khi bệnh nhân có cơ địa dị ứng và tiếp xúc với các dị nguyên từ môi trường bên ngoài như thời tiết nóng, lạnh, phấn hoa hoặc nước mưa, bệnh nhân có những biểu hiện sau: Phát ban: Người bệnh xuất hiện các vùng phát ban với mẩn đỏ trên da, thường tập tr

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:45.249[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Các triệu chứng của bệnh mề đay ánh sáng mặt trời là gì?': 'Một số triệu chứng dị ứng ánh sáng mặt trời bao gồm phát ban hoặc\nnổi mề đay\nxảy ra đột ngột sau khi da tiếp xúc với ánh nắng mặt trời. Chỉ cần tiếp xúc trong một thời gian ngắn với ánh nắng cũng có thể gây ra phản ứng này. Tình trạng này thường chỉ xuất hiện trên vùng da tiếp xúc trực tiếp với ánh nắng. Cụ thể, các triệu chứng\ndị ứng ánh nắng mặt trời\nbao gồm: Phát ban hoặc nổi mụn nước Xuất hiện nhiều vết sưng nhỏ có khả năng hợp nhất thành các mảng lớn hơn Ngứa, đau Đỏ da Bong da Đóng vảy hoặc chảy máu Ngoài các dấu hiệu ngoài da, một số người bị\ndị ứng ánh nắng mặt trời\ncòn gặp các triệu chứng khác như đau đầu, mệt mỏi, buồn nôn, thay đổi nhịp tim và nhịp thở. Tình trạng này có thể trở nên nghiêm trọng hơn nếu vùng da rộng lớn tiếp xúc với ánh sáng mặt trời. Trong những trường hợp ít gặp, phản ứng nổ

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:47.006[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Bệnh viêm mao mạch dị ứng là gì?': ' Viêm mao mạch dị ứng\ncòn có nhiều tên gọi khác như hội chứng viêm mạch Schonlein-Henoch, ban xuất huyết dạng phản vệ, ban xuất huyết dạng thấp... là bệnh liên quan tới hệ thống miễn dịch, gây ra tình trạng dị ứng có tổn thương lan tỏa hệ thống vi mạch tại nhiều cơ quan khác nhau thường gặp chủ yếu là khớp, tổn thương trên da, thận, ruột... Viêm mao mạch dị ứng Bệnh gặp phải nhiều hơn ở trẻ em với tỷ lệ mắc trước 5 tuổi là khoảng 50%, 3–10 tuổi là 75%. Tỷ lệ mắc theo giới tính, chủ yếu gặp ở nam, tỷ lệ mắc cao hơn gấp 2 lần so với nữ.  Cơ chế bệnh sinh: Thường gặp ở những người có cơ địa dị ứng, khi cơ thể tiếp xúc với dị nguyên sau đó xảy ra phản ứng kháng nguyên và kháng thể. Do có sự phản ứng miễn dịch giữa kháng nguyên và kháng thể diễn ra trên lớp nội mạc mạch (chủ yếu là các mao mạch). Mà phản ứng kháng nguyên và kháng thể này

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:48.771[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Phát ban nhiệt': ' Phát ban đỏ có biểu hiện gai góc, mấp mô và thường ngứa. Nó thường xảy ra trong thời tiết nóng ẩm và có xu hướng hiển thị ở những vùng da cọ xát với nhau, như nách và háng. Phát ban nhiệt rất phổ biến ở trẻ sơ sinh\nnhưng cũng có thể xảy ra với những người trưởng thành. Nó thường tự biến mất sau 3-4 ngày. Nếu nó không biến mất hoặc bắt đầu sưng hoặc rỉ nước thì cần đi khám bác sĩ. Phát ban nhiệt rất phổ biến ở trẻ sơ sinh', 'Viêm da tiếp xúc': ' Điều này xảy ra khi làn da phản ứng với một cái gì đó nó chạm vào. Đôi khi, nó có một phản ứng dị ứng với cây (chẳng hạn như cây thường xuân độc), và đôi khi\ndị ứng da\ndo tiếp xúc với một chất gây kích thích (ví dụ như từ nước hoa trong xà phòng). dị ứng da Viêm da\ntiếp xúc có thể gây ra phát ban,\n, khô da hoặc phồng rộp. Da có thể trở nên dày hoặc bong tróc, và nó có thể bị nứt. Đôi khi phải mất thời gia

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:50.324[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Nguyên nhân gây viêm da cơ địa': ' Hiện nay, nguyên nhân của\nbệnh viêm da cơ địa\nvẫn chưa được nghiên cứu rõ. Tuy nhiên, theo ý kiến của nhiều chuyên gia, sự xuất hiện của bệnh viêm da cơ địa trên lâm sàng là kết quả của quá trình tương tác giữa nhiều yếu tố, bao gồm yếu tố cơ địa hay\n, sự suy giảm hàng rào miễn dịch bảo vệ cơ thể và môi trường sống xung quanh. bệnh viêm da cơ địa viêm da cơ địa di truyền Một vài các yếu tố nguy cơ làm tăng nguy cơ mắc bệnh và liên quan đến độ nặng của bệnh đã được chứng minh như: Có người thân trong gia đình mắc bệnh viêm da cơ địa (\n). Tiền sử dị ứng với các loại thuốc, hóa chất, thức ăn hoặc phấn hoa, bụi, mạt nhà và côn trùng. Mắc bệnh lý liên quan đến cơ địa dị ứng như\nviêm mũi dị ứng,\nviêm da dị ứng, hen phế quản,\nvảy nến\n. viêm da cơ địa di truyền viêm mũi dị ứng, vảy nến Một số nghiên cứu chỉ ra rằng hút thuốc lá thụ độ

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:51.906[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Dị ứng sữa là gì?': 'Dị ứng là tình trạng hệ thống miễn dịch của trẻ phản ứng phòng vệ với vật thể lạ (trong trường hợp này là các protein có trong sữa). Khi trẻ uống sữa, hệ miễn dịch sẽ nhầm lẫn rằng các protein này là kháng thể lạ có hại và bắt đầu chống lại. Quá trình này dẫn đến một loạt các biểu hiện\ndị ứng sữa ở trẻ\n. Bên cạnh đó, trẻ em cũng gặp khó khăn trong việc hấp thu các protein có trong sữa bột công thức dẫn đến phản ứng dị ứng, gây suy dinh dưỡng và suy nhược. Mức độ nghiêm trọng của phản ứng dị ứng sữa được xác định dựa trên các dấu hiệu mà trẻ biểu hiện. Thông thường, trẻ dị ứng protein có trong sữa bò cũng sẽ\ndị ứng\nvới protein trong sữa cừu và sữa dê.', 'Nguyên nhân dị ứng sữa': 'Theo thống kê, khoảng 10 đến 30% trẻ trong giai đoạn từ sơ sinh đến 1 tuổi bị dị ứng với sữa bột công thức. Tỷ lệ này giảm dần sau khi trẻ lên 1 tuổi và đến khoảng 3 tu

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:53.831[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Phát ban da': '( còn gọi là\nmề đay\n) là một sự bùng phát của sưng, sưng đỏ hoặc mảng bám trên da xuất hiện đột ngột, do phản ứng của cơ thể với một số chất gây dị ứng, hoặc không rõ nguyên nhân. Phát ban da mề đay Phát ban da\nthường gây ngứa, nhưng cũng có thể bị bỏng hoặc ngứa do châm chích. Chúng có thể xuất hiện bất cứ bộ phận nào trên cơ thể như: mặt, môi, lưỡi, cổ họng hoặc tai. Phát ban có kích thước khác nhau có thể nhỏ như cục tẩy bút chì đến cái đĩa và có thể kết hợp với nhau để tạo thành các mảng phát ban lớn hơn. Tình trạng này tồn tại trong nhiều giờ, hoặc lên đến một ngày trước khi mờ dần. Phát ban da nổi mề đay\n, nhưng đó là tình trạng sưng xảy ra bên dưới da thay vì trên bề mặt.\nPhù mạch\nvới đặc trưng bởi sưng sâu quanh mắt và môi và đôi khi của bộ phận sinh dục, tay chân. Thời gian tồn tại của phù mạch kéo dài hơn phát ban nhưng tình trạng sưng th

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:55.799[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Thận trọng với bệnh dị ứng mắt': 'Dị ứng mắt, còn được biết đến như\nviêm kết mạc\ndị ứng, xảy ra khi mắt phản ứng với các chất kích thích, được gọi là dị nguyên. Khi cơ thể tiếp xúc với dị nguyên, có thể gây ra các phản ứng dị ứng mắt. Hệ thống miễn dịch luôn hoạt động để bảo vệ cơ thể khỏi các yếu tố có hại như virus, vi khuẩn. Tuy nhiên, hệ thống này cũng có thể phản ứng quá mức với những chất được coi là nguy hiểm, dẫn đến tình trạng dị ứng mắt. Hệ thống miễn dịch tạo ra các chất chống lại dị nguyên, những chất này thường không gây hại cho cơ thể nhưng lại có thể gây ra các triệu chứng không thoải mái như ngứa, đỏ và chảy nước mắt.', 'Triệu chứng thường gặp khi dị ứng mắt': 'Dị ứng mắt thường có những triệu chứng đặc trưng và dễ nhận biết hơn so với các vấn đề khác liên quan đến mắt. Những biểu hiện thông thường bao gồm mắt ngứa hoặc cảm giác bỏng rát, chảy nước mắ

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:57.366[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Nguyên nhân bị dị ứng thức ăn khi mang thai': 'Không chỉ khi mang thai mà ngay cả người bình thường cũng có khả năng mắc dị ứng thực phẩm khi cơ thể xuất hiện phản ứng với một số chất trong thực phẩm. Hệ thống miễn dịch có thể nhầm lẫn các chất trong thực phẩm là tác nhân gây hại và hình thành kháng thể chống lại thực phẩm đó, gọi là\nIgE\n. Nếu loại thức ăn đó tiếp tục đi vào cơ thể thì sẽ tạo ra phản ứng sinh ra các histamin. protein miễn dịch IgE Các histamine này được sản sinh ở bộ phận nào sẽ trực tiếp gây ra bệnh lý ở bộ phận đó. Cụ thể, nếu histamin sinh ra ở mũi và miệng sẽ gây khó khăn cho việc nuốt thức ăn và việc thở. Nếu histamin sinh ra ở ruột sẽ gây ra triệu chứng tiêu chảy, nếu sinh ra ở da thì sinh ra các vết ngứa, mẩn đỏ và nổi mụn. Tùy vào cơ địa của mỗi người mà việc dị ứng có thể xảy ra ở một số thực phẩm nào đó, chẳng hạn như một số loại cá, thực p

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:31:59.179[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Viêm da tiếp xúc dị ứng là gì?': 'Viêm da tiếp xúc\nlà một tình trạng phổ biến trong các vấn đề da liễu, xuất hiện khi da bị dị ứng khi tiếp xúc trực tiếp với các chất kích thích hoặc gây dị ứng. Các triệu chứng của viêm da tiếp xúc thường bao gồm cảm giác ngứa ngáy và không thoải mái, đồng thời cũng ảnh hưởng tiêu cực đến vẻ đẹp tổng thể của làn da.', 'Vì sao dễ mắc bệnh viêm da tiếp xúc?': 'Các nguyên nhân gây\nviêm da tiếp xúc\nbao gồm: Tiếp xúc với sản phẩm mới:\nViêm da tiếp xúc có thể xuất hiện sau khi tiếp xúc với sản phẩm mới sau vài giờ hoặc vài ngày đến vài tuần. Tiếp xúc với các chất gây dị ứng:\nĐeo trang sức chứa niken, sử dụng nước hoa, mỹ phẩm, sơn móng tay, giày dép, các sản phẩm từ cao su, chứa các thành phần hóa học có thể gây ra bệnh lý này. Sử dụng thuốc:\nMột số loại thuốc như thuốc bôi chứa kháng sinh,\nbenzocaine\nvà thimerosal cũng có thể dẫn đế

  0%|          | 0/8 [00:00<?, ?it/s]

[32m2024-10-14 17:32:01.290[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Bạch cầu hạt': '1.1 Đặc điểm của bạch cầu hạt đặc trưng bởi các hạt nhuộm màu khác nhau trong tế bào chất được quan sát dưới kính hiển vi quang học, có các đặc điểm sau: Bạch cầu hạt Có khả năng thay đổi hình dạng, xuyên mạch qua vách giữa các tế bào và chuyển động có hướng bằng chân giả (giống amip) với tốc độ 40 mm/phút về phía bị viêm. Có khả năng thực bào, ẩm bào. Có khả năng đáp ứng với những kích thích hóa học như một số chất do mô bị viêm sản xuất hoặc do vi khuẩn tạo ra, hoặc những chất hoá học được đưa từ ngoài vào cơ thể. Hoá ứng động dương tính tức là thu hút, tập trung bạch cầu tới chỗ viêm, còn hoá ứng động âm tính tức là xua đuổi bạch cầu ra xa hơn. Có khả năng đáp ứng với những kích thích nhiệt học. 1.2 Phân loại bạch cầu hạt Có ba loại\n, được đặt tên theo các thuộc tính nhuộm màu của từng loại hạt, đó là: bạch cầu hạt Bạch cầu đa nhân trung tính (neutr

  0%|          | 0/5 [00:00<?, ?it/s]

[32m2024-10-14 17:32:02.900[0m | [1mINFO    [0m | [36m__main__[0m:[36m_save_json[0m:[36m112[0m - [1mdata [{'Dị ứng ở trẻ em là gì?': 'Dị ứng ở trẻ em\nlà tình trạng mà cơ thể trẻ phản ứng một cách quá mức với các dị nguyên lạ thông qua hệ thống miễn dịch. Các bệnh dị ứng hay gặp ở những trẻ có người thân cũng mắc dị ứng. Dị ứng ở trẻ em không chỉ ảnh hưởng đến các hoạt động hàng ngày và giấc ngủ, mà trong một số trường hợp nghiêm trọng còn đe dọa đến tính mạng của trẻ nếu không được phát hiện và điều trị kịp thời.', 'Các bệnh dị ứng hay gặp ở trẻ': '2.1 Viêm da cơ địa (Chàm thể tạng) Viêm da cơ địa\nlà tình trạng\ndị ứng hay gặp ở trẻ\n, đặc trưng bởi sự xuất hiện của các mụn nước nhỏ trên các vùng da đỏ, thường gặp ở mặt và cánh tay hoặc thậm chí rải rác khắp cơ thể. Những mụn nước này không chỉ gây cảm giác ngứa rát mà còn tạo điều kiện cho vi khuẩn xâm nhập và gây nhiễm khuẩn khi chúng vỡ chảy dịch. Việc chẩn đoán bệnh này đôi khi khó khăn do dễ bị nhầm lẫn với các bệnh l

## Glob all sentence into huggingface dataset

In [6]:
import glob
import random as rd
from datasets import load_dataset

In [15]:
folder = glob.glob('data/crawl/*/*')
len(folder)

3214

In [16]:
file_names = glob.glob('data/crawl/*/*')
len(file_names), file_names[0]

(3214, 'data/crawl/tham-my/page_36.json')

In [56]:
test = []
with open('data/crawl/tham-my/page_36.json', 'r') as f:
    articles = json.load(f)
    for article in articles:
        for key, value in article.items():
            if key.startswith("Trắc nghiệm:"):
                continue
            sentence = {
                "id": rd.randint(1, 1000000),
                "sentence1": key,
                "sentence2": value
            }
            test.append(sentence)

In [58]:
len(test)

25

In [60]:
data = []
for file_name in tqdm(file_names, total=len(file_names)):
    with open(file_name, 'r') as file:
        articles = json.load(file)
        for article in articles:
            for key, value in article.items():
                if key.startswith('Trắc nghiệm:'):
                    continue
                sentence = {
                    "id": rd.randint(1, 1000000),
                    "sentence1": key,
                    "sentence2": value
                }
                data.append(sentence)
            

  0%|          | 0/3214 [00:00<?, ?it/s]

In [61]:
len(data)

89387

In [62]:
with open('test.json', 'w') as f:
    json.dump(data, f, indent=4, ensure_ascii=False)

In [63]:
ds = load_dataset('json', data_files='test.json', split='all')

Generating train split: 0 examples [00:00, ? examples/s]

In [64]:
ds = ds.train_test_split(test_size=0.1)

In [65]:
ds

DatasetDict({
    train: Dataset({
        features: ['id', 'sentence1', 'sentence2'],
        num_rows: 80448
    })
    test: Dataset({
        features: ['id', 'sentence1', 'sentence2'],
        num_rows: 8939
    })
})

In [66]:
ds.push_to_hub('BookingCare/ViHealth-NLI')

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/81 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/9 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/BookingCare/ViHealth-NLI/commit/011235612dd1397761c4e5cf3a41f0932538b70f', commit_message='Upload dataset', commit_description='', oid='011235612dd1397761c4e5cf3a41f0932538b70f', pr_url=None, pr_revision=None, pr_num=None)

In [22]:
ds['train'][0]

{'id': 897497,
 'sentence1': 'Hút mỡ bụng có hại không?',
 'semtence2': ' Nếu người thực hiện đáp ứng đủ những yêu cầu sức khỏe để\nthì phương pháp này hoàn toàn vô hại. Tuy nhiên, một số trường hợp sau phẫu thuật có thể gặp phải một số biến chứng, trong đó phổ biến nhất là do quá liều thuốc gây tê. Vì vậy, việc gây tê trong hút mỡ bụng là cực kỳ quan trọng, không được để thuốc vào cơ thể quá nhanh sẽ gây ra tình trạng quá liều và cần phải cấp cứu kịp thời, nếu không sẽ ảnh hưởng đến tính mạng của người bệnh. Một số trường hợp nguy kịch thường có biểu hiện co giật hay trụy mạch. Vì vậy, khi thực hiện tiêm thuốc gây tê cho người thực hiện cần tiêm một cách từ từ và quan sát biểu hiện lâm sàng của bệnh nhân xem có khó chịu hay bất thường hay không, nếu có thì cần ngừng tiêm loại thuốc đó ngay. hút mỡ bụng là phương pháp làm đẹp tương đối an toàn và ít gây đau đớn cho người bệnh. Để tối ưu hóa những điểm tích cực của\nthì người bệnh cần thực hiện ở những cơ sở thẩm mỹ có uy tín, chất lượn