In [1]:
import os
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_text_from_divs(soup, start_id, end_id):
    """ 특정 div 범위 내에서 span 태그의 텍스트를 수집 """
    start_div = soup.find("div", id=start_id)
    end_div = soup.find("div", id=end_id)
    
    if not start_div or not end_div:
        print("지정한 ID의 div를 찾을 수 없습니다.")
        return [], 0
    
    all_divs = soup.find_all("div")
    start_index = all_divs.index(start_div)
    end_index = all_divs.index(end_div)
    div_count = end_index - start_index + 1
    print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
    
    span_texts = []
    table_img_count = 0
    
    for div in all_divs[start_index:end_index+1]:
        if div.find("table") or div.find("img"):
            table_img_count += 1
            continue
        
        spans = div.find_all("span")
        for span in spans:
            text_content = span.get_text(strip=True)
            span_texts.extend(text_content.split(","))
    
    return span_texts, table_img_count

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)
span_texts, table_img_count = extract_text_from_divs(soup, "ib7cf537e07124691a6505a5505cd30c3_34", "ib7cf537e07124691a6505a5505cd30c3_103")

print("수집된 문장 리스트:", span_texts)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")


'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
수집된 문장 리스트: ['ITEM\xa05.       MARKET FOR REGISTRANT’S COMMON EQUITY', ' RELATED STOCKHOLDER MATTERS AND ISSUER PURCHASES OF EQUITY SECURITIES', 'Our common stock is listed on The NASDAQ Global Select Market (NASDAQ) under the symbol “AMD”. On January 28', ' 2022', ' there were 4', '492 registered holders of our common stock', ' and the closing price of our common stock was $105.24', '', 'per share as reported on NASDAQ.', 'Issuer Purchases of Equity Securities', 'In May 2021', ' we announced that our Board of Directors approved a new stock repurchase program to purchase up to $4 billion of our outstanding common stock in the open market. We expect to fund repurchases through cash generated from operations which have been strengthened by our strong operational results. Our stock repurchase program does not obligate us to acquire any common stock', ' has no termination date and may be suspend

In [2]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_text_from_divs(soup, start_id, end_id):
    """ 특정 div 범위 내에서 span 태그의 텍스트를 수집 """
    start_div = soup.find("div", id=start_id)
    end_div = soup.find("div", id=end_id)
    
    if not start_div or not end_div:
        print("지정한 ID의 div를 찾을 수 없습니다.")
        return [], 0
    
    all_divs = soup.find_all("div")
    start_index = all_divs.index(start_div)
    end_index = all_divs.index(end_div)
    div_count = end_index - start_index + 1
    print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
    
    span_texts = []
    table_img_count = 0
    
    for div in all_divs[start_index:end_index+1]:
        if div.find("table") or div.find("img"):
            table_img_count += 1
            continue
        
        spans = div.find_all("span")
        for span in spans:
            text_content = span.get_text(strip=True)
            span_texts.extend(text_content.split(","))
    
    return span_texts, table_img_count

## 실제로 필요한 부분
def extract_table_from_html(file_path):
    """ HTML 파일에서 테이블을 추출하고 Markdown 형식으로 변환 """
    try:
        tables = pd.read_html(file_path)
        num_tables = len(tables)
        print(f"HTML 문서에서 발견된 테이블 개수: {num_tables}")
        
        if tables:
            df = tables[5]  
            return df.to_markdown()
        else:
            return "테이블을 찾을 수 없습니다."
    except ValueError:
        return "HTML에서 테이블을 찾을 수 없습니다."

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)
span_texts, table_img_count = extract_text_from_divs(soup, "ib7cf537e07124691a6505a5505cd30c3_34", "ib7cf537e07124691a6505a5505cd30c3_103")
markdown_table = extract_table_from_html(html_file_path)

print("수집된 문장 리스트:", span_texts)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")
print("추출된 테이블:")
print(markdown_table)


'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
HTML 문서에서 발견된 테이블 개수: 67
수집된 문장 리스트: ['ITEM\xa05.       MARKET FOR REGISTRANT’S COMMON EQUITY', ' RELATED STOCKHOLDER MATTERS AND ISSUER PURCHASES OF EQUITY SECURITIES', 'Our common stock is listed on The NASDAQ Global Select Market (NASDAQ) under the symbol “AMD”. On January 28', ' 2022', ' there were 4', '492 registered holders of our common stock', ' and the closing price of our common stock was $105.24', '', 'per share as reported on NASDAQ.', 'Issuer Purchases of Equity Securities', 'In May 2021', ' we announced that our Board of Directors approved a new stock repurchase program to purchase up to $4 billion of our outstanding common stock in the open market. We expect to fund repurchases through cash generated from operations which have been strengthened by our strong operational results. Our stock repurchase program does not obligate us to acquire any common stock', ' has no terminatio

In [3]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."

def extract_text_and_tables_from_divs(soup, start_id, end_id):
    """ 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    start_div = soup.find("div", id=start_id)
    end_div = soup.find("div", id=end_id)
    
    if not start_div or not end_div:
        print("지정한 ID의 div를 찾을 수 없습니다.")
        return [], [], 0
    
    all_divs = soup.find_all("div")
    start_index = all_divs.index(start_div)
    end_index = all_divs.index(end_div)
    div_count = end_index - start_index + 1
    print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
    
    span_texts = []
    table_texts = []
    table_img_count = 0
    
    for div in all_divs[start_index:end_index+1]:
        table = div.find("table")
        if table:
            table_texts.append(extract_table_from_html(table))
            continue
        
        if div.find("img"):
            table_img_count += 1
            continue
        
        spans = div.find_all("span")
        for span in spans:
            text_content = span.get_text(strip=True)
            span_texts.extend(text_content.split(","))
    
    return span_texts, table_texts, table_img_count

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)
span_texts, table_texts, table_img_count = extract_text_and_tables_from_divs(soup, "ib7cf537e07124691a6505a5505cd30c3_34", "ib7cf537e07124691a6505a5505cd30c3_103")

print("수집된 문장 리스트:", span_texts)
print("추출된 테이블 목록:")
for idx, table in enumerate(table_texts, 1):
    print(f"테이블 {idx}:")
    print(table)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")


'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
수집된 문장 리스트: ['ITEM\xa05.       MARKET FOR REGISTRANT’S COMMON EQUITY', ' RELATED STOCKHOLDER MATTERS AND ISSUER PURCHASES OF EQUITY SECURITIES', 'Our common stock is listed on The NASDAQ Global Select Market (NASDAQ) under the symbol “AMD”. On January 28', ' 2022', ' there were 4', '492 registered holders of our common stock', ' and the closing price of our common stock was $105.24', '', 'per share as reported on NASDAQ.', 'Issuer Purchases of Equity Securities', 'In May 2021', ' we announced that our Board of Directors approved a new stock repurchase program to purchase up to $4 billion of our outstanding common stock in the open market. We expect to fund repurchases through cash generated from operations which have been strengthened by our strong operational results. Our stock repurchase program does not obligate us to acquire any common stock', ' has no termination date and may be suspend

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


In [4]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_dir):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(os.path.join(output_dir, "collected_data.csv"), index=False, encoding="utf-8-sig")
    print("결과가 CSV 파일로 저장되었습니다.")

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)

ranges = [
    ("ib7cf537e07124691a6505a5505cd30c3_13", "ib7cf537e07124691a6505a5505cd30c3_22"),
    ("ib7cf537e07124691a6505a5505cd30c3_34", "ib7cf537e07124691a6505a5505cd30c3_103")
    
]

combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)

print("수집된 데이터:", combined_texts)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")

# 결과 CSV 저장
current_directory = os.getcwd()
save_results_to_csv(combined_texts, current_directory)


'ib7cf537e07124691a6505a5505cd30c3_13'부터 'ib7cf537e07124691a6505a5505cd30c3_22'까지의 div 개수: 502
'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
수집된 데이터: ['PART I', 'ITEM 1.', '', 'BUSINESS', 'Cautionary Statement Regarding Forward-Looking Statements', 'The statements in this report include forward-looking statements within the meaning of the Private Securities Litigation Reform Act of 1995. These forward-looking statements are based on current expectations and beliefs and involve numerous risks and uncertainties that could cause actual results to differ materially from expectations. These forward-looking statements speak only as of the date hereof or as of the dates indicated in the statements and should not be relied upon as predictions of future events', ' as we cannot assure you that the events or circumstances reflected in these statements will be achieved or will occur. You can identify forward-looking statements by the use of forward

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


In [5]:
import os
import re
import pandas as pd
from bs4 import BeautifulSoup


def extract_needed_info(soup, target_items):
    """ 특정 항목의 정보를 테이블에서 추출하여 반환 """
    need_info = []
    target_table = soup.body.find_all("div", recursive=False)
    
    if len(target_table) >= 49:
        div_49 = target_table[48]
        table = div_49.find("table")
        if table:
            for tr in table.find_all("tr"):
                tds = tr.find_all("td")
                if tds:
                    first_td = tds[0]
                    first_div = first_td.find("div")
                    if first_div:
                        first_span = first_div.find("span")
                        if first_span:
                            first_a = first_span.find("a")
                            if first_a and 'href' in first_a.attrs:
                                link = first_a['href']
                                item_text = first_a.get_text(strip=True)
                                if item_text in target_items:
                                    if link.startswith("#"):
                                        section_id = link[1:]
                                        target_section = soup.find(id=section_id)
                                        if target_section:
                                            need_info.append([item_text, link, target_section.prettify()])
    return need_info

def save_needed_info_to_csv(need_info, output_dir):
    """ 추출된 필요 정보를 CSV 파일로 저장 """
    df = pd.DataFrame(need_info, columns=["Item", "Link", "Content"])
    df.to_csv(os.path.join(output_dir, "needed_info.csv"), index=False, encoding="utf-8-sig")
    print("필요한 정보가 CSV 파일로 저장되었습니다.")

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)

target_items = ['ITEM\xa01.', 'ITEM\xa02.', 'ITEM\xa05.', 'ITEM\xa08.']
needed_info = extract_needed_info(soup, target_items)

# 결과 CSV 저장
current_directory = os.getcwd()
save_needed_info_to_csv(needed_info, current_directory)


필요한 정보가 CSV 파일로 저장되었습니다.


In [70]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."

def extract_ranges_from_html(soup, target_items):
    """ HTML에서 특정 항목을 찾아 ranges 리스트를 자동 생성 """
    ranges = []
    target_table = soup.body.find_all("div", recursive=False)
    
    if len(target_table) >= 49:
        div_49 = target_table[48]
        table = div_49.find("table")
        if table:
            links = []
            for tr in table.find_all("tr"):
                tds = tr.find_all("td")
                if tds:
                    first_td = tds[0]
                    first_div = first_td.find("div")
                    if first_div:
                        first_span = first_div.find("span")
                        if first_span:
                            first_a = first_span.find("a")
                            if first_a and 'href' in first_a.attrs:
                                link = first_a['href'][1:]  # '#' 제거
                                item_text = first_a.get_text(strip=True)
                                if item_text in target_items:
                                    links.append(link)
            
            # ranges 자동 생성 (짝수 개수만 처리)
            for i in range(0, len(links) - 1, 2):
                ranges.append((links[i], links[i + 1]))
    return ranges

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_dir):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(os.path.join(output_dir, "collected_data.csv"), index=False, encoding="utf-8-sig")
    print("결과가 CSV 파일로 저장되었습니다.")

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result"

html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)

target_items = ['ITEM\xa01.', 'ITEM\xa02.', 'ITEM\xa05.', 'ITEM\xa08.']
ranges = extract_ranges_from_html(soup, target_items)

combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)

print("수집된 데이터:", combined_texts)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")

# 결과 CSV 저장
current_directory = os.getcwd()
save_results_to_csv(combined_texts, current_directory)


'ib7cf537e07124691a6505a5505cd30c3_13'부터 'ib7cf537e07124691a6505a5505cd30c3_22'까지의 div 개수: 502
'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
수집된 데이터: ['PART I', 'ITEM 1.', '', 'BUSINESS', 'Cautionary Statement Regarding Forward-Looking Statements', 'The statements in this report include forward-looking statements within the meaning of the Private Securities Litigation Reform Act of 1995. These forward-looking statements are based on current expectations and beliefs and involve numerous risks and uncertainties that could cause actual results to differ materially from expectations. These forward-looking statements speak only as of the date hereof or as of the dates indicated in the statements and should not be relied upon as predictions of future events', ' as we cannot assure you that the events or circumstances reflected in these statements will be achieved or will occur. You can identify forward-looking statements by the use of forward

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


In [7]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_all_html_files(folder_path):
    """ 지정된 폴더 내 모든 HTML 파일 경로를 반환 """
    html_files = []
    for subdir, _, files in os.walk(folder_path):
        for file in files:
            if file.endswith('.htm') or file.endswith('.html'):
                html_files.append(os.path.join(subdir, file))
    if not html_files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    return html_files

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."

def extract_ranges_from_html(soup, target_items):
    """ HTML에서 특정 항목을 찾아 ranges 리스트를 자동 생성 """
    ranges = []
    target_table = soup.body.find_all("div", recursive=False)
    
    if len(target_table) >= 49:
        div_49 = target_table[48]
        table = div_49.find("table")
        if table:
            links = []
            for tr in table.find_all("tr"):
                tds = tr.find_all("td")
                if tds:
                    first_td = tds[0]
                    first_div = first_td.find("div")
                    if first_div:
                        first_span = first_div.find("span")
                        if first_span:
                            first_a = first_span.find("a")
                            if first_a and 'href' in first_a.attrs:
                                link = first_a['href'][1:]  # '#' 제거
                                item_text = first_a.get_text(strip=True)
                                if item_text in target_items:
                                    links.append(link)
            
            # ranges 자동 생성 (짝수 개수만 처리)
            for i in range(0, len(links) - 1, 2):
                ranges.append((links[i], links[i + 1]))
    return ranges

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_dir, folder_name, file_name):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    output_folder = os.path.join(output_dir, folder_name)
    os.makedirs(output_folder, exist_ok=True)
    output_path = os.path.join(output_folder, file_name)
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"결과가 CSV 파일로 저장되었습니다: {output_path}")

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result"
output_base_path = r"C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\parsed_data"
html_files = get_all_html_files(folder_path)

target_items = ['ITEM\xa01.', 'ITEM\xa02.', 'ITEM\xa05.', 'ITEM\xa08.']

for html_file_path in html_files:
    print(f"처리 중: {html_file_path}")
    soup = parse_html_file(html_file_path)
    ranges = extract_ranges_from_html(soup, target_items)
    combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)
    
    # 저장 경로 설정
    folder_name = os.path.basename(os.path.dirname(html_file_path))
    file_name = os.path.splitext(os.path.basename(html_file_path))[0] + "_processed.csv"
    save_results_to_csv(combined_texts, output_base_path, folder_name, file_name)


처리 중: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result\0000002488\0000002488_10-K_Report_1.html
'ib7cf537e07124691a6505a5505cd30c3_13'부터 'ib7cf537e07124691a6505a5505cd30c3_22'까지의 div 개수: 502
'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\parsed_data\0000002488\0000002488_10-K_Report_1_processed.csv
처리 중: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result\0000002488\0000002488_10-K_Report_2.html


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\parsed_data\0000002488\0000002488_10-K_Report_2_processed.csv
처리 중: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result\0000002488\0000002488_10-K_Report_4.html
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\parsed_data\0000002488\0000002488_10-K_Report_4_processed.csv
처리 중: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result\0000002488\0000002488_10-K_Report_8.html
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\parsed_data\0000002488\0000002488_10-K_Report_8_processed.csv
처리 중: C:\Users\RMARKET\Desktop\yong\새 폴더\crawing_data\result\0000002488\0000002488_Annual report 2015-02-19.html


KeyboardInterrupt: 

In [28]:
# 첫폴더의  두번째 파일

import os
import pandas as pd
from bs4 import BeautifulSoup

def get_second_html_file(folder_path):
    """ 지정된 폴더 내 첫 번째 폴더의 두 번째 HTML 파일 경로를 반환 """
    subfolders = [d for d in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, d))]
    if not subfolders:
        raise FileNotFoundError("폴더가 존재하지 않습니다.")
    
    first_folder_path = os.path.join(folder_path, subfolders[0])
    html_files = [f for f in os.listdir(first_folder_path) if f.endswith('.htm') or f.endswith('.html')]
    
    if len(html_files) < 2:
        raise FileNotFoundError("첫 번째 폴더에 두 번째 HTML 파일이 존재하지 않습니다.")
    
    return os.path.join(first_folder_path, html_files[1])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."



def extract_ranges_from_html(soup, target_items):
    """ HTML에서 특정 항목을 찾아 ranges 리스트를 자동 생성 """
    ranges = []
    target_table = soup.body.find_all("div", recursive=False)
    
    if len(target_table) >= 49:
        div_49 = target_table[48]
        table = div_49.find("table")
        if table:
            links = []
            for tr in table.find_all("tr"):
                tds = tr.find_all("td")
                if tds:
                    first_td = tds[0]
                    first_div = first_td.find("div")
                    if first_div:
                        first_span = first_div.find("span")
                        if first_span:
                            first_a = first_span.find("a")
                            if first_a and 'href' in first_a.attrs:
                                link = first_a['href'][1:]  # '#' 제거
                                item_text = first_a.get_text(strip=True)
                                if item_text in target_items:
                                    links.append(link)
            
            # ranges 자동 생성 (짝수 개수만 처리)
            for i in range(0, len(links) - 1, 2):
                ranges.append((links[i], links[i + 1]))
    return ranges

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_dir, folder_name, file_name):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    output_folder = os.path.join(output_dir, folder_name)
    os.makedirs(output_folder, exist_ok=True)
    output_path = os.path.join(output_folder, file_name)
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"결과가 CSV 파일로 저장되었습니다: {output_path}")

# 실행 부분
folder_path = r"C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result"
output_base_path = r"C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data"
html_file_path = get_second_html_file(folder_path)

print(f"처리 중: {html_file_path}")
soup = parse_html_file(html_file_path)
target_items = ['ITEM\xa01.', 'ITEM\xa02.', 'ITEM\xa05.', 'ITEM\xa08.']
ranges = extract_ranges_from_html(soup, target_items)
combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)

# 저장 경로 설정
folder_name = os.path.basename(os.path.dirname(html_file_path))
file_name = os.path.splitext(os.path.basename(html_file_path))[0] + "_processed.csv"
save_results_to_csv(combined_texts, output_base_path, folder_name, file_name)


처리 중: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000002488\0000002488_10-K_Report_2_processed.csv


In [None]:

/html/body/div[56]
/html/body/div[54]

In [1]:
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'

with open(html_path, 'r', encoding='utf-8') as f:
    html = f.read()

In [None]:
import re

html = re.sub(r'(&nbsp;)+', ' ', html)
test = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)

In [27]:
print(test)

['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']


In [None]:
html = re.sub(r'(&nbsp;)+', ' ', html)
soup = BeautifulSoup(html, 'html.parser')

all_item = soup.find_all(lambda tag: tag.name == 'span' and re.search(r'item\s+?\d\.', tag.text, flags=re.IGNORECASE) is not None)

In [42]:
for span in all_item:
    print(span.previous_sibling)  # () 제거
    break


None


# table까지 돌아감

In [63]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def get_first_html_file(folder_path):
    """ 지정된 폴더에서 첫 번째 HTML 파일 경로를 반환 """
    subfolders = [f for f in os.listdir(folder_path) if os.path.isdir(os.path.join(folder_path, f))]
    if not subfolders:
        raise FileNotFoundError("하위 폴더가 존재하지 않습니다.")
    
    first_subfolder_path = os.path.join(folder_path, subfolders[0])
    files = [f for f in os.listdir(first_subfolder_path) if f.endswith('.htm') or f.endswith('.html')]
    if not files:
        raise FileNotFoundError("HTML 파일이 해당 폴더에 없습니다.")
    
    return os.path.join(first_subfolder_path, files[0])

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_dir):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(os.path.join(output_dir, "collected_data.csv"), index=False, encoding="utf-8-sig")
    print("결과가 CSV 파일로 저장되었습니다.")

# 실행 부분
folder_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result'
html_file_path = get_first_html_file(folder_path)
soup = parse_html_file(html_file_path)

ranges = [
    ("ib7cf537e07124691a6505a5505cd30c3_13", "ib7cf537e07124691a6505a5505cd30c3_22"),
    ("ib7cf537e07124691a6505a5505cd30c3_34", "ib7cf537e07124691a6505a5505cd30c3_103")
    
]

combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)

print("수집된 데이터:", combined_texts)
print(f"<table> 또는 <img> 태그가 포함된 <div> 개수: {table_img_count}")

# 결과 CSV 저장
current_directory = os.getcwd()
save_results_to_csv(combined_texts, current_directory)


'ib7cf537e07124691a6505a5505cd30c3_13'부터 'ib7cf537e07124691a6505a5505cd30c3_22'까지의 div 개수: 502
'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 개수: 199
수집된 데이터: ['PART I', 'ITEM 1.', '', 'BUSINESS', 'Cautionary Statement Regarding Forward-Looking Statements', 'The statements in this report include forward-looking statements within the meaning of the Private Securities Litigation Reform Act of 1995. These forward-looking statements are based on current expectations and beliefs and involve numerous risks and uncertainties that could cause actual results to differ materially from expectations. These forward-looking statements speak only as of the date hereof or as of the dates indicated in the statements and should not be relied upon as predictions of future events', ' as we cannot assure you that the events or circumstances reflected in these statements will be achieved or will occur. You can identify forward-looking statements by the use of forward

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


In [51]:
import re
from bs4 import BeautifulSoup

# HTML 파일 경로
html_file_path = r"C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html"


# HTML 파일 읽기
with open(html_file_path, "r", encoding="utf-8") as f:
    html_content = f.read()

# &nbsp; 제거 및 공백 변환
html_content = re.sub(r"(&nbsp;)+", " ", html_content)

# HTML 파싱
soup = BeautifulSoup(html_content, "html.parser")

# "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
found_items = re.findall(r"ITEM\s+?\d\.", html_content, flags=re.IGNORECASE)

# 첫 번째 ITEM 정보 가져오기
if found_items:
    first_item = found_items[0].strip()
else:
    first_item = None

# 첫 번째 ITEM과 동일한 이름을 가진 <a> 태그 찾기
if first_item:
    matching_links = soup.find_all('a', string=re.compile(re.escape(first_item), re.IGNORECASE))
    
    extracted_links = [(link.text.strip(), link.get('href')) for link in matching_links]
else:
    extracted_links = []

# 결과 출력
extracted_links


[('ITEM 1.', '#s934DE2B482CF6003157D38EBF08B417A')]

In [57]:
import re
from bs4 import BeautifulSoup

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # "ITEM X." 패턴을 포함하는 <span> 태그 찾기
    all_item = soup.find_all(lambda tag: tag.name == 'span' and re.search(r'item\s+?\d\.', tag.text, flags=re.IGNORECASE) is not None)
    print("찾은 <span> 태그 개수:", len(all_item))

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    results = {}
    for item in selected_items:
        matching_links = soup.find_all('a', string=re.compile(re.escape(item), re.IGNORECASE))
        print(f"'{item}'과(와) 일치하는 <a> 태그 개수:", len(matching_links))
        
        results[item] = [(link.text.strip(), link.get('href')) for link in matching_links]

    return results

# 실행 예시
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'
item_links = extract_item_links(html_path)
print(item_links)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
찾은 <span> 태그 개수: 18
'ITEM 1.'과(와) 일치하는 <a> 태그 개수: 1
'ITEM 2.'과(와) 일치하는 <a> 태그 개수: 1
'ITEM 5.'과(와) 일치하는 <a> 태그 개수: 1
'ITEM 8.'과(와) 일치하는 <a> 태그 개수: 1
{'ITEM 1.': [('ITEM 1.', '#s934DE2B482CF6003157D38EBF08B417A')], 'ITEM 2.': [('ITEM 2.', '#s93B63701EA9F0CCB048038EBF1006493')], 'ITEM 5.': [('ITEM 5.', '#sB09A5A47434B986DCA4038EBF1A7BA41')], 'ITEM 8.': [('ITEM 8.', '#s7C8A2F7DDEC95213856138EBF6354CCA')]}


In [58]:
import re
from bs4 import BeautifulSoup

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    item_links = []
    for item in selected_items:
        matching_link = soup.find('a', string=re.compile(re.escape(item), re.IGNORECASE))
        if matching_link:
            item_links.append(matching_link.get('href'))
        else:
            item_links.append(None)

    # ranges 리스트 구성
    ranges = [(item_links[0], item_links[1]), (item_links[2], item_links[3])]
    
    return ranges

# 실행 예시
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'
ranges = extract_item_links(html_path)
print(ranges)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
[('#s934DE2B482CF6003157D38EBF08B417A', '#s93B63701EA9F0CCB048038EBF1006493'), ('#sB09A5A47434B986DCA4038EBF1A7BA41', '#s7C8A2F7DDEC95213856138EBF6354CCA')]


In [66]:
import os
import re
import pandas as pd
from bs4 import BeautifulSoup

def get_all_html_files(folder_path):
    """ 지정된 폴더 내 모든 HTML 파일 경로를 반환 """
    html_files = []
    for root, _, files in os.walk(folder_path):
        for file in files:
            if file.endswith('.htm') or file.endswith('.html'):
                html_files.append(os.path.join(root, file))
    return html_files

def parse_html_file(file_path):
    """ HTML 파일을 파싱하여 BeautifulSoup 객체를 반환 """
    with open(file_path, "r", encoding="utf-8") as file:
        return BeautifulSoup(file, "html.parser")

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    item_links = []
    for item in selected_items:
        matching_link = soup.find('a', string=re.compile(re.escape(item), re.IGNORECASE))
        if matching_link:
            href_value = matching_link.get('href')
            if href_value and href_value.startswith('#'):
                href_value = href_value[1:]  # '#' 제거
            item_links.append(href_value)
        else:
            item_links.append(None)

    # ranges 리스트 구성
    ranges = [(item_links[0], item_links[1]), (item_links[2], item_links[3])]
    
    return ranges

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_img_count = 0
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)
        
        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue
        
        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        
        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                combined_texts.append(f"[TABLE {table_count}]")
                table_count += 1
                continue
            
            if div.find("img"):
                table_img_count += 1
                continue
            
            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts, table_img_count

def save_results_to_csv(combined_texts, output_path):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"결과가 CSV 파일로 저장되었습니다: {output_path}")

# 실행 부분
input_folder = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488'
output_folder = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127'

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

html_files = get_all_html_files(input_folder)
for html_file in html_files:
    file_name = os.path.basename(html_file).replace('.html', '.csv').replace('.htm', '.csv')
    output_path = os.path.join(output_folder, file_name)
    
    soup = parse_html_file(html_file)
    ranges = extract_item_links(html_file)
    combined_texts, table_img_count = extract_text_and_tables_from_multiple_ranges(soup, ranges)
    
    print(f"파일 처리 중: {html_file}")
    save_results_to_csv(combined_texts, output_path)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
파일 처리 중: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_1.html
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\0000002488_10-K_Report_1.csv
추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
지정한 ID의 div를 찾을 수 없습니다: s934DE2B482CF6003157D38EBF08B417A - s93B63701EA9F0CCB048038EBF1006493
지정한 ID의 div를 찾을 수 없습니다: sB09A5A47434B986DCA4038EBF1A7BA41 - s7C8A2F7DDEC95213856138EBF6354CCA
파일 처리 중: C:\Users\RMARKET\Deskto

In [74]:
import re
from bs4 import BeautifulSoup

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    item_links = []
    for item in selected_items:
        matching_link = soup.find('a', string=re.compile(re.escape(item), re.IGNORECASE))
        if matching_link:
            href_value = matching_link.get('href')
            if href_value and href_value.startswith('#'):
                href_value = href_value[1:]  # '#' 제거
            item_links.append(href_value)
        else:
            item_links.append(None)

    # ranges 리스트 구성
    ranges = [(item_links[0], item_links[1]), (item_links[2], item_links[3])]
    
    return ranges

# 실행 예시
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'
ranges = extract_item_links(html_path)
print("추출된 ranges:", ranges)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
추출된 ranges: [('s934DE2B482CF6003157D38EBF08B417A', 's93B63701EA9F0CCB048038EBF1006493'), ('sB09A5A47434B986DCA4038EBF1A7BA41', 's7C8A2F7DDEC95213856138EBF6354CCA')]


In [75]:
ranges

[('s934DE2B482CF6003157D38EBF08B417A', 's93B63701EA9F0CCB048038EBF1006493'),
 ('sB09A5A47434B986DCA4038EBF1A7BA41', 's7C8A2F7DDEC95213856138EBF6354CCA')]

## table까지 잘 돌아감

이제 div와 a 태그까지만 어떻게 해주면 된다. 

In [91]:
import os
import re
import pandas as pd
from bs4 import BeautifulSoup

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    item_links = []
    for item in selected_items:
        matching_link = soup.find('a', string=re.compile(re.escape(item), re.IGNORECASE))
        if matching_link:
            href_value = matching_link.get('href')
            if href_value and href_value.startswith('#'):
                href_value = href_value[1:]  # '#' 제거
            item_links.append(href_value)
        else:
            item_links.append(None)

    # ranges 리스트 구성
    ranges = [(item_links[0], item_links[1]), (item_links[2], item_links[3])]
    
    return soup, ranges

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        print(df)
        return f"[TABLE {table_index}]:\n" + df.to_markdown()
    except ValueError:
        return "테이블을 찾을 수 없습니다."
    

    ### 여기만 잘 돌아가면 됨.

def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_count = 1
    
    for start_id, end_id in ranges:
        start_div = soup.find("div", id=start_id)
        end_div = soup.find("div", id=end_id)

        if not start_div or not end_div:
            print(f"지정한 ID의 div를 찾을 수 없습니다: {start_id} - {end_id}")
            continue

        all_divs = soup.find_all("div")
        start_index = all_divs.index(start_div)
        end_index = all_divs.index(end_div)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 개수: {div_count}")

        for div in all_divs[start_index:end_index+1]:
            table = div.find("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue

            spans = div.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts


##############

def save_results_to_csv(combined_texts, output_path):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"결과가 CSV 파일로 저장되었습니다: {output_path}")

# 실행 예시
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'
soup, ranges = extract_item_links(html_path)
combined_texts = extract_text_and_tables_from_multiple_ranges(soup, ranges)
output_csv_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\output2.csv'
save_results_to_csv(combined_texts, output_csv_path)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
지정한 ID의 div를 찾을 수 없습니다: s934DE2B482CF6003157D38EBF08B417A - s93B63701EA9F0CCB048038EBF1006493
지정한 ID의 div를 찾을 수 없습니다: sB09A5A47434B986DCA4038EBF1A7BA41 - s7C8A2F7DDEC95213856138EBF6354CCA
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\output2.csv


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
'ib7cf537e07124691a6505a5505cd30c3_13'부터 'ib7cf537e07124691a6505a5505cd30c3_22'까지의 div 또는 a 개수: 502
'ib7cf537e07124691a6505a5505cd30c3_34'부터 'ib7cf537e07124691a6505a5505cd30c3_103'까지의 div 또는 a 개수: 199
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\output1.csv


In [None]:
import os
import re
import pandas as pd
from bs4 import BeautifulSoup

def extract_item_links(html_path):
    # HTML 파일 읽기
    with open(html_path, 'r', encoding='utf-8') as f:
        html = f.read()

    # &nbsp; 제거 및 공백 변환
    html = re.sub(r'(&nbsp;)+', ' ', html)

    # "ITEM X." 패턴 찾기 (예: ITEM 1., ITEM 2., ITEM 5.)
    found_items = re.findall(r'item\s+?\d\.', html, flags=re.IGNORECASE)
    print("추출된 ITEM 목록:", found_items)

    # 특정 인덱스의 ITEM 정보 가져오기
    selected_indices = [0, 1, 4, 7]  # 1번째, 2번째, 5번째, 8번째 (0-based index)
    selected_items = [found_items[i] for i in selected_indices if i < len(found_items)]
    print("선택된 ITEM 목록:", selected_items)

    # HTML 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 선택된 ITEM과 동일한 이름을 가진 <a> 태그 찾기
    item_links = []
    for item in selected_items:
        matching_link = soup.find('a', string=re.compile(re.escape(item), re.IGNORECASE))
        if matching_link:
            href_value = matching_link.get('href')
            if href_value and href_value.startswith('#'):
                href_value = href_value[1:]  # '#' 제거
            item_links.append(href_value)
        else:
            item_links.append(None)

    # ranges 리스트 구성
    ranges = [(item_links[0], item_links[1]), (item_links[2], item_links[3])]
    
    return soup, ranges

def extract_table_from_html(table, table_index):
    """ HTML 테이블을 판다스 DataFrame으로 변환하고 Markdown 형식으로 반환 """
    try:
        df = pd.read_html(str(table))[0]
        print(df)
        return f"### {table_index}\n" + df.to_markdown(index=False) + "\n"
    except ValueError:
        return "테이블을 찾을 수 없습니다."


###################
def extract_text_and_tables_from_multiple_ranges(soup, ranges):
    """ 여러 개의 특정 div 또는 a 범위 내에서 span 태그의 텍스트와 table 태그의 데이터를 수집 """
    combined_texts = []
    table_count = 1
    
    for start_id, end_id in ranges:
        start_element = soup.find(lambda tag: (tag.name == "div" or tag.name == "a") and tag.get("id") == start_id)
        end_element = soup.find(lambda tag: (tag.name == "div" or tag.name == "a") and tag.get("id") == end_id)

        if not start_element or not end_element:
            print(f"지정한 ID의 div 또는 a 태그를 찾을 수 없습니다: {start_id} - {end_id}")
            continue

        all_elements = soup.find_all(lambda tag: tag.name == "div" or tag.name == "a")
        start_index = all_elements.index(start_element)
        end_index = all_elements.index(end_element)
        div_count = end_index - start_index + 1
        print(f"'{start_id}'부터 '{end_id}'까지의 div 또는 a 개수: {div_count}")

        for element in all_elements[start_index:end_index+1]:
            table = element.first("table")
            if table:
                table_text = extract_table_from_html(table, table_count)
                combined_texts.append(f"[TABLE {table_count}]")
                combined_texts.append(table_text)
                table_count += 1
                continue

            spans = element.find_all("span")
            for span in spans:
                text_content = span.get_text(strip=True)
                combined_texts.extend(text_content.split(","))
    
    return combined_texts


################################

def save_results_to_csv(combined_texts, output_path):
    """ 수집된 문장 리스트와 테이블 목록을 하나의 CSV 파일로 저장 """
    df = pd.DataFrame({"Content": combined_texts})
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"결과가 CSV 파일로 저장되었습니다: {output_path}")

# 실행 예시
html_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\result\0000002488\0000002488_10-K_Report_2.html'
soup, ranges = extract_item_links(html_path)
combined_texts = extract_text_and_tables_from_multiple_ranges(soup, ranges)
output_csv_path = r'C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\output2.csv'
save_results_to_csv(combined_texts, output_csv_path)


추출된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.', 'ITEM 1.', 'ITEM 2.', 'ITEM 3.', 'ITEM 4.', 'ITEM 5.', 'ITEM 6.', 'ITEM 7.', 'ITEM 8.', 'ITEM 9.']
선택된 ITEM 목록: ['ITEM 1.', 'ITEM 2.', 'ITEM 5.', 'ITEM 8.']
's934DE2B482CF6003157D38EBF08B417A'부터 's93B63701EA9F0CCB048038EBF1006493'까지의 div 또는 a 개수: 448
'sB09A5A47434B986DCA4038EBF1A7BA41'부터 's7C8A2F7DDEC95213856138EBF6354CCA'까지의 div 또는 a 개수: 1481
결과가 CSV 파일로 저장되었습니다: C:\Users\RMARKET\Desktop\yong\data_folder\crawing_data\parsed_data\0000004127\output2.csv
