# SEMICON Korea 2025 기업 리스트 크롤링 실습

`requests`와 `BeautifulSoup`을 사용한 정적 웹 크롤링


## ✨ 실습 개요

이번 실습에서는 **SEMICON Korea 2025** 전시회 사이트에서 기업 정보를 크롤링합니다.

- 주요 도구: `requests`, `BeautifulSoup`
- 주요 내용:
    - HTML 구조 분석
    - 원하는 정보(회사명, 부스번호, 상세 링크) 추출
    - CSV 저장까지 완료


## 📦 1. 라이브러리 설치 및 임포트

In [None]:
#!pip install requests beautifulsoup4 pandas --quiet

In [1]:

import requests
from bs4 import BeautifulSoup
import pandas as pd


## 🌐 2. HTML 가져오기 (정적 페이지 확인 포함)

In [3]:

url = "https://expo.semi.org/korea2025/Public/exhibitors.aspx?ID=29169"
headers = {
    "User-Agent": "Mozilla/5.0"
}
response = requests.get(url, headers=headers, verify=False)

print("응답 상태 코드:", response.status_code)
print("HTML 일부:", response.text[:1000])




응답 상태 코드: 200
HTML 일부: 


<!DOCTYPE html>
<html lang="en">
<head><title>
	SEMICON Korea 2025: Exhibitors
</title><meta name="viewport" content="width=device-width, initial-scale=1.0" /> 
    

    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/bs/css/bootstrap.css?v=2025.13.1" />
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/bs/css/bootstrap-colorselector.css?v=2025.13.1" />
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/bs/css/datepicker.css?v=2025.13.1" />
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/bs-touch-carousel/dist/css/bootstrap-touch-carousel.css?v=2025.13.1" /> 
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/bs-sweetalert/sweet-alert.css?v=2025.13.1" />
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/fa/css/font-awesome.css?v=2025.13.1" />
    <link rel="stylesheet" href="//libs.a2zinc.net/assets/release/show/css/site.css?v=2025.13.1" />
    <style type="text/css"


> 🧠 **비유 설명:**  
> HTML은 웹페이지의 `재료`입니다.  
> 이걸 그대로 가져와서(=requests.get), 우리가 필요한 재료가 어디에 담겼는지(=HTML 태그 구조)를 `BeautifulSoup`이 도와줍니다.


## 🍲 3. BeautifulSoup으로 HTML 파싱

In [4]:

soup = BeautifulSoup(response.text, "html.parser")
rows = soup.select("table.table-striped tbody tr")

print("총 기업 수:", len(rows))
print("첫 번째 tr 구조:")
print(rows[0].prettify()[:700])


총 기업 수: 498
첫 번째 tr 구조:
<tr>
 <td class="addRemoveExpoPlan">
  <a data-boothid="597898" data-coid="33018" href="#">
   <i class="fa fa-lg fa-star-o addToExpoPlan unchecked aa-addToExpoPlan" title="Add To My Exhibitors">
   </i>
  </a>
 </td>
 <td class="companyName" style="width: auto;">
  <a class="exhibitorName" href="eBooth.aspx?IndexInList=0&amp;FromPage=Exhibitors.aspx&amp;ParentBoothID=&amp;ListByBooth=true&amp;BoothID=597898">
   21CENTURY CO., LTD.
  </a>
 </td>
 <td class="boothLabel">
  <a boothid="597898" class="boothLabel aa-mapIt" href="
						eventmap.aspx?MapID=521&amp;MapItBoothID=597898&amp;MapItBooth=C743" sortval="C743" target="_blank" title="Map It">
   C743
  </a>
 </td>
 <td alt="Enhanced" cla


## 🔍 4. 기업명, 부스번호, 상세 링크 추출

In [5]:

base_url = "https://expo.semi.org/korea2025/Public/"
data = []

for row in rows:
    company_tag = row.select_one(".companyName a")
    booth_tag = row.select_one(".boothLabel a")

    company = company_tag.get_text(strip=True) if company_tag else "N/A"
    booth = booth_tag.get_text(strip=True) if booth_tag else "N/A"
    link = base_url + company_tag["href"] if company_tag else "N/A"

    data.append({
        "Company": company,
        "Booth": booth,
        "Link": link
    })

df = pd.DataFrame(data)
df.head()


Unnamed: 0,Company,Booth,Link
0,"21CENTURY CO., LTD.",C743,https://expo.semi.org/korea2025/Public/eBooth....
1,3D-Micromac AG,A354,https://expo.semi.org/korea2025/Public/eBooth....
2,3H CORPORATION LTD.,C604,https://expo.semi.org/korea2025/Public/eBooth....
3,"3SLINE CO., LTD.",B226,https://expo.semi.org/korea2025/Public/eBooth....
4,A&AT,A636,https://expo.semi.org/korea2025/Public/eBooth....


## 💾 5. CSV로 저장하기

In [6]:

df.to_csv("semicon_korea_exhibitors.csv", index=False)
print("CSV 저장 완료!")


CSV 저장 완료!


## ✅ 마무리

이제 정적 웹페이지에서도 데이터를 수집할 수 있는 실력을 갖췄어요!

---

이제 다른 전시회도 직접 분석해보세요 😊