## 🔎크롤링

### **BeautifulSoup4**
- 파이썬에서 HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출할 수 있도록 도와주는 라이브러리
- 웹 크롤링이나 스크래핑 작업에 자주 사용, requests와 함께 사용하면 웹 페이지의 정보를 손쉽게 가져올 수 있다.

#### 1. **설치**
```bash
# beautifulsoup 설치
pip install beautifulsoup4

# requests - 웹 페이지 요청 라이브러리
pip install requests
```

#### 2. **기본 사용법**
```python
import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')  # 또는 'lxml'
    print(soup.prettify())  # HTML 구조를 보기 좋게 출력
else:
    print(f"Error: {response.status_code}")

```

#### 3. **주요 메서드**
**3-1. 태그 이름으로 요소 찾기**
```python
# <title> 태그 전체
soup.title  
# <title> 태그의 텍스트만
soup.title.string  
# 첫 번째 <a> 태그
soup.a 
```

<br>

**3-2. `find()`와 `find_all()`**
```python
# 첫 번째 <a> 태그
soup.find('a')  
# class가 'link'인 첫 번째 <a> 태그
soup.find('a', class_='link')  
# class로 선택시 class_ 라고 명시하지 않고 생략 가능
soup.find('a', 'link')  
# attrs 딕셔너리 이용하여 여러 속성을 동시에 지정하기
soup.find('a', attrs={'id' : 'id_name', class_ : 'link'})
# id값으로 찾기
soup.find(id='id_name')

####################################################################################

# 모든 <a> 태그 리스트 형태로 반환
soup.find_all('a') 

####################################################################################

# find()로 크게 감싸는 html을 추출하고 다시 추출된 데이터에서 원하는 부분을 find_all()로 추출 가능
soup.find(id='id_name').find_all('a')

```
**💡크롤링 시 `class`로 많이 선택한다**


<br>

**3-3.CSS 선택자 사용 `select()` & `selet_one()`**
```python
# class가 'classname'인 모든 <div> 태그
soup.select('div.classname')  
  # id가 'id'인 첫 번째 태그
soup.select_one('#id')

```

<br>

**3-4.텍스트 및 속성 추출**
```python
tag = soup.find('a')

# 태그 내부의 텍스트
tag.get_text()

# get() 메서드 -> 속성이 존재하지 않을 경우 `None`을 반환하므로 상대적으로 더 안전하게 속성값 추출 가능
href = tag.get('href')
href = tag.get('title')

# href 속성 값 -> 존재하지 않을 경우 `KeyError`를 발생시킴
tag['href']
tag['title']

# 모든 속성 딕셔너리
tag.attrs  # {'href' : 'https://example.com', 'title' : 'Ex'}

```

**3-5.그 외**
```python
# 특정 속성 존재 확인 : has_attr()
if tag.has_attr('href') :
    print('링크가 존재합니다')
```

[**💡공식문서**](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [38]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/'
res = requests.get(url)
title_li = list()

if res.status_code == 200 :
    soup = BeautifulSoup(res.content, 'html.parser')
    for text in soup.find_all('strong',class_='cnf_news_title', limit=10) :
        title_li.append(text.get_text())
else:
    print(f"Error: {response.status_code}")

for title in title_li :
    print(f"<{title}>")
    

<부산 광안리서 고령 운전자 차량 인도 돌진… 보행자 5명 부상>
<‘한동훈 공격사주 논란’ 김대남 전 행정관, 민주당 선대위 합류>
<[단독] "건진법사, 김 여사에 전달하려 선물 받은 것">
<[21대 대선] 김용태 "김건희 문제, 진심어린 반성과 사과">
<이재명이 쏜 '호텔경제론' 논란…진보 학자도 "현실성 없는 우화">
<‘역성장’ 먹구름 드리운 한국 경제>
<김종인 "한동훈 유세 자세, 과거 이명박 후보 때 박근혜 대표와 비슷해">
<“모건스탠리가?” 다이먼 JP모건 CEO 비트코인 구매 허용한 까닭은>
<[속보] ‘선관위서 中 간첩 99명 체포’ 보도 기자 구속영장 기각>
<‘중국 간첩 99명’ 보도 스카이데일리 기자 구속영장 기각>


In [36]:
######### 연습 #############

In [25]:
url2 = 'https://davelee-fun.github.io/blog/crawl_test'
res2 = requests.get(url2)

if res2.status_code == 200 :
    soup = BeautifulSoup(res2.content, 'html.parser')
    hobby_list = soup.find('ul', id='hobby_course_list').find_all('li','course')
                           
    dev_list = soup.find('ul', id='dev_course_list').find_all('li','course')

    print(f"[{soup.select('h3')[0].string}]")
    for elem in hobby_list :
        ancher = elem.find('a')
        print(f"{ancher.string} -> 링크 : {ancher.get('href')}")
    
    print("\n")
    
    print(f"[{soup.select('h3')[1].string}]")
    for elem in dev_list :
        ancher = elem.find('a')
        print(f"{ancher.string} -> 링크 : {ancher.get('href')}")
    
        
else:
    print(f"Error: {response.status_code}")



[나만의 엣지있는 블로그 사이트 만들기]
(왕초보) - 클래스 소개 -> 링크 : https://www.fun-coding.org
(왕초보) - 블로그 개발 필요한 준비물 준비하기 -> 링크 : https://www.fun-coding.org
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 초간단 페이지 만들어보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 이쁘게 테마 적용해보기 -> 링크 : https://www.fun-coding.org
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기 -> 링크 : https://www.fun-coding.org
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기 -> 링크 : https://www.fun-coding.org


[당신의 커리어에 파이썬을 입히세요! 자신만의 자동 프로그램까지 가져가는 특별한 강의]
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2] -> 링크 : https://www.fun-coding.org
(초급) - 필요한 프로그램 설치 시연 [5] -> 링크 : https://www.fun-coding.org
(초급) - 데이터를 엑셀 파일로 만들기 [9] -> 링크 : https://www.fun-coding.org
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8] -> 링크 : https://www.fun-coding.org
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7] -> 링크 : https://www.fun-coding.org
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40] -> 링크 : https://www.fun-coding.org
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12] -> 링크 : https://www.f

## 🧹 크롤링 데이터 전처리에 자주 사용되는 Python 함수

### 1. 문자열 처리 함수

* **`strip()`**: 문자열의 양쪽 공백을 제거.
* **`split()`**: 지정한 구분자를 기준으로 문자열을 나눔.
* **`replace()`**: 특정 문자열을 다른 문자열로 대체.
* **`lower()` / `upper()`**: 문자열을 소문자 또는 대문자로 변환.

**예시:**

```python
text = "  Hello, World!  "
clean_text = text.strip().lower().replace(",", "")
print(clean_text)  # 출력: hello world!
```



### 2. 정규 표현식 (`re` 모듈)

복잡한 패턴의 문자열을 처리할 때 유용.

* **`re.sub()`**: 정규식을 활용하여 문자열을 대체.

**예시:**

```python
import re

text = "Contact us at support@example.com"
clean_text = re.sub(r'\S+@\S+', '', text)
print(clean_text)  # 출력: Contact us at
```


### 3. HTML 태그 제거

크롤링한 데이터에서 HTML 태그를 제거하여 순수한 텍스트만 추출가능.

**예시:**

```python
from bs4 import BeautifulSoup

html = "<p>This is a <b>test</b>.</p>"
soup = BeautifulSoup(html, "html.parser")
text = soup.get_text()
print(text)  # 출력: This is a test.
```

### 4. 불용어 제거

자연어 처리에서 의미 없는 단어(예: "the", "is")를 제거하여 분석의 정확도를 높임.

**예시:**

```python
stopwords = ['the', 'is', 'at', 'which', 'on']
words = "The cat is on the mat.".lower().split()
filtered_words = [word for word in words if word not in stopwords]
print(filtered_words)  # 출력: ['cat', 'mat.']
```

---

## 🔍 `enumerate()` 함수의 기본 사용법

`enumerate()` 함수는 두 개의 인자를 받는다 :

* **iterable**: 리스트, 튜플, 문자열 등 반복 가능한 객체
* **start** (선택적): 인덱스의 시작 값 (기본값은 0)

함수는 각 요소와 해당 인덱스를 포함하는 튜플을 생성하는 이터레이터를 반환

### ✅ 기본 예제

```python
fruits = ['apple', 'banana', 'cherry']
for index, fruit in enumerate(fruits):
    print(f"{index}: {fruit}")
```

**출력:**

```
0: apple
1: banana
2: cherry
```

### ✅ 시작 인덱스 지정

```python
for index, fruit in enumerate(fruits, start=1):
    print(f"{index}: {fruit}")
```

**출력:**

```
1: apple
2: banana
3: cherry
```

이처럼 `start` 매개변수를 사용하면 인덱스의 시작 값을 지정 가능


### 🔖 참고(인용)
> [인프런: 파이썬으로 크롤링 시작하기 - 기본편](https://www.inflearn.com/course/python-crawling-basic)