## 파이썬 기본 문법 정리 5

### 1. 데이터 수집

#### requests

In [1]:
import requests

#### BeautifulSoup4
- beautifulsoup4를 활용한 웹 스크래핑

In [2]:
from bs4 import BeautifulSoup

In [3]:
html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <h1>Welcome to Web Scraping</h1>
        <p class="description">This is an example paragraph.</p>
        <a href="https://example.com1">Visit Example1</a>
        <a href="https://example.com2">Visit Example2</a>
        <a href="https://example.com3">Visit Example3</a>
        <a href="https://example.com4">Visit Example4</a>
    </body>
</html>
"""

##### BeautifulSoup 객체를 생성

In [4]:
soup = BeautifulSoup(html_doc, 'html.parser')
# a 태그 안 텍스트 추출
print(soup.title.string)
print(soup.h1.string)

# a 태그 안 속성 추출
print(soup.a)
print(soup.a['href'])

# p 태그 안 속성 추출
print(soup.p)
# class 속성은 리스트 형태로 반환
print(soup.p['class'])

Example Page
Welcome to Web Scraping
<a href="https://example.com1">Visit Example1</a>
https://example.com1
<p class="description">This is an example paragraph.</p>
['description']


##### find(), find_all()

In [5]:
# find() : 가장 처음 값을 반환
a_tag = soup.find('a')
print(a_tag)

# find_all() : 만족하는 모든 값을 반환
a_tags = soup.find_all('a')
print(type(a_tags), a_tags)

<a href="https://example.com1">Visit Example1</a>
<class 'bs4.element.ResultSet'> [<a href="https://example.com1">Visit Example1</a>, <a href="https://example.com2">Visit Example2</a>, <a href="https://example.com3">Visit Example3</a>, <a href="https://example.com4">Visit Example4</a>]


In [6]:
links = []
for a_tag in a_tags:
    links.append(a_tag['href'])
print(links)

['https://example.com1', 'https://example.com2', 'https://example.com3', 'https://example.com4']


In [7]:
html_doc = """
<html>
    <head><title>Example Page</title></head>
<body>
    <h1>Welcome to Web Scraping</h1>
    <p class="description">This is an example paragraph.</p>
    <a href="https://example.com">Visit Example</a>
</body>
</html>
"""

##### select_one()
- class 속성 값으로 찾기

In [8]:
soup = BeautifulSoup(html_doc, 'html.parser')

description = soup.select_one('.description')   # .(class 선택자)
print(description)
print(description.string)

<p class="description">This is an example paragraph.</p>
This is an example paragraph.


##### 웹 페이지 스크래핑

In [9]:
url = "https://news.ycombinator.com/"
response = requests.get(url)

print(response.text[:500])

<html lang="en" op="news"><head><meta name="referrer" content="origin"><meta name="viewport" content="width=device-width, initial-scale=1.0"><link rel="stylesheet" type="text/css" href="news.css?kc7ZUPIx10J1yMolRDy2">
        <link rel="icon" href="y18.svg">
                  <link rel="alternate" type="application/rss+xml" title="RSS" href="rss">
        <title>Hacker News</title></head><body><center><table id="hnmain" border="0" cellpadding="0" cellspacing="0" width="85%" bgcolor="#f6f6ef">
  


In [10]:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.find_all('a'))

for item in soup.find_all('a'):
    href = item.get('href')
    if href:
        print(item.get_text(strip=True))
        print(href)

[<a href="https://news.ycombinator.com"><img height="18" src="y18.svg" style="border:1px white solid; display:block" width="18"/></a>, <a href="news">Hacker News</a>, <a href="newest">new</a>, <a href="front">past</a>, <a href="newcomments">comments</a>, <a href="ask">ask</a>, <a href="show">show</a>, <a href="jobs">jobs</a>, <a href="submit" rel="nofollow">submit</a>, <a href="login?goto=news">login</a>, <a href="vote?id=44287395&amp;how=up&amp;goto=news" id="up_44287395"><div class="votearrow" title="upvote"></div></a>, <a href="https://bowshock.nl/irc/">Start your own Internet Resiliency Club</a>, <a href="from?site=bowshock.nl"><span class="sitestr">bowshock.nl</span></a>, <a class="hnuser" href="user?id=todsacerdoti">todsacerdoti</a>, <a href="item?id=44287395">53 minutes ago</a>, <a href="hide?id=44287395&amp;goto=news">hide</a>, <a href="item?id=44287395">10 comments</a>, <a href="vote?id=44285781&amp;how=up&amp;goto=news" id="up_44285781"><div class="votearrow" title="upvote"><

In [11]:
url = "https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=105"

# 요청 헤더 설정 (크롤링 방지 우회를 위해 User-Agent 추가)
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

In [12]:
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, 'html.parser')

news_items = soup.select("ul.type06_headline li dt:not(.photo) a")

for item in news_items:
    title = item.get_text(strip=True)
    link = item['href']
    print('title:', title)
    print('href:', link)

title: 헥토파이낸셜, 자사주 70만주 처분 결정…"신사업·주식 유동성 확대"
href: https://n.news.naver.com/mnews/article/008/0005208241?sid=105
title: 과기정통부 공무원노조, 차기 장관으로 조승래 민주당 의원 추천
href: https://n.news.naver.com/mnews/article/584/0000032863?sid=105
title: 섬으로 간 대웅…"AI로 의료 사각지대 해소"
href: https://n.news.naver.com/mnews/article/015/0005145230?sid=105
title: 불면증 환자, 병원 안 가도 된다…웰트 "앱으로 비대면 진료"
href: https://n.news.naver.com/mnews/article/015/0005145229?sid=105
title: '한 달 만에 10kg 빠졌어요'…위고비보다 더 센 놈 온다
href: https://n.news.naver.com/mnews/article/015/0005145228?sid=105
title: 성장 멈춘 편의점…초저가 상품·체험형 콘텐츠 승부수
href: https://n.news.naver.com/mnews/article/092/0002378361?sid=105
title: 4배 성장한 숏드라마, 中 플랫폼이 '싹쓸이'
href: https://n.news.naver.com/mnews/article/015/0005145227?sid=105
title: 바이넥스, 셀트리온 임상물질 2종 위탁생산
href: https://n.news.naver.com/mnews/article/015/0005145226?sid=105
title: 과기정통부 노조, 차기 장관에 '조승래 의원' 추천
href: https://n.news.naver.com/mnews/article/138/0002198665?sid=105
title: 이엔셀, 샤리코마리투스 치료제 임상 1상 장기추적 결과 발표
href: h

#### 3. Selenium

In [13]:
from selenium import webdriver

##### 브라우저 실행

In [14]:
# 브라우저 실행
driver = webdriver.Chrome()

# 특정 url 열기
driver.get('https://www.google.com')

# 브라우저 종료
driver.quit()

##### 브라우저에 특정 작업 수행하기

In [15]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

In [37]:
# 브라우저 실행
driver = webdriver.Chrome()

# 특정 url 열기
driver.get('https://www.google.com')

# 검색창 찾기
search_box = driver.find_element(By.NAME, 'q')
# 검색어 입력
search_box .send_keys('python')
# Enter 키
search_box.send_keys(Keys.RETURN)

# 입력 결과가 나올 때까지 대기
time.sleep(20)

# 검색 결과 출력
results = driver.find_elements(By.XPATH, '//h3')
for index, result in enumerate(results[:5]):  # 상위 5개 결과만 출력
    print(f"{index + 1}. {result.text}")
 
# 브라우저 닫기
driver.quit()

1. Welcome to Python.org
2. Downloads
3. Python Releases for Windows
4. Documentation
5. Python 3.13.2


In [17]:
# 브라우저 실행
driver = webdriver.Chrome()

"https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=105"
# 특정 url 열기
driver.get(url)

time.sleep(3)

# 검색 결과 출력
results = driver.find_elements(By.CSS_SELECTOR, 'ul.type06_headline li dt:not(.photo) a')
print(results)
for item in results:
    print(item.text)
    print(item.get_attribute('href'))
 
# 브라우저 닫기
driver.quit()

[<selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff4d", element="f.A1E3DC1754AD56003DF3DE88F5B4FC0F.d.D3D3B1F6DC644339ADF51E865C54104B.e.92")>, <selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff4d", element="f.A1E3DC1754AD56003DF3DE88F5B4FC0F.d.D3D3B1F6DC644339ADF51E865C54104B.e.93")>, <selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff4d", element="f.A1E3DC1754AD56003DF3DE88F5B4FC0F.d.D3D3B1F6DC644339ADF51E865C54104B.e.94")>, <selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff4d", element="f.A1E3DC1754AD56003DF3DE88F5B4FC0F.d.D3D3B1F6DC644339ADF51E865C54104B.e.95")>, <selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff4d", element="f.A1E3DC1754AD56003DF3DE88F5B4FC0F.d.D3D3B1F6DC644339ADF51E865C54104B.e.96")>, <selenium.webdriver.remote.webelement.WebElement (session="bf7bff8bee9f58bc266434558136ff

### 2. 데이터 저장

#### csv 형식으로 저장

In [18]:
import csv

In [19]:
# 데이터 준비
data = [
    ['Name', 'Age', 'City'],
    ['Alice', 30, 'New York'],
    ['Bob', 25, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]

# 데이터 csv 형식으로 저장
with open('data/data1.csv', mode='w',  newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(data)

In [20]:
import pandas as pd

In [21]:
# 데이터 읽어오기
data = pd.read_csv('data/data1.csv')
print(data)

      Name  Age         City
0    Alice   30     New York
1      Bob   25  Los Angeles
2  Charlie   35      Chicago


#### excel 형식으로 저장

In [22]:
# 데이터 준비
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [30, 25, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
# 데이터 excel 형식으로 저장
df.to_excel('data/data1.xlsx', index=False)

In [23]:
# 데이터 읽어오기
data2 = pd.read_excel('data/data1.xlsx')
data2

Unnamed: 0,Name,Age,City
0,Alice,30,New York
1,Bob,25,Los Angeles
2,Charlie,35,Chicago


#### Json 형식으로 저장

In [24]:
import json

In [25]:
# 데이터 준비
data = {
    'people': [
        {'name': 'Alice', 'age': 30, 'city': 'New York'},
        {'name': 'Bob', 'age': 25, 'city': 'Los Angeles'},
        {'name': 'Charlie', 'age': 35, 'city': 'Chicago'}
    ]
}

# 데이터 json 형식으로 저장
with open('data/data1.json', mode='w', encoding='utf-8') as file:
    json.dump(data, file, indent=2)

In [26]:
# 데이터 읽어오기
with open('data/data1.json', mode='r') as file:
    data_result = json.load(file)
    print(data_result)

{'people': [{'name': 'Alice', 'age': 30, 'city': 'New York'}, {'name': 'Bob', 'age': 25, 'city': 'Los Angeles'}, {'name': 'Charlie', 'age': 35, 'city': 'Chicago'}]}


### 3. SQLite를 활용한 데이터베이스 관리
- SQLite : 관계형 데이터베이스

In [27]:
import sqlite3

#### SQLite와 Python 연동

In [28]:
# SQLite 데이터베이스 연결 (파일 생성)
connection = sqlite3.connect("data/example.db")
print("데이터베이스에 연결되었습니다!")

# 연결 닫기
connection.close()

데이터베이스에 연결되었습니다!


#### 테이블 생성
- 관계형 데이터베이스는 테이블 구조로 데이터를 저장
- 저장할 수 있는 공간인 테이블 생성

In [29]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_create = """
CREATE TABLE IF NOT EXISTS users (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT NOT NULL,
    age INTEGER,
    city TEXT
)
"""

# SQL 명령어로 테이블 생성
cursor.execute(sql_create)

# 연결 종료
connection.close()

#### 데이터 삽입
- INSERT into user (name, age, city) values ( , , )

In [30]:
connection.close()

In [31]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_insert = "INSERT INTO users (name, age, city) VALUES (?, ?, ?)"

# 데이터 삽입
cursor.execute(sql_insert, ("Alice", 30, "New York"))

# 여러 데이터 삽입
data = [
    ("Bob", 25, "Los Angeles"),
    ("Charlie", 35, "Chicago"),
    ("Diana", 28, "Houston")
]

cursor.executemany(sql_insert, data)

# 변경사항 저장
connection.commit()

# 연결 종료
connection.close()

#### 데이터 질의 (데이터 검색)
- SELECT 컬럼이름들, ... FROM 테이블이름 [WHERE 컬럼이름 기준으로 비교 연산]

In [32]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

# sql_select = "SELECT * FROM users"
# sql_select = "SELECT * FROM users WHERE id >= 3"
sql_select = "SELECT name, age FROM users WHERE id >= 3"

# 데이터 조회
cursor.execute(sql_select)
# select 결과를 튜플로 반환
rows = cursor.fetchall()

# 조회된 데이터 출력
for row in rows:
    print(row)

# 연결 종료
connection.close()

('Charlie', 35)
('Diana', 28)


#### 데이터 수정
- UPDATE 테이블이름 SET 컬럼이름=값, 컬럼이름=값,... [WHERE 조건식]

In [33]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_update = "UPDATE users SET age=? WHERE id=?"

# 데이터 수정
cursor.execute(sql_update, (60, 4))

# 변경사항 저장
connection.commit()

# 연결 종료
connection.close()

In [34]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_select = "SELECT * FROM users WHERE id = ?"

# 데이터 조회
cursor.execute(sql_select, (4, ))
# select 결과를 튜플로 반환
rows = cursor.fetchall()

# 조회된 데이터 출력
for row in rows:
    print(row)

# 연결 종료
connection.close()

(4, 'Diana', 60, 'Houston')


#### 데이터 삭제
- DELETE FROM 테이블명 WHERE 조건식

In [35]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_delete = "DELETE FROM users WHERE id = ?"

# 데이터 삭제
cursor.execute(sql_delete, (4, ))

# 변경사항 저장
connection.commit()

# 연결 종료
connection.close()

In [36]:
# 데이터베이스 연결
connection = sqlite3.connect("data/first.db")
cursor = connection.cursor()

sql_select = "SELECT * FROM users"

# 데이터 조회
cursor.execute(sql_select)
# select 결과를 튜플로 반환
rows = cursor.fetchall()

# 조회된 데이터 출력
for row in rows:
    print(row)

# 연결 종료
connection.close()

(1, 'Alice', 30, 'New York')
(2, 'Bob', 25, 'Los Angeles')
(3, 'Charlie', 35, 'Chicago')
