# 데이터베이스
- 규모가 크지 않은 데이터라면 csv와 json형식으로 사용해도 문제는 없음
- 데이터 규모가 굉장히 크거나 복잡하면 데이터베이스를 사용하는 것이 편리

### 장점
- 데이터와 관련된 모든 처리를 하나의 소프트웨어로 할 수 있음.
- 여러 데이터의 속성을 연관시키며 저장 가능
- 중복된 데이터를 허용하지 않는 제약을 둘 수 있음
- 데이터의 정합성을 확보
- 데이터에 동시 접근했을 경우 문제 처리
- 대량의 데이터를 조금씩 읽어 사용할 수 있으며 정렬 등도 쉽게 처리함

### SQLite
: 가볍게 파일 하나로 사용할 수 있는 데이터베이스

In [28]:
import sqlite3

# sqlit Database에 연결하기
dbpath = "../Data/test.sqlite"
conn = sqlite3.connect(dbpath)

# 테이블을 생성하고 데이터 넣기
curs = conn.cursor()
curs.executescript(
  """
  /* item 테이블이 이미 있다면 제거 */
  DROP TABLE IF EXISTS items;

  /* 테이블 생성하기 */
  CREATE TABLE items(
    item_id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT UNIQUE,
    price INTEGER
  );

  /* 데이터 넣기 */
  INSERT INTO items(name, price) VALUES('Apple', 800);
  INSERT INTO items(name, price) VALUES('Orange', 780);
  INSERT INTO items(name, price) VALUES('Banana', 430);
  """
  
)

<sqlite3.Cursor at 0x7fc7267d02d0>

In [29]:
# 위의 조작을 데이터베이스에 반영하기
conn.commit()

In [30]:
# 데이터 넣기
curs = conn.cursor()
curs.execute("INSERT INTO items (name, price) VALUES (?, ?)", ("Mango", 5200))
conn.commit()

In [31]:
# 여러 데이터를 연속으로 넣기
curs = conn.cursor()
data = [("Kiwi", 4000), ("Grape", 8000), ("Peach", 9400)]
curs.executemany("INSERT INTO items (name, price) VALUES (?, ?)", data)
conn.commit()

In [32]:
# 데이터 추출하기
curs = conn.cursor()
curs.execute("SELECT item_id, name, price FROM items")
item_list = curs.fetchall()

# 출력하기
for it in item_list:
  print(it)

(1, 'Apple', 800)
(2, 'Orange', 780)
(3, 'Banana', 430)
(4, 'Mango', 5200)
(5, 'Kiwi', 4000)
(6, 'Grape', 8000)
(7, 'Peach', 9400)


In [33]:
# 4000 ~ 7000원 사이의 데이터 추출하기
curs = conn.cursor()
price_range = (4000, 7000)
curs.execute("SELECT * FROM items WHERE price between ? AND ?", price_range)
item_list = curs.fetchall()

# 출력하기
for it in item_list:
  print(it)

(4, 'Mango', 5200)
(5, 'Kiwi', 4000)


---
# MySQL 연결

In [34]:
# !pip install pymysql

In [35]:
import pymysql

In [36]:
# Connection
conn = pymysql.connect(host="127.0.0.1", user="root", passwd="qwer1234", \
                        db= "education", charset="utf8")

In [37]:
# Connection으로 부터 Cursor 생성
curs = conn.cursor()

In [39]:
# SQL 문장
sql = "select * from student"
curs.execute(sql)

16

In [40]:
# Data Fetch
rows = curs.fetchall()
print(rows)

(('b002', '관우', '심리학과', '010-222', '서울'), ('b003', '장비', '경제학과', '010-333', '서울'), ('c001', '조조', '국문학과', '016-111', '경기'), ('c002', '여포', '심리학과', '016-222', '경기'), ('c003', '손견', '경제학과', '016-333', '경기'), ('d001', '홍길동', '수학과', '017-001', '광주'), ('S001', '박소명', '컴퓨터공학과', '123-4567', None), ('S002', '최민국', '컴퓨터공학과', '234-5678', None), ('S003', '이승호', '국문학과', '345-6789', None), ('S004', '정수봉', '국문학과', '456-7890', None), ('S005', '김상진', '사학과', '567-8901', None), ('S006', '황정숙', '사학과', '678-9012', None), ('S010', 'James', 'Computer', '1234', None), ('S777', 'Cathy', 'Math', '12345', None), ('S888', 'James', 'math', '1234', None), ('S999', '홍길동', '컴공', '123', None))


In [41]:
# Connection 종료
conn.close()

In [42]:
# list 변환
rowList = list(rows)
print(rowList)

[('b002', '관우', '심리학과', '010-222', '서울'), ('b003', '장비', '경제학과', '010-333', '서울'), ('c001', '조조', '국문학과', '016-111', '경기'), ('c002', '여포', '심리학과', '016-222', '경기'), ('c003', '손견', '경제학과', '016-333', '경기'), ('d001', '홍길동', '수학과', '017-001', '광주'), ('S001', '박소명', '컴퓨터공학과', '123-4567', None), ('S002', '최민국', '컴퓨터공학과', '234-5678', None), ('S003', '이승호', '국문학과', '345-6789', None), ('S004', '정수봉', '국문학과', '456-7890', None), ('S005', '김상진', '사학과', '567-8901', None), ('S006', '황정숙', '사학과', '678-9012', None), ('S010', 'James', 'Computer', '1234', None), ('S777', 'Cathy', 'Math', '12345', None), ('S888', 'James', 'math', '1234', None), ('S999', '홍길동', '컴공', '123', None)]


In [43]:
# data type 확인
type(rowList)

list

In [44]:
# 필요한 부분 데이터 빼오기
print(rowList[0])
print(rowList[0][1])

('b002', '관우', '심리학과', '010-222', '서울')
관우


# Insert Data #1

In [45]:
# Connection
conn = pymysql.connect(host="127.0.0.1", user="root", passwd="qwer1234", \
                        db= "education", charset="utf8")
# Connection으로 부터 Cursor 생성
curs = conn.cursor()

In [46]:
# SQL 문장
sql = "insert into student (scode, sname, sdept, sphone, saddress) values (%s, %s, %s, %s, %s)"

In [47]:
# Insert 실행
curs.execute(sql, ('q001', '유비', '국문학과', '010-1111', '서울'))
curs.execute(sql, ('q002', '관우', '심리학과', '010-2222', '서울'))
curs.execute(sql, ('q003', '장비', '경제학과', '010-3333', '서울'))

1

In [48]:
conn.commit()

# Insert Data #2

In [49]:
# Connection
conn = pymysql.connect(host="127.0.0.1", user="root", passwd="qwer1234", \
                        db= "education", charset="utf8")
# Connection으로 부터 Cursor 생성
curs = conn.cursor()

In [50]:
data = (
  ('w001', '조조', '국문학과', '016-111', '경기'),
  ('w002', '여포', '심리학과', '016-222', '경기'),
  ('w003', '손견', '경제학과', '016-333', '경기'),
)

In [51]:
# SQL 문장
sql = "insert into student (scode, sname, sdept, sphone, saddress) values (%s, %s, %s, %s, %s)"

In [52]:
# Insert 실행
curs.executemany(sql, data)

3

In [53]:
conn.commit()

---
### select의 내용을 dataFrame으로 보기

In [54]:
# !pip install sqlalchemy



In [55]:
import pandas as pd
from sqlalchemy import create_engine

In [56]:
engine = create_engine("mysql+pymysql://root:qwer1234@127.0.0.1:3306/education")
conn = engine.connect()

In [57]:
data = pd.read_sql_table('student', conn)
data

Unnamed: 0,scode,sname,sdept,sphone,saddress
0,b002,관우,심리학과,010-222,서울
1,b003,장비,경제학과,010-333,서울
2,c001,조조,국문학과,016-111,경기
3,c002,여포,심리학과,016-222,경기
4,c003,손견,경제학과,016-333,경기
5,d001,홍길동,수학과,017-001,광주
6,q001,유비,국문학과,010-1111,서울
7,q002,관우,심리학과,010-2222,서울
8,q003,장비,경제학과,010-3333,서울
9,S001,박소명,컴퓨터공학과,123-4567,


In [58]:
conn.close()

---
# dataFrame을 Database로 Insert 하기

In [59]:
column = ['rank','title']
movies = pd.read_csv("../Data/DaumList.csv")
movies.columns = column
movies.head()


Unnamed: 0,rank,title
0,1,탑건: 매버릭
1,2,마녀(魔女) Part2. The Other One
2,3,범죄도시 2
3,4,브로커
4,5,버즈 라이트이어


In [60]:
# workbench에서 테이블 만들기(daum - rank,title)

In [62]:
engine = create_engine("mysql+pymysql://root:qwer1234@127.0.0.1:3306/daum")
conn = engine.connect()

In [63]:
movies.to_sql(name='movie', con=engine, if_exists='append', index=False)

In [64]:
daum = pd.read_sql_table('movie', conn)
daum

Unnamed: 0,rank,title
0,1,탑건: 매버릭
1,2,마녀(魔女) Part2. The Other One
2,3,범죄도시 2
3,4,브로커
4,5,버즈 라이트이어
5,6,쥬라기 월드: 도미니언
6,7,극장판 윌벤져스 : 수상한 캠핑 대소동
7,8,극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미
8,9,헤어질 결심
9,10,룸 쉐어링


In [None]:
# 리디북스도 테이블 넣어보기

In [88]:
ridibooks = pd.read_csv("../Data/ridibooks.csv")

In [89]:
engine = create_engine("mysql+pymysql://root:qwer1234@127.0.0.1:3306/ridibooks")
conn = engine.connect()

In [91]:
ridibooks.to_sql(name='books', con=engine, if_exists='append', index=False)

In [None]:
# 날씨도 넣어보기

In [65]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108"

# urlOpen
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기
soup = BeautifulSoup(res, "html.parser")
print(soup)

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 06월 28일 (화)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2022년 06월 28일 (화)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
<header>
<title>전국 육상중기예보</title>
<tm>202206280600</tm>
<wf><![CDATA[○ (강수) 1일(금)은 수도권과 강원영서, 4일(월)은 제주도, 5일(화)은 전국에 비가 오는 곳이 있겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 22~24도로 어제(27일, 아침최저기온 23~29도)와 비슷하거나 조금 낮겠고,<br />          낮 기온은 27~34도로 어제(27일, 낮최고기온 24~32도)와 비슷하거나 조금 높겠습니다.<br />○ (주말전망) 2일(토)은 중부지방은 대체로 흐리고, 남부지방은 구름많겠으며, 3일(일)은 전국이 구름많겠습니다. 아침 기온은 22~24도, 낮 기온은 27~34도가 되겠습니다.<br /><br />* 1일(금)에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며 정체전선의 영향권에서 벗어난 지역에서도

In [70]:
soup.find_all("location")

[<location wl_ver="3">
 <province>서울ㆍ인천ㆍ경기도</province>
 <city>서울</city>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-01 00:00</tmef>
 <wf>흐리고 비</wf>
 <tmn>23</tmn>
 <tmx>28</tmx>
 <reliability></reliability>
 <rnst>90</rnst>
 </data>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-01 12:00</tmef>
 <wf>흐리고 비</wf>
 <tmn>23</tmn>
 <tmx>28</tmx>
 <reliability></reliability>
 <rnst>80</rnst>
 </data>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-02 00:00</tmef>
 <wf>흐림</wf>
 <tmn>23</tmn>
 <tmx>29</tmx>
 <reliability></reliability>
 <rnst>40</rnst>
 </data>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-02 12:00</tmef>
 <wf>구름많음</wf>
 <tmn>23</tmn>
 <tmx>29</tmx>
 <reliability></reliability>
 <rnst>30</rnst>
 </data>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-03 00:00</tmef>
 <wf>구름많음</wf>
 <tmn>23</tmn>
 <tmx>30</tmx>
 <reliability></reliability>
 <rnst>30</rnst>
 </data>
 <data>
 <mode>A02</mode>
 <tmef>2022-07-03 12:00</tmef>
 <wf>구름많음</wf>
 <tmn>23</tmn>
 <tmx>30</tmx>
 <reliability></reliability>
 <rnst>30</r

In [93]:
result = []
for location in soup.find_all("location"):
  for locd in location.find_all("data"):
    result.append([location.city.text, locd.find("tmef").text, locd.find("wf").text, locd.find("tmn").text, locd.find("tmx").text])


In [94]:
result

[['서울', '2022-07-01 00:00', '흐리고 비', '23', '28'],
 ['서울', '2022-07-01 12:00', '흐리고 비', '23', '28'],
 ['서울', '2022-07-02 00:00', '흐림', '23', '29'],
 ['서울', '2022-07-02 12:00', '구름많음', '23', '29'],
 ['서울', '2022-07-03 00:00', '구름많음', '23', '30'],
 ['서울', '2022-07-03 12:00', '구름많음', '23', '30'],
 ['서울', '2022-07-04 00:00', '흐림', '23', '29'],
 ['서울', '2022-07-04 12:00', '흐림', '23', '29'],
 ['서울', '2022-07-05 00:00', '흐림', '23', '28'],
 ['서울', '2022-07-05 12:00', '흐리고 비', '23', '28'],
 ['서울', '2022-07-06 00:00', '흐림', '23', '29'],
 ['서울', '2022-07-07 00:00', '흐림', '23', '28'],
 ['서울', '2022-07-08 00:00', '흐림', '23', '28'],
 ['인천', '2022-07-01 00:00', '흐리고 비', '23', '27'],
 ['인천', '2022-07-01 12:00', '흐리고 비', '23', '27'],
 ['인천', '2022-07-02 00:00', '흐림', '23', '28'],
 ['인천', '2022-07-02 12:00', '구름많음', '23', '28'],
 ['인천', '2022-07-03 00:00', '구름많음', '22', '27'],
 ['인천', '2022-07-03 12:00', '구름많음', '22', '27'],
 ['인천', '2022-07-04 00:00', '흐림', '23', '27'],
 ['인천', '2022-07-04 12:00', '흐림',

In [92]:
len(result)

533

In [79]:
result_df = pd.DataFrame(result, columns=["city", "tmef", "wf", "tmn", "tmx"])
result_df.head()

Unnamed: 0,city,tmef,wf,tmn,tmx
0,서울,2022-07-01 00:00,흐리고 비,23,28
1,서울,2022-07-01 12:00,흐리고 비,23,28
2,서울,2022-07-02 00:00,흐림,23,29
3,서울,2022-07-02 12:00,구름많음,23,29
4,서울,2022-07-03 00:00,구름많음,23,30


In [77]:
engine = create_engine("mysql+pymysql://root:qwer1234@127.0.0.1:3306/weather")
conn = engine.connect()

In [83]:
result_df.to_sql(name='forecast', con=engine, if_exists='append', index=False)