# 데이터베이스
- 규모가 크지 않은 데이터라면 csv와 json 형식으로 사용해도 문제 없음.
- 데이터 규모가 굉장히 크거나 복잡하면 데이터베이스를 사용하는 것이 편리.

### 장점
 - 데이터와 관련된 모든 처리를 하나의 소프트웨어로 할 수 있음.
 - 여러 데이터의 속성을 연관시키며 저장 가능.
 - 중복된 데이터를 허용하지 않는 제약을 둘 수 있음.
 - 데이터의 정합성을 확보.
 - 데이터에 동시 접근했을 경우 문제처리 가능.
 - 대량의 데이터를 조금씩 읽어 사용할 수 있고, 정렬 등도 쉽게 처리함.

### SQLite
: 가볍게 파일 하나로 사용할 수 있는 데이터베이스

In [1]:
import sqlite3

# sqlite database에 연결하기
dbpath = '../data/test.sqlite'
conn = sqlite3.connect(dbpath)

# 테이블을 생성하고 데이터 넣기
curs = conn.cursor()
curs.executescript(
    """
    /* item 테이블이 이미 있다면 제거 */
    DROP TABLE IF EXISTS items;

    /* 테이블 생성하기 */
    CREATE TABLE items(
        item_id INTEGER PRIMARY KEY AUTOINCREMENT, 
        name TEXT UNIQUE,
        price INTEGER
    );

    /* 데이터 넣기 */
    INSERT INTO items(name, price) VALUES('Apple', 800);
    INSERT INTO items(name, price) VALUES('Orange', 780);
    INSERT INTO items(name, price) VALUES('Banana', 430);
    """
)

<sqlite3.Cursor at 0x7f83658e1ea0>

In [2]:
# 위의 조작을 데이터베이스에 반영하기
conn.commit()

In [4]:
# 데이터 추출하기
curs = conn.cursor()
curs.execute("SELECT item_id, name, price FROM items")
item_list = curs.fetchall()

# 출력하기
for it in item_list:
    print(it)

(1, 'Apple', 800)
(2, 'Orange', 780)
(3, 'Banana', 430)


In [5]:
# 데이터 넣기
curs = conn.cursor()
curs.execute("INSERT INTO items (name, price) VALUES (?,?)", ("Mango", 5200))
conn.commit()

In [7]:
# 여러 데이터를 연속으로 넣기
curs = conn.cursor()
data = [("Kiwi", 4000), ("Grape", 8000), ("Peach", 9400)]
curs.executemany("INSERT INTO items (name, price) VALUES (?,?)", data)
conn.commit()

In [8]:
print(data)

[('Kiwi', 4000), ('Grape', 8000), ('Peach', 9400)]


In [9]:
# 4000 ~ 7000 원 사이의 데이터 추출하기

# 데이터 추출하기
curs = conn.cursor()
price_range = (4000,7000)
curs.execute("SELECT * FROM items WHERE price between ? AND ?", price_range) # 끝 값 포함됨
item_list = curs.fetchall()

# 출력하기
for it in item_list:
    print(it)

(4, 'Mango', 5200)
(5, 'Kiwi', 4000)


> sqlite는 스마트폰에서도 많이 쓰인다!

---
### MySQL 연결

In [10]:
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
[K     |████████████████████████████████| 43 kB 2.0 MB/s eta 0:00:01
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2


In [11]:
import pymysql

192.168.150.129

In [58]:
# Connection
conn = pymysql.connect(host='192.168.150.133', user='root', passwd='qwer1234', \
                        db='education', charset='utf8')

In [59]:
# Connection으로부터 cursor 생성
curs = conn.cursor()

In [60]:
# SQL 문장
sql = 'select * from student'
curs.execute(sql)

24

In [61]:
# Data Fetch
rows = curs.fetchall()
print(rows)

(('b002', '관우', '심리학과', '010-222', '서울'), ('b003', '장비', '경제학과', '010-333', '서울'), ('c002', '여포', '심리학과', '016-222', '경기'), ('c003', '손견', '경제학과', '016-333', '경기'), ('d001', '홍길동', '수학과', '017-001', '광주'), ('k001', '유비', '국문학과', '010-1111', '서울'), ('k002', '관우', '심리학과', '010-1112', '서울'), ('k003', '장비', '경제학과', '010-1113', '서울'), ('q001', '유비', '국문학과', '010-1111', '서울'), ('q003', '관우', '심리학과', '010-1112', '서울'), ('S001', '박소명', '컴퓨터공학과', '123-4567', None), ('S002', '최민국', '컴퓨터공학과', '234-5678', None), ('S005', '김상진', '사학과', '567-8901', None), ('S006', '황정숙', '사학과', '678-9012', None), ('S010', 'James', 'Computer', '1234', None), ('S777', 'Cathy', 'Math', '12345', None), ('S888', 'James', 'math', '1234', None), ('S999', '홍길동', '컴공', '123', None), ('w001', '조조', '국문학과', '010-1234', '경기'), ('w002', '여포', '심리학과', '010-1235', '경기'), ('w003', '손책', '경제학과', '010-1236', '경기'), ('y001', '누', '국문학과', '010-111', '경기'), ('y002', '구', '국문학과', '010-111', '경기'), ('y003', '게', '국문학과', '010-111', '경기'))


In [33]:
# Connection 종료
conn.close()

Error: Already closed

In [29]:
# list로 변환
rowList = list(rows)
print(rowList)

[('b002', '관우', '심리학과', '010-222', '서울'), ('b003', '장비', '경제학과', '010-333', '서울'), ('c002', '여포', '심리학과', '016-222', '경기'), ('c003', '손견', '경제학과', '016-333', '경기'), ('d001', '홍길동', '수학과', '017-001', '광주'), ('S001', '박소명', '컴퓨터공학과', '123-4567', None), ('S002', '최민국', '컴퓨터공학과', '234-5678', None), ('S005', '김상진', '사학과', '567-8901', None), ('S006', '황정숙', '사학과', '678-9012', None), ('S010', 'James', 'Computer', '1234', None), ('S777', 'Cathy', 'Math', '12345', None), ('S888', 'James', 'math', '1234', None), ('S999', '홍길동', '컴공', '123', None)]


In [19]:
# data type 확인
type(rowList)

list

In [20]:
# 필요한 부분 데이터 빼오기
print(rowList[0])
print()
print(rowList[0][1])

('b002', '관우', '심리학과', '010-222', '서울')

관우


### Insert Data 1

In [57]:
# Connection
conn = pymysql.connect(host='192.168.150.133', user='root', passwd='qwer1234', \
                        db='education', charset='utf8')
# Connection으로부터 cursor 생성
curs = conn.cursor()

In [35]:
# SQL
sql = "insert into student (scode, sname, sdept, sphone, saddress) values (%s, %s, %s, %s, %s)"

In [36]:
# Insert 실행
curs.execute(sql, ('y001', '누구게?', '국문학과', '010-1111', '서울'))
curs.execute(sql, ('y002', '맞춰봐', '국문학과', '010-2222', '서울'))
curs.execute(sql, ('y003', '메렁', '국문학과', '010-3333', '서울'))

1

In [37]:
conn.commit()

### Insert Data 2

In [69]:
# Connection
conn = pymysql.connect(host='192.168.150.134', user='root', passwd='qwer1234', \
                        db='education', charset='utf8')
# Connection으로부터 cursor 생성
curs = conn.cursor()

OperationalError: (1130, "192.168.150.129' is not allowed to connect to this MySQL server")

In [53]:
data = (
    ('y001', '누', '국문학과', '010-111', '경기'),
    ('y002', '구', '국문학과', '010-111', '경기'),
    ('y003', '게', '국문학과', '010-111', '경기'),
)

In [54]:
# SQL
sql = "insert into student (scode, sname, sdept, sphone, saddress) values (%s, %s, %s, %s, %s)"

In [55]:
# INSERT 실행
curs.executemany(sql, data)

3

In [56]:
conn.commit()

---
### select의 내용을 data frame으로 보기

In [70]:
!pip install sqlalchemy



In [71]:
import pandas as pd
from sqlalchemy import create_engine

In [72]:
engine = create_engine('mysql+pymysql://root:qwer1234@127.0.0.1:3306/education')
conn = engine.connect()

In [74]:
data = pd.read_sql_table('student', conn)
data

Unnamed: 0,scode,sname,sdept,sphone,saddress
0,b002,관우,심리학과,010-222,서울
1,b003,장비,경제학과,010-333,서울
2,c002,여포,심리학과,016-222,경기
3,c003,손견,경제학과,016-333,경기
4,d001,홍길동,수학과,017-001,광주
5,S001,박소명,컴퓨터공학과,123-4567,
6,S002,최민국,컴퓨터공학과,234-5678,
7,S005,김상진,사학과,567-8901,
8,S006,황정숙,사학과,678-9012,
9,S010,James,Computer,1234,


In [75]:
conn.close()

---
### dataframe을 database로 insert 하기

In [77]:
column = ['rank', 'title']
movies = pd.read_csv('../data/DaumList.csv')
movies.columns = column
movies.head()

Unnamed: 0,rank,title
0,1,탑건: 매버릭
1,2,마녀(魔女) Part2. The Other One
2,3,범죄도시 2
3,4,브로커
4,5,버즈 라이트이어


In [83]:
engine = create_engine('mysql+pymysql://root:qwer1234@127.0.0.1:3306/daum')
conn = engine.connect()

In [84]:
movies.to_sql(name='movie', con=engine, if_exists='append', index=False)

In [85]:
daum = pd.read_sql_table('movie', conn)
daum

Unnamed: 0,rank,title
0,1,탑건: 매버릭
1,2,마녀(魔女) Part2. The Other One
2,3,범죄도시 2
3,4,브로커
4,5,버즈 라이트이어
5,6,쥬라기 월드: 도미니언
6,7,극장판 윌벤져스 : 수상한 캠핑 대소동
7,8,극장판 포켓몬스터DP: 기라티나와 하늘의 꽃다발 쉐이미
8,9,헤어질 결심
9,10,룸 쉐어링


---

In [86]:
column = ['rank', 'title', 'intro']
ridibooks = pd.read_csv('../data/ridi_pageAll.csv')
ridibooks.columns = column
ridibooks.head()

Unnamed: 0,rank,title,intro
0,1,역행자,"<역행자> 오타쿠 흙수저에서 월 1억 자동수익을 실현한 무자본 연쇄창업마,\r\n라..."
1,2,작별인사,"<작별인사> 누구도 도와줄 수 없는 상황, 혼자 헤쳐나가야 한다\r\n지켜야 할 약..."
2,3,인플레이션에서 살아남기,"<인플레이션에서 살아남기> \n\n40년 만에 찾아온 인플레의 역습, \r\n당신의..."
3,4,변화하는 세계 질서,<변화하는 세계 질서> \n\n《원칙 Principles: Life & Work》으...
4,5,피스타운,"<피스타운> -“여긴 너무 비현실적이야, 그렇지 않아?”\r\n-뭐든지 이룰 수 있..."


In [134]:
engine = create_engine('mysql+pymysql://root:qwer1234@127.0.0.1:3306/ridibooks')
conn = engine.connect()

OperationalError: (pymysql.err.OperationalError) (1049, "Unknown database 'ridibooks'")
(Background on this error at: https://sqlalche.me/e/14/e3q8)

In [94]:
ridibooks.to_sql(name='movie', con=engine, if_exists='append', index=False)

In [95]:
from bs4 import BeautifulSoup as BS # 가져오기
import urllib.request as req # 저장하기

# Site Address
url = 'https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'

# url open
res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BS(res, 'html.parser')
# print(soup) # 여기에 출력되면 java script가 아니다

In [145]:
# 거꾸로 하기
locations = soup.find_all('location')

forecast = []
for location in locations:
    for locationData in location.find_all('data'):
        forecast.append([location.city.text, 
        locationData.find('tmef').text, 
        locationData.find('wf').text, 
        locationData.find('tmn').text, 
        locationData.find('tmx').text]
        )
print(forecast)

[['서울', '2022-07-01 00:00', '흐리고 비', '23', '28'], ['서울', '2022-07-01 12:00', '흐리고 비', '23', '28'], ['서울', '2022-07-02 00:00', '흐림', '23', '29'], ['서울', '2022-07-02 12:00', '구름많음', '23', '29'], ['서울', '2022-07-03 00:00', '구름많음', '23', '30'], ['서울', '2022-07-03 12:00', '구름많음', '23', '30'], ['서울', '2022-07-04 00:00', '흐림', '23', '29'], ['서울', '2022-07-04 12:00', '흐림', '23', '29'], ['서울', '2022-07-05 00:00', '흐림', '23', '28'], ['서울', '2022-07-05 12:00', '흐리고 비', '23', '28'], ['서울', '2022-07-06 00:00', '흐림', '23', '29'], ['서울', '2022-07-07 00:00', '흐림', '23', '28'], ['서울', '2022-07-08 00:00', '흐림', '23', '28'], ['인천', '2022-07-01 00:00', '흐리고 비', '23', '27'], ['인천', '2022-07-01 12:00', '흐리고 비', '23', '27'], ['인천', '2022-07-02 00:00', '흐림', '23', '28'], ['인천', '2022-07-02 12:00', '구름많음', '23', '28'], ['인천', '2022-07-03 00:00', '구름많음', '22', '27'], ['인천', '2022-07-03 12:00', '구름많음', '22', '27'], ['인천', '2022-07-04 00:00', '흐림', '23', '27'], ['인천', '2022-07-04 12:00', '흐림', '23', '27'], ['인천',

In [123]:
# # 거꾸로 하기
# locations = soup.find_all('location')

# city_list = []
# tmef_list = []
# wfs_list = []
# tmns_list = []
# tmxs_list = []
# for location in locations:
#     # print(location.find('wf').string)
#     # print(location.find('city').string)
#     cities = location.find_all('city')
#     tmefs = location.find_all('tmef')
#     wfs = location.find_all('wf')
#     tmns = location.find_all('tmn')
#     tmxs = location.find_all('tmx')
#     for i in range(len(tmefs)):
#         for city in cities:
#             city_list.append(city.text)
#         tmef_list.append(tmefs[i].text)
#         wfs_list.append(wfs[i].text)
#         tmns_list.append(tmns[i].text)
#         tmxs_list.append(tmxs[i].text)

서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
서울
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
인천
<tmef>2022-07-01 00:00</tmef>
수원
<tmef>2022-07-01 00:00</tmef>
수원
<tmef>2022-07-01 00:00</tmef>
수원
<tmef>2022-07-01 00:00</tmef>
수원
<tmef>2022-07-01 00:00</tmef>
수원
<tmef>2

In [115]:
# forecast = []
# for a,b,c,d,e in zip(city_list, tmef_list, wfs_list, tmns_list, tmxs_list):
#     forecast.append([a,b,c,d,e])

In [132]:
import pandas as pd

weather = pd.DataFrame(forecast, columns=['city','tmef','wf','tmn','tmx'])

In [None]:
import pandas as pd
from sqlalchemy import create_engine

In [114]:
engine = create_engine('mysql+pymysql://root:qwer1234@127.0.0.1:3306/weather')
conn = engine.connect()

In [137]:
conn.close()

In [117]:
weather.to_sql(name='forecast', con=engine, if_exists='append', index=False)

In [139]:
# engine = create_engine('mysql+pymysql://root:qwer1234@192.168.150.134:3306/weather')
# conn = engine.connect()

In [140]:
# BeautifulSoup로 Parsing
import requests
from bs4 import BeautifulSoup as BS

req = requests.get("https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108")
html = req.text

soup = BS(html, 'html.parser')

In [142]:
# 도시 출력
for i in soup.find_all('location'):
    print(i.find('city').text)

서울
인천
수원
파주
이천
평택
춘천
원주
강릉
대전
세종
홍성
청주
충주
영동
광주
목포
여수
순천
광양
나주
전주
군산
정읍
남원
고창
무주
부산
울산
창원
진주
거창
통영
대구
안동
포항
경주
울진
울릉도
제주
서귀포


In [None]:
# 서울로 테스트
seoul = soup.find('location')

for i in seoul.find_all('data'):
    print(i.find('tmef'))
    print(i.find('wf'))
    print(i.find('tmn'))
    print(i.find('tmx'))