# 데이터베이스 이해 및 ETL 실습

In [None]:
# 데이터베이스란?
# 조직에 필요한 정보로 구성된 연관 데이터 집합체

## 1. Pandas를 활용한 데이터 수집 & 저장

In [1]:
import pandas as pd

## 파일 데이터 수집 및 저장

In [None]:
# 절대경로
# ex. C:/Users/82108/prccode/dataset/customerdata.csv
# 단점 : 파일 이동시, 계속 수정해줘야 하는 번거로움

In [2]:
pd.read_csv("C:/Users/82108/prccode/dataset/customerdata.csv")

Unnamed: 0,CUSTID,AVGPRICE,EMI,DEVICECOUNT,PRODUCTAGE,CUSTTYPE
0,A13566,4273.900000,3,6,1.679181,Big-Screen-lover
1,A14219,3642.441950,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.900000,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog
...,...,...,...,...,...,...
145,Z13253,3678.800000,2,5,2.463670,Big-Screen-lover
146,Z13534,3662.437527,3,6,0.900000,Early-bird
147,Z16428,3516.500000,2,5,2.371301,Big-Screen-lover
148,Z16735,3300.100000,2,5,1.704942,Big-Screen-lover


In [None]:
# 상대경로 (권장)
# 현재 폴더 -> ./
# 상위 폴더 이동 시 -> ../
# 상위 폴더의 상위 폴더 이동 시 -> ../../

In [3]:
pd.read_csv("../dataset/customerdata.csv")

Unnamed: 0,CUSTID,AVGPRICE,EMI,DEVICECOUNT,PRODUCTAGE,CUSTTYPE
0,A13566,4273.900000,3,6,1.679181,Big-Screen-lover
1,A14219,3642.441950,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.900000,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog
...,...,...,...,...,...,...
145,Z13253,3678.800000,2,5,2.463670,Big-Screen-lover
146,Z13534,3662.437527,3,6,0.900000,Early-bird
147,Z16428,3516.500000,2,5,2.371301,Big-Screen-lover
148,Z16735,3300.100000,2,5,1.704942,Big-Screen-lover


In [3]:
# 깃허브에 있는 파일도 접근할 수 있다
# 코드 들어가서 Raw 클릭

In [4]:
csData = pd.read_csv("https://raw.githubusercontent.com/hyokwan/python-lecture/master/dataset/customerdata.csv")

In [5]:
# 상단 두 줄 불러오기
csData.head(2)

Unnamed: 0,CUSTID,AVGPRICE,EMI,DEVICECOUNT,PRODUCTAGE,CUSTTYPE
0,A13566,4273.9,3,6,1.679181,Big-Screen-lover
1,A14219,3642.44195,2,4,2.682023,Sleeping-dog


In [6]:
# 하단 두 줄 불러오기
csData.tail(2)

Unnamed: 0,CUSTID,AVGPRICE,EMI,DEVICECOUNT,PRODUCTAGE,CUSTTYPE
148,Z16735,3300.1,2,5,1.704942,Big-Screen-lover
149,Z19835,3326.526183,2,6,1.2,Early-bird


### encoding = "ms949" 옵션

In [None]:
# 한글이 들어있는 파일은 유의해야한다.

In [7]:
dataUrl = "https://raw.githubusercontent.com/hyokwan/python-lecture/master/dataset/kopo_region_mst_hangul.csv"

In [8]:
# encoding = "ms949" 옵션을 주면 불러올 수 있다.
testDf = pd.read_csv(dataUrl, encoding = "ms949")

In [14]:
testDf

Unnamed: 0,REGIONID,REGIONNAME
0,A00,아프리카
1,A01,미국
2,A02,한국
3,A03,독일
4,A04,브라질
...,...,...
68,A68,베네수엘라
69,A69,베트남
70,A70,바누아투
71,A71,


### to_csv 활용하여 저장

In [9]:
csData = pd.read_csv("../dataset/customerdata.csv")

In [10]:
# 같은 폴더에 csdata.csv 파일 저장된다.
csData.to_csv("csdata.csv")

In [None]:
### [실습]

In [None]:
# ../dataset 폴더 내 kopo_product_volume.csv 파일을
# selloutdata 변수에 담으시오

In [11]:
selloutdata = pd.read_csv("../dataset/kopo_product_volume.csv")
selloutdata

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


## 2. 데이터베이스 데이터 수집 및 저장

In [None]:
# 라이브러리 선언

In [12]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

In [None]:
# 1.  파일(csv) 데이터 불러오기

In [14]:
selloutData = pd.read_csv("../dataset/kopo_product_volume.csv")

In [31]:
# 2. 데이터 프레임의 컬럼을 리스트로 재정의
# postgres는 소문자만 취급!

In [15]:
selloutData.columns = ["salesid", "pg", "yw", "qty"]

In [16]:
selloutData

Unnamed: 0,salesid,pg,yw,qty
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


In [None]:
# 3. 바뀐 데이터를 데이터베이스에 저장 (csv -> database)

In [17]:
# 3-1. 데이터베이스 접속 엔진 생성
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres')

In [37]:
 # poastgresql:// : 접두어
# postgres : id
# postgres : pw
# 127.0.0.1 : ip
# 5432 : port 번호
# postgres : 데이터베이스 이름

In [18]:
# 3-2 데이터 저장 
selloutData.to_sql(name="kopo_result_hk", 
                   con=engine, 
                   index = False,
                   if_exists='replace')

265

In [None]:
# .to_sql : csv을 데이터베이스에 던지기
# name : 저장할 이름 (테이블의 이름만)
# con : connection, 열었던 엔진
# index : False
# if_exists : replace(교체), fail(이미 존재), append(누적 추가)

In [None]:
# 4. 데이터베이스에 있는 테이블 가져오기

In [19]:
indata = pd.read_sql_query("select * from kopo_result_hk", engine)
indata

Unnamed: 0,salesid,pg,yw,qty
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


In [22]:
# read_sql_table을 사용하여 가져올수도 있다
hkdata = pd.read_sql_table(table_name="kopo_result_hk", con=engine)
hkdata

Unnamed: 0,salesid,pg,yw,qty
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


In [23]:
# 엔진 다 사용했으면 닫아주기
engine.dispose()

In [None]:
# 또 이것을  csv로 저장할 수 있다.

In [24]:
hkdata.to_csv("./hkdata.csv", index = False)

In [None]:
# db에서 불러오든, csv로 불러오든 python 입장에선 다 데이터프레임이다.

In [25]:
type(indata)

pandas.core.frame.DataFrame

In [26]:
type(hkdata)

pandas.core.frame.DataFrame