# Pandas 라이브러리를 활용한 데이터 수집 및 저장

# 2. 데이터베이스 데이터 수집 및 저장 (Mariadb_Mysql)

### 라이브러리 선언하기

In [28]:
# Pandas 패키지 불러오기
import pandas as pd
from sqlalchemy import create_engine, inspect

### 2-1. 파일 데이터 불러오기

In [8]:
# CSV 파일을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_csv("../dataset/kopo_product_volume.csv")

selloutData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


### 2-2. MySQL에 데이터프레임 저장

In [20]:
# MySQL 데이터베이스 연결 정보 설정
user = 'kopo'
password = 'kopo'
host = '127.0.0.1'
port = '3306'
database = 'kopodb'

# SQLAlchemy 엔진 생성
engine = create_engine(f'mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}')

# 데이터프레임을 MySQL 데이터베이스의 테이블에 저장
table_name = 'kopo_product_volume'
selloutData.to_sql(name=table_name, con=engine, if_exists='replace', index=False)

265

### 2-3. MySQL 내 데이터 조회

In [40]:
# 테이블 목록 조회
inspector = inspect(engine)

tables = inspector.get_table_names()
tables

# 타겟 테이블 조회
sqlSelect = """
SELECT *
FROM KOPO_PRODUCT_VOLUME"""

selloutDf = pd.read_sql_query(sqlSelect, con=engine)
selloutDf.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


### [실습1]
local mysql 데이터를 클라우드 mysql에 저장하세요
customerdata -> customerdata_홍길동

In [12]:
# 테이블 목록 조회
inspector = inspect(engine)

tables = inspector.get_table_names()
tables

# 타겟 테이블 조회
sqlSelect = """
SELECT *
FROM KOPO_PRODUCT_VOLUME"""

selloutDf = pd.read_sql_query(sqlSelect, con=engine)
selloutDf.head()

### [실습2] 옆에 있는 동료의 MariaDB 서버에 접속 한후 "kopo_product_volume" 자료를 불러와서 컬럼명을 변경 후 자신의 postgreSQL에 저장하세요

In [None]:
user = 'kopo'
password = 'kopo'
host = '127.0.0.1'
port = '3306'
database = 'kopodb'

In [13]:
# SQLAlchemy 엔진 생성
engineCloud = create_engine(f'mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}')

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144.0
1,A01,ST0002,201415,128999.0
2,A01,ST0001,201418,671464.0
3,A01,ST0002,201418,134467.0
4,A01,ST0001,201413,470040.0


In [14]:
resultname = "pg_com_engine_out"
selloutData.to_sql(resultname, pg_my_engine, if_exists='replace')

# 2. 데이터베이스 데이터 수집 및 저장

csv 데이터 불러와서 DB에 저장

In [1]:
import psycopg2 
import pandas as pd
from sqlalchemy import create_engine 

# csv 데이터 로딩 후 칼럼 소문자로 변환
selloutData = pd.read_csv("../dataset/kopo_product_volume.csv") 
selloutData.columns = ["regionid","productgroup","yearweek","volume"]

selloutData.head()

# 엔진 생성 
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 

# 데이터 저장 
resultname='kopo_product_volume'
selloutData.to_sql(name=resultname, con=engine, if_exists='replace')

In [3]:
indata = pd.read_sql_query("select * from kopo_product_volume", engine)
engine.dispose()
indata.head()

Unnamed: 0,index,regionid,productgroup,yearweek,volume
0,0,A01,ST0001,201415,810144
1,1,A01,ST0002,201415,128999
2,2,A01,ST0001,201418,671464
3,3,A01,ST0002,201418,134467
4,4,A01,ST0001,201413,470040


### 성능향상

In [53]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine 
import d6tstack

# DB 커넥션 열기
purl = 'postgresql+psycopg2://postgres:postgres@127.0.0.1:5432/postgres' 
engine = create_engine(purl) 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


In [54]:
# 컬럼해더 재정의
selloutData.columns = ['regionid','pg','yearweek','volume']

# 데이터 저장
resultname='pgresult'
d6tstack.utils.pd_to_psql(df=selloutData, uri=purl, table_name=resultname, if_exists='replace')

True

### [실습]
postgreSQL에 접속하여 kopo_product_volume 데이터를 불러온 후 regionid 컬럼명을 salesid로 변경 후 dataset 폴더 내 kopo_product_volume_out.csv 파일로 저장하세요

In [8]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

# 컬럼해더 재정의
selloutData.columns = ['regionid','pg','yearweek','volume']
selloutData.to_csv("../dataset/kopo_product_volume_out.csv", index=False, encoding="ms949")

# 참조. 데이터베이스 데이터 수집 및 저장 (Oracle)

In [4]:
import pandas as pd
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
engine = create_engine('oracle+cx_oracle://haiteam:haiteam@127.0.0.1:1521/xe') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

# 컬럼해더 재정의
selloutData.columns = ['REGIONID','PRODUCTGROUP','YEARWEEK','VOLUME']

# 데이터 VIEW
selloutData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME


In [6]:
test = pd.read_csv("../dataset/kopo_product_volume.csv")

In [None]:
test

### [실습] 옆에 있는 동료의 MariaDB 서버에 접속 한후 "kopo_product_volume" 자료를 불러와서 컬럼명을 변경 후 자신의 postgreSQL에 저장하세요

In [17]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
pg_my_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 
oracle_com_engine = create_engine('oracle+cx_oracle://kopo:kopo@127.0.0.1:1521/xe') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', oracle_com_engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0002,201512,151750
1,A01,ST0001,201520,645626
2,A01,ST0002,201520,125863
3,A01,ST0001,201515,810144
4,A01,ST0002,201515,128999
