# Pandas 라이브러리를 활용한 데이터 수집 및 저장

# 2. 데이터베이스 데이터 수집 및 저장 (Mariadb_Mysql)

### 라이브러리 선언하기

In [1]:
# Pandas 패키지 불러오기
import pandas as pd
from sqlalchemy import create_engine, inspect

### 1. 파일 데이터 불러오기

In [4]:
# CSV 파일을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_csv("../dataset/kopo_customerdata.csv")

selloutData.head()

Unnamed: 0,CUSTOMERCODE,STATENAME,ST,GENDER,DOB,GENDER1,EMAIL,FEST_CNT,TOTAL_AMOUNT,AC_AMOUNT,AV_AMOUNT,HA_AMOUNT,EMI_CE_AMOUNT,IS_HIGHEND,CNT_VIST,GAP_VISIT
0,1503989,State2,2,Male,0,1,1,0,30300,0,30300,0,0,0,1,0
1,1190338,State2,2,Male,0,1,0,1,46500,0,46500,0,0,0,1,0
2,1424715,State2,2,Female,0,2,0,0,22700,0,0,22700,0,0,1,0
3,2483305,State2,2,Male,0,1,0,1,31400,0,31400,0,0,0,1,0
4,1178802,State2,2,Male,0,1,0,1,44900,0,0,44900,0,0,1,0


### 2. MySQL에 데이터프레임 저장

In [5]:
# MySQL 데이터베이스 연결 정보 설정
user = 'kopo'
password = 'kopo'
host = '127.0.0.1'
port = '3306'
database = 'kopodb'

# SQLAlchemy 엔진 생성
engine = create_engine(f'mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}')

# 데이터프레임을 MySQL 데이터베이스의 테이블에 저장
table_name = 'kopo_customerdata'
selloutData.to_sql(name=table_name, con=engine, if_exists='replace', index=False)

300000

### 3. MySQL 내 데이터 조회

In [40]:
# 테이블 목록 조회
inspector = inspect(engine)

tables = inspector.get_table_names()
tables

# 타겟 테이블 조회
sqlSelect = """
SELECT *
FROM KOPO_PRODUCT_VOLUME"""

selloutDf = pd.read_sql_query(sqlSelect, con=engine)
selloutDf.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


### 성능향상

In [53]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine 
import d6tstack

# DB 커넥션 열기
purl = 'postgresql+psycopg2://postgres:postgres@127.0.0.1:5432/postgres' 
engine = create_engine(purl) 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


In [54]:
# 컬럼해더 재정의
selloutData.columns = ['regionid','pg','yearweek','volume']

# 데이터 저장
resultname='pgresult'
d6tstack.utils.pd_to_psql(df=selloutData, uri=purl, table_name=resultname, if_exists='replace')

True

### [실습] local mysql 데이터를 클라우드 mysql에 저장하세요
customerdata -> customerdata_홍길동


In [17]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
pg_my_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 
oracle_com_engine = create_engine('oracle+cx_oracle://kopo:kopo@127.0.0.1:1521/xe') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', oracle_com_engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0002,201512,151750
1,A01,ST0001,201520,645626
2,A01,ST0002,201520,125863
3,A01,ST0001,201515,810144
4,A01,ST0002,201515,128999
