# Pandas 라이브러리를 활용한 데이터 수집 및 저장

# 1. 파일 데이터 수집 및 저장

파일 데이터 불러오기 (csv)

In [1]:
# Pandas 패키지 불러오기
import pandas as pd
 
# CSV 파일을 읽어 Data Frame 변수에 저장하기
customerData = pd.read_csv("../dataset/customerdata.csv")

# 컬럼명 변경
customerData.columns = ["custid","avgprice","emi",\
                        "devicecount","productage","cstype"]

# CSV 파일로 저장
customerData.to_csv("../dataset/customerdata_out.csv", index=False)
customerData.head()

Unnamed: 0,custid,avgprice,emi,devicecount,productage,cstype
0,A13566,4273.9,3,6,1.679181,Big-Screen-lover
1,A14219,3642.44195,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.9,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog


파일 데이터 불러오기 (excel)

In [4]:
# Pandas 패키지 불러오기
import pandas as pd
 
# 엑셀 파일을 읽어 Data Frame 변수에 저장하기
customerData = pd.read_excel("../dataset/customerdata.xlsx")

# 컬럼명 변경
customerData.columns = ["custid","avgprice","emi",\
                        "devicecount","productage","cstype"]
# 파일 저장
customerData.to_excel("../dataset/customerdata_out.xlsx", index=False)
customerData.head()

Unnamed: 0,custid,avgprice,emi,devicecount,productage,cstype
0,A13566,4273.9,3,6,1.679181,Big-Screen-lover
1,A14219,3642.44195,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.9,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog


파일 데이터 불러오기 (한글포함 데이터)

In [25]:
# Pandas 패키지 불러오기
import pandas as pd
 
# CSV 파일을 읽어올 때 encoding = “ms949” 옵션 정의
regionData = pd.read_csv("../dataset/kopo_region_mst_hangul.csv", \
                         encoding="ms949")
regionData.head()

Unnamed: 0,REGIONID,REGIONNAME
0,A00,아프리카
1,A01,미국
2,A02,한국
3,A03,독일
4,A04,브라질


웹 파일 데이터 불러오기

In [27]:
# Pandas 패키지 불러오기
import pandas as pd
 
# CSV 파일을 읽어 Data Frame 변수에 저장하기
customerData = pd.read_csv("https://raw.githubusercontent.com/hyokwan/python-lecture/master/dataset/customerdata.csv")

# 컬럼명 변경
customerData.columns = ["custid","avgprice","emi",\
                        "devicecount","productage","cstype"]

customerData.head()

Unnamed: 0,custid,avgprice,emi,devicecount,productage,cstype
0,A13566,4273.9,3,6,1.679181,Big-Screen-lover
1,A14219,3642.44195,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.9,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog


### [실습1]
../dataset 폴더 내 kopo_product_volume.csv 파일을 selloutdata 변수에 담으세요


In [3]:
# PANDAS 패키지 불러오기
import pandas as pd
 
# CSV 파일을 읽어 Data Frame 변수에 저장하기
selloutdata = pd.read_csv("../dataset/kopo_product_volume.csv")
selloutdata

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


In [4]:
# CSV 파일로 저장
selloutdata.to_csv("../dataset/selloutdata_out.csv", index=False)
selloutdata.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


데이터베이스 실습 전
설치한 데이터베이스에 kopo_product_volume.csv
데이터를 저장합니다.
(데이터베이스 기능 활용!)

# 2. 데이터베이스 데이터 수집 및 저장 (Mariadb_Mysql)

In [None]:
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 

In [None]:
pd.

In [None]:
# PANDAS 패키지 불러오기

 
# DB 커넥션 열기
engine = create_engine('mysql+pymysql://root:MySQL@127.0.0.1:3306/mysql')

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

# 컬럼해더 재정의
selloutData.columns = ['REGIONID','PRODUCTGROUP','YEARWEEK','VOLUME']
selloutData.head()

# 데이터 저장
resultname='mysqlresult'
selloutData.to_sql(resultname, engine, if_exists='replace')


In [60]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
engine_mariadb = create_engine('mysql+pymysql://kopo:kopo@www.hadoopkorea.com:3306/kopo')

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine_mariadb) 

# 컬럼해더 재정의
selloutData.columns = ['REGIONID','PRODUCTGROUP','YEARWEEK','VOLUME']
selloutData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0002,201512,151750.0
1,A01,ST0001,201520,645626.0
2,A01,ST0002,201520,125863.0
3,A01,ST0001,201515,810144.0
4,A01,ST0002,201515,128999.0


In [1]:
# # PANDAS 패키지 불러오기
# import pandas as pd 
# import pymysql 
# from sqlalchemy import create_engine 
 
# # DB 커넥션 열기
# engine = create_engine('mysql+pymysql://root:mariadb@127.0.0.1:3306/mysql')

# # DB 테이블을 읽어 Data Frame 변수에 저장하기
# selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

# # 컬럼해더 재정의
# selloutData.columns = ['REGIONID','PRODUCTGROUP','YEARWEEK','VOLUME']
# selloutData.head()

In [10]:
# 데이터 저장
resultname='mysqlresult'
selloutData.to_sql(resultname, engine, if_exists='replace')

In [11]:
# import mysql
import pandas as pd
from sqlalchemy import create_engine 
import d6tstack

# DB 커넥션 열기
murl = 'mysql+mysqlconnector://root:mariadb@127.0.0.1:3306/mysql'
engine = create_engine(murl) 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144.0
1,A01,ST0002,201415,128999.0
2,A01,ST0001,201418,671464.0
3,A01,ST0002,201418,134467.0
4,A01,ST0001,201413,470040.0


### [실습1]
옆에 있는 동료의 postgreSQL 서버에 접속 한후 "kopo_product_volume" 자료를 불러와서 컬럼명을 변경 후 자신의 postgreSQL에 저장하세요

In [12]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
pg_my_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 
pg_com_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres')

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', pg_my_engine) 

selloutData.head()
resultname = "pg_com_engine_out"
selloutData.to_sql(resultname, pg_com_engine, if_exists='replace')

### [실습2] 옆에 있는 동료의 MariaDB 서버에 접속 한후 "kopo_product_volume" 자료를 불러와서 컬럼명을 변경 후 자신의 postgreSQL에 저장하세요

In [13]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
pg_my_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 
mysql_com_engine = create_engine('mysql+pymysql://root:mariadb@127.0.0.1:3306/mysql')

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', mysql_com_engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144.0
1,A01,ST0002,201415,128999.0
2,A01,ST0001,201418,671464.0
3,A01,ST0002,201418,134467.0
4,A01,ST0001,201413,470040.0


In [14]:
resultname = "pg_com_engine_out"
selloutData.to_sql(resultname, pg_my_engine, if_exists='replace')

# 2. 데이터베이스 데이터 수집 및 저장

csv 데이터 불러와서 DB에 저장

In [1]:
import psycopg2 
import pandas as pd
from sqlalchemy import create_engine 

# csv 데이터 로딩 후 칼럼 소문자로 변환
selloutData = pd.read_csv("../dataset/kopo_product_volume.csv") 
selloutData.columns = ["regionid","productgroup","yearweek","volume"]

selloutData.head()

# 엔진 생성 
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 

# 데이터 저장 
resultname='kopo_product_volume'
selloutData.to_sql(name=resultname, con=engine, if_exists='replace')

In [3]:
indata = pd.read_sql_query("select * from kopo_product_volume", engine)
engine.dispose()
indata.head()

Unnamed: 0,index,regionid,productgroup,yearweek,volume
0,0,A01,ST0001,201415,810144
1,1,A01,ST0002,201415,128999
2,2,A01,ST0001,201418,671464
3,3,A01,ST0002,201418,134467
4,4,A01,ST0001,201413,470040


### 성능향상

In [53]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine 
import d6tstack

# DB 커넥션 열기
purl = 'postgresql+psycopg2://postgres:postgres@127.0.0.1:5432/postgres' 
engine = create_engine(purl) 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040


In [54]:
# 컬럼해더 재정의
selloutData.columns = ['regionid','pg','yearweek','volume']

# 데이터 저장
resultname='pgresult'
d6tstack.utils.pd_to_psql(df=selloutData, uri=purl, table_name=resultname, if_exists='replace')

True

### [실습]
postgreSQL에 접속하여 kopo_product_volume 데이터를 불러온 후 regionid 컬럼명을 salesid로 변경 후 dataset 폴더 내 kopo_product_volume_out.csv 파일로 저장하세요

In [8]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

selloutData.head()

# 컬럼해더 재정의
selloutData.columns = ['regionid','pg','yearweek','volume']
selloutData.to_csv("../dataset/kopo_product_volume_out.csv", index=False, encoding="ms949")

# 참조. 데이터베이스 데이터 수집 및 저장 (Oracle)

In [4]:
import pandas as pd
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
engine = create_engine('oracle+cx_oracle://haiteam:haiteam@127.0.0.1:1521/xe') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', engine) 

# 컬럼해더 재정의
selloutData.columns = ['REGIONID','PRODUCTGROUP','YEARWEEK','VOLUME']

# 데이터 VIEW
selloutData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME


In [6]:
test = pd.read_csv("../dataset/kopo_product_volume.csv")

In [None]:
test

### [실습] 옆에 있는 동료의 MariaDB 서버에 접속 한후 "kopo_product_volume" 자료를 불러와서 컬럼명을 변경 후 자신의 postgreSQL에 저장하세요

In [17]:
# PANDAS 패키지 불러오기
import pandas as pd 
import pymysql 
from sqlalchemy import create_engine 
 
# DB 커넥션 열기
pg_my_engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgres') 
oracle_com_engine = create_engine('oracle+cx_oracle://kopo:kopo@127.0.0.1:1521/xe') 

# DB 테이블을 읽어 Data Frame 변수에 저장하기
selloutData = pd.read_sql_query('SELECT * FROM kopo_product_volume', oracle_com_engine) 

selloutData.head()

Unnamed: 0,regionid,productgroup,yearweek,volume
0,A01,ST0002,201512,151750
1,A01,ST0001,201520,645626
2,A01,ST0002,201520,125863
3,A01,ST0001,201515,810144
4,A01,ST0002,201515,128999
