In [1]:
import os
import pandas as pd
os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/1. 데이터 핸들링/데이터")

#### merge 기초

In [4]:
# Tip. OSError: Initializing from file failed가 발생하면 engine = "python"을 설정하면 피할 수 있음 (단, 속도 저하 문제가 있음)

df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_employee_hire_date.csv')

In [5]:
df1.head()

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [6]:
df2.head()

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [7]:
merged_df = pd.merge(df1, df2) # 컬럼명이 같아서 키를 employee로 인식함
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### on을 사용하는 경우

- 두 데이터에서 합치려는 column 이름이 같은 경우

In [8]:
merged_df = pd.merge(df1, df2, on = ["employee"])
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### left_on, right_on을 사용한 데이터 통합

- 두 데이터에서 합치려는 column 이름이 다른 경우

In [16]:
# Tip. OSError: Initializing from file failed가 발생하면 engine = "python"을 설정하면 피할 수 있음 (단, 속도 저하 문제가 있음)

df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_name_hire_date.csv')

In [17]:
df1.head()

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [18]:
df2.head()

Unnamed: 0,hire_date,name
0,2004,Lisa
1,2008,Bob
2,2012,Jake
3,2014,Sue


In [19]:
# 컬럼명을 바꿔도 똑같이 작동함
merged_df = pd.merge(df1, df2, left_on = "employee", right_on = "name")
merged_df.head() # employee와 name 모두 살아 있어서, 하나를 제거해줘야 함

Unnamed: 0,employee,group,hire_date,name
0,Bob,Accounting,2008,Bob
1,Jake,Engineering,2012,Jake
2,Lisa,Engineering,2004,Lisa
3,Sue,HR,2014,Sue


In [11]:
merged_df.drop('name', axis = 1, inplace = True)
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


#### index를 사용한 데이터 통합

In [20]:
# Tip. OSError: Initializing from file failed가 발생하면 engine = "python"을 설정하면 피할 수 있음 (단, 속도 저하 문제가 있음)

df1 = pd.read_csv('merge_실습_employee_group.csv')
df2 = pd.read_csv('merge_실습_name_hire_date.csv', index_col = "name")

In [22]:
df1.head()

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [13]:
df2.head()

Unnamed: 0_level_0,hire_date
name,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014


In [23]:
merged_df = pd.merge(df1, df2, left_on = "employee", right_index = True)

In [24]:
merged_df.head()

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## concat을 이용한 데이터 통합

In [25]:
import os
import pandas as pd
os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/1. 데이터 핸들링/데이터")

#### concat 기초

- concat은 동시에 여러개의 df를 리스트로 입력받을 수 있다. 
- ignore_index: True이면 기존 인덱스를 무시하고, 새로운 인덱스를 부여하며, False면 기존 인덱스를 사용 
- `axis: 0`이면 행 단위로 병합을 수행하며, `axis=1`이면 열 단위로 병합을 수행한다.

In [29]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[1,2,3,4]})
df2 = pd.DataFrame({"A":[5,6,7,8], "B":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8


In [30]:
# ignore_index=True 안하니깐, 인덱스까지 그대로 들고 옴. 
pd.concat([df1, df2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
0,5,5
1,6,6
2,7,7
3,8,8


In [37]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[5,6,7,8]})
df2 = pd.DataFrame({"C":[1,2,3,4], "D":[5,6,7,8]})


# 열단위로 붙이는 경우에는 아래와 같이 ignore_index=False로 놓는 것이 일반적. 
merged_df = pd.concat([df1, df2], axis = 1, ignore_index = False)
merged_df

Unnamed: 0,A,B,C,D
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8


#### concat을 이용한 여러 csv 파일 합치기

In [42]:
df1 = pd.read_csv("일별 오염 데이터/2004-03-14_오염_수준.txt", sep = "\t", engine = "python")
df2 = pd.read_csv("일별 오염 데이터/2004-03-20_오염_수준.txt", sep = "\t", engine = "python")

In [43]:
df1.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-14,00:00:00,2.9,1533.5,93.0,10.963458,1013.0,190.0,888.5,129.0,1610.75,1534.75,13.95,53.6,0.849772
1,2004-03-14,01:00:00,2.8,1483.5,131.0,11.860179,1044.75,174.0,879.75,119.0,1624.25,1529.75,14.65,51.5,0.853623
2,2004-03-14,02:00:00,2.5,1366.75,92.0,8.624679,924.5,128.0,952.5,104.0,1543.0,1337.0,12.55,58.900001,0.85374
3,2004-03-14,03:00:00,2.4,1344.0,132.0,9.737786,967.75,-200.0,920.5,-200.0,1619.75,1278.25,11.65,63.425,0.867449
4,2004-03-14,04:00:00,-200.0,1129.5,56.0,5.191654,773.0,70.0,1130.25,82.0,1451.75,1050.5,12.1,61.100001,0.860316


In [44]:
df2.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-20,00:00:00,1.7,1126.75,-200.0,5.791192,802.0,104.0,1064.0,92.0,1446.5,837.0,13.775,57.95,0.908544
1,2004-03-20,01:00:00,1.6,1090.25,-200.0,5.191654,773.0,,1105.25,83.0,1428.5,761.0,13.9,55.95,0.884207
2,2004-03-20,02:00:00,1.3,1017.0,-200.0,4.123187,717.5,74.0,1181.75,81.0,1382.25,650.25,13.875,55.55,0.876488
3,2004-03-20,03:00:00,1.3,997.25,-200.0,3.410629,677.0,-200.0,1252.25,-200.0,1358.5,590.75,13.825,55.1,0.86662
4,2004-03-20,04:00:00,-200.0,944.75,-200.0,2.908548,646.25,44.0,1308.0,55.0,1331.5,505.0,13.8,54.6,0.857388


In [45]:
df1.shape

(24, 15)

In [46]:
df2.shape

(24, 15)

In [50]:
os.listdir("일별 오염 데이터")

['2004-03-22_오염_수준.txt',
 '2004-03-17_오염_수준.txt',
 '2004-03-25_오염_수준.txt',
 '2004-03-18_오염_수준.txt',
 '2004-03-16_오염_수준.txt',
 '2004-03-24_오염_수준.txt',
 '2004-03-19_오염_수준.txt',
 '2004-03-23_오염_수준.txt',
 '2004-03-11_오염_수준.txt',
 '2004-03-30_오염_수준.txt',
 '2004-03-29_오염_수준.txt',
 '2004-03-14_오염_수준.txt',
 '2004-03-26_오염_수준.txt',
 '2004-03-21_오염_수준.txt',
 '2004-03-13_오염_수준.txt',
 'desktop.ini',
 '2004-03-20_오염_수준.txt',
 '2004-03-12_오염_수준.txt',
 '2004-03-31_오염_수준.txt',
 '2004-03-28_오염_수준.txt',
 '2004-03-15_오염_수준.txt',
 '2004-03-27_오염_수준.txt']

In [53]:
# for문을 이용한 데이터 병합 
# (코드가 김, 상대적으로 비효율적임, 메모리 문제가 생길 가능성이 적음)
merged_df = pd.DataFrame() # 빈 데이터 프레임 생성

for file in os.listdir("일별 오염 데이터"):
    if '오염_수준.txt' in file:
        df = pd.read_csv("일별 오염 데이터/" + file, sep = "\t", engine = "python")
        merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)

merged_df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-22,00:00:00,1.7,1161.25,-200.0,6.074366,815.25,93.0,995.25,86.0,1582.25,909.0,16.125,60.025001,1.091938
1,2004-03-22,01:00:00,1.5,1095.25,-200.0,5.071112,767.0,74.0,1050.25,76.0,1547.0,818.25,15.825,60.525,1.080477
2,2004-03-22,02:00:00,0.6,897.0,-200.0,1.718653,562.5,23.0,1416.5,33.0,1355.0,472.25,16.325001,56.950001,1.049075
3,2004-03-22,03:00:00,0.4,842.0,-200.0,0.710518,468.0,-200.0,1812.75,-200.0,1274.25,393.5,16.925,53.900001,1.030856
4,2004-03-22,04:00:00,-200.0,853.75,-200.0,0.829014,481.25,17.0,1755.5,27.0,1304.0,396.25,16.1,55.900001,1.015304


In [54]:
merged_df.shape

(504, 15)

In [63]:
# list comprehension을 이용한 데이터 통합
# (코드가 짧음, 효율적임, 메모리 문제가 생길 수 있음 - 메모리에 모든 파일이 한번에 존재하게 됨)
merged_df = pd.concat([pd.read_csv("일별 오염 데이터/" + file, sep = "\t", engine = "python")
                       for file in os.listdir("일별 오염 데이터") if '오염_수준.txt' in file], axis=0, ignore_index=True)

In [64]:
merged_df.shape

(504, 15)

#### concat을 이용한 엑셀 시트 통합

In [68]:
import xlrd
wb = xlrd.open_workbook("월별매출데이터.xlsx", on_demand = True)
sheetnames = wb.sheet_names()
sheetnames

['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월']

In [69]:
merged_df = pd.DataFrame()
for sn in sheetnames:
    df = pd.read_excel("월별매출데이터.xlsx", sheet_name = sn, skiprows = range(6))
    df = df.iloc[:, 1:] # 첫 번째 컬럼이 불필요하므로 제거
    merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,2018.1.1,지점1,제품B,3,C-168,서울특별시 동작구 흑석동,주문완료,인터넷뱅킹
1,2018.1.1,지점2,제품F,8,C-87,서울특별시 서대문구 신촌동,배송완료,신용카드
2,2018.1.1,지점4,제품B,2,C-158,서울특별시 종로구 종로5가,배송완료,휴대폰결제
3,2018.1.1,지점3,제품D,7,C-307,서울특별시 서대문구 냉천동,주문완료,휴대폰결제
4,2018.1.1,지점2,제품E,9,C-342,서울특별시 종로구 묘동,배송완료,인터넷뱅킹
...,...,...,...,...,...,...,...,...
18224,2018-12-31,지점1,제품F,6,C-59,서울특별시 성북구 보문동3가,배송중,신용카드
18225,2018-12-31,지점2,제품D,9,C-287,서울특별시 중구 의주로1가,배송중,인터넷뱅킹
18226,2018-12-31,지점4,제품D,5,C-175,서울특별시 종로구 명륜1가,주문완료,인터넷뱅킹
18227,2018-12-31,지점1,제품B,4,C-17,서울특별시 영등포구 양평동3가,주문완료,인터넷뱅킹


In [70]:
df.shape

(1509, 8)

In [71]:
merged_df.shape

(18229, 8)

In [73]:
# list comprehension을 이용한 데이터 통합
merged_df = pd.concat([pd.read_excel("월별매출데이터.xlsx", sheet_name = sn, skiprows = range(6)).iloc[:, 1:] for sn in sheetnames])
merged_df.shape

(18229, 8)