## 데이터 통합하기
- 데이터 조인
- 원리는 매우 매우 중요

In [11]:
# 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd

In [14]:
print(pd.__version__)

2.1.4


In [33]:
df1 = pd.DataFrame({ 
    'Class1' : [95, 92, 98, 100],
    'Class2' : [91 ,93, 97, 90]})

df2 = pd.DataFrame({
    'Class1' : [87, 89],
    'Class2': [85, 90]})

df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


In [35]:
# append() 메소드는 1.4.0 이후부터 지원을 하지않으므로
# pandas 버전을 1.4로 낮추거나, 코드를 새로운 버전에 맞춰서 코드 재수정을 하면 된다.
df1.append(df2)



AttributeError: 'DataFrame' object has no attribute 'append'

In [65]:
df1 = pd.DataFrame({ 
    'Class1' : [95, 92, 98, 100],
    'Class2' : [91 ,93, 97, 90]})

df2 = pd.DataFrame({
    'Class1' : [87, 89],
    'Class2': [85, 90]})

# 인덱스 초기화
result = pd.concat([df1, df2], ignore_index=True)

result

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,90
4,87,85
5,89,90


In [53]:
df3 = pd.DataFrame({
    'Class1' : [96, 83]})

# 인덱스가 뒤죽박죽하게 나오는 것을 확인할 수 있다
pd.concat([result, df3])

Unnamed: 0,Class1,Class2
0,95,91.0
1,92,93.0
2,98,97.0
3,100,90.0
4,87,85.0
5,89,90.0
0,96,
1,83,


In [54]:
# ignore_index=True 옵션을 주어서 인덱스를 초기화 
pd.concat([result, df3], ignore_index=True)

Unnamed: 0,Class1,Class2
0,95,91.0
1,92,93.0
2,98,97.0
3,100,90.0
4,87,85.0
5,89,90.0
6,96,
7,83,


## 가로 방향으로 통합하기
- pd.concat() : 세로 방향으로 통합하기

In [62]:
df1 = pd.DataFrame({ 
    'Class1' : [95, 92, 98, 100],
    'Class2' : [91 ,93, 97, 90]})


df4 = pd.DataFrame({
    'Class3' : [93, 91, 95, 98]
})

# join 메소드 : 가로 방향으로 통합
df1.join(df4)

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,90,98


In [66]:
# 인덱스 라벨을 지정
index_label = ['a','b','c','d']

df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]}, index= index_label)
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [68]:
# 인덱스 라벨을 지정
index_label = ['a','b','c','d']


df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]})

df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
0,95,91,
1,92,93,
2,98,97,
3,100,99,


In [69]:
# 인덱스 번호가 불일치한 상태에서 조인을 하는 경우 NaN(결측치) 값이 발생
# 즉, 인덱스를 체크해야 한다.
# 방법 : df1a.index == df4a.index
# 아래와 같이 False가 있는 경우 즉, 인덱스가 다른 경우
# 데이터의 손실이 발생할 수 있으므로 인덱스를 수정해야 한다.


# 인덱스 확인
df1a.index == df4a.index

array([False, False, False, False])

In [84]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})

df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})

df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [60]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})

df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})

# 에러 발생
df_A_B.join(df_C_D)

ValueError: columns overlap but no suffix specified: Index(['판매월'], dtype='object')

In [85]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})

# 칼럼이 중복되는 것을 방지하기 위해 판매월 칼럼을 지운 후 join 하기
df_C_D = pd.DataFrame({'제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})

df_A_B.join(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [86]:
df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]})
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]})

In [47]:
# left join :  left 값과 일치하는 것을 대응함
# df_right 객체에는 'C'에 해당하는 값이 없으므로 NaN 값이 나오게 됨
df_left.merge(df_right, how='left', on = 'key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [48]:
# right join : df_right 기준
df_left.merge(df_right, how='right', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [51]:
# outer join : FULL JOIN
df_left.merge(df_right, how='outer', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [52]:
# inner join : 일치하는 것만 출력
# 교집합
df_left.merge(df_right, how='inner', on = 'key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


In [100]:
# 학생시험성적 엑셀파일을 불러오기
# openpyxl 설치가 안되면 에러가 발생
FILE_PATH = 'datasets/학생시험성적.xlsx'

# sheet_name : 가져오고 싶은 시트 이름
df = pd.read_excel(FILE_PATH, sheet_name = '2차시험', index_col = '학생')
df

Unnamed: 0_level_0,과학,사회,역사,평균
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,90,95,85,90.0
B,85,90,80,85.0
C,70,80,75,75.0
D,75,90,100,88.333333
E,90,80,90,86.666667


In [99]:
# encoding 옵션을 주어 utf-8 문제 해결
# 파일 불러올 때 인코딩 확인
df = pd.read_csv('datasets/sea_rain1_from_notepad.csv', encoding='cp949')
df

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [108]:
df1 = pd.read_csv('datasets/sea_rain1_from_notepad.csv', encoding='cp949')
# 파일 저장하기
df1.to_excel('datasets/output.xlsx')

## 엑셀 자동화
- 정의 : 엑셀 시트 보고서를 제작해서 매일매일 보고를 해야할 때 엑셀 자동화 사용
  + 엑셀 Cell의 색상 변경 등, VBA 코드도 추가 가능
  + openpyxl, xlsxwriter 두 개의 라이브러리 사용

In [109]:
# 엑셀 자동화 할 때, 적용 해보기
# excel_writer = pd.ExcelWriter('datasets/학생시험성적2.xlsx', engine = 'xlsxwriter')
# df1.to_excel(excel_writer, index=False)
# excel_writer.save()