## 데이터 통합하기
- 데이터 조인
- 원리는 매우 매우 중요

In [6]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'Class1' : [95,92,98,100],
    'Class2' : [91,93,97,99]
})

df2 = pd.DataFrame({
    'Class1' : [87,89],
    'Class2' : [85,89]
})
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,89


In [8]:
pd.__version__

'2.1.4'

In [10]:
# df1.append(df2) ==> pandas 1.4.0 이후로 지원을 안함. concat()을 사용해야한다.
# 공식문서 : https://pandas.pydata.org/pandas-docs/version/1.4/reference/api/pandas.DataFrame.append.html

In [13]:
result=pd.concat([df1,df2])
result

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,89


In [15]:
df3 = pd.DataFrame({
    'Class1' : [96,83]
})

pd.concat([result,df3], ignore_index=True) # ==> 컬럼명이 동일할 때 concat()이라는 메서드가 편하기에 쓰기 좋다.(세로방향 통합) 매개변수에는 리스트값이 처음으로 들어간다.

Unnamed: 0,Class1,Class2
0,95,91.0
1,92,93.0
2,98,97.0
3,100,99.0
4,87,85.0
5,89,89.0
6,96,
7,83,


## 가로방향으로 통합하기
- pd.concat() : 세로 방향으로 통합하기

In [17]:
df4 = pd.DataFrame({
    'Class3' : [93,91,95,98]
})
df1.join(df4) # ==> join() 메서드는 칼럼방향 즉 세로방향으로 통합할때 쉽게 쓸수있기에 좋다.

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


In [18]:
index_label = ['a','b','c','d']
df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]}, index= index_label)
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a.join(df4a) # ==> 합칠 데이터들의 인덱스라벨이 같기 때문에 문제없이 합쳐졌다.

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [19]:
df1a

Unnamed: 0,Class1,Class2
a,95,91
b,92,93
c,98,97
d,100,99


In [21]:
index_label = [1,2,3,4]
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a.join(df4a) # ==> join() 메서드는 index의 라벨이 같을 때 합쳐지지만 합칠 index의 라벨이 서로 다르면 합쳐는 지지만 결측치가 나오게 된다.

Unnamed: 0,Class1,Class2,Class3
a,95,91,
b,92,93,
c,98,97,
d,100,99,


In [22]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})

df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [23]:
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [24]:
df_A_B.join(df_C_D) # ==> join() 메서드는 컬럼에 중복이 있으면 합쳐지지 않는다. 즉 중복되는 열이 있으면 안된다. 그렇기에 이런경우는 merge()메서드를 써서 합치면 편하다.
                    # ==> df_A_B, df_C_D에서 판매월이 중복이 되서 오류가 뜬다.

ValueError: columns overlap but no suffix specified: Index(['판매월'], dtype='object')

In [32]:
df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]})
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]})
df_left, df_right

(  key  left
 0   A     1
 1   B     2
 2   C     3,
   key  right
 0   A      4
 1   B      5
 2   D      6)

In [26]:
# 274 ==> 매=개변수가 뭐가 들어가는지 어쩔때 필요한지 잘 생각해보기!!!!
df_left.merge(df_right, how = 'left', on = 'key') # ==> how='left'라는 매개변수에 의해 df_left에 즉 왼쪽에 있는 'left'에 있는 값을 기준으로 합쳐지게 된다. 'left'에 있는 값은 모두 나와야한다. 

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [27]:
df_left.merge(df_right, how = 'right', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [28]:
df_left.merge(df_right, how = 'outer', on = 'key') # ==> how = 'outer'는 모두 합치는 매개변수이다. 다른 라이브러리에서는 full join이라고 한다.

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [29]:
df_left.merge(df_right, how = 'inner', on = 'key') # ==> 교집합만 결과값으로 나오게 한다.

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5


In [36]:
# excel_file_name = 'data/학생시험성적.xlsx'

# new_ecel_file = pd.ExcelWriter(excel_file_name, negine='xlsxwriter')
# df.to_excel(excel_file_name, index=False)
# new_excel_file.save()

# glob.glob(excel_file_name)

In [40]:
!pip install openpyxl # ==> 액셀파일을 가지고 오려면 이 라이브러리를 다운받아야 한다.!!!! 기억!!!



In [39]:
import pandas as pd

df = pd.read_excel('data/학생시험성적.xlsx')
df

Unnamed: 0,학생,국어,영어,수학,평균
0,A,80,90,85,85.0
1,B,90,95,95,93.333333
2,C,95,70,75,80.0
3,D,70,85,80,78.333333
4,E,75,90,85,83.333333


In [43]:
# 파일 불러올 때 인코딩 확인
df1 = pd.read_csv('data/sea_rain1_from_notepad.csv', encoding='cp949')
df1 # ==> column에 영어 외 한글이 들어가면 오류가 뜬다 그래서 encoding으로 해결해주었다.( UTF8오류였다. )

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [44]:
df = pd.read_excel('data/학생시험성적.xlsx', sheet_name = '2차시험', index_col='학생') # ==> index_col은 학생으로 index로 잡겠다는 것이다.
df # ==> 매개변수를 항상 잘확인하자.!!!

Unnamed: 0_level_0,과학,사회,역사,평균
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,90,95,85,90.0
B,85,90,80,85.0
C,70,80,75,75.0
D,75,90,100,88.333333
E,90,80,90,86.666667


In [45]:
!pip install xlsxwriter # ==> pd.ExcelWriter을 사용하기 위해 라이브러리를 불러와야 한다.

Collecting xlsxwriter
  Downloading XlsxWriter-3.1.9-py3-none-any.whl.metadata (2.6 kB)
Downloading XlsxWriter-3.1.9-py3-none-any.whl (154 kB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.8/154.8 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xlsxwriter
Successfully installed xlsxwriter-3.1.9


In [48]:
df1 = pd.read_csv('data/sea_rain1_from_notepad.csv', encoding='cp949')
df1.to_excel('data/output.xlsx') # ==> to_excel('PATH') 메서드는 우리가 원하는 PATH(경로)에 excel파일을 내보내는 메서드이다.

In [47]:
# 350p (아래 코드는 엑셀 자동화 할 때 사용하는 방법이다. 나중에 무조건 쓰니까 꼭 기억해두자!!!)

# excel_writer = pd.ExcelWriter('data/학생시험성적2.xlsx', engine = 'xlsxwriter')
# df1.to_excel(excel_writer, index=False)
# excel_writer.save()


AttributeError: 'XlsxWriter' object has no attribute 'save'

## 엑셀 자동화
 - 정의 : 엑셀 시트 보고서를 제작해서 매일매일 보고를 해야할 떄 엑셀 자동화
     + 엑셀 Cell의 색상을 변경한다 등, VBA 코드도 추가
     + openpyxl, xlsxwriter 두개 라이브러리 사용