# 엑셀파일 다루기
- 파이썬을 이용해 엑셀에서 주행하던 데이터 처리를 좀 더 쉽고 간편하게 수행

## 1. 엑셀 파일을 읽고 쓰기

###  01. 엑셀 파일의 데이터 읽기
- pandas를 이용하면 엑셀 파일의 데이터를 읽고 쓸수 있다.

In [3]:
import numpy as np
import pandas as pd

In [4]:
# 학생 시험 성적 엑셀파일 읽기
df=pd.read_excel("학생시험성적.xlsx")
df

Unnamed: 0,학생,국어,영어,수학,평균
0,A,80,90,85,85.0
1,B,90,95,95,93.333333
2,C,95,70,75,80.0
3,D,70,85,80,78.333333
4,E,75,90,85,83.333333


In [6]:
# 두번째 sheet 읽기
pd.read_excel("학생시험성적.xlsx",sheet_name='2차시험') #이름 지정하기.

Unnamed: 0,학생,과학,사회,역사,평균
0,A,90,95,85,90.0
1,B,85,90,80,85.0
2,C,70,80,75,75.0
3,D,75,90,100,88.333333
4,E,90,80,90,86.666667


In [7]:
pd.read_excel("학생시험성적.xlsx",sheet_name=1) # 시트 번호 

Unnamed: 0,학생,과학,사회,역사,평균
0,A,90,95,85,90.0
1,B,85,90,80,85.0
2,C,70,80,75,75.0
3,D,75,90,100,88.333333
4,E,90,80,90,86.666667


In [13]:
# 인덱스 번호 지정해서 읽기
pd.read_excel("학생시험성적.xlsx",index_col=0) # 인덱스를 열이름으로 지정함. 첫번째 열이 인덱스가 된다.

Unnamed: 0_level_0,국어,영어,수학,평균
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,80,90,85,85.0
B,90,95,95,93.333333
C,95,70,75,80.0
D,70,85,80,78.333333
E,75,90,85,83.333333


In [14]:
pd.read_excel("학생시험성적.xlsx",index_col='학생') # 열 이름으로 지정하기.

Unnamed: 0_level_0,국어,영어,수학,평균
학생,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,80,90,85,85.0
B,90,95,95,93.333333
C,95,70,75,80.0
D,70,85,80,78.333333
E,75,90,85,83.333333


### 02. 데이터를 엑셀 파일로 쓰기
- 파이썬의 데이터를 엑셀파일로 쓰기. 
- 쓰기 위해선 3단계가 필요.
    1. excel writer 객체 생성.
    2. 엑셀 시트에 쓰기
    3. 객체 닫고 지정된 엑셀 파일 생성.
    

In [18]:
# 엑셀에 쓸 데이터 생성
excel_exam_data1={
    '학생': ['A','B','C','D','E',"F"],
    "국어" :[80,90,95,70,75,85],
    "영어":[90,95,70,85,90,95],
    "수학":[85,95,75,80,85,100]
}
df1=pd.DataFrame(excel_exam_data1)
df1

Unnamed: 0,학생,국어,영어,수학
0,A,80,90,85
1,B,90,95,95
2,C,95,70,75
3,D,70,85,80
4,E,75,90,85
5,F,85,95,100


In [19]:
# 생성한 데이터 프레임 엑셀파일에 넣기
excel_write=pd.ExcelWriter("학생시험성적2.xlsx",engine='xlsxwriter')
df1.to_excel(excel_write,index=False)
excel_write.save()

In [21]:
# 엑설파일에 시트이름 지정하고 넣기
excel_write1=pd.ExcelWriter("학생시험성적3.xlsx",engine='xlsxwriter')
df1.to_excel(excel_write1,index=False,sheet_name='중간고사')
excel_write1.save()

In [22]:
# 하나의 엑셀파일에 두개의 데이터시트 생성.

excel_exam_data2={
    '학생': ['A','B','C','D','E',"F"],
    "국어" :[85,95,75,80,85,100],
    "영어":[80,90,95,70,75,85],
    "수학":[90,95,70,85,90,95]
}
df2=pd.DataFrame(excel_exam_data2)
df2

Unnamed: 0,학생,국어,영어,수학
0,A,85,80,90
1,B,95,90,95
2,C,75,95,70
3,D,80,70,85
4,E,85,75,90
5,F,100,85,95


In [23]:
excel_write2=pd.ExcelWriter("학생시험성적4.xlsx",engine='xlsxwriter')
df1.to_excel(excel_write2,index=False,sheet_name='중간고사')
df2.to_excel(excel_write2,index=False,sheet_name='기말고사')
excel_write2.save()

## 엑셀 파일 통합하기
- 여러개의 엑셀파일을 하나로 통합하기.
### 여러개의 엑셀 파일 데이터를 통합하기
- 데이터 프레임으로 통합시킨다. 

In [24]:
#여러개의 엑셀 파일 배열로 지정
excel_data_files=['담당자별_판매량_Andy사원.xlsx','담당자별_판매량_Becky사원.xlsx','담당자별_판매량_Chris사원.xlsx']

#데이터 프레임 생성
total_data=pd.DataFrame()


for f in excel_data_files :
    df=pd.read_excel(f)
    total_data=total_data.append(df)
    
total_data  # 인덱스가 그대로 들어옴

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,시계,A,가,198,123,120,137
1,구두,A,가,273,241,296,217
2,핸드백,A,가,385,316,355,331
0,시계,B,나,154,108,155,114
1,구두,B,나,200,223,213,202
2,핸드백,B,나,350,340,377,392
0,시계,C,다,168,102,149,174
1,구두,C,다,231,279,277,292
2,핸드백,C,다,365,383,308,323


In [25]:
for f in excel_data_files :
    df=pd.read_excel(f)
    total_data=total_data.append(df, ignore_index=True)  # 인덱스 새로 부여.
    
total_data 

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,시계,A,가,198,123,120,137
1,구두,A,가,273,241,296,217
2,핸드백,A,가,385,316,355,331
3,시계,B,나,154,108,155,114
4,구두,B,나,200,223,213,202
5,핸드백,B,나,350,340,377,392
6,시계,C,다,168,102,149,174
7,구두,C,다,231,279,277,292
8,핸드백,C,다,365,383,308,323
9,시계,A,가,198,123,120,137


In [26]:
# 위에 예제는 파일 명을 일일이 배열에 넣어주어야 하여서 엑셀파일이 많은경우에는 번거로울것이다.

import glob #파일명을 일일이 입력하지 않고 자동으로 파일명을 가져올수 있다.

glob.glob("담당자별_판매량*.xlsx")  # 포함되는 파일 출력해줌 * : 길이와 상관없는 문자열, ? :한글자
# 결과 값이 리스트 형태로 반환된다.

['담당자별_판매량_Andy사원.xlsx', '담당자별_판매량_Becky사원.xlsx', '담당자별_판매량_Chris사원.xlsx']

In [28]:
excel_data_files1=glob.glob("담당자별_판매량*.xlsx")
total_data1=pd.DataFrame()

for f in excel_data_files1 :
    df=pd.read_excel(f)
    total_data1=total_data1.append(df, ignore_index=True)
    
total_data1

Unnamed: 0,제품명,담당자,지역,1분기,2분기,3분기,4분기
0,시계,A,가,198,123,120,137
1,구두,A,가,273,241,296,217
2,핸드백,A,가,385,316,355,331
3,시계,B,나,154,108,155,114
4,구두,B,나,200,223,213,202
5,핸드백,B,나,350,340,377,392
6,시계,C,다,168,102,149,174
7,구두,C,다,231,279,277,292
8,핸드백,C,다,365,383,308,323
