# 마이크로소프트 엑셀 파일에서 데이터 읽어오기
우선 `pandas` 의 `ExcelFile` 클래스를 이용해야 하는데 이를 위해서는 `xlrd`, `openpyxl` 패키지를 먼저 설치해야 한다.
<code>   
   ]$ conda install xlrd openpyxl
</code>
로 설치한다.

In [2]:
import pandas as pd

## 헤더가 없을 때 읽어오기
아주 단순하게 다음과 같이 생긴 파일에서 가져올 때
![simple](images/simplest.png)

In [3]:
df = pd.read_excel("example.xlsx",header=None)
df

Unnamed: 0,0,1
0,a,1
1,b,2
2,c,3
3,d,4


## 헤더가 한 줄 일때 읽어오기
이번에는 행으로 색인이 한 줄 있을 때
![header1](images/header1.png)

In [4]:
df = pd.read_excel("example.xlsx",sheet_name="header")
df

Unnamed: 0,name,number
0,chulsu,11
1,yunghee,1


## 헤더가 두 줄 일때 읽어오기
이번에는 색인이 두 줄일 때
![header2](images/header2.png)

이전과 똑같이 하면 첫번째 행만을 헤더로 인식한다

In [5]:
df = pd.read_excel("example.xlsx",sheet_name="dualheader",header=0)
df

Unnamed: 0,name,Unnamed: 1,address,Unnamed: 3
,first,last,city,country
,chulsu,lee,seoul,Korea
,yunghee,kim,LA,US


이번에는 header 를 두번째 행으로 지정 (`header=1`) 해 보면 상위 헤더는 처리가 되지 않고 두번째 헤더만 사용 된다
![](images/header2.png)

In [6]:
df = pd.read_excel("example.xlsx",sheet_name="dualheader",header=1)
df

Unnamed: 0,first,last,city,country
,chulsu,lee,seoul,Korea
,yunghee,kim,LA,US


header argument 에 list 를 넘기면 다음과 같이 된다

(이유는 잘 모르겠지만 첫번째 열이 자동으로 column index 로 지정이 됨)

In [7]:
df = pd.read_excel("example.xlsx",sheet_name="dualheader",header=[0,1],index_col=None)
df

Unnamed: 0_level_0,name,name,address,address
Unnamed: 0_level_1,first,last,city,country
,chulsu,lee,seoul,Korea
,yunghee,kim,LA,US


In [8]:
df["name"]

Unnamed: 0,first,last
,chulsu,lee
,yunghee,kim


## 열에도 헤더가 있을 때 처리 방법
이번에는 열에도 색인이 있을 경우이다
![col_row](images/row_col_header.png)

In [9]:
df = pd.read_excel("example.xlsx",sheet_name="colheader",header=[0,1],index_col=0)
df

Unnamed: 0_level_0,name,name,address,address
gender,first,last,city,country
male,chulsu,lee,seoul,Korea
femail,yunghee,kim,LA,US


In [10]:
df["name"]

gender,first,last
male,chulsu,lee
femail,yunghee,kim


In [11]:
df["address"]

gender,city,country
male,seoul,Korea
femail,LA,US


# sheet 의 일부만 사용할 때
## 행의 일부만 사용할 때
![skiprow](images/skiprow.png)

In [14]:
df = pd.read_excel("example.xlsx",sheet_name="skiprow",header=0,index_col=0,skiprows=range(1,4))
df

Unnamed: 0_level_0,city
No,Unnamed: 1_level_1
4,Seoul
5,Pusan


## 열의 일부 사용할 때
![usecols](images/usecols.png)

In [18]:
df = pd.read_excel("example.xlsx",sheet_name="usecols",header=0,index_col=0,usecols="D:F")
df

Unnamed: 0_level_0,city,population
No,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Seoul,10000000
2,Pusan,5000000


이에 대한 상세한 설명은 다음을 참고하면 된다

<https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html>