In [1]:
import os

#### 현재 경로 확인

In [2]:
os.getcwd()

'C:\\Users\\psuny\\Desktop'

#### 현재 경로 설정

```python
os.chdir(path)
```

- 현재 경로를 path로 설정

#### csv 파일 불러오기

```python
pd.read_csv(filepath, sep, header, index_col, usecols, parse_dates, nrows)
```

- filepath: 파일 경로 및 이름
- sep: 구분자(default: ',')
- header: 헤더의 위치로 None을 입력하면 컬럼명이 0, 1, 2,...로 자동 설정됨(default: 'infer')
- index_col: 인덱스 위치(default: None)
- usecols: 사용할 컬럼 목록 및 위치 목록(데이터가 큰 경우 사용)
- parse_dates: 컬럼명을 입력하면(['컬럼명']) 해당 컬럼의 형식을 datetime으로 변경
- nrows: 불러올 행의 개수(데이터가 큰 경우 사용)

In [3]:
import pandas as pd

df = pd.read_csv('data_reading.csv')
df.head()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


#### tsv 데이터(탭으로 분리) 불러오기

In [4]:
df = pd.read_csv('data_reading_tap.txt', sep = '\t')
df.head()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


#### header가 없는 데이터 불러오기

In [5]:
# header 설정 안 한 경우 = 가장 첫번째 데이터가 자동으로 컬럼명으로 됨

df = pd.read_csv('data_reading_without_header.csv')
df.head()

Unnamed: 0,0.188888091,0.161052929,0.15041277,0.824770215,0.111832872
0,0.827719,0.161363,0.400331,0.398196,0.770696
1,0.84466,0.100998,0.995176,0.615525,0.878389
2,0.913895,0.036169,0.23784,0.187628,0.534308
3,0.322443,0.95501,0.340765,0.649311,0.35454
4,0.330625,0.672039,0.109381,0.075682,0.916931


In [6]:
# header 설정

df = pd.read_csv('data_reading_without_header.csv', header = None)
df.head()

Unnamed: 0,0,1,2,3,4
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


In [7]:
# 컬럼명 변경

df.columns = ['x1', 'x2', 'x3', 'x4', 'x5']
df.head()

Unnamed: 0,x1,x2,x3,x4,x5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


#### 큰 규모의 데이터 불러오기

In [9]:
df = pd.read_csv('large_data_with_ID.csv', usecols = [0, 1, 5, 10],     # 0, 1, 5, 10열만 불러오기 = ['ID', 'X1', 'X5', 'X10']
                index_col = 'ID',     # usecols을 사용하는 경우, index_col을 반드시 설정해야 함
                nrows = 1000)     # 1000행까지만 불러옴
df.head()

Unnamed: 0_level_0,X1,X5,X10
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID1,21,3,60
ID2,0,69,98
ID3,75,69,49
ID4,66,86,22
ID5,33,57,59


In [10]:
df.shape

(1000, 3)

#### to_csv를 이용한 데이터 저장

```python
to_csv(filepath, sep, index)
```

- filepath: 파일 경로 및 이름
- sep: 구분자(default: ',')
- index: 인덱스 저장 여부

In [11]:
df = pd.DataFrame({'a': [1, 2, 3],
                  'b': [4, 5, 6]},
                 index = ['a', 'b', 'c'])
df

Unnamed: 0,a,b
a,1,4
b,2,5
c,3,6


In [12]:
df.to_csv('연습.csv', sep = ',', index = False)     # 인덱스 저장 안됨

#### excel 데이터 불러오기

```python
pd.read_excel(filepath, sheet_name, header, index_col, usecols, parse_dates, nrows, skiprows)
```

- filepath: 파일 경로 및 이름
- sheet_name: 불러오고자 하는 시트 이름 및 위치
- header: 헤더의 위치로 None을 입력하면 컬럼명이 0, 1, 2,...로 자동 설정됨(default: 'infer')
- index_col: 인덱스 위치(default: None)
- usecols: 사용할 컬럼 목록 및 위치 목록(데이터가 큰 경우 사용)
- parse_dates: 컬럼명을 입력하면(['컬럼명']) 해당 컬럼의 형식을 datetime으로 변경
- nrows: 불러올 행의 개수(데이터가 큰 경우 사용)
- skiprows: 불러오지 않을 행의 위치(리스트)

In [13]:
# sheet_name 설정 안하면 첫번째 시트만 불러옴

df = pd.read_excel('data_reading.xlsx')
df

Unnamed: 0,첫번째 시트,값없음
0,첫번째 시트,값없음


In [14]:
# sheet_name 설정

df = pd.read_excel('data_reading.xlsx', sheet_name = 'target_sheet')
df.head()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


#### 필요한 부분의 데이터만 불러오기

In [15]:
# 엑셀 기준 6행까지는 필요없음. 또한 엑셀 기준 A열 필요없음

df = pd.read_excel('월별매출데이터.xlsx', sheet_name = '6월', skiprows = range(6))
df.head()

Unnamed: 0.1,Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,,2018.6.1,지점1,제품C,8,C-228,서울특별시 서대문구 홍제동,주문완료,인터넷뱅킹
1,,2018.6.1,지점4,제품F,8,C-243,서울특별시 송파구 마천동,주문완료,인터넷뱅킹
2,,2018.6.1,지점4,제품D,3,C-191,서울특별시 노원구 월계동,배송중,신용카드
3,,2018.6.1,지점2,제품D,0,C-271,서울특별시 중구 회현동3가,배송완료,휴대폰결제
4,,2018.6.1,지점4,제품D,8,C-244,서울특별시 중구 서소문동,배송완료,인터넷뱅킹


In [16]:
df = df.iloc[:, 1:]     # 첫번째 컬럼 제거
df.head()

Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,2018.6.1,지점1,제품C,8,C-228,서울특별시 서대문구 홍제동,주문완료,인터넷뱅킹
1,2018.6.1,지점4,제품F,8,C-243,서울특별시 송파구 마천동,주문완료,인터넷뱅킹
2,2018.6.1,지점4,제품D,3,C-191,서울특별시 노원구 월계동,배송중,신용카드
3,2018.6.1,지점2,제품D,0,C-271,서울특별시 중구 회현동3가,배송완료,휴대폰결제
4,2018.6.1,지점4,제품D,8,C-244,서울특별시 중구 서소문동,배송완료,인터넷뱅킹


#### to_excel을 사용한 데이터 저장

```python
to_excel(filepath, index, sheet_name)
```

- filepath: 파일 경로 및 이름
- index: 인덱스 저장 여부
- sheet_name: 시트명

#### 여러 시트를 생성하는 경우: ExcelWriter 사용

```python
with pd.ExcelWriter('파일명.xlsx') as writer:
    df1.to_excel(writer, sheet_name = 'sheet1')
    df2.to_excel(writer, sheet_name = 'sheet2')
```

In [17]:
df1 = pd.DataFrame({'a': [1, 2, 3, 4], 'b': [5, 6, 7, 8]})
df2 = pd.DataFrame({'a': [9, 10, 11, 12], 'b': [13, 14, 15, 16]})

In [19]:
with pd.ExcelWriter('연습.xlsx') as writer:
    df1.to_excel(writer, sheet_name = 'first')
    df2.to_excel(writer, sheet_name = 'second')