# 파일 다루기
- 파일 열기 open(), with로 열기
- csv, xlsx 파일 다루기
- zip 파일 다루기
- 폴더 내 파일 목록 다루기 (glob, listdir)
- 폴더/파일 생성과 삭제

## 파일 열기

In [1]:
# 쓰기 전용으로 파일 열기 (write)
# 파일이 없으면 새로 만든다
f = open("test.csv", "w")
f.write("a,b,c,d,e \n")
f.write("1,2,3,4,5 \n")
f.close()

In [2]:
# 파일 내용 보기
with open('test.csv') as f:
    contents = f.read()
    print(contents)

a,b,c,d,e 
1,2,3,4,5 



### with 사용
- 파일을 열 때 with를 사용하면, 해당 블록을 나갈 때 열린 파일을 닫는다
- 즉, close 호출을 잊어버려도 안전하게 파일을 닫는다

In [3]:
# 운영체제 명령으로 보기
# !cat test.csv  # 리눅스나 맥에서
# !type test.csv # 윈도우에서

### 파일 오픈 옵션
'r'	읽기 (디폴트)  
'w'	쓰기 (파일이 없었으면 새로 생성하며 이미 있었으면 덮어쓴다)  
'a'	맨 뒤에 추가 (appending), 파일이 없었으면 새로 생성  
't'	텍스트 모드로 오픈 (디폴트)  
'b'	바이너리 모드로 오픈  
'+'	읽기 쓰기 모두 가능  

In [4]:
# 기존 파일에 추가하는 옵션으로 파일 열기 (append)
with open("test.csv", "a") as f:
    f.write("6,7,8,9,10 \n")
    f.write("11,12,13,14,15 \n")
    f.write("16,17,18,19,20 \n")

In [5]:
with open('test.csv') as f: 
    print(f.read())

a,b,c,d,e 
1,2,3,4,5 
6,7,8,9,10 
11,12,13,14,15 
16,17,18,19,20 



### 한줄씩 읽기, readline()

In [6]:
with open("test.csv",'r') as f:
    while True:
        line = f.readline()
        if not line: 
            break
        print(line)

a,b,c,d,e 

1,2,3,4,5 

6,7,8,9,10 

11,12,13,14,15 

16,17,18,19,20 



### 리스트로 한번에 읽기,  readlines()

In [7]:
with open("test.csv",'r') as f:
    lines = f.readlines()
    print(lines)

['a,b,c,d,e \n', '1,2,3,4,5 \n', '6,7,8,9,10 \n', '11,12,13,14,15 \n', '16,17,18,19,20 \n']


## csv 파일을 데이터프레임으로 바로 읽기

In [8]:
import pandas as pd 

df = pd.read_csv('test.csv')  
df
# 디폴트로 첫 행을 컬럼명으로 사용한다

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15
3,16,17,18,19,20


### 첫 행도 데이터로 취급하기
- 헤더(컬럼명 등)가 없는 경우, 즉 데이터만 들어있는 경우
- header=None 사용
- 여러 행의 헤더가 있는 경우는 header= 2 등으로 행을 제거한다

In [9]:
pd.read_csv('test.csv', header=None) 

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,e
1,1,2,3,4,5
2,6,7,8,9,10
3,11,12,13,14,15
4,16,17,18,19,20


In [10]:
pd.read_csv('test.csv', header=2) # 상위 세개의 행 제거

Unnamed: 0,6,7,8,9,10
0,11,12,13,14,15
1,16,17,18,19,20


In [11]:
# 컬럼명 지정하기
pd.read_csv('test.csv', names=['A','B','C','D','E'])

Unnamed: 0,A,B,C,D,E
0,a,b,c,d,e
1,1,2,3,4,5
2,6,7,8,9,10
3,11,12,13,14,15
4,16,17,18,19,20


In [12]:
# 일부 행만 읽기 nrows 사용
df2 = pd.read_csv('test.csv', nrows=2)
df2

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,7,8,9,10


## csv 파일로 출력
- 판다스의 to_csv() 사용

In [13]:
df.to_csv('output.csv')

In [14]:
with open('output.csv') as f: print(f.read())

,a,b,c,d,e 
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15
3,16,17,18,19,20



- 데이터 프레임의 인덱스도 포함되어 저장된다
- 인덱스를 제거하려면, index=False 를 지정한다

In [15]:
df.to_csv('output.csv', index=False)
with open('output.csv') as f: print(f.read())

a,b,c,d,e 
1,2,3,4,5
6,7,8,9,10
11,12,13,14,15
16,17,18,19,20



In [16]:
# csv 파일 읽기
# 앞의 pandas 예제에서 cities.csv를 만들어 저장한 경우
# df2 = pd.read_csv('cities.csv')  
df2 = pd.read_csv('output.csv')  
df2

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15
3,16,17,18,19,20


### 액셀 파일 읽기

In [17]:
# 앞의 pandas 예제에서 cities.xlsx 를 만들어 저장한 경우
# df2 = pd.read_excel('cities.xlsx')  
# df2

### 액셀 한글 인코딩
- 문자의 인코딩은 기본적으로 utf-8 을 사용한다
- 그러나 한글의 경우 다른 인코딩으로 저장되는 경우가 있다
 - MS 액셀에서 csv로 저장할 때 한글이 cpc949로 인코딩된다. 이때는 아래 옵션이 필요하다
 - encoding = 'cpc949'

## zip 파일 만들기, 읽기

In [18]:
import zipfile
with zipfile.ZipFile('output.zip', 'w') as myzip:
    myzip.write('output.csv')

In [19]:
# 파일 탐색하기 (global command)
from glob import glob
glob('*')

['h_02_pandas.ipynb',
 'cities.xlsx',
 'h_01_파이썬기초.ipynb',
 'test.csv',
 'output.zip',
 'h_03_numpy.ipynb',
 'output.csv',
 'cities.csv',
 'big.csv',
 'h_00_강의소개.ipynb',
 'h_04_파일다루기.ipynb',
 'h_05_함수사용.ipynb']

### zip 파일 풀기

In [20]:
with zipfile.ZipFile("output.zip", 'r') as zf: 
    print(zf.namelist()) # 포한된 파일명 보기
    zf.extractall() # 하위 폴더 지정 가능

['output.csv']


In [21]:
glob('*')

['h_02_pandas.ipynb',
 'cities.xlsx',
 'h_01_파이썬기초.ipynb',
 'test.csv',
 'output.zip',
 'h_03_numpy.ipynb',
 'output.csv',
 'cities.csv',
 'big.csv',
 'h_00_강의소개.ipynb',
 'h_04_파일다루기.ipynb',
 'h_05_함수사용.ipynb']

In [22]:
# 파일 삭제
import os
os.remove('output.zip')

# 폴더 작업

## 현재 폴더 위치 보기

In [23]:
cur_dir = os.getcwd()
cur_dir

'/Users/hwa-kim/Dropbox/lab/book11'

## 현재 폴더의 파일 목록 얻기
- glob() 사용
- listdir() 사용
- walk() 사용

### glob()를 사용

In [24]:
# 파일 목록 얻기
from glob import glob
sorted(glob('*.ipynb'))

['h_00_강의소개.ipynb',
 'h_01_파이썬기초.ipynb',
 'h_02_pandas.ipynb',
 'h_03_numpy.ipynb',
 'h_04_파일다루기.ipynb',
 'h_05_함수사용.ipynb']

### listdir()를 사용

In [25]:
# 파일과 폴더 목록 얻기
file_list = os.listdir()
sorted(file_list)

['.DS_Store',
 '.ipynb_checkpoints',
 'big.csv',
 'cities.csv',
 'cities.xlsx',
 'h_00_강의소개.ipynb',
 'h_01_파이썬기초.ipynb',
 'h_02_pandas.ipynb',
 'h_03_numpy.ipynb',
 'h_04_파일다루기.ipynb',
 'h_05_함수사용.ipynb',
 'output.csv',
 'test.csv']

In [26]:
# 파일의 전체 경로, full path 만들기
cur_dir = os.getcwd()
for file_name in file_list:
    full_path = os.path.join(cur_dir, file_name)
    print(full_path)

/Users/hwa-kim/Dropbox/lab/book11/h_02_pandas.ipynb
/Users/hwa-kim/Dropbox/lab/book11/cities.xlsx
/Users/hwa-kim/Dropbox/lab/book11/.DS_Store
/Users/hwa-kim/Dropbox/lab/book11/h_01_파이썬기초.ipynb
/Users/hwa-kim/Dropbox/lab/book11/test.csv
/Users/hwa-kim/Dropbox/lab/book11/h_03_numpy.ipynb
/Users/hwa-kim/Dropbox/lab/book11/output.csv
/Users/hwa-kim/Dropbox/lab/book11/cities.csv
/Users/hwa-kim/Dropbox/lab/book11/big.csv
/Users/hwa-kim/Dropbox/lab/book11/h_00_강의소개.ipynb
/Users/hwa-kim/Dropbox/lab/book11/.ipynb_checkpoints
/Users/hwa-kim/Dropbox/lab/book11/h_04_파일다루기.ipynb
/Users/hwa-kim/Dropbox/lab/book11/h_05_함수사용.ipynb


### 폴더 찾기

In [27]:
for file_name in file_list:
    if os.path.isdir(file_name):
        print("폴더:", file_name)

폴더: .ipynb_checkpoints


### walk() 사용하기
- os.walk()를 사용하면 경로, 폴더, 파일명을 한번에 찾아준다

In [28]:
# 모든 하위의 하위 폴더를 검색하여 확장자가 .ipynb인 파일을 찾는다
for (path, dir, files) in os.walk(cur_dir):
    print("\n")
    print("경로: ", path)
    print("폴더: ", dir)
    print("모든 파일:")
    for file_name in files:
        extention = os.path.splitext(file_name)[-1]
        if extention == ".ipynb":
            print(file_name)



경로:  /Users/hwa-kim/Dropbox/lab/book11
폴더:  ['.ipynb_checkpoints']
모든 파일:
h_02_pandas.ipynb
h_01_파이썬기초.ipynb
h_03_numpy.ipynb
h_00_강의소개.ipynb
h_04_파일다루기.ipynb
h_05_함수사용.ipynb


경로:  /Users/hwa-kim/Dropbox/lab/book11/.ipynb_checkpoints
폴더:  []
모든 파일:
h_etc-checkpoint.ipynb
h_04_파일다루기-checkpoint.ipynb
h_08_함수사용-checkpoint.ipynb
h_99_groupby-checkpoint.ipynb
h_02_pandas-checkpoint.ipynb
h_04_날짜데이터-checkpoint.ipynb
h_01_파이썬기초-checkpoint.ipynb
h_05_groupby-checkpoint.ipynb
h_05_함수사용-checkpoint.ipynb
h_06_기초통계-checkpoint.ipynb
h_03_numpy-checkpoint.ipynb
h_99_기초통계-checkpoint.ipynb
h_00_강의소개-checkpoint.ipynb
h_99_날짜데이터-checkpoint.ipynb
h_all-checkpoint.ipynb
h_07_파일입출력-checkpoint.ipynb


## 기타 폴더 및 파일 관리
### os 패키지에서
- 폴더 생성 mkdir()
- 폴더 위치 이동 chdir()
- 파일 이름 변경 rename()
- 파일 삭제 remove()
- 폴더 삭제 rmdir()

In [29]:
# 폴더가 없으면 새로 만들기
if not os.path.exists("./data"):
    os.mkdir("./data")

In [30]:
# 폴더 이동
os.chdir('./data')

In [31]:
os.getcwd()

'/Users/hwa-kim/Dropbox/lab/book11/data'

In [32]:
# 폴더 이동
os.chdir('../')

In [33]:
os.getcwd()

'/Users/hwa-kim/Dropbox/lab/book11'

In [34]:
# 파일 이름 변경
os.rename('output.csv','new_output.csv')
with open('new_output.csv') as f: print(f.read())

a,b,c,d,e 
1,2,3,4,5
6,7,8,9,10
11,12,13,14,15
16,17,18,19,20



In [35]:
# 파일 삭제
os.remove('new_output.csv')

In [36]:
# 폴더 삭제
os.rmdir('./data')