# 파일 다루기
- 파일 열기 open(), with로 열기
- csv, xlsx 파일 다루기
- zip 파일 다루기
- 폴더 내 파일 목록 다루기 (glob, listdir)
- 폴더/파일 생성과 삭제

## import

In [1]:
import pandas as pd
import numpy as np
from numpy.random import rand
import csv
import os
from glob import glob

##  데이터  생성과 저장하기
- 숫자 데이터를 생성하고 csv 파일로 저장하기

In [2]:
## 0~1 사이의 랜덤 넘버 10개를 만들고 csv 파일에 저장하고 확인하기

import numpy as np
x1 = np.random.rand(10)
print(type(x1))         # ndarray 타입

np.savetxt("test_1.csv", x1, delimiter=",", fmt = '%.3f')

with open('test_1.csv') as f: 
    contents = f.read()
    print(type(contents))  # str 타입
    print(contents)

<class 'numpy.ndarray'>
<class 'str'>
0.903
0.216
0.501
0.355
0.402
0.074
0.197
0.744
0.648
0.805



- !cat, !type 등 명령어로 직접 보기

In [3]:
!cat test_1.csv # 맥이나 리눅스에서
#!type test_1.csv  # 윈도우에서 

0.903
0.216
0.501
0.355
0.402
0.074
0.197
0.744
0.648
0.805


In [4]:
## csv 파일을 어레이로 읽어서 100을 곱한 값 보기

x = np.loadtxt('test_1.csv', delimiter=',')
print(type(x))    # ndarray 타입
print(x*100)

<class 'numpy.ndarray'>
[90.3 21.6 50.1 35.5 40.2  7.4 19.7 74.4 64.8 80.5]


### 2차원 구조 데이터

In [5]:
## 0~30 로 구성된 (5,6) 구조의 어레이를 csv 파일에 저장하기

x2 = np.arange(30).reshape(5,6)

np.savetxt("test_2.csv", x2, delimiter=",", fmt = '%d')

with open('test_2.csv') as f: 
    contents = f.read()
    print(type(contents))  # str 타입
    print(contents)

<class 'str'>
0,1,2,3,4,5
6,7,8,9,10,11
12,13,14,15,16,17
18,19,20,21,22,23
24,25,26,27,28,29



In [6]:
## 2차원 csv 파일을 어레이로 읽는 예

x = np.loadtxt('test_2.csv', delimiter=',')
print(type(x))
print(x)

<class 'numpy.ndarray'>
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]
 [24. 25. 26. 27. 28. 29.]]


In [7]:
## loadtxt()가 제공하는 읽는 옵션

print('---- 3개의 행만 읽는다 ----')
x = np.loadtxt('test_2.csv', delimiter=',', max_rows=1000)
print(x)

print('\n---- 처음 2개의 행은 읽지 않는다 ----')
x = np.loadtxt('test_2.csv', delimiter=',', skiprows=2)
print(x)

print('\n---- 컬럼을 (0,2,4)만 읽는다 ----')
x = np.loadtxt('test_2.csv', delimiter=',', usecols=(0,2,4))
print(x)

---- 3개의 행만 읽는다 ----
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]
 [24. 25. 26. 27. 28. 29.]]

---- 처음 2개의 행은 읽지 않는다 ----
[[12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]
 [24. 25. 26. 27. 28. 29.]]

---- 컬럼을 (0,2,4)만 읽는다 ----
[[ 0.  2.  4.]
 [ 6.  8. 10.]
 [12. 14. 16.]
 [18. 20. 22.]
 [24. 26. 28.]]


In [8]:
!cat test_2.csv

0,1,2,3,4,5
6,7,8,9,10,11
12,13,14,15,16,17
18,19,20,21,22,23
24,25,26,27,28,29


## 데이터프레임으로 읽기

In [10]:
## 2차원 어레이를 데이터프레임으로 읽기

df = pd.read_csv('test_2.csv')  
df

Unnamed: 0,0,1,2,3,4,5
0,6,7,8,9,10,11
1,12,13,14,15,16,17
2,18,19,20,21,22,23
3,24,25,26,27,28,29


In [11]:
# 어레이로 변환하기
df.values

array([[ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

### read_csv 옵션

- nrows=1000         # 상위 1000줄만 읽기
- skiprows = 3       # 처음 3행 건너뛰기
- skipfooter = 1000 # 맨 뒤의 1000행은 읽지 않기
- usecols= (0,2,4)  # 해당 컬럼만 읽기

In [12]:
# 일부 행만 읽기 nrows 사용 (3줄 읽기)

df2 = pd.read_csv('test_2.csv', nrows=3, header=None)
df2

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17


In [13]:
df2 = pd.read_csv('test_2.csv', skiprows=3, header=None)
df2

Unnamed: 0,0,1,2,3,4,5
0,18,19,20,21,22,23
1,24,25,26,27,28,29


### 액셀 한글 인코딩
- 문자의 인코딩은 기본적으로 utf-8 을 사용한다
- 그러나 한글의 경우 다른 인코딩으로 저장되는 경우가 있다
 - MS 액셀에서 csv로 저장할 때 한글이 cpc949로 인코딩된다. 이때는 아래 옵션이 필요하다
 - encoding = 'cpc949'
 - encoding = 'euc-kr'을 선택해야 하는 경우도 있다

## zip 파일 
### zip 파일 만들기
- output.csv 을 output.zip로 압축하는 경우

In [14]:
!cat test_2.csv

0,1,2,3,4,5
6,7,8,9,10,11
12,13,14,15,16,17
18,19,20,21,22,23
24,25,26,27,28,29


In [15]:
!cat test_1.csv

0.903
0.216
0.501
0.355
0.402
0.074
0.197
0.744
0.648
0.805


In [16]:
## zip 파일로 압축하기

import zipfile
with zipfile.ZipFile('output.zip', 'w') as z:
    z.write('test_1.csv')
    z.write('test_2.csv')

# zip에 포함된 파일명 보기와 압출 풀기

with zipfile.ZipFile("output.zip", 'r') as z: 
    print(z.namelist()) 
    z.extractall() 

['test_1.csv', 'test_2.csv']


- (참고) read_csv에서 zip 파일을 바로 읽을 수 있다 (압축을 풀 필요 없다)

In [17]:
# pd.read_csv('output.zip', header=None)  

# 폴더 작업

## 현재 폴더 위치 보기
- cwd (current working directory)

In [18]:
## 현재 작업중인 폴더 경로 보기

import os
cwd = os.getcwd()
print(cwd)

/content


In [19]:
## 특정 폴더가 없으면 새로 만들기

if not os.path.exists("./data_tmp"):
    os.mkdir("./data_tmp")

## 폴더의 파일 목록 얻기
- glob() 사용: 파일 타입을 지정할 수 있다
- listdir() 사용: 경로를 줄 수 있다

### glob()를 사용

In [21]:
## 현재 폴더의 파일 목록 얻기

from glob import glob
f_list = glob('*')
sorted(f_list)

['data_tmp', 'output.zip', 'sample_data', 'test_1.csv', 'test_2.csv']

In [22]:
## f_list의 파일 복사후 작업 폴더를 이동하여 복사 확인하기

import shutil
for file in f_list:
    shutil.copy2(file, './data_tmp')

os.chdir('./data_tmp')
print(os.getcwd())
glob('*')

IsADirectoryError: ignored

In [23]:
%cd ..

/


In [24]:
os.chdir('..')

In [25]:
os.getcwd()

'/'

In [26]:
## 처음의 폴더로 이동하고 확인하기

os.chdir(cwd)
print(os.getcwd())

/content


In [27]:
!pwd

/content


In [28]:
os.chdir('..')
print(os.getcwd())

/


In [29]:
## 기타 폴더 및 파일 관리 함수
- os 패키지에서 제공하는 함수
 - 폴더 생성 mkdir()
 - 폴더 위치 이동 chdir()
 - 파일 이름 변경 rename()
 - 파일 삭제 remove()
 - 폴더 삭제 rmdir()

SyntaxError: ignored