# 파일 다루기
- 파일 열기 open(), with로 열기
- csv, xlsx 파일 다루기
- zip 파일 다루기
- 폴더 내 파일 목록 다루기 (glob, listdir)
- 폴더/파일 생성과 삭제

## import

In [1]:
import pandas as pd
import numpy as np
from numpy.random import rand
import csv
import os
from glob import glob

##  숫자 데이터  파일 생성
- 센서 데이터 등 어레이 데이터를 csv 파일로 저장하기

### 단일 센서 데이터

In [2]:
x1 = np.random.rand(10)
x1

array([0.11071104, 0.3723322 , 0.76446916, 0.6496964 , 0.10484002,
       0.72358426, 0.91973207, 0.83933865, 0.56762904, 0.15661023])

In [None]:
np.savetxt("test_1.csv", x1, delimiter=",")

### 파일 내용 출력
- read()와 print() 함수 사용
- !cat, !type 등 명령어를 사용하지 않아도 됨

In [3]:
with open('test_1.csv') as f: 
    print(f.read())

1.107110385301496303e-01
3.723322007280938095e-01
7.644691628575618347e-01
6.496963981335130978e-01
1.048400156893453117e-01
7.235842569714772132e-01
9.197320732977386504e-01
8.393386521959560476e-01
5.676290411512473488e-01
1.566102323840932176e-01



In [4]:
# 데이터프레임으로 읽기
df1 = pd.read_csv('test_1.csv', header=None)  
df1

Unnamed: 0,0
0,0.110711
1,0.372332
2,0.764469
3,0.649696
4,0.10484
5,0.723584
6,0.919732
7,0.839339
8,0.567629
9,0.15661


### 5개의 센서 데이터

In [5]:
# (10,5) 구조의 데이터
x2 = np.arange(50).reshape(10,5)
x2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49]])

In [6]:
np.savetxt("test_2.csv", x2, delimiter=",")

In [47]:
df = pd.read_csv('test_2.csv', header=None)  
df
# 디폴트로 첫 행을 컬럼명으로 인식한다, 컬럼명 행이 없다는 것을 명시해야 한다

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0
4,20.0,21.0,22.0,23.0,24.0
5,25.0,26.0,27.0,28.0,29.0
6,30.0,31.0,32.0,33.0,34.0
7,35.0,36.0,37.0,38.0,39.0
8,40.0,41.0,42.0,43.0,44.0
9,45.0,46.0,47.0,48.0,49.0


In [8]:
# 어레이로 변환하기
df.values

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.],
       [25., 26., 27., 28., 29.],
       [30., 31., 32., 33., 34.],
       [35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44.],
       [45., 46., 47., 48., 49.]])

### read_csv 옵션
 - nrows=10 (상위 10줄만 읽기)
 - skiprows = 10 (10줄 건너뛰기)
 - skiprows = (1,2,5) (1, 2, 5행 건너뛰기)
 - skipfooter = 1000 (맨 뒤의 1000줄 읽지 않기)
 - usecols= (0,2,4) (해당 컬럼만 읽는다)

In [9]:
# 일부 행만 읽기 nrows 사용 (3줄 읽기)
df2 = pd.read_csv('test_2.csv', nrows=3, header=None)
df2

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0


In [10]:
df2 = pd.read_csv('test_2.csv', skiprows=3, header=None)
df2

Unnamed: 0,0,1,2,3,4
0,15.0,16.0,17.0,18.0,19.0
1,20.0,21.0,22.0,23.0,24.0
2,25.0,26.0,27.0,28.0,29.0
3,30.0,31.0,32.0,33.0,34.0
4,35.0,36.0,37.0,38.0,39.0
5,40.0,41.0,42.0,43.0,44.0
6,45.0,46.0,47.0,48.0,49.0


In [49]:
df2 = pd.read_csv('test_2.csv', skiprows=(1,3), header=None)
df2

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,10.0,11.0,12.0,13.0,14.0
2,20.0,21.0,22.0,23.0,24.0
3,25.0,26.0,27.0,28.0,29.0
4,30.0,31.0,32.0,33.0,34.0
5,35.0,36.0,37.0,38.0,39.0
6,40.0,41.0,42.0,43.0,44.0
7,45.0,46.0,47.0,48.0,49.0


In [12]:
df2 = pd.read_csv('test_2.csv', skipfooter=6, header=None)
df2

  df2 = pd.read_csv('test_2.csv', skipfooter=6, header=None)


Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


## 어레이로 바로 읽기
- 데이터 크기가 크면 데이터프레임을 만드는데 시간이 많이 걸린다

In [13]:
array_data = np.genfromtxt('test_2.csv', delimiter=',')
array_data

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.],
       [25., 26., 27., 28., 29.],
       [30., 31., 32., 33., 34.],
       [35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44.],
       [45., 46., 47., 48., 49.]])

In [14]:
# 일부 라인만 읽기 (데이터가 너무 클 때)
np.genfromtxt('test_2.csv', delimiter=',', max_rows=5)

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]])

In [48]:
# 일부 컬럼만 읽을 때
np.genfromtxt('test_2.csv', delimiter=',', usecols=(0,2,4))

array([[ 0.,  2.,  4.],
       [ 5.,  7.,  9.],
       [10., 12., 14.],
       [15., 17., 19.],
       [20., 22., 24.],
       [25., 27., 29.],
       [30., 32., 34.],
       [35., 37., 39.],
       [40., 42., 44.],
       [45., 47., 49.]])

## csv 파일로 출력
- 판다스의 to_csv() 사용

In [15]:
df = pd.read_csv('test_2.csv', header=None)  
df

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0
4,20.0,21.0,22.0,23.0,24.0
5,25.0,26.0,27.0,28.0,29.0
6,30.0,31.0,32.0,33.0,34.0
7,35.0,36.0,37.0,38.0,39.0
8,40.0,41.0,42.0,43.0,44.0
9,45.0,46.0,47.0,48.0,49.0


In [16]:
df.to_csv('output.csv')
with open('output.csv') as f: print(f.read())

,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0
4,20.0,21.0,22.0,23.0,24.0
5,25.0,26.0,27.0,28.0,29.0
6,30.0,31.0,32.0,33.0,34.0
7,35.0,36.0,37.0,38.0,39.0
8,40.0,41.0,42.0,43.0,44.0
9,45.0,46.0,47.0,48.0,49.0



- 데이터 프레임의 인덱스와 컬럼도 포함되어 저장된다
- 인덱스를 제거하려면, index=False 를 지정한다

In [17]:
df.to_csv('output.csv', index=False, header=False)
with open('output.csv') as f: print(f.read())

0.0,1.0,2.0,3.0,4.0
5.0,6.0,7.0,8.0,9.0
10.0,11.0,12.0,13.0,14.0
15.0,16.0,17.0,18.0,19.0
20.0,21.0,22.0,23.0,24.0
25.0,26.0,27.0,28.0,29.0
30.0,31.0,32.0,33.0,34.0
35.0,36.0,37.0,38.0,39.0
40.0,41.0,42.0,43.0,44.0
45.0,46.0,47.0,48.0,49.0



## 액셀 파일로 출력

In [18]:
df.to_excel('output.xlsx', index=False, header=False)
pd.read_excel('output.xlsx', header=None)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24
5,25,26,27,28,29
6,30,31,32,33,34
7,35,36,37,38,39
8,40,41,42,43,44
9,45,46,47,48,49


### 액셀 한글 인코딩
- 문자의 인코딩은 기본적으로 utf-8 을 사용한다
- 그러나 한글의 경우 다른 인코딩으로 저장되는 경우가 있다
 - MS 액셀에서 csv로 저장할 때 한글이 cpc949로 인코딩된다. 이때는 아래 옵션이 필요하다
 - encoding = 'cpc949'
 - encoding = 'EUK-KR'을 선택해야 하는 경우도 있다

## zip 파일 
### zip 파일 만들기
- output.csv 을 output.zip로 압축하는 경우

In [19]:
import zipfile
with zipfile.ZipFile('output.zip', 'w') as z:
    z.write('output.csv')

### zip 파일 풀기

In [20]:
with zipfile.ZipFile("output.zip", 'r') as z: 
    print(z.namelist()) # zip에 포한된 파일목록 보기
    z.extractall() # 압축 풀기, 하위 폴더 지정 가능

['output.csv']


- zip 파일은 read_csv에서 바로 읽을 수 있다 (압축을 풀 필요 없다)

In [21]:
pd.read_csv('output.zip', header=None)  

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0
4,20.0,21.0,22.0,23.0,24.0
5,25.0,26.0,27.0,28.0,29.0
6,30.0,31.0,32.0,33.0,34.0
7,35.0,36.0,37.0,38.0,39.0
8,40.0,41.0,42.0,43.0,44.0
9,45.0,46.0,47.0,48.0,49.0


# 폴더 작업

## 현재 폴더 위치 보기

In [22]:
import os
cur_dir = os.getcwd()
cur_dir

'/Users/hjk/Dropbox/lab/book12'

## 폴더의 파일 목록 얻기
- glob() 사용
- listdir() 사용

### glob()를 사용

In [23]:
# 파일 목록 얻기
from glob import glob
sorted(glob('*.ipynb'))

['32SlidingWindow2-210915.ipynb',
 '32SlidingWindow2_211005_X10.ipynb',
 '32SlidingWindow2_211005_X8.ipynb',
 '32SlidingWindow2_211005_X9.ipynb',
 'DT전문가_S3사후과제_일렉트릭_박아련.ipynb',
 'DX_Motor.ipynb',
 'PM_Exersize_210805.ipynb',
 'PM_Exersize_210805_정답.ipynb',
 'Project_Life_Expectancy.ipynb',
 'SET_angle_V2.ipynb',
 'Untitled.ipynb',
 'Untitled0.ipynb',
 'Untitled1.ipynb',
 'Untitled2.ipynb',
 'Untitled3.ipynb',
 'Untitled4.ipynb',
 'aa_08_Boston_Opt.ipynb',
 'd_01_Python.ipynb',
 'd_02_Pandas.ipynb',
 'd_03_Numpy.ipynb',
 'd_04_File.ipynb',
 'd_04_FileFolder.ipynb',
 'd_04_기초통계.ipynb',
 'f-outlier-detection.ipynb',
 'f_01_Python.ipynb',
 'f_02_1_Pandas_tips.ipynb',
 'f_02_Pandas.ipynb',
 'f_03_Numpy.ipynb',
 'f_04_File.ipynb',
 'f_05_Function.ipynb',
 'f_06_Preprocessing.ipynb',
 'f_07_Preprocessing_Example.ipynb',
 'f_08_Table.ipynb',
 'f_09_Groupby.ipynb',
 'f_10_LinearPrediction-RF.ipynb',
 'f_10_LinearPrediction.ipynb',
 'f_10_TS_Forecasting.ipynb',
 'f

### listdir()를 사용

In [24]:
# 파일과 폴더 목록 얻기
file_list = os.listdir()
sorted(file_list)

['.DS_Store',
 '.ipynb_checkpoints',
 '.tmp.drivedownload',
 '32SlidingWindow0928update.xlsx',
 '32SlidingWindow2-210915.ipynb',
 '32SlidingWindow2.xlsx',
 '32SlidingWindow2_211005_X10.ipynb',
 '32SlidingWindow2_211005_X8.ipynb',
 '32SlidingWindow2_211005_X9.ipynb',
 'A.csv',
 'B.csv',
 'C.csv',
 'DS-210905.hwp',
 'DS-210907-대학원-1.hwp',
 'DS-210907-대학원-1.pdf',
 'DT전문가_S3사후과제_일렉트릭_박아련.ipynb',
 'DX_Motor.ipynb',
 'Gold Prices.xlsx',
 'HE_0722.zip',
 'HE_Project_Examples.zip',
 'Hands-on-Python-for-Finance-master',
 'Interactive-Dashboards-and-Data-Apps-with-Plotly-and-Dash-master',
 'LGadd2',
 'LGadd2.zip',
 'LS DT전문가_최종과제_취합',
 'Life Expectancy Data.csv',
 'Merged_excel.xlsx',
 'NGdata1.zip',
 'PM_Exersize_210805.ipynb',
 'PM_Exersize_210805_정답.ipynb',
 'PM_train_pre.csv',
 'Project_Life_Expectancy.ipynb',
 'Python-for-Finance-Cookbook-master',
 'Refr.csv',
 'SET_angle_V2.ipynb',
 'TV.csv',
 'Untitled.ipynb',
 'Untitled0.ipynb',
 'Untitled

In [25]:
# 파일의 전체 경로, full path 만들기
cur_dir = os.getcwd()
for file_name in file_list:
    full_path = os.path.join(cur_dir, file_name)
    print(full_path)

/Users/hjk/Dropbox/lab/book12/h_02_pandas.ipynb
/Users/hjk/Dropbox/lab/book12/features.csv.zip
/Users/hjk/Dropbox/lab/book12/h_48_언어모델링.ipynb
/Users/hjk/Dropbox/lab/book12/d_03_Numpy.ipynb
/Users/hjk/Dropbox/lab/book12/cities.xlsx
/Users/hjk/Dropbox/lab/book12/f_21_StatisticsBasic.ipynb
/Users/hjk/Dropbox/lab/book12/test_1.csv
/Users/hjk/Dropbox/lab/book12/LGadd2
/Users/hjk/Dropbox/lab/book12/hh_20_앙상블알고리즘.ipynb
/Users/hjk/Dropbox/lab/book12/hh_34_오염예측_LSTM.ipynb
/Users/hjk/Dropbox/lab/book12/g_45_yolo.ipynb
/Users/hjk/Dropbox/lab/book12/g_71_1_Molecular_Visualization_using_RDkit.ipynb
/Users/hjk/Dropbox/lab/book12/h_90_series_clustering.ipynb
/Users/hjk/Dropbox/lab/book12/A.csv
/Users/hjk/Dropbox/lab/book12/h_36_1_디지털필터출력.ipynb
/Users/hjk/Dropbox/lab/book12/hh_34_시계열_rnn_사인파.ipynb
/Users/hjk/Dropbox/lab/book12/DX_Motor.ipynb
/Users/hjk/Dropbox/lab/book12/DS-210905.hwp
/Users/hjk/Dropbox/lab/book12/hh_29_시계열예측_자전거대여.ipynb
/Users

## 폴더 찾기
- 폴더인지를 검사하는 isdir() 함수 사용

In [26]:
for file_name in file_list:
    if os.path.isdir(file_name):
        print("폴더:", file_name)

폴더: LGadd2
폴더: nh927-main
폴더: Interactive-Dashboards-and-Data-Apps-with-Plotly-and-Dash-master
폴더: competitive-data-science-predict-future-sales
폴더: LS DT전문가_최종과제_취합
폴더: nh1005-main
폴더: lg0818-main
폴더: .tmp.drivedownload
폴더: Python-for-Finance-Cookbook-master
폴더: __MACOSX
폴더: yolov5
폴더: datasalon-master
폴더: 머신러닝 사전학습(조진현님 제외)
폴더: personal_info
폴더: kepco929-main
폴더: .ipynb_checkpoints
폴더: Hands-on-Python-for-Finance-master
폴더: data


## (연습) 랜덤넘버를 생성하는 센서 3개의 출력 100개를 csv, zip 파일로 만들기
- 랜덤넘버를 (100,3) 구조로 만들고 이를 csv 및 zip 파일로 만든다
- 힌트: random.rand(100,3)으로 2차원 랜덤넘버를 생성할 수 있다

In [27]:
# (풀이)



## 기타 폴더 및 파일 관리 함수
- os 패키지에서 제공하는 함수
 - 폴더 생성 mkdir()
 - 폴더 위치 이동 chdir()
 - 파일 이름 변경 rename()
 - 파일 삭제 remove()
 - 폴더 삭제 rmdir()

In [28]:
# 폴더가 없으면 새로 만들기
if not os.path.exists("./data_tmp"):
    os.mkdir("./data_tmp")

In [29]:
# (참고) 폴더가 있으면 "지우고" 새로 만들기
if os.path.exists("./data_tmp"):
    os.rmdir("./data_tmp")
    os.mkdir("./data_tmp")

In [30]:
# 폴더 이동
os.chdir('./data_tmp')

In [31]:
os.getcwd()

'/Users/hjk/Dropbox/lab/book12/data_tmp'

In [32]:
# 폴더 이동
os.chdir('../')

In [33]:
os.getcwd()

'/Users/hjk/Dropbox/lab/book12'

In [34]:
# 파일 이름 변경
os.rename('output.csv','new_output.csv')
with open('new_output.csv') as f: print(f.read())

0.0,1.0,2.0,3.0,4.0
5.0,6.0,7.0,8.0,9.0
10.0,11.0,12.0,13.0,14.0
15.0,16.0,17.0,18.0,19.0
20.0,21.0,22.0,23.0,24.0
25.0,26.0,27.0,28.0,29.0
30.0,31.0,32.0,33.0,34.0
35.0,36.0,37.0,38.0,39.0
40.0,41.0,42.0,43.0,44.0
45.0,46.0,47.0,48.0,49.0



In [35]:
# 파일 삭제
os.remove('new_output.csv')

In [36]:
# 폴더 삭제
os.rmdir('./data_tmp')

## (연습) 현재 폴더에서 test로 시작하는 파일명으로 모두 t_test로 시작하는 이름으로 변경


In [37]:
# (풀이)



## (연습) 현재 폴더에서 t_test로 시작하는 파일명으로 모두 test로 시작하는 이름으로 변경


In [38]:
# (풀이)



# 정답

## (연습) 랜덤넘버를 생성하는 센서 3개의 출력 100개를 csv, zip 파일로 만들기
- 랜덤넘버를 (100,3) 구조로 만들고 이를 csv 및 zip 파일로 만든다
- 힌트: random.rand(100,3)으로 2차원 랜덤넘버를 생성할 수 있다

In [39]:
x = np.random.rand(100,3)
x[:5]

array([[0.70915461, 0.33128823, 0.76599516],
       [0.36978895, 0.54839227, 0.31758868],
       [0.0735438 , 0.97667148, 0.82913036],
       [0.65087652, 0.57024871, 0.18733589],
       [0.34298556, 0.10352711, 0.78348176]])

In [40]:
np.savetxt("test_3.csv", x, delimiter=",")
# 저장 확인
df = pd.read_csv('test_3.csv', header=None)  
df

Unnamed: 0,0,1,2
0,0.709155,0.331288,0.765995
1,0.369789,0.548392,0.317589
2,0.073544,0.976671,0.829130
3,0.650877,0.570249,0.187336
4,0.342986,0.103527,0.783482
...,...,...,...
95,0.186380,0.317175,0.584919
96,0.691522,0.605399,0.328059
97,0.516537,0.351971,0.802015
98,0.507388,0.821044,0.696439


In [41]:
# 압축하기
with zipfile.ZipFile('output_3.zip', 'w') as z:
    z.write('test_3.csv')

In [42]:
# 확인
df = pd.read_csv('output_3.zip', header=None)  
df

Unnamed: 0,0,1,2
0,0.709155,0.331288,0.765995
1,0.369789,0.548392,0.317589
2,0.073544,0.976671,0.829130
3,0.650877,0.570249,0.187336
4,0.342986,0.103527,0.783482
...,...,...,...
95,0.186380,0.317175,0.584919
96,0.691522,0.605399,0.328059
97,0.516537,0.351971,0.802015
98,0.507388,0.821044,0.696439


## (연습) 현재 폴더에서 test로 시작하는 파일명으로 모두 t_test로 시작하는 이름으로 변경


In [43]:
from glob import glob
f_list = glob('test*')
f_list

['test_1.csv',
 'test_2.csv',
 'test_3.csv',
 'test.csv',
 'test.jpg',
 'test.ipynb']

In [44]:
for file in f_list:
    os.rename(file, 't_'+file)

glob('t_*')

['t_test.jpg',
 't_test.ipynb',
 't_test.csv',
 't_test_3.csv',
 't_test_2.csv',
 't_test_1.csv']

## (연습) 현재 폴더에서 t_test로 시작하는 파일명으로 모두 test로 시작하는 이름으로 변경


In [45]:
from glob import glob
f_list = glob('t_test*')
f_list

['t_test.jpg',
 't_test.ipynb',
 't_test.csv',
 't_test_3.csv',
 't_test_2.csv',
 't_test_1.csv']

In [46]:
for file in f_list:
    os.rename(file, file[2:])
glob('test*')

['test_1.csv',
 'test_2.csv',
 'test_3.csv',
 'test.csv',
 'test.jpg',
 'test.ipynb']