### Input Output
- RAM에 저장되어있는 변수를 HDD, SSD로 저장하는 방법
- 학습된 모델을 저장하고 로드해서 사용할때 많이 사용

#### 1. IO
- 파일을 읽거나 쓰는 방법

In [None]:
# 1. 파일쓰기 : txt, binary

In [1]:
data = """jupyter
notebook
python"""

In [4]:
!mkdir file

In [5]:
%ls

01_python_summary.ipynb  02_io.ipynb              [1m[36mfile[m[m/


In [8]:
file = open("file/test.txt", "wt")
file.write(data)
file.close()

In [9]:
%ls file

test.txt


In [11]:
%cat file/test.txt

jupyter
notebook
python

In [12]:
# 바이너리 파일 쓰기
# 바이트 포멧의 데이터만 저장이 가능
# RAM(파일형태) != SSD(파일형태)
# 직렬화 : RAM의 파일포멧을 SSD(HDD) 파일 포멧으로 변환해서 저장

In [14]:
data = bytes(range(5, 10))

file = open("file/test.b", "wb")
file.write(data)
file.close()

In [15]:
data

b'\x05\x06\x07\x08\t'

In [None]:
# 2. 파일읽기 : txt, binary

In [16]:
file = open("file/test.txt", "rt")
data = file.read()
file.close()

In [18]:
print(data)

jupyter
notebook
python


In [19]:
with open("file/test.txt", "rt") as f:
    data = f.read()

In [21]:
print(data)

jupyter
notebook
python


In [None]:
# 바이너리 파일 읽어오기

In [22]:
with open("file/test.b", "rb") as f:
    data = f.read()
    
list(data)

[5, 6, 7, 8, 9]

In [None]:
# 3. pickle
# open 함수로 만든 file 객체로 입출력하는것보다 속도가 빠릅니다.
# 직렬화를 자동으로 해줍니다.

In [None]:
data = bytes(range(5, 10))

file = open("file/test.b", "wb")
file.write(data)
file.close()

In [23]:
import pickle

In [25]:
data = range(5, 10)

with open("file/test2.pkl", "wb") as file:
    pickle.dump(data, file)

In [26]:
with open("file/test2.pkl", "rb") as file:
    load_data = pickle.load(file)

In [28]:
list(load_data)

[5, 6, 7, 8, 9]

#### 2. OS
- 파이썬 코드로 파일시스템(디렉토리와 파일들)을 다루는 방법

In [36]:
import os

In [29]:
# 디렉토리 만들기

In [37]:
%ls

01_python_summary.ipynb  02_io.ipynb              [1m[36mfile[m[m/


In [38]:
os.makedirs("dir")

In [39]:
%ls

01_python_summary.ipynb  [1m[36mdir[m[m/
02_io.ipynb              [1m[36mfile[m[m/


In [30]:
# 파일리스트 읽기

In [40]:
os.listdir("file")

['test2.pkl', 'test.txt', 'test.b']

In [31]:
# 파일 삭제

In [41]:
os.remove("file/test.b")

In [42]:
os.listdir("file")

['test2.pkl', 'test.txt']

In [32]:
# 디렉토리 삭제

In [44]:
%ls

01_python_summary.ipynb  [1m[36mdir[m[m/
02_io.ipynb              [1m[36mfile[m[m/


In [45]:
os.removedirs("dir")

In [46]:
%ls

01_python_summary.ipynb  02_io.ipynb              [1m[36mfile[m[m/


In [47]:
os.removedirs("file")

OSError: [Errno 66] Directory not empty: 'file'

In [48]:
# 디렉토리 안에 있는 파일을 모두 삭제
# 디렉토리 삭제

In [50]:
def force_remove(dpath):
    
    # 해당 디렉토리에 있는 파일 리스트
    file_list = os.listdir(dpath)
    
    # 파일 리스트의 파일 삭제
    for file_name in file_list:
        os.remove("{}/{}".format(dpath, file_name))
        
    # 디렉토리 삭제
    os.removedirs(dpath)

In [51]:
force_remove("file")

In [52]:
%ls

01_python_summary.ipynb  02_io.ipynb


In [59]:
os.makedirs("files")

In [60]:
data = "1234"

with open("files/test1.txt", "wt") as file:
    file.write(data)
    
with open("files/test2.csv", "wt") as file:
    file.write(data)

In [55]:
!ls files

test1.txt test2.csv


In [56]:
import shutil

In [57]:
shutil.rmtree("files")

In [58]:
%ls

01_python_summary.ipynb  02_io.ipynb


In [33]:
# 파일 복사하기

In [61]:
%ls files

test1.txt  test2.csv


In [62]:
!mkdir copy

In [63]:
shutil.copy("files/test2.csv", "copy/test.txt")

'copy/test.txt'

In [64]:
%ls copy

test.txt


In [65]:
!cat copy/test.txt

1234

In [34]:
# 파일 이름변경

In [66]:
%ls files

test1.txt  test2.csv


In [67]:
os.rename("files/test2.csv", "files/test2.txt")

In [68]:
%ls files

test1.txt  test2.txt


In [35]:
# 권한설정

In [70]:
!mkdir files/test

In [71]:
!ls -al files

total 16
drwxr-xr-x  5 rada  staff  160 12 23 16:22 [1m[36m.[m[m
drwxr-xr-x  7 rada  staff  224 12 23 16:20 [1m[36m..[m[m
drwxr-xr-x  2 rada  staff   64 12 23 16:22 [1m[36mtest[m[m
-rw-r--r--  1 rada  staff    4 12 23 16:17 test1.txt
-rw-r--r--  1 rada  staff    4 12 23 16:17 test2.txt


In [None]:
root
A(a,b,c)  B(d,e)

In [72]:
# rwx rwx rwx : (8)

In [73]:
os.chmod("files/test1.txt", 0o765)

In [74]:
!ls -al files/test1.txt

-rwxrw-r-x  1 rada  staff  4 12 23 16:17 [31mfiles/test1.txt[m[m


In [None]:
# rwx(7:111) rw-(6:110) r-x(5:101)

#### 기사 카테고리 분류해서 각 디렉토리로 파일 복사하기
- texts : 기사가 txt 파일로 저장
- model.pkl : 텍스트 문장의 카테고리를 분류해주는 모델 객체 (AI)
- 6가지의 카테고리 : 100, 101, 102, 103, 104, 105
- text 디렉토리에 있는 .txt 파일을 model로 카테고리를 분류해서 해당 디렉토리에 저장하기

In [75]:
%ls articles/

model.pkl  [1m[36mtexts[m[m/


In [76]:
categories = {100: "정치", 101: "경제", 102: "사회", 103: "생활/문화", 104: "세계", 105: "IT/과학"}
categories

{100: '정치', 101: '경제', 102: '사회', 103: '생활/문화', 104: '세계', 105: 'IT/과학'}

In [77]:
# 1. 카테고리별 디렉토리 만들기

In [82]:
for dname in categories.keys():
    os.makedirs("articles/{}".format(dname))

In [83]:
%ls articles/

[1m[36m100[m[m/       [1m[36m102[m[m/       [1m[36m104[m[m/       model.pkl
[1m[36m101[m[m/       [1m[36m103[m[m/       [1m[36m105[m[m/       [1m[36mtexts[m[m/


In [None]:
# 2. 텍스트 리스트 불러오기 : texts 디렉토리안에 있는 txt 파일 리스트

In [85]:
articles = os.listdir("articles/texts/")
len(articles), articles[:2]

(237,
 ['101_일본차3만대수입할때한국차는고작32대수출.txt',
  '102_한라산에기습폭우고립됐던초등생·교사28명구조.txt'])

In [None]:
# 3. 모델 객체 불러오기

In [86]:
with open("articles/model.pkl", "rb") as file:
    model = pickle.load(file)

In [78]:
# 4. 텍스트 리스트에 파일을 변수에 불러오기

In [91]:
articles[0]

'101_일본차3만대수입할때한국차는고작32대수출.txt'

In [94]:
with open("articles/texts/{}".format(articles[0]), "rt") as file:
    txt = file.read()
    
txt[:100]

'그동안 일본 수입차는 국내에서 승승장구해왔습니다. 올해 상반기에만 3만대가 팔렸습니다.   역대 가장 좋은 성적인데요. 국산차가 일본에 딱 32대가 팔린 것과는 대조적이죠.   하'

In [None]:
# 5. 불러온 텍스트 데이터를 모델로 예측하기

In [95]:
result = model.predict([txt])[0]
result, categories[result]

(101, '경제')

In [None]:
# 6. 파일을 해당 카테고리의 디렉토리로 복사하기

In [97]:
"articles/texts/{}".format(articles[0])

'articles/texts/101_일본차3만대수입할때한국차는고작32대수출.txt'

In [99]:
"articles/{}/{}".format(result, articles[0])

'articles/101/101_일본차3만대수입할때한국차는고작32대수출.txt'

In [98]:
!ls articles

[1m[36m100[m[m       [1m[36m101[m[m       [1m[36m102[m[m       [1m[36m103[m[m       [1m[36m104[m[m       [1m[36m105[m[m       model.pkl [1m[36mtexts[m[m


In [100]:
shutil.copy("articles/texts/{}".format(articles[0]), "articles/{}/{}".format(result, articles[0]))

'articles/101/101_일본차3만대수입할때한국차는고작32대수출.txt'

In [101]:
%ls articles/101

101_일본차3만대수입할때한국차는고작32대수출.txt


In [102]:
# 7. 반복문으로 만들기

In [103]:
categories

{100: '정치', 101: '경제', 102: '사회', 103: '생활/문화', 104: '세계', 105: 'IT/과학'}

In [105]:
articles[:2]

['101_일본차3만대수입할때한국차는고작32대수출.txt',
 '102_한라산에기습폭우고립됐던초등생·교사28명구조.txt']

In [106]:
model

Pipeline(steps=[('vect', TfidfVectorizer()),
                ('clf', MultinomialNB(alpha=0.01))])

In [108]:
for idx, filename in enumerate(articles):
    
    # 1. 기사 파일을 읽어오기
    with open("articles/texts/{}".format(filename), "rt") as file:
        txt = file.read()
    
    # 2. 모델로 카테고리를 예측하기
    result = model.predict([txt])[0]
    
    # 3. 파일 이동하기
    shutil.copy("articles/texts/{}".format(filename), "articles/{}/{}".format(result, filename))
    
    print(idx, end=" ")

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 

In [110]:
%ls articles/103

102_부산온천천서숭어·잉어·붕어물고기수천마리떼죽음.txt
103_1500자의학상식자궁경부무력증조산막으려면.txt
103_2019이효석문학상최종심진출작최종심진출작④장은진`외진곳`生의나이테에새겨진빈곤의무늬.txt
103__드라이브취소하고카페로_주말장맛비에실내로피신.txt
103__내그림은낚시처럼결과예측못해_.txt
103_일본3만대팔릴때국산차日수출32대.txt
103_프로듀스X투표조작의혹결국법의판단받는다.txt
103_열대림·독특한동식물·다양한부족문화해적의역사간직한코뿔새의땅사라왁.txt
103_제니홀저·전광영·양혜규출격아트페어에2만점상차림.txt
103_신안산선8월착공현지선시큰둥.txt
103_토마토효능암,골다공증막고,다이어트효과도.txt
103_중부내일까지100mm큰비영남은폭염주의보.txt
103_현장에서車업계,이제볕드나했는데아쉬운‘하투’.txt
103_세대별평균월9069원내고1인당130만원받는다.txt
103_잘나가는책은`유튜버셀러`뿐이네.txt
103_상반기일본車수입26_↑62억달러로역대최대치.txt