# 파일 입출력
- file : write, read, delete
- pickle : 객체를 RAM에서 HD로 저장하거나 가져오는 파이썬 모듈
- os : 파이썬 코드로 파일시스템 다루기
- 기사카테고리 분류 모델을 이용하여, 기사 파일을 카테고리 별로 디렉토리를 나눠서 저장

# 1. file
# 옵션 :
    * r : read
    * w : write
    * t : text
    * b : binary

- rt : read text

- wb : write binary

In [4]:
!mkdir file

# 텍스트파일쓰기

In [5]:
data = '''python jupyter notebook 
data science school'''

print(data)

python jupyter notebook 
data science school


In [6]:
file = open("file/test1.txt", "wt")
file.write(data)

44

In [9]:
%ls file

test1.text


In [17]:
file.close()

In [12]:
%cat file/test1.text

python jupyter notebook 
data science school

# 텍스트파일 읽기

In [19]:
file = open("file/test1.text", "rt")
load_data = file.read()
file.close()
print(load_data)

python jupyter notebook 
data science school


# 바이너리 파일 저장하기

## 직렬화 : RAM(저장타입) != HDD(저장타입)

## (RAM과 HDD에 저장된 방식이 서로 다름. 그래서 방식을 바꿔주는것을 직렬화라고 함)

- bytes(obj) 를 사용해서 변환을 해주면 직렬화가 됨

In [20]:
data = bytes(range(5,10)) # 5~10까지 직렬화를 시킴

In [21]:
data

b'\x05\x06\x07\x08\t'

In [22]:
file = open("file/range.bin","wb")
file.write(data)
file.close()

In [23]:
%ls file

range.bin   test1.text


In [26]:
# 바이너리 파일 불러오기

In [29]:
file = open("file/range.bin", "rb")
load_data = file.read()
file.close()
print(list(load_data))

[5, 6, 7, 8, 9]


In [31]:
with open("file/range.bin", "rb") as file:
    load_data = file.read()
print(list(load_data))

[5, 6, 7, 8, 9]


In [32]:
# open은 단지 파일을 열어주는 명령어 이고 그 후에 xxx.read()함수를 써서 변수에 할당해야 불러와짐

# 2. pickle

- 파이썬에서 객체를 RAM에서 HD로 저장하고 가져오기 위해 만들어진 모듈
- input, output의 속도가 빠름

In [33]:
class Echo:
    def __init__(self,data):
        self.data = data
    def disp(self):
        print(self.data)

In [34]:
obj = Echo('pickle test')
obj.disp()

pickle test


In [35]:
import pickle


In [36]:
# 객체 저장하기

In [38]:
with open("file/obj.pkl", "wb") as file:
    pickle.dump(obj, file)

In [39]:
%ls file

obj.pkl     range.bin   test1.text


In [37]:
# 객체 읽어오기

In [40]:
with open("file/obj.pkl", "rb") as file:
    load_obj = pickle.load(file)

In [42]:
load_obj.disp()

pickle test


# 3. os
- 파이썬 코드로 파일시스템을 다룰 수 있는 패키지
- 디렉토리 만들기ㅣ, 파일삭제하기, 디렉토리 및 디렉토리 내의 파일삭제하기,
- 복사하기, 파일이름 변경, 권한설정

In [43]:
import os

In [44]:
# 디렉토리 만들기

In [45]:
# 디렉토리내의 파일 리스트 읽기

In [46]:
# 파일 삭제

In [48]:
os.makedirs("os")

In [53]:
%ls 

02_basic_syntax.ipynb
07_linked_list_homework.ipynb
2.26_quiz_송강.ipynb
2_23markdown언어,MagicCommand.ipynb
2_24_dictionary_깊은복사_얕은복사.ipynb
2_24_operator.ipynb
2_24_삼항연산자_break_continue.ipynb
2월25일_파이썬.ipynb
2월26일_클래스.ipynb
2월26일파이썬수업.ipynb
3_2_상속부터_클래스메소드까지.ipynb
3_3__flake8_autopep8.ipynb
3_3__profiling.ipynb
3_3__모듈.ipynb
3_3__예외처리.ipynb
3_4__파일읽기쓰기.ipynb
Untitled.ipynb
Untitled1.ipynb
[34m__pycache__[m[m/
[34mfile[m[m/
[34mos[m[m/
[34mprofiling[m[m/
test.py


In [60]:
files = os.listdir("file")
files = [file for file in files if file.split('.')[-1] == "txt"]

['obj.pkl', 'test1.text']

In [56]:
files

[]

In [57]:
os.remove("file/range.bin")

In [59]:
os.listdir('file')

['obj.pkl', 'test1.text']

In [47]:
# 디렉토리 삭제

In [61]:
os.removedirs('os')

In [62]:
%ls

02_basic_syntax.ipynb
07_linked_list_homework.ipynb
2.26_quiz_송강.ipynb
2_23markdown언어,MagicCommand.ipynb
2_24_dictionary_깊은복사_얕은복사.ipynb
2_24_operator.ipynb
2_24_삼항연산자_break_continue.ipynb
2월25일_파이썬.ipynb
2월26일_클래스.ipynb
2월26일파이썬수업.ipynb
3_2_상속부터_클래스메소드까지.ipynb
3_3__flake8_autopep8.ipynb
3_3__profiling.ipynb
3_3__모듈.ipynb
3_3__예외처리.ipynb
3_4__파일읽기쓰기.ipynb
Untitled.ipynb
Untitled1.ipynb
[34m__pycache__[m[m/
[34mfile[m[m/
[34mprofiling[m[m/
test.py


In [65]:
os.removedirs('file') # 모든 파일이 지워져있어야 정상적으로 실행됨

OSError: [Errno 66] Directory not empty: 'file'

In [66]:
# 디렉토리 이름을 넣으면 디렉토리 내의 파일을 모두 삭제하고 디렉토리를 삭제하는 함수

In [67]:
%ls file

obj.pkl     test1.text


In [71]:
def remove_dir(name):
    file_list = os.listdir(name)
    for file in file_list:
        os.remove(f"{name}/{file}")
    os.removedirs(name)

        

In [72]:
remove_dir('file')

In [73]:
%ls

02_basic_syntax.ipynb
07_linked_list_homework.ipynb
2.26_quiz_송강.ipynb
2_23markdown언어,MagicCommand.ipynb
2_24_dictionary_깊은복사_얕은복사.ipynb
2_24_operator.ipynb
2_24_삼항연산자_break_continue.ipynb
2월25일_파이썬.ipynb
2월26일_클래스.ipynb
2월26일파이썬수업.ipynb
3_2_상속부터_클래스메소드까지.ipynb
3_3__flake8_autopep8.ipynb
3_3__profiling.ipynb
3_3__모듈.ipynb
3_3__예외처리.ipynb
3_4__파일읽기쓰기.ipynb
Untitled.ipynb
Untitled1.ipynb
[34m__pycache__[m[m/
[34mprofiling[m[m/
test.py


In [74]:
# shutil

In [75]:
!mkdir file
!touch file/test1.txt
!touch file/test2.txt
!tree file

[01;34mfile[00m
├── test1.txt
└── test2.txt

0 directories, 2 files


In [76]:
import shutil

In [78]:
shutil.rmtree("file")

In [79]:
%ls

02_basic_syntax.ipynb
07_linked_list_homework.ipynb
2.26_quiz_송강.ipynb
2_23markdown언어,MagicCommand.ipynb
2_24_dictionary_깊은복사_얕은복사.ipynb
2_24_operator.ipynb
2_24_삼항연산자_break_continue.ipynb
2월25일_파이썬.ipynb
2월26일_클래스.ipynb
2월26일파이썬수업.ipynb
3_2_상속부터_클래스메소드까지.ipynb
3_3__flake8_autopep8.ipynb
3_3__profiling.ipynb
3_3__모듈.ipynb
3_3__예외처리.ipynb
3_4__파일읽기쓰기.ipynb
Untitled.ipynb
Untitled1.ipynb
[34m__pycache__[m[m/
[34mprofiling[m[m/
test.py


In [81]:
# 파일 복사하기

In [82]:
os.makedirs("file")

In [83]:
data1, data2 = "python","jupyter"
with open('file/data1.txt',"wt") as file:
    file.write(data1)
with open('file/data2.txt',"wt") as file:
    file.write(data2)

In [84]:
os.listdir('file')

['data1.txt', 'data2.txt']

In [85]:
os.makedirs("copy")

In [87]:
shutil.copy("file/data2.txt", "copy/data2.txt")

'copy/data2.txt'

In [None]:
# %load copy/data2.txt
jupyter

In [None]:
# 파일 이동하기(이름바꾸기)

In [89]:
os.rename("file/data1.txt","copy/data.txt")

In [90]:
%ls copy

data.txt   data2.txt


In [91]:
%ls file

data2.txt


In [92]:
%ls -al

total 624
drwxr-xr-x@ 29 song-kang  staff    928  3  4 14:12 [34m.[m[m/
drwxr-xr-x@ 10 song-kang  staff    320  3  4 14:12 [34m..[m[m/
-rw-r--r--@  1 song-kang  staff   8196  3  4 13:04 .DS_Store
drwxr-xr-x@ 16 song-kang  staff    512  3  3 19:34 [34m.git[m[m/
-rw-r--r--   1 song-kang  staff     66  2 24 15:43 .gitattributes
drwxr-xr-x@ 13 song-kang  staff    416  3  4 13:04 [34m.ipynb_checkpoints[m[m/
-rw-r--r--   1 song-kang  staff   6764  2 23 19:02 02_basic_syntax.ipynb
-rw-r--r--@  1 song-kang  staff  18067  3  3 14:14 07_linked_list_homework.ipynb
-rw-r--r--@  1 song-kang  staff   5851  2 26 11:24 2.26_quiz_송강.ipynb
-rw-r--r--@  1 song-kang  staff  14095  2 23 14:39 2_23markdown언어,MagicCommand.ipynb
-rw-r--r--   1 song-kang  staff   5272  2 24 15:38 2_24_dictionary_깊은복사_얕은복사.ipynb
-rw-r--r--   1 song-kang  staff   4593  2 24 15:38 2_24_operator.ipynb
-rw-r--r--   1 song-kang  staff   5217  2 24 16:56 2_24_삼항연산자_break_continue.ipynb
-rw-r--r--   1 song-ka

In [None]:
# 권한설정
# -rw-r--r--
# [0] : 디렉토리인지 파일인지 나타냄 
# [1:3] = rw- 소유자에 대한 파일 권한
# [3:6] = r-- 그룹에 대한 파일 권한
# [6: ] = 모든 사용자에 대한 권한
# r : read // w : write // x : excute

# 권한 변경을 해줄때는 8진수로 해줌
# -rw-r--r-- : 110 100 100 (2진수) -> 6 4 4(8진수)

In [98]:
os.chmod('copy/data.txt',0o400)

In [99]:
%ls -al copy

total 16
drwxr-xr-x@  4 song-kang  staff  128  3  4 14:10 [34m.[m[m/
drwxr-xr-x@ 29 song-kang  staff  928  3  4 14:22 [34m..[m[m/
-r--------   1 song-kang  staff    6  3  4 14:06 data.txt
-rw-r--r--   1 song-kang  staff    7  3  4 14:08 data2.txt


# 카테고리 분류기로 문서 분류하기
1. 6개 카테고리에 대한 디렉토리 생성
2. 기사 파일 리스트 가져오기
3. 모델 불러오기
4. 모델 이용해서 카테고리 예측하기
5. 예측된 카테고리 디렉토리로 파일을 복사하기
6. 모든 파일에 적용하기

# 1. 6개 카테고리에 대한 디렉토리 생성


In [103]:
categories = {100 : '정치', 101 : '경제', 102 : '사회', 103 : '생활/문화', 104 : '세계', 105 : "IT"}

In [104]:
data = '한국 대통령은 미국 대통령을 만났습니다.'
category = model.predict([data])[0]
categories[category]

'세계'

In [106]:
for dir_name in categories.keys():
    os.makedirs(f"datas/articles/{dir_name}")


In [107]:
os.listdir("datas/articles/")

['104', '103', '102', '105', 'model.pkl', '100', '101', 'texts']

# 2. 기사 파일 리스트 가져오기 

In [123]:
article_titles = os.listdir("datas/articles/texts")
len(article_titles), article_titles[:3]
print(article_titles)

['101_일본차3만대수입할때한국차는고작32대수출.txt', '102_한라산에기습폭우고립됐던초등생·교사28명구조.txt', '103_서울시전기버스구매기준첫마련중국車배제허들될까.txt', '105_이젠식료품배송경쟁시대.txt', '104_”경찰폭력진압에분노”홍콩,오늘도대규모반중시위.txt', '101_위기의코스닥한달새시총14조증발.txt', '105_눈치안주고승차거부없고타다가입자100만명.txt', '100_권성동_황교안,당좌표설정해야지도력인정받을것_.txt', '100_‘아베분신’처럼日,한국의원앞에서“신뢰잃었다”도발.txt', '104_주말마다시위대·경찰충돌격화홍콩긴장최고조.txt', '100_문대통령,여름휴가취소풀어야할숙제많은탓.txt', '102_본격더위시작재첩축제서더위탈출.txt', '102_포항제철고일반고전환추진에반발확산.txt', '105_네이버페이,카페기반으로간편송금2强토스·카카오에도전장.txt', '100_엔진정상인데남쪽연안불빛보며내려와월선미스터리.txt', '105_이슈분석소재부품국산화다시시작하자_9_克日넘어산업핵심경쟁력찾ᄋ

# 3. 모델 불러오기 

In [101]:
with open('datas/articles/model.pkl', 'rb') as file:
    model = pickle.load(file)



# 4. 모델을 이용해서 카테고리 예측하기

In [109]:
with open(f"datas/articles/texts/{article_titles[0]}", "rt") as file:
    content = file.read()
content[:200]

'그동안 일본 수입차는 국내에서 승승장구해왔습니다. 올해 상반기에만 3만대가 팔렸습니다.   역대 가장 좋은 성적인데요. 국산차가 일본에 딱 32대가 팔린 것과는 대조적이죠.   하지만\xa0이번 불매 운동의 여파로 일본 수입차도 타격을 받을 조짐이 보입니다.  권솔 기자입니다.  [리포트] 올해 상반기\xa0일본산 승용차는 2만 9400여 대가 팔려나갔습니다.  액수'

In [111]:
category = model.predict([content])[0]
category, categories[category]

(101, '경제')

# 5. 예측된 카테고리 디렉토리로 파일 복사하기

In [112]:
src = f"datas/articles/texts/{article_titles[0]}"
dst = f"datas/articles/{category}/{article_titles[0]}"
shutil.copy(src, dst)

'datas/articles/101/101_일본차3만대수입할때한국차는고작32대수출.txt'

In [113]:
%ls datas/articles/101/

101_일본차3만대수입할때한국차는고작32대수출.txt


# 6. 모든 파일에 적용(반복문)

In [116]:
for idx, article_title in enumerate(article_titles):
    # enumerate를 적어서 idx로 얼마나 반복되었는지 횟수를 나타냄

    #코드실행 정도 출력
    print(idx, end=' ')
    
    # read content
    with open(f"datas/articles/texts/{article_title}", "rt") as file:
        content = file.read()

    #기사제목을 file로 넣고 그 file 내용을 read()로 읽어서 content에 넣는다
    
    
    #predict using model
    category = model.predict([content])[0]
    # model.predict에 content를 넣어서 나온 결과가 list로 나오기때문에 가장 앞에 나오는 카테고리를 잡기위해 [0]을 catergory에 넣는다
    
    #copy category dir
    src = f"datas/articles/texts/{article_title}"
    dst = f"datas/articles/{category}/{article_title}"
    shutil.copy(src, dst)
    
    

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 

In [120]:
%ls datas/articles/103

102_부산온천천서숭어·잉어·붕어물고기수천마리떼죽음.txt
103_1500자의학상식자궁경부무력증조산막으려면.txt
103_2019이효석문학상최종심진출작최종심진출작④장은진`외진곳`生의나이테에ᄉ.txt
103__드라이브취소하고카페로_주말장맛비에실내로피신.txt
103__내그림은낚시처럼결과예측못해_.txt
103_일본3만대팔릴때국산차日수출32대.txt
103_프로듀스X투표조작의혹결국법의판단받는다.txt
103_열대림·독특한동식물·다양한부족문화해적의역사간직한코뿔새의땅사라.txt
103_제니홀저·전광영·양혜규출격아트페어에2만점상차림.txt
103_신안산선8월착공현지선시큰둥.txt
103_토마토효능암,골다공증막고,다이어트효과도.txt
103_중부내일까지100mm큰비영남은폭염주의보.txt
103_현장에서車업계,이제볕드나했는데아쉬운‘하투’.txt
103_세대별평균월9069원내고1인당130만원받는다.txt
103_잘나가는책은`유튜버셀러`뿐이네.txt
103_상반기일본車수입26_↑62억달러로역대최대치.txt
103_기세꺾인장마ᄋ