## 파일 다운로드

In [1]:
import requests # HTTP 통신을 도와주는 라이브러리

In [2]:
# UCI 머신러닝 리포지토리에서에 Sentiment Labelled Sentences 데이터를 요청
res = requests.get("https://archive.ics.uci.edu/ml/machine-learning-databases/00331/sentiment%20labelled%20sentences.zip")

In [3]:
res # 200이 나오면, 정상적으로 다운로드가 완료되었다는 의미

<Response [200]>

In [4]:
# sentiment.zip 파일을 만들고, 응답의 내용(res.content)을 파일에 쓰기
with open('data/sentiment.zip', 'wb') as f: # w는 쓰기 모드, 텍스트 이외의 파일은 b를 붙임
    f.write(res.content) # 응답의 내용을 불러오기

## 압축파일 열기

In [5]:
from zipfile import ZipFile

In [6]:
z = ZipFile('data/sentiment.zip') # 압축파일 열기

In [7]:
z.filelist # 압축파일 안의 파일 보기

[<ZipInfo filename='sentiment labelled sentences/' filemode='drwxr-xr-x' external_attr=0x4000>,
 <ZipInfo filename='sentiment labelled sentences/.DS_Store' compress_type=deflate filemode='-rw-r--r--' external_attr=0x4000 file_size=6148 compress_size=255>,
 <ZipInfo filename='__MACOSX/' filemode='drwxrwxr-x' external_attr=0x4000>,
 <ZipInfo filename='__MACOSX/sentiment labelled sentences/' filemode='drwxrwxr-x' external_attr=0x4000>,
 <ZipInfo filename='__MACOSX/sentiment labelled sentences/._.DS_Store' compress_type=deflate filemode='-rw-r--r--' external_attr=0x4000 file_size=212 compress_size=140>,
 <ZipInfo filename='sentiment labelled sentences/amazon_cells_labelled.txt' compress_type=deflate filemode='-rw-r--r--' external_attr=0x4000 file_size=58226 compress_size=22561>,
 <ZipInfo filename='sentiment labelled sentences/imdb_labelled.txt' compress_type=deflate filemode='-rw-r--r--' external_attr=0x4000 file_size=85285 compress_size=33795>,
 <ZipInfo filename='__MACOSX/sentiment labe

`sentiment.zip` 안에 `sentiment labelled sentences`라는 폴더가 있고, 그 안에 `imdb_labelled.txt`라는 파일이 있다.


In [8]:
data = z.open('sentiment labelled sentences/imdb_labelled.txt')

## 데이터 불러오기
데이터는 CSV 포맷이므로 `pandas` 라이브러리를 이용해 연다.

In [9]:
import pandas as pd

이 자료는 탭(TAB, `\t`)으로 구분되었으므로 `sep="\t"` 옵션을 사용한다.
<br>
또, 파일 상단에 열 이름이 없으므로 `header=None` 옵션을 설정해야 한다.

In [10]:
df = pd.read_csv(data, sep="\t", header=None)
df.head()

Unnamed: 0,0,1
0,"A very, very, very slow-moving, aimless movie ...",0
1,Not sure who was more lost - the flat characte...,0
2,Attempting artiness with black & white and cle...,0
3,Very little music or anything to speak of.,0
4,The best scene in the movie was when Gerardo i...,1


In [11]:
df.columns = ['review', 'sentiment']
df.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",0
1,Not sure who was more lost - the flat characte...,0
2,Attempting artiness with black & white and cle...,0
3,Very little music or anything to speak of.,0
4,The best scene in the movie was when Gerardo i...,1


## 저장하기

In [12]:
df.to_excel('data/imdb.xlsx')