# 단어 표현을 위해 사전 훈련된 글로벌 벡터(GloVe) 다운로드

우리는 2009년부터 160만 개의 훈련과 350개의 테스트 트윗이 포함된 데이터 세트를 사용하며 알고리즘에 따라 상당히 균등하게 분할된 긍정적 및 부정적 감정 점수가 할당됩니다.

## 가져오기 및 설정

In [1]:
from pathlib import Path
import requests
from io import BytesIO
from zipfile import ZipFile
from tqdm import tqdm

## 다운로드하고 압축을 푼다

데이터에 대해 자세히 알아보고 [여기](https://nlp.stanford.edu/projects/glove/)에서 수동으로 다운로드할 수 있습니다.

In [2]:
path = Path('glove')
if not path.exists():
    path.mkdir()

In [3]:
URLs = ['http://nlp.stanford.edu/data/glove.6B.zip',
        'http://nlp.stanford.edu/data/glove.twitter.27B.zip',
        'http://nlp.stanford.edu/data/glove.840B.300d.zip']

In [4]:
all_targets = [('glove.6B.100d.txt', 'glove.6B.300d.txt'),
               ('glove.twitter.27B.200d.txt',),
               ('glove.840B.300d.txt',)]

다운로드는 연결에 따라 대상당 10~20분 이상 걸릴 수 있습니다. 브라우저에 URL 중 하나를 붙여넣어 다운로드 속도와 예상 시간을 확인할 수 있습니다.

In [5]:
for url, targets in zip(URLs, all_targets):
    print(f'downloading {targets}...')
    response = requests.get(url).content
    print('done')
    with ZipFile(BytesIO(response)) as zip_file:
        for file in tqdm(zip_file.namelist()):
            if file in targets:
                local_file = path / file
                if not local_file.exists():
                    with local_file.open('wb') as output:
                        for line in zip_file.open(file).readlines():
                            output.write(line)

downloading ('glove.6B.100d.txt', 'glove.6B.300d.txt')...


  0%|          | 0/4 [00:00<?, ?it/s]

done


100%|██████████| 4/4 [00:11<00:00,  2.85s/it]


downloading ('glove.twitter.27B.200d.txt',)...


  0%|          | 0/4 [00:00<?, ?it/s]

done


100%|██████████| 4/4 [00:16<00:00,  4.02s/it]


downloading ('glove.840B.300d.txt',)...


  0%|          | 0/1 [00:00<?, ?it/s]

done


100%|██████████| 1/1 [00:58<00:00, 58.75s/it]
