-
Notifications
You must be signed in to change notification settings - Fork 1
Installation & Configuration
fver1004 edited this page May 26, 2017
·
16 revisions
Scrapy와 Hadoop의 Map-Reduce를 사용하기 위한 구성 환경으로는 Ubuntu 16.0.4 LTS를 사용하였습니다. 사용하는 운영체제나 환경에 따라 설치 방법이 다소 상이 할 수 있습니다!
Scrapy는 Web Crawling 기능을 제공하는 오픈소스로, 다양한 tutorial을 찾아 볼 수 있습니다. 우분투 환경에서의 설치 방법에 대해 간략하게 소개하겠습니다. 이외의 보다 자세한 사항은 Scrapy를 참조하시면 됩니다.
설치 명령어:
- sudo apt-get install python-pip
- pip install scrapy
이 프로젝트에서는 Hadoop 2.7.3을 이용하였습니다. 분산모드로 설치 되어 단일모드 사용시 다소설치 방법이 상이 할 수 있습니다. Hadoop은 apache archive에서 다운로드 할 수 있습니다.
설치 명령어:
Homedirectory에서 작업하는 것을 권장함.
- hadoop file download & unzip
- $wget Hadoop_Archive_Address
- $tar xvf hadoop-2.7.3src.tar.gz
- $vi ~/.bashrc를 통해 환경변수 설정
- export PAHT=$PAHT:~/hadoop/bin
- export HADOOP_HOME=~/hadoop
- 수정된 내용 반영
-$source ~/.bashrc
- 정상 설치 확인
- $hadoop
- hadoop 명령을 실행하였을 때 사용가능한 명령어 들이 출력된다면 기본적인 설치가 완료된것임.
Hadoop은 단일모드와 완전분산모드로 설치 방법이 나뉘게 됩니다. 따라서 설치하고자 하는 환경에 맞게 Cloudera Hadoop Tutorial을 참조하여 설정값을 변경하면 됩니다.
프로젝트를 다운 받은 후 SCRAPY_HOME, HADOOP_HOOME의 PATH를 설정하여 줍니다.
HADOOP_HOOME의 경우 HADOOP 설치 과정에서 설정하였으므로 SCRAPY_HOME을 설정합니다.
- $vi ~/.bashrc
export SCRAPY_HOME=프로젝트 경로
PATH 설정을 한 후 autoscrapy.sh를 통해 Scrapy 및 Map-Reduce를 통한 분석이 가능합니다.
파일 다운로드 dic.txt 파일은 hdfs 내 최상위 경로에 넣으면 됩니다.