Installation & Configuration

Installation

Scrapy와 Hadoop의 Map-Reduce를 사용하기 위한 구성 환경으로는 Ubuntu 16.0.4 LTS를 사용하였습니다. 사용하는 운영체제나 환경에 따라 설치 방법이 다소 상이 할 수 있습니다!

Scrapy는 Web Crawling 기능을 제공하는 오픈소스로, 다양한 tutorial을 찾아 볼 수 있습니다. 우분투 환경에서의 설치 방법에 대해 간략하게 소개하겠습니다. 이외의 보다 자세한 사항은 Scrapy를 참조하시면 됩니다.

설치 명령어:

sudo apt-get install python-pip

pip install scrapy

이 프로젝트에서는 Hadoop 2.7.3을 이용하였습니다. 분산모드로 설치 되어 단일모드 사용시 다소설치 방법이 상이 할 수 있습니다. Hadoop은 apache archive에서 다운로드 할 수 있습니다.

설치 명령어:

Homedirectory에서 작업하는 것을 권장함.

$wget Hadoop_Archive_Address

$tar xvf hadoop-2.7.3src.tar.gz

export PAHT=$PAHT:~/hadoop/bin

export HADOOP_HOME=~/hadoop

-$source ~/.bashrc

$hadoop

hadoop 명령을 실행하였을 때 사용가능한 명령어 들이 출력된다면 기본적인 설치가 완료된것임.

Hadoop은 단일모드와 완전분산모드로 설치 방법이 나뉘게 됩니다. 따라서 설치하고자 하는 환경에 맞게 Cloudera Hadoop Tutorial을 참조하여 설정값을 변경하면 됩니다.

프로젝트를 다운 받은 후 SCRAPY_HOME, HADOOP_HOOME의 PATH를 설정하여 줍니다.
HADOOP_HOOME의 경우 HADOOP 설치 과정에서 설정하였으므로 SCRAPY_HOME을 설정합니다.

$vi ~/.bashrc
export SCRAPY_HOME=프로젝트 경로

PATH 설정을 한 후 autoscrapy.sh를 통해 Scrapy 및 Map-Reduce를 통한 분석이 가능합니다.

파일 다운로드 dic.txt 파일은 hdfs 내 최상위 경로에 넣으면 됩니다.