Skip to content

Installation & Configuration

fver1004 edited this page May 26, 2017 · 16 revisions

Installation

Scrapy와 Hadoop의 Map-Reduce를 사용하기 위한 구성 환경으로는 Ubuntu 16.0.4 LTS를 사용하였습니다. 사용하는 운영체제환경에 따라 설치 방법이 다소 상이 할 수 있습니다!


Install Scrapy

Scrapy는 Web Crawling 기능을 제공하는 오픈소스로, 다양한 tutorial을 찾아 볼 수 있습니다. 우분투 환경에서의 설치 방법에 대해 간략하게 소개하겠습니다. 이외의 보다 자세한 사항은 Scrapy를 참조하시면 됩니다.

설치 명령어:

  • sudo apt-get install python-pip
    sudo apt-get install python-pip
  • pip install scrapy
    pip install scrapy

Install Hadoop

이 프로젝트에서는 Hadoop 2.7.3을 이용하였습니다. 분산모드로 설치 되어 단일모드 사용시 다소설치 방법이 상이 할 수 있습니다. Hadoop은 apache archive에서 다운로드 할 수 있습니다.

설치 명령어:

Homedirectory에서 작업하는 것을 권장함.

  1. hadoop file download & unzip
  • $wget Hadoop_Archive_Address
  • $tar xvf hadoop-2.7.3src.tar.gz
  1. $vi ~/.bashrc를 통해 환경변수 설정
  • export PAHT=$PAHT:~/hadoop/bin
  • export HADOOP_HOME=~/hadoop
    set PATH
  1. 수정된 내용 반영

-$source ~/.bashrc

  1. 정상 설치 확인
  • $hadoop
  • hadoop 명령을 실행하였을 때 사용가능한 명령어 들이 출력된다면 기본적인 설치가 완료된것임.
    hadoop

Hadoop은 단일모드와 완전분산모드로 설치 방법이 나뉘게 됩니다. 따라서 설치하고자 하는 환경에 맞게 Cloudera Hadoop Tutorial을 참조하여 설정값을 변경하면 됩니다.

Configuration

프로젝트를 다운 받은 후 SCRAPY_HOME, HADOOP_HOOME의 PATH를 설정하여 줍니다.
HADOOP_HOOME의 경우 HADOOP 설치 과정에서 설정하였으므로 SCRAPY_HOME을 설정합니다.

  • $vi ~/.bashrc
    export SCRAPY_HOME=프로젝트 경로
    set path_scrapy

PATH 설정을 한 후 autoscrapy.sh를 통해 Scrapy 및 Map-Reduce를 통한 분석이 가능합니다.

파일 다운로드 dic.txt 파일은 hdfs 내 최상위 경로에 넣으면 됩니다.