# 들어가기

**이 파일은 구글 Colab에서 실행**됩니다.
구글 Colab에 먼저 **회원가입**을 해야 하고, **로그인 후 노트북에서 실행** 합니다.

Spark 설치에 문제가 있는 경우, 클라우드 사용하기를 추천합니다.
데이터브릭스도 사용하기 편리합니다.
구글 Colab은 제일 편리하게 사용할 수 있다고 평가합니다.

# SPARK 설치

* 자바 설치
    * ```!apt-get install openjdk-11-jdk-headless -qq > /dev/null```

* Spark 설치
    * ```!wget -q https://www-us.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz``` 내려받고
    * ```!tar xf spark-2.4.1-bin-hadoop2.7.tgz``` 압축을 푼다.

* findspark 설치
    * ```!pip install -q findspark```

## jdk 설치

옵션을 주는 (flag) ```-qq``` 는 apt 설치할 때 오류 외에는 출력하지 말라는 의미이다 (really quiet)
```> /dev/null```는 STDOUT을 그 디렉토리로 우회하라는 의미이다. 이 경우 ```-qq```는 굳이 사용하지 않아도 된다.

In [2]:
!apt-get install openjdk-11-jdk-headless -qq > /dev/null

## Spark 설치

```-q```는 quiet, 출력을 제거한다는 뜻이다.

In [40]:
!wget -q https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz

압축을 풀고 ```-v```를 추가하면 출력을 볼 수 있다.

In [5]:
!tar -xf spark-3.1.2-bin-hadoop2.7.tgz

## ```findspark``` 설치

In [22]:
!pip install findspark



## 환경설정

환경설정 JAVA_HOME, SPARK_HOME을 한다. ```findspark```을 설치하였으므로, ```SPARK_HOME``` 설정은 하지 않아도 된다.

In [10]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop2.7"

spark가 설치된 경로를 확인한다. 위 설정과 파일명이 일치하는지 반드시 확인하자. 현재 디렉토리는 pwd로 확인한다.

In [56]:
!pwd

/content


In [23]:
import os
os.listdir('/content')

['.config',
 'spark-3.1.2-bin-hadoop2.7.tgz',
 'drive',
 'spark-3.1.2-bin-hadoop2.7',
 'sample_data']

In [28]:
!ls -l /content

total 219200
drwx------  5 root root      4096 Sep 20 23:31 drive
drwxr-xr-x  1 root root      4096 Sep 16 13:40 sample_data
drwxr-xr-x 13 1000 1000      4096 May 24 05:00 spark-3.1.2-bin-hadoop2.7
-rw-r--r--  1 root root 224445805 May 24 05:01 spark-3.1.2-bin-hadoop2.7.tgz


# 버전 확인

In [30]:
!javac -version

javac 11.0.11


In [35]:
!python3 --version

Python 3.7.12


In [50]:
!python --version

Python 3.7.12


In [51]:
import sys; sys.executable

'/usr/bin/python3'

In [53]:
os.environ.get('PYSPARK_PYTHON')

'/usr/bin/python3'

# SPARK 생성

In [13]:
import findspark
findspark.init()

In [14]:
findspark.find()

'/content/spark-3.1.2-bin-hadoop2.7'

In [15]:
import pyspark

In [18]:
myConf=pyspark.SparkConf()
#myConf=pyspark.SparkConf().set("spark.driver.bindAddress", "127.0.0.1")
spark = pyspark.sql.SparkSession\
    .builder\
    .master("local")\
    .appName("myApp")\
    .config(conf=myConf)\
    .getOrCreate()

In [37]:
spark.version

'3.1.2'

In [19]:
myList=[1,2,3,4,5,6,7]

In [20]:
myRdd1 = spark.sparkContext.parallelize(myList)

In [21]:
myRdd1.take(3)

[1, 2, 3]

# 파일 올리기

또는 좌측 메뉴에서 폴더 아이콘을 클릭한다.

In [39]:
from google.colab import files
files.upload()

{}

# 내려받기

우측 상단 ```V``` 클릭 > 메뉴 나타나고 File > Download


# 요약

세션이 종료되면 설치가 무효가 된다는 점에 주의하자.
아래를 매 세션이 시작될 때마다 반복해야 하는 번거로움이 있다.


In [41]:
!apt-get install openjdk-11-jdk-headless -qq > /dev/null

In [42]:
!wget -q https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz

In [43]:
!tar -xf spark-3.1.2-bin-hadoop2.7.tgz

In [44]:
!pip install findspark



In [45]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop2.7"

In [46]:
import findspark
findspark.init()

In [47]:
import pyspark

In [48]:
myConf=pyspark.SparkConf()
#myConf=pyspark.SparkConf().set("spark.driver.bindAddress", "127.0.0.1")
spark = pyspark.sql.SparkSession\
    .builder\
    .master("local")\
    .appName("myApp")\
    .config(conf=myConf)\
    .getOrCreate()

In [49]:
spark.version

'3.1.2'

## 부록 pymongo

In [None]:
!apt install mongodb

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libpcap0.8 libstemmer0d libyaml-cpp0.5v5 mongo-tools mongodb-clients
  mongodb-server mongodb-server-core
The following NEW packages will be installed:
  libpcap0.8 libstemmer0d libyaml-cpp0.5v5 mongo-tools mongodb mongodb-clients
  mongodb-server mongodb-server-core
0 upgraded, 8 newly installed, 0 to remove and 40 not upgraded.
Need to get 53.1 MB of archives.
After this operation, 215 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpcap0.8 amd64 1.8.1-6ubuntu1.18.04.2 [118 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/main amd64 libstemmer0d amd64 0+svn585-1build1 [62.5 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libyaml-cpp0.5v5 amd64 0.5.2-4ubuntu1 [150 kB]
Get:4 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mongo-tools amd64 3.6.3-0ubunt

In [None]:
!service mongodb start


 * Starting database mongodb
   ...done.


In [None]:
! python -m pip install pymongo==3.7.2

Collecting pymongo==3.7.2
  Downloading pymongo-3.7.2-cp37-cp37m-manylinux1_x86_64.whl (406 kB)
[?25l[K     |▉                               | 10 kB 27.0 MB/s eta 0:00:01[K     |█▋                              | 20 kB 33.3 MB/s eta 0:00:01[K     |██▍                             | 30 kB 20.3 MB/s eta 0:00:01[K     |███▎                            | 40 kB 16.8 MB/s eta 0:00:01[K     |████                            | 51 kB 9.8 MB/s eta 0:00:01[K     |████▉                           | 61 kB 10.1 MB/s eta 0:00:01[K     |█████▋                          | 71 kB 9.6 MB/s eta 0:00:01[K     |██████▌                         | 81 kB 9.2 MB/s eta 0:00:01[K     |███████▎                        | 92 kB 8.4 MB/s eta 0:00:01[K     |████████                        | 102 kB 9.2 MB/s eta 0:00:01[K     |████████▉                       | 112 kB 9.2 MB/s eta 0:00:01[K     |█████████▊                      | 122 kB 9.2 MB/s eta 0:00:01[K     |██████████▌                     | 133 kB

In [None]:
import pymongo

In [None]:
Client = pymongo.MongoClient() # Client = pymongo.MongoClient('mongodb://localhost:27017')

In [None]:
db=Client.myDB

In [None]:
print(Client.list_database_names())

['admin', 'local']


In [None]:
bb_id=1
_name='js'
_age=11
_country='ko'

db.myPyCol.insert_one({
    "id": _id,
    "name": _name,
    "age": _age,
    "country": _country
})


print(db.list_collection_names())

['myPyCol']
