# 1. SparkContext 구성
- SparkContext를 이용해 Driver Program을 개발
- Driver Program을 클라이언트는 Spark Master에게 제출
- Spark Master는 Spark Worker에게 Task를 전달

In [11]:
from pyspark import SparkConf, SparkContext

In [22]:
# SparkConf : 스파크 실행 환경 설정 클래스
# SparkContext : Driver Program 실행 환경 구성을 위한 클래스 

conf = SparkConf().setMaster("local").setAppName('country-student-count')
# local에서 돌아가는 마스터, local, yarn으로 변경 가능

# SparkContext의 변수명은 웬만하면 sc로 만드는 것을 권장
sc = SparkContext(conf=conf)
sc
# 스파크 실행 여러번에서 오류 날 경우 sc.stop()

In [23]:
filepath="/home/ubuntu/working/spark/data/xAPI-Edu-Data.csv"

# 2. 데이터 로딩
- 로컬이든, HDFS에서 데이터를 불러오든 RDD로 데이터를 추상화 시킨다.

In [25]:
lines = sc.textFile(f"file:///{filepath}")
lines

file:////home/ubuntu/working/spark/data/xAPI-Edu-Data.csv MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

# 3. 데이터 확인
- Action

In [26]:
# 첫 번째 줄 확인하기
header = lines.first()
header

                                                                                

'gender,NationalITy,PlaceofBirth,StageID,GradeID,SectionID,Topic,Semester,Relation,raisedhands,VisITedResources,AnnouncementsView,Discussion,ParentAnsweringSurvey,ParentschoolSatisfaction,StudentAbsenceDays,Class'

In [27]:
# 헤더를 제외한 모든 데이터 불러오기
datas = lines.filter(lambda row : row != header)
datas

PythonRDD[3] at RDD at PythonRDD.scala:53

In [28]:
countries = datas.map(lambda row : row.split(",")[2])
countries

PythonRDD[4] at RDD at PythonRDD.scala:53

In [29]:
countries.collect()[:3]

['KuwaIT', 'KuwaIT', 'KuwaIT']

In [30]:
countries.countByValue()

defaultdict(int,
            {'KuwaIT': 142,
             'lebanon': 11,
             'Egypt': 3,
             'SaudiArabia': 8,
             'USA': 16,
             'Jordan': 15,
             'venzuela': 1,
             'Iran': 4,
             'Tunis': 8,
             'Morocco': 4,
             'Syria': 1})

In [31]:
sc.stop() # 하나의 작업이 끝났으면 메모리효율을 위해 꺼두자