In [0]:
%python

value = 'Spark'
print("This! is%s Notebook!" % value)

In [0]:
# AWS Access key 가져오기
ACCESS_KEY_ID = "???????"
SECRET_ACCESS_KEY = "??????"
ENCODED_SECRET_ACCESS_KEY = SECRET_ACCESS_KEY.replace("/", "%2F")

# 실습자료는 Amazon Web Service(AWS)의 S3 bucket s3a://edwith-pyspark-dataset에 저장되어 있음
# AWS의 S3 bucket에 연결.
dbutils.fs.mount("s3a://%s:%s@edwith-pyspark-dataset" % (ACCESS_KEY_ID, ENCODED_SECRET_ACCESS_KEY), "/mnt/us-carrier-dataset")

# dbutils.fs.unmount("/mnt/us-carrier-dataset") # mount 해제


In [0]:
# 이제 /mnt/us-carrier-dataset 위치에서 자료 읽기 가능.
# 파일 리스트 확인시 ls 명령어를 사용해야 하지만, databricks cloud 환경에서는 display 함수를 이용해 확인 가능.
display(dbutils.fs.ls("/mnt/us-carrier-dataset"))

path,name,size
dbfs:/mnt/us-carrier-dataset/1987.csv,1987.csv,127162942
dbfs:/mnt/us-carrier-dataset/1988.csv,1988.csv,501039472
dbfs:/mnt/us-carrier-dataset/1989.csv,1989.csv,486518821
dbfs:/mnt/us-carrier-dataset/1990.csv,1990.csv,509194687
dbfs:/mnt/us-carrier-dataset/1991.csv,1991.csv,491210093
dbfs:/mnt/us-carrier-dataset/1992.csv,1992.csv,492313731
dbfs:/mnt/us-carrier-dataset/1993.csv,1993.csv,490753652
dbfs:/mnt/us-carrier-dataset/1994.csv,1994.csv,501558665
dbfs:/mnt/us-carrier-dataset/1995.csv,1995.csv,530751568
dbfs:/mnt/us-carrier-dataset/1996.csv,1996.csv,533922363


In [0]:
# SparkSession 객체 생성 후, 데이터 Load, 데이터 확인하기

# SparkSession 객체 생성
from pyspark.sql import SparkSession

spark = SparkSession \
  .builder \
  .appName("Spark EDA example on us aircraft data ") \
  .getOrCreate()

In [0]:
# 데이터 읽기
raw_df = spark.read.csv("/mnt/us-carrier-dataset", header = 'True', inferSchema='True')

In [0]:
# 스키마 형태 표시
raw_df.printSchema()

In [0]:
# 데이터 개수 표시
# 대략 22년간의 데이터, 1억2천만개 정도
raw_df.count()

In [0]:
# 데이터 확인
raw_df.show(30) # 30개정도만 표시

In [0]:
# 정돈된 테이블 형태로 데이터 확인.
# databricks cloud상에서 gui형태로 그래프 그리기같은 기능 제공.
display(raw_df)

Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
1988,1,9,6,1348.0,1331,1458.0,1435,PI,942,,70.0,64,,23.0,17.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,10,7,1334.0,1331,1443.0,1435,PI,942,,69.0,64,,8.0,3.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,11,1,1446.0,1331,1553.0,1435,PI,942,,67.0,64,,78.0,75.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,12,2,1334.0,1331,1438.0,1435,PI,942,,64.0,64,,3.0,3.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,13,3,1341.0,1331,1503.0,1435,PI,942,,82.0,64,,28.0,10.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,14,4,1332.0,1331,1447.0,1435,PI,942,,75.0,64,,12.0,1.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,15,5,1331.0,1331,1434.0,1435,PI,942,,63.0,64,,-1.0,0.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,16,6,1327.0,1331,1427.0,1435,PI,942,,60.0,64,,-8.0,-4.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,17,7,1331.0,1331,1440.0,1435,PI,942,,69.0,64,,5.0,0.0,SYR,BWI,273,,,0,,0,,,,,
1988,1,18,1,1349.0,1331,1519.0,1435,PI,942,,90.0,64,,44.0,18.0,SYR,BWI,273,,,0,,0,,,,,


In [0]:
# column 값의 분포 상태를 나타내는 dataframe 
raw_df.describe()

In [0]:
# 데이터 전처리
# 필요 함수 import
from pyspark.sql.functions import udf # 사용자 정의 함수
from pyspark.sql.types import BooleanType, IntegerType, StringType # 데이터 타입

In [0]:
# NA로 표시되어 있는 NULL값을 변경.
def cleanString(value):
  if (value == None) or (value == 'NA'):
    return None
  else:
    value
    
# string으로 설정된 숫자값을 integer로 변경.
def stringToInteger(value):
  if value == 'NA':
    return None
  else:
    return int(value)
  
# integer 값을 boolean형으로 변경.
def integerToBoolean(value):
  return False if value == 0 else True

In [0]:
# 사용자 정의 함수(UDF) 설정.
# Spark SQL함수를 사용자가 정의할 수 있도록 해줌.
cleanStrFunction = udf(stringToInteger, IntegerType())
cleanIntegerFunction = udf(integerToBoolean, BooleanType())
cleanStringFunction = udf(cleanString, StringType())

In [0]:
# UDF 이용해 데이터 전처리하기 

us_carrier_df = raw_df \
    .drop(
      # 사용하지 않을 column 삭제
      'DepTime', 'CRSDepTime', 'ArrTime', 'CRSArrTime', 'AirTime', 'ArrDelay', 'DepDelay', 'TaxiIn', 'TaxiOut', 'CancellationCode', 'CarrierDelay', 'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay') \
    .withColumn(
      # 'NA' 항목 null로 변경하고 Integer 형으로 변경
      'ActualElapsedTime', cleanStrFunction('ActualElapsedTime')) \
    .withColumn(
      # 'NA' 항목 null로 변경하고 Integer 형으로 변경
      'CRSElapsedTime', cleanStrFunction('CRSElapsedTime')) \
    .withColumn(
      # 'NA' 항목 null로 변경하고 Integer 형으로 변경
      'Distance', cleanStrFunction('Distance')) \
    .withColumn(
      # 'NA' 항목 null로 변경하고 Boolean 형으로 변경
      'Cancelled', cleanIntegerFunction('Cancelled')) \
    .withColumn(
      # 'NA' 항목 null로 변경하고 Boolean 형으로 변경
      'Diverted', cleanIntegerFunction('Diverted'))

In [0]:
us_carrier_df.printSchema()

In [0]:
us_carrier_df.show()

In [0]:
# cleanStringFunction(us_carrier_df)
us_carrier_df = us_carrier_df.replace('NA', None) # 처리하지못한 NA값

In [0]:
display(us_carrier_df)

Year,Month,DayofMonth,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,Origin,Dest,Distance,Cancelled,Diverted
1988,1,9,6,PI,942,,70.0,64,SYR,BWI,273,False,False
1988,1,10,7,PI,942,,69.0,64,SYR,BWI,273,False,False
1988,1,11,1,PI,942,,67.0,64,SYR,BWI,273,False,False
1988,1,12,2,PI,942,,64.0,64,SYR,BWI,273,False,False
1988,1,13,3,PI,942,,82.0,64,SYR,BWI,273,False,False
1988,1,14,4,PI,942,,75.0,64,SYR,BWI,273,False,False
1988,1,15,5,PI,942,,63.0,64,SYR,BWI,273,False,False
1988,1,16,6,PI,942,,60.0,64,SYR,BWI,273,False,False
1988,1,17,7,PI,942,,69.0,64,SYR,BWI,273,False,False
1988,1,18,1,PI,942,,90.0,64,SYR,BWI,273,False,False


In [0]:
# 추후 사용할 자료는 클러스터 메모리상에 남겨두고 삭제하지 않도록 설정.
us_carrier_df.cache()

In [0]:
# SQL 질의 사용을 위해 DataFrame을 전역 임시 뷰로 저장.
us_carrier_df.createGlobalTempView("us_carrier")