In [9]:
import findspark
findspark.init()

from pyspark.sql import DataFrame
import pyspark.sql.types as T

from etl import SparkETL

In [10]:
etl = SparkETL()

In [11]:
spark = etl.get_spark()

Initialize all dimension tables; must be idempotent, like CREATE IF NOT EXISTS

In [12]:
dimensions = {
    'time_dim': (
            T.StructType([
                T.StructField('time_id', T.LongType(), False),
                T.StructField('date', T.DateType(), False),
                T.StructField('year', T.IntegerType(), False),
                T.StructField('month_id', T.IntegerType(), False),
                T.StructField('day', T.IntegerType(), False),
                T.StructField('weekday_id', T.IntegerType(), False),
                T.StructField('month', T.StringType(), False),
                T.StructField('weekday', T.StringType(), False),
                T.StructField('weekend', T.BooleanType(), False)
            ])
    ),
    
    'foreign_visitor_dim': (
            T.StructType([
                T.StructField('visitor_id', T.IntegerType(), False),
                T.StructField('citizenship_id', T.IntegerType(), False),
                T.StructField('residence_id', T.IntegerType(), False),
                T.StructField('age_id', T.IntegerType(), False),
                T.StructField('gender_id', T.StringType(), False),
                T.StructField('visa_id', T.IntegerType(), False),
                T.StructField('stay_id', T.IntegerType(), False),
                T.StructField('address_id', T.StringType(), False),
                T.StructField('address_climate_id', T.IntegerType(), False),
                T.StructField('citizenship', T.StringType(), False),
                T.StructField('residence', T.StringType(), False),
                T.StructField('age', T.StringType(), False),
                T.StructField('gender', T.StringType(), False),
                T.StructField('visa', T.StringType(), False),
                T.StructField('stay', T.StringType(), False),
                T.StructField('address', T.StringType(), False),
                T.StructField('address_climate', T.StringType(), False),
            ])
    ),
    
    'route_dim': (
            T.StructType([
                T.StructField('route_id', T.IntegerType(), False),
                T.StructField('airline', T.StringType(), False),
                T.StructField('flight_num', T.StringType(), False),
                T.StructField('port_id', T.IntegerType(), False),
                T.StructField('airport_id', T.StringType(), False),
                T.StructField('coordinates', T.StringType(), False),
                T.StructField('city', T.StringType(), False),
                T.StructField('state_id', T.StringType(), False),
                T.StructField('size_id', T.IntegerType(), False),
                T.StructField('ethnicity_id', T.IntegerType(), False),
                T.StructField('port', T.StringType(), False),
                T.StructField('airport', T.StringType(), False),
                T.StructField('state', T.StringType(), False),
                T.StructField('longitude', T.FloatType(), False),
                T.StructField('latitude', T.FloatType(), False),
                T.StructField('size', T.StringType(), False),
                T.StructField('ethnicity', T.StringType(), False),

            ])
    )
}

In [13]:
def empty_dataframe(schema):
    return spark.createDataFrame([], schema)

In [14]:
def init_dims(dims):
    for dim, schema in dimensions.items():
        etl.init_dim_table(
            empty_dataframe(schema),
            dim
        )

In [16]:
init_dims(dimensions)