In [1]:
#import libraries 
import pandas as pd
import numpy as np

In [2]:
import findspark
findspark.init()

In [3]:
# Import packages
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import StructType,StructField,StringType, DateType,IntegerType

# Create a SparkSession
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

In [4]:
# Read in data from S3 Buckets
from pyspark import SparkFiles
url = "3_turbidity.csv"
spark.sparkContext.addFile(url)
df = spark.read.csv(SparkFiles.get("3_turbidity.csv"), header=True, inferSchema=True)

# Show DataFrame
df.show()

+----------+-------------------+------------------+-------------------+------------------+------------------+------------------+------------------+---------------+
|      Date|     LKSPOMET_ATemp|  LKSBAWQ_ChlFluor|       LKSBAWQ_Temp|     LKSPOMET_WSpd|     LKSBAWQ_Depth|        LKSBAWQ_pH|      LKSBAWQ_Turb|Turbidity_Range|
+----------+-------------------+------------------+-------------------+------------------+------------------+------------------+------------------+---------------+
|04/13/2022| 1.0448275862068965| 9.994827586206897| 0.6241379310344827|1.6913793103448276|0.8293103448275863| 7.574137931034483|15.189655172413794|          </=20|
|04/14/2022|-0.6239583333333333|10.211458333333333| 0.4510416666666666| 2.719791666666667|0.7039583333333334| 7.582291666666666|15.395833333333334|          </=20|
|04/15/2022|          -4.215625| 9.373958333333333|0.44166666666666665| 4.210416666666666|0.7894791666666667| 7.599999999999999|            13.875|          </=20|
|04/16/2022|-1.8

In [5]:
from pyspark.sql.functions import split
split_col = split(df['Date'],'/')
df = df.withColumn('Month', split_col.getItem(0))
df = df.withColumn('Day', split_col.getItem(1))
df = df.withColumn('Year', split_col.getItem(2))
df.show()

+----------+-------------------+------------------+-------------------+------------------+------------------+------------------+------------------+---------------+-----+---+----+
|      Date|     LKSPOMET_ATemp|  LKSBAWQ_ChlFluor|       LKSBAWQ_Temp|     LKSPOMET_WSpd|     LKSBAWQ_Depth|        LKSBAWQ_pH|      LKSBAWQ_Turb|Turbidity_Range|Month|Day|Year|
+----------+-------------------+------------------+-------------------+------------------+------------------+------------------+------------------+---------------+-----+---+----+
|04/13/2022| 1.0448275862068965| 9.994827586206897| 0.6241379310344827|1.6913793103448276|0.8293103448275863| 7.574137931034483|15.189655172413794|          </=20|   04| 13|2022|
|04/14/2022|-0.6239583333333333|10.211458333333333| 0.4510416666666666| 2.719791666666667|0.7039583333333334| 7.582291666666666|15.395833333333334|          </=20|   04| 14|2022|
|04/15/2022|          -4.215625| 9.373958333333333|0.44166666666666665| 4.210416666666666|0.7894791666666

In [6]:
from pyspark.sql.functions import col
df.select(col('Month')).show()

+-----+
|Month|
+-----+
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   04|
|   05|
|   05|
+-----+
only showing top 20 rows



In [7]:
#Check the new column data type
df.schema['Month'].dataType

StringType()

In [8]:
import pyspark.sql.functions as F
#summer_values = ['   06','   07','   08']
#summer_df = df.filter(df.Month.isin(summer_values))
#summer_df.show()

#july_df = df.filter(F.col("Month") == '06') 
#july_df.show()

summer_values = ['06','07','08']
summer_df = df.filter(df.Month.isin(summer_values))
summer_df.show()

+----------+------------------+------------------+------------------+------------------+------------------+------------------+------------------+---------------+-----+---+----+
|      Date|    LKSPOMET_ATemp|  LKSBAWQ_ChlFluor|      LKSBAWQ_Temp|     LKSPOMET_WSpd|     LKSBAWQ_Depth|        LKSBAWQ_pH|      LKSBAWQ_Turb|Turbidity_Range|Month|Day|Year|
+----------+------------------+------------------+------------------+------------------+------------------+------------------+------------------+---------------+-----+---+----+
|06/01/2022|14.470833333333333| 9.479166666666666|14.061458333333334|1.8958333333333333|1.2292708333333333|               7.5|          13.21875|          </=20|   06| 01|2022|
|06/02/2022|15.936458333333334|          8.915625|          14.56875| 2.660416666666667|1.1889583333333333| 7.477083333333333|11.458333333333334|          </=20|   06| 02|2022|
|06/03/2022|12.998958333333334| 8.331249999999999|15.028125000000001|3.7458333333333336|           1.20875| 7.52291

In [9]:
summer_df.toPandas().to_csv('3_summer_turbidity.csv')