In [36]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, max, stddev, sum, abs, avg, length

spark = SparkSession\
    .builder\
    .appName("CountRegistersInCSV")\
    .getOrCreate()
    
file_path = '../mod_2_cap_3_Estatística_descritiva_Apache_Spark/archive/all_stocks_5yr.csv'

df = spark.read.csv(file_path, header=True, inferSchema=True)
df.printSchema()
#pergunta 1:

num_records = df.count()

#pergunta 2:
apple_df = df.filter(df['Name'] == 'AAPL')
num_apple_records = apple_df.count()

#pergunta 3:
companies = df.select('Name')
distinct_companies = companies.distinct()
num_distinct_companies = distinct_companies.count()

#pergunta 4:

df = df.withColumn("CloseGreaterThanOpen", col("Close") > col("Open"))
total_days = df.count()
days_close_greater_than_open = df.filter(col('CloseGreaterThanOpen')).count()
frequency = days_close_greater_than_open / total_days

# pergunta 5:
apple_df = df.filter(df['Name'] == 'AAPL')
max_close_col = max(apple_df["Close"])
max_closing_price_row = apple_df.agg(max_close_col.alias("max_close")).first()
max_closing_price = max_closing_price_row["max_close"]

#pergunta 6:
volatility_df = df.groupBy('Name').agg(stddev('Close').alias('Volatility'))
max_volatility_row = volatility_df.orderBy('Volatility', ascending=False).first()
max_volatility_stock = max_volatility_row['Name']
max_volatility_value = max_volatility_row['Volatility']

#pergunta 7:
total_volume_df = df.groupBy('Date').agg(sum('Volume').alias('TotalVolume'))
max_volume_day_row = total_volume_df.orderBy('TotalVolume', ascending=False).first()
max_volume_day = max_volume_day_row['Date']
max_volume_value = max_volume_day_row['TotalVolume']

# pergunta 8:
total_volume_df = df.groupBy('Name').agg(sum('Volume').alias('TotalVolume'))
max_volume_stock_row = total_volume_df.orderBy('TotalVolume', ascending=False).first()
max_volume_stock = max_volume_stock_row['Name']
max_volume_value = max_volume_stock_row['TotalVolume']

# pergunta 9:
stocks_starting_with_a_df = df.filter(df['Name'].startswith('A'))
num_stocks_starting_with_a = stocks_starting_with_a_df.count()

# pergunta 10:
high_equals_close_df = df.filter(col('High') == col('Close'))
total_records = df.count()
high_equals_close_count = high_equals_close_df.count()
frequency = high_equals_close_count / total_records

# pergunta 11:
apple_df = df.filter(df['Name'] == 'AAPL')
apple_df = apple_df.withColumn("AbsoluteIncrease", abs(col("Close") - col("Open")))
max_absolute_increase_row = apple_df.orderBy(col("AbsoluteIncrease").desc()).first()
max_increase_day = max_absolute_increase_row[0]
max_increase_value = max_absolute_increase_row['AbsoluteIncrease']

# pergunta 12:
apple_df = df.filter(df['Name'] == 'AAPL')
average_daily_volume_df = apple_df.groupBy('Date').agg(avg('Volume').alias('AverageVolume'))
average_daily_volume = average_daily_volume_df.agg(avg('AverageVolume')).collect()[0][0]

# pergunta 13:


# pergunta 14:
total_volume_df = df.groupBy('Name').agg(sum('Volume').alias('TotalVolume'))
min_volume_stock_row = total_volume_df.orderBy('TotalVolume').first()
min_volume_stock = min_volume_stock_row['Name']
min_volume_value = min_volume_stock_row['TotalVolume']


#retornos:

print(f'Número de registros: {num_records}' )
print(f'Número de registros para a ação da Apple (AAPL): {num_apple_records}')
print(f'Número de empresas diferentes: {num_distinct_companies}' )
print(f"Frequência com que o preço de fechamento é maior do que o preço de abertura para todas as ações: {frequency:.2%}")
print(f'O maior valor de fechamento das ações da Apple (AAPL) na história é: {max_closing_price}')
print(f'A ação com a maior volatilidade é {max_volatility_stock} com um desvio padrão de {max_volatility_value}')
print(f'O dia com o maior volume total de negociação foi {max_volume_day} com um volume total de {max_volume_value}')
print(f'A ação mais negociada da bolsa, em volume de transações, é {max_volume_stock} com um volume total de {max_volume_value}')
print(f'O número de ações que começam com a letra "A" é: {num_stocks_starting_with_a}')
print(f'A frequência com que o preço mais alto do dia também é o preço de fechamento é: {frequency:.2%}')
print(f'O dia em que a ação da Apple teve o maior aumento absoluto entre a abertura e o fechamento foi {max_increase_day} com um aumento de {max_increase_value}')
print(f'A média do volume diário de transações das ações da AAPL é: {average_daily_volume:.2f}')
print(f'A ação menos negociada da bolsa, em volume de transações, é {min_volume_stock} com um volume total de {min_volume_value}')


spark.stop()


                                                                                

root
 |-- date: date (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- Name: string (nullable = true)



                                                                                

Número de registros: 619040
Número de registros para a ação da Apple (AAPL): 1259
Número de empresas diferentes: 505
Frequência com que o preço de fechamento é maior do que o preço de abertura para todas as ações: 1.20%
O maior valor de fechamento das ações da Apple (AAPL) na história é: 179.26
A ação com a maior volatilidade é PCLN com um desvio padrão de 320.533473018748
O dia com o maior volume total de negociação foi 2015-08-24 com um volume total de 117884953591
A ação mais negociada da bolsa, em volume de transações, é BAC com um volume total de 117884953591
O número de ações que começam com a letra "A" é: 72870
A frequência com que o preço mais alto do dia também é o preço de fechamento é: 1.20%
O dia em que a ação da Apple teve o maior aumento absoluto entre a abertura e o fechamento foi 2015-08-24 com um aumento de 8.25
A média do volume diário de transações das ações da AAPL é: 54047899.74
A ação menos negociada da bolsa, em volume de transações, é APTV com um volume total de