## TPM2 - Trabalho Prático do Módulo 2 - Pós em Ciência de Dados

### Trabalho Prático 
### Módulo 2: Desenvolvendo Soluções Utilizando Apache Spark 
### Objetivos de Ensino 
Bem-vindos(as) ao trabalho prático do módulo sobre Spark! Neste trabalho, você 
vai exercitar os conceitos trabalhados na primeira parte do módulo, e vai: 

✔ Se acostumar a escrever e executar aplicações que usam o Spark;

✔ Construir aplicações Spark interativas usando o pyspark ou uma plataforma 
interativa como o jupyter-lab; 

✔ Computar estatísticas descritivas usando o Spark; 

✔ Manipular dados a partir da API de DataFrames. 

É recomendado que você leia os capítulos 1, 2 e 3 da apostila e assista às aulas relacionadas a eles. Em particular, o capítulo 2 da apostila contém instruções para instalar o Spark na sua máquina. 

Divirta-se! 

### Enunciado 

Dados do mercado financeiro são interessantes e ricos: cada ação negociada na bolsa de valores tem um preço que varia a cada dia. Você foi contratado como cientista de dados de uma empresa de Wall Street para criar modelos preditivos que, a partir da variação diária do preço das ações, consigam subsidiar e melhorar decisões de compra e venda de ações. Você disse que, como todo bom cientista de dados, gostaria de explorar os dados para entender suas características antes de criar qualquer modelo preditivo. 

Os dados estão disponíveis em https://www.kaggle.com/camnugent/sandp500/ por meio do arquivo all_stocks_5yr.csv. O arquivo contém, para cada dia e ação do S&P 500 (lista de 500 maiores empresas americanas), os seguintes dados:

● Date - no formato yy-mm-dd

● Open - Preço da ação na abertura do mercado no dia, em dólares.

● High - Maior preço alcançado naquele dia. 

● Low - Menor preço alcançado naquele dia.

● Close - Preço da ação no fechamento do mercado no dia.

● Volume - Número de ações vendidas / compradas. 

● Name - O nome da ação. 

Apesar do volume de dados ser pequeno, você decidiu usar o Apache Spark para processar os dados para aprender a ferramenta, e tendo em vista que a sua empresa disse que, em breve, obterá dados por minuto, e não por dia, e de todas as ações do planeta, não apenas dos Estados Unidos. Neste caso, uma ferramenta desenhada para lidar com big data será necessária, e você já quer estar com o código pronto. 

### Atividades 

O aluno deve extrair as principais estatísticas descritivas do conjunto de dados, usando a API de Dataframe do Spark. Consulte a aula sobre DataFrames e materiais como: 

● https://www.datasciencemadesimple.com/descriptive-statistics-or-summary-statistics-of-dataframe-in-pyspark/2 

● https://docs.databricks.com/spark/latest/dataframesdatasets/introduction-to-dataframes-python.html  

● https://medium.com/analytics-vidhya/spark-group-by-and-filter-deepdive-5326088dec80 

● https://towardsdatascience.com/the-most-complete-guide-to-pysparkdataframes-2702c343b2e8 

As perguntas objetivas contêm perguntas específicas que o aluno deve responder por meio de aplicações Spark.

## Instalando Spark

In [1]:
# importando as bibliotecas pandas e numpy
!pip install pyspark



## Importando o Pyspark

In [51]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, max, stddev, sum, abs, avg, length

# Configuração básica do Spark
spark = SparkSession.builder \
    .appName("Trabalho Prático") \
    .getOrCreate()

## Importando Dados do arquivo

Os dados estão disponíveis em https://www.kaggle.com/camnugent/sandp500/ por meio do arquivo all_stocks_5yr.csv. O arquivo contém, para cada dia e ação do S&P 500 (lista de 500 maiores empresas americanas), os seguintes dados:

In [16]:
# importando o arquivo all_stocks_5yr.csv
df = (spark.read
  .format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("all_stocks_5yr.csv")
)

## Visualizando os dados

In [17]:
# visualizando dataframe
df.show()

+----------+-----+-----+-----+-----+--------+----+
|      date| open| high|  low|close|  volume|Name|
+----------+-----+-----+-----+-----+--------+----+
|2013-02-08|15.07|15.12|14.63|14.75| 8407500| AAL|
|2013-02-11|14.89|15.01|14.26|14.46| 8882000| AAL|
|2013-02-12|14.45|14.51| 14.1|14.27| 8126000| AAL|
|2013-02-13| 14.3|14.94|14.25|14.66|10259500| AAL|
|2013-02-14|14.94|14.96|13.16|13.99|31879900| AAL|
|2013-02-15|13.93|14.61|13.93| 14.5|15628000| AAL|
|2013-02-19|14.33|14.56|14.08|14.26|11354400| AAL|
|2013-02-20|14.17|14.26|13.15|13.33|14725200| AAL|
|2013-02-21|13.62|13.95| 12.9|13.37|11922100| AAL|
|2013-02-22|13.57| 13.6|13.21|13.57| 6071400| AAL|
|2013-02-25| 13.6|13.76| 13.0|13.02| 7186400| AAL|
|2013-02-26|13.14|13.42| 12.7|13.26| 9419000| AAL|
|2013-02-27|13.28|13.62|13.18|13.41| 7390500| AAL|
|2013-02-28|13.49|13.63|13.39|13.43| 6143600| AAL|
|2013-03-01|13.37|13.95|13.32|13.61| 7376800| AAL|
|2013-03-04| 13.5|14.07|13.47| 13.9| 8174800| AAL|
|2013-03-05|14.01|14.05|13.71|1

## Estatística descritiva

In [18]:
# visualizando as estatísticas descritivas do conjunto de dados
df.describe().show()

+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+
|summary|            open|             high|              low|            close|           volume|  Name|
+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+
|  count|          619029|           619032|           619032|           619040|           619040|619040|
|   mean|83.0233343145474|83.77831069347276|82.25609641375338|83.04376276476519|4321823.395568945|  NULL|
| stddev|97.3787690433237|98.20751890446375|96.50742105809033|97.38974800165782|8693609.511967566|  NULL|
|    min|            1.62|             1.69|              1.5|             1.59|                0|     A|
|    max|          2044.0|          2067.99|          2035.11|           2049.0|        618237630|   ZTS|
+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+



## Questão 01

### Quantos registros há na planilha?

In [19]:
numero_registros = df.count()
numero_registros

619040

### Resposta: 619040

## Questão 02

### Quantos registros há na planilha para a ação da Apple (AAPL)?

In [20]:
numero_registros_apple = df.filter(col("Name") == "AAPL").count()
                                   
numero_registros_apple

1259

### Resposta: 1259

## Questão 03

### Quantas empresas distintas têm registros nessa planilha?

In [24]:
df.select("Name").distinct().count()

505

### Resposta: 505

## Questão 04

### Com qual frequência o preço de uma ação no fechamento é maior do que o preço na abertura?

In [26]:
# Filtrar linhas onde o preço de fechamento é maior do que o preço de abertura
df_preco_maior = df.filter(col("close") > col("open"))

# Calcular a frequência
frequencia_preco_maior = (df_preco_maior.count()/df.count())*100

frequencia_preco_maior

51.52655724993538

### Resposta: 51,53%

## Questão 05

### Qual o maior valor das ações da Apple (AAPL) na história?

In [28]:
# Filtrar apenas as ações da AAPL
df_aapl = df.filter(col("Name") == "AAPL")

# Encontrar o maior valor das ações da AAPL na história
maior_valor_aapl = df_aapl.agg(max("high").alias("max_high")).collect()[0]["max_high"]

maior_valor_aapl

180.1

### Resposta: 180,1

## Questão 06

### Qual ação tem a maior volatilidade? Uma forma é medir o desvio-padrão do preço de fechamento de cada ação e considerar a ação de maior desvio-padrão.

In [31]:
# Calcular o desvio-padrão do preço de fechamento para cada ação
df_volatilidade = df.groupBy("Name").agg(stddev("close").alias("volatilidade"))

# Encontrar a ação com a maior volatilidade
acao_maior_volatilidade = df_volatilidade.orderBy(col("volatilidade").desc()).first()["Name"]

acao_maior_volatilidade

'PCLN'

### Resposta: PCLN

## Questão 07

### Qual o dia com maior volume total de negociação da bolsa?

In [35]:
# Calcular o volume total de negociação para cada dia
df_volume_total = df.groupBy("date").agg(sum("volume").alias("volume_total"))

# Encontrar o dia com o maior volume total de negociação
dia_maior_volume = df_volume_total.orderBy(col("volume_total").desc()).first()["date"]

dia_maior_volume

datetime.date(2015, 8, 24)

### Resposta: 24/08/2015

## Questão 08

### Qual a ação mais negociada da bolsa, em volume de transações?

In [36]:
# Calcular o volume total de negociação para cada ação
df_volume_total = df.groupBy("Name").agg(sum("volume").alias("volume_total"))

# Encontrar a ação mais negociada
acao_mais_negociada = df_volume_total.orderBy(col("volume_total").desc()).first()["Name"]

acao_mais_negociada

'BAC'

### Resposta: BAC

## Questão 09

### Quantas ações começam com a letra “A”?

In [44]:
# Contar o número de ações que começam com a letra "A"
acoes_distintas_com_a = df.filter(col("Name").startswith("A")).select("Name").distinct().count()

acoes_distintas_com_a

59

### Resposta: 59

## Questão 10

### Com qual frequência o preço mais alto do dia da ação também é o preço de fechamento?

In [45]:
# Contar com que frequência o preço mais alto do dia é também o preço de fechamento

frequencia_preco_alto_fechamento = (df.filter(col("high") == col("close")).count()/df.count())*100
frequencia_preco_alto_fechamento

1.1986301369863013

### Resposta: 1,2

## Questão 11

### Em qual dia a ação da Apple mais subiu entre a abertura e o fechamento, de forma absoluta?

In [47]:
# Calcular a variação absoluta entre abertura e fechamento para cada dia da AAPL
df_variacao_absoluta = df.filter(col("Name") == "AAPL").withColumn("variacao_absoluta", abs(col("open") - col("close")))

# Encontrar a data em que a AAPL teve a maior variação absoluta
data_maior_variacao = df_variacao_absoluta.orderBy(col("variacao_absoluta").desc()).first()["date"]

data_maior_variacao

datetime.date(2015, 8, 24)

### Resposta: 24/08/2015

## Questão 12

### Em média, qual o volume diário de transações das ações da AAPL?

In [49]:
# Filtrar apenas as ações da AAPL
df_aapl = df.filter(col("Name") == "AAPL")

# Calcular a média do volume diário de transações para a AAPL
media_volume_diario_aapl = df_aapl.groupBy("date").agg(avg("volume").alias("media_volume_diario")).select("media_volume_diario").agg(avg("media_volume_diario")).collect()[0]["avg(media_volume_diario)"]

media_volume_diario_aapl

54047899.73550437

### Resposta: Aproximadamente 54 milhões

## Questão 13

### Quantas ações tem 1, 2, 3, 4 e 5 caracteres em seu nome, respectivamente?

In [54]:
# Calcular o comprimento do nome, considerando apenas ações distintas, e contar o número de ações distintas para cada comprimento
contagem_acoes_distintas_por_tamanho = df.select("Name").distinct().groupBy(length("Name").alias("tamanho_nome")).count()

# Imprimir o resultado
contagem_acoes_distintas_por_tamanho.show()

+------------+-----+
|tamanho_nome|count|
+------------+-----+
|           1|   10|
|           3|  323|
|           5|    5|
|           4|  117|
|           2|   50|
+------------+-----+



### Resposta: 

1  -   10

2  -  50

3  -  323

4  -  117

5  -   5

## Questão 14

### Qual a ação menos negociada da bolsa, em volume de transações?

In [55]:
# Calcular o volume total de negociação para cada ação
df_volume_total = df.groupBy("Name").agg(sum("volume").alias("volume_total"))

# Encontrar a ação menos negociada
acao_menos_negociada = df_volume_total.orderBy(col("volume_total")).first()["Name"]

acao_menos_negociada

'APTV'

### Resposta: APTV

## Questão 15

### Qual dessas afirmações NÃO ilustra uma diferença entre as abstrações RDD e Dataframe?

O Dataframe não é tolerante a falhas, enquanto o RDD sim (O “R” é de “resiliente”).

O RDD tem uma API mais flexível e livre que o Dataframe, dado que ele trabalha com objetos arbitrários.

O Dataframe suporta diretamente manipulação de colunas.

Computações com Dataframes podem ser mais eficientes que com RDDs, pelo fato do Spark conhecer as colunas sobre as quais vai operar.

### Resposta:  O Dataframe não é tolerante a falhas, enquanto o RDD sim (O “R” é de “resiliente”).

In [56]:
spark.stop()