# Bootcamp: Cientista de Dados - Trabalho Prático Módulo 2

- Data: maio de 2022.

## Autor

Feito com por [Alexsander Lopes Camargos](https://github.com/alexcamargos). Entre em contato!

[![GitHub](https://img.shields.io/badge/-AlexCamargos-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=github&logoColor=white&link=https://github.com/alexcamargos)](https://github.com/alexcamargos)
[![Twitter Badge](https://img.shields.io/badge/-@alcamargos-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=twitter&logoColor=white&link=https://twitter.com/alcamargos)](https://twitter.com/alcamargos)
[![Linkedin Badge](https://img.shields.io/badge/-alexcamargos-1ca0f1?style=flat-square&logo=Linkedin&logoColor=white&link=https://www.linkedin.com/in/alexcamargos/)](https://www.linkedin.com/in/alexcamargos/)
[![Gmail Badge](https://img.shields.io/badge/-alcamargos@vivaldi.net-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=Gmail&logoColor=white&link=mailto:alcamargos@vivaldi.net)](mailto:alcamargos@vivaldi.net)

## Licença

[MIT License](https://choosealicense.com/licenses/mit/)

## Objetivos

Bem-vindos(as) ao trabalho prático do módulo sobre Spark! Neste trabalho, você vai exercitar os conceitos trabalhados na primeira parte do módulo, e vai:

- Se acostumar a escrever e executar aplicações que usam o Spark;
- Construir aplicações Spark interativas usando o pyspark ou uma plataforma interativa como o jupyter-lab;
- Computar estatísticas descritivas usando o Spark;
- Manipular dados a partir da API de DataFrames.

## Enunciado

Dados do mercado financeiro são interessantes e ricos: cada ação negociada na bolsa de valores tem um preço que varia a cada dia. Você foi contratado como cientista de dados de uma empresa de Wall Street para criar modelos preditivos que, a partir da variação diária do preço das ações, consigam subsidiar e melhorar decisões de compra e venda de ações. Você disse que, como todo bom cientista de dados, gostaria de explorar os dados para entender suas características antes
de criar qualquer modelo preditivo.

Os dados estão disponíveis em [https://www.kaggle.com/camnugent/sandp500/](https://www.kaggle.com/camnugent/sandp500/) por meio do arquivo _all_stocks_5yr.csv_. O arquivo contém, para cada dia e ação do S&P 500 (lista de 500 maiores empresas americanas), os seguintes dados:

- _Date_ - no formato yy-mm-dd
- _Open_ - Preço da ação na abertura do mercado no dia, em dólares.
- _High_ - Maior preço alcançado naquele dia.
- _Low_ - Menor preço alcançado naquele dia.
- _Close_ - Preço da ação no fechamento do mercado no dia.
- _Volume_ - Número de ações vendidas / compradas.
- _Name_ - O nome da ação.

Apesar do volume de dados ser pequeno, você decidiu usar o Apache Spark para processar os dados para aprender a ferramenta, e tendo em vista que a sua empresa disse que, em breve, obterá dados por minuto, e não por dia, e de todas as ações do planeta, não apenas dos Estados Unidos. Neste caso, uma ferramenta desenhada para lidar com big data será necessária, e você já quer estar com o código pronto.

## Atividades

O aluno deve extrair as principais estatísticas descritivas do conjunto de dados, usando a API de Dataframe do Spark. Consulte a aula sobre DataFrames e materiais como:

- [https://www.datasciencemadesimple.com/descriptive-statistics-or-summary-statistics-ofdataframe-in-pyspark/](https://www.datasciencemadesimple.com/descriptive-statistics-or-summary-statistics-ofdataframe-in-pyspark/)
- [https://docs.databricks.com/spark/latest/dataframes-datasets/introduction-todataframes-python.html](https://docs.databricks.com/spark/latest/dataframes-datasets/introduction-todataframes-python.html)
- [https://medium.com/analytics-vidhya/spark-group-by-and-filter-deep-dive-5326088dec80](https://medium.com/analytics-vidhya/spark-group-by-and-filter-deep-dive-5326088dec80)
- [https://towardsdatascience.com/the-most-complete-guide-to-pyspark-dataframes-2702c343b2e8](https://towardsdatascience.com/the-most-complete-guide-to-pyspark-dataframes-2702c343b2e8)

As perguntas objetivas contêm perguntas específicas que o aluno deve responder por meio de aplicações Spark.

[Resolução usando Pandas](trabalho_pratico_pandas.ipynb)

In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkFiles
from pyspark.sql import functions as sql_f

In [None]:
# Criando o objeto SparkSession.
spark = SparkSession.builder.appName('Trabalho Prático Módulo 2').getOrCreate()

In [None]:
spark

In [None]:
FILE_URL = 'https://raw.githubusercontent.com/alexcamargos/DataScienceBootcampIGTI/main/Modulo_2/TrabalhoPratico/all_stocks_5yr.csv'

In [None]:
# Informando ao Spark onde esta o arquivo para download.
spark.sparkContext.addFile(FILE_URL)

In [None]:
# Carregando o dataset. Nosso arquivo CSV tem cabeçalho definido e usa encoding Windows-1252.
#header=True - Indica que a primeira linha do arquivo é o cabeçalho.
# inferSchema=True - Tenta determinar o schema a partir dos dados.
df = spark.read.option('header', True) \
               .option('inferSchema', 'True') \
               .csv(f'file://{SparkFiles.get("all_stocks_5yr.csv")}')

In [None]:
df.show()

+-------------------+-----+-----+-----+-----+--------+----+
|               date| open| high|  low|close|  volume|Name|
+-------------------+-----+-----+-----+-----+--------+----+
|2013-02-08 00:00:00|15.07|15.12|14.63|14.75| 8407500| AAL|
|2013-02-11 00:00:00|14.89|15.01|14.26|14.46| 8882000| AAL|
|2013-02-12 00:00:00|14.45|14.51| 14.1|14.27| 8126000| AAL|
|2013-02-13 00:00:00| 14.3|14.94|14.25|14.66|10259500| AAL|
|2013-02-14 00:00:00|14.94|14.96|13.16|13.99|31879900| AAL|
|2013-02-15 00:00:00|13.93|14.61|13.93| 14.5|15628000| AAL|
|2013-02-19 00:00:00|14.33|14.56|14.08|14.26|11354400| AAL|
|2013-02-20 00:00:00|14.17|14.26|13.15|13.33|14725200| AAL|
|2013-02-21 00:00:00|13.62|13.95| 12.9|13.37|11922100| AAL|
|2013-02-22 00:00:00|13.57| 13.6|13.21|13.57| 6071400| AAL|
|2013-02-25 00:00:00| 13.6|13.76| 13.0|13.02| 7186400| AAL|
|2013-02-26 00:00:00|13.14|13.42| 12.7|13.26| 9419000| AAL|
|2013-02-27 00:00:00|13.28|13.62|13.18|13.41| 7390500| AAL|
|2013-02-28 00:00:00|13.49|13.63|13.39|1

In [None]:
# Visualizando o schema dos dados em formato árvore.
df.printSchema()

root
 |-- date: timestamp (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- Name: string (nullable = true)



In [None]:
# Resumo descritivo do dataframe.
df.describe().show()

+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+
|summary|            open|             high|              low|            close|           volume|  Name|
+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+
|  count|          619029|           619032|           619032|           619040|           619040|619040|
|   mean|83.0233343145474|83.77831069347276|82.25609641375338|83.04376276476519|4321823.395568945|  null|
| stddev|97.3787690433237|98.20751890446375|96.50742105809033|97.38974800165782|8693609.511967566|  null|
|    min|            1.62|             1.69|              1.5|             1.59|                0|     A|
|    max|          2044.0|          2067.99|          2035.11|           2049.0|        618237630|   ZTS|
+-------+----------------+-----------------+-----------------+-----------------+-----------------+------+



In [None]:
# Visualizando os quartis 25%, 50% e 75% do dataframe.
df.approxQuantile(['open', 'high', 'low', 'close', 'volume'], [.25, .50, .75], relativeError=.01)

Out[208]: [[39.8, 62.11, 93.59],
 [40.215, 62.71, 94.0597],
 [39.39, 61.59, 92.8],
 [39.81, 62.16, 93.38],
 [1067093.0, 2053553.0, 4208968.0]]

# Pergunta 1

*Quantos registros há na planilha?*

In [None]:
# Visualizando o tamanho do datafame.
print(f'Nosso dataframe tem {df.count()} linhas e {len(df.columns)} colunas.')

Nosso dataframe tem 619040 linhas e 7 colunas.


# Pergunta 2

*Quantos registros há na planilha para a ação da Apple (AAPL)?*

In [None]:
print('Quantidade de registros para ações da Apple (AAPL): ', end='')
print(f"{df.filter(df['Name'] == 'AAPL').count()}")

Quantidade de registros para ações da Apple (AAPL): 1259


# Pergunta 3

*Quantas empresas distintas têm registros nessa planilha?*

In [None]:
# Quantidade de empresas distintas presentes no dataframe.
print('Quantidade de empresas distintas presentes no dataframe: ', end='')
print(f"{df.select('Name').distinct().count()}")

Quantidade de empresas distintas presentes no dataframe: 505


# Pergunta 4

*Com qual frequência o preço de uma ação no fechamento é maior do que o preço na abertura?*

In [None]:
print('Frequência do preço de fechamento maior que o preço de abertura:', end=' ')
print(f"{(df.filter(df['close'] > df['open']).count() / df.count()) * 100:.2f}%")

Frequência do preço de fechamento maior que o preço de abertura: 51.53%


# Pergunta 5

*Qual o maior valor das ações da Apple (AAPL) na história?*

In [None]:
df.filter(df['Name'] == 'AAPL').agg({'high': 'max'}).show()

+---------+
|max(high)|
+---------+
|    180.1|
+---------+



# Pergunta 6

*Qual ação tem a maior volatilidade?*

Uma forma é medir o desvio-padrão do preço de fechamento de cada ação e considerar a ação de maior desvio-padrão.

In [None]:
df.select('close').describe().show()

+-------+-----------------+
|summary|            close|
+-------+-----------------+
|  count|           619040|
|   mean|83.04376276476519|
| stddev|97.38974800165782|
|    min|             1.59|
|    max|           2049.0|
+-------+-----------------+



In [None]:
# Desvio padrão médio do dataframe.
df.select(sql_f.stddev('close')).show()

+------------------+
|stddev_samp(close)|
+------------------+
| 97.38974800165782|
+------------------+



In [None]:
# Ação com maior desvio padrão do preço de fechamento.
df.groupBy('Name').agg(sql_f.stddev('close')).sort('stddev_samp(close)', ascending=False).show(1)

+----+------------------+
|Name|stddev_samp(close)|
+----+------------------+
|PCLN|  320.533473018748|
+----+------------------+
only showing top 1 row



# Pergunta 7

*Qual o dia com maior volume total de negociação da bolsa?*

In [None]:
df.groupBy('date').agg({'volume': 'sum'}).sort('sum(volume)', ascending=False).show(1)

+-------------------+-----------+
|               date|sum(volume)|
+-------------------+-----------+
|2015-08-24 00:00:00| 4607945196|
+-------------------+-----------+
only showing top 1 row



# Pergunta 8

*Qual a ação mais negociada da bolsa, em volume de transações?*

In [None]:
df.groupBy('Name').agg({'volume': 'sum'}).sort('sum(volume)', ascending=False).show(1)

+----+------------+
|Name| sum(volume)|
+----+------------+
| BAC|117884953591|
+----+------------+
only showing top 1 row



# Pergunta 9

*Quantas ações começam com a letra “A”?*

In [None]:
df.withColumn('NameStartWithA', sql_f.column('Name').startswith('A')) \
                                                    .groupBy('Name', 'NameStartWithA').count() \
                                                    .groupBy('NameStartWithA').count().show()

# NameStartWithA = true -> são ações únicas que começam com a letra A.

+--------------+-----+
|NameStartWithA|count|
+--------------+-----+
|          true|   59|
|         false|  446|
+--------------+-----+



# Pergunta 10

*Com qual frequência o preço mais alto do dia da ação também é o preço de fechamento?*

In [None]:
print('Frequência do preço mais alto igual ao preço de fechamento: ', end='')
print(f"{(df.filter(df['high'] == df['close']).count() / df.count()) * 100:.2f}%")

Frequência do preço mais alto igual ao preço de fechamento: 1.20%


# Pergunta 11

*Em qual dia a ação da Apple mais subiu entre a abertura e o fechamento, de forma absoluta?*

In [None]:
df.filter(df['Name'] == 'AAPL').withColumn('variation', df['close'] - df['open']) \
                               .select('date', 'variation') \
                               .sort('variation', ascending=False).show(1)

+-------------------+---------+
|               date|variation|
+-------------------+---------+
|2015-08-24 00:00:00|     8.25|
+-------------------+---------+
only showing top 1 row



# Pergunta 12

*Em média, qual o volume diário de transações das ações da AAPL?*

In [None]:
df.groupBy('Name').agg({'volume': 'mean'}) \
                  .where(sql_f.col('Name') == 'AAPL').show()

+----+-------------------+
|Name|        avg(volume)|
+----+-------------------+
|AAPL|5.404789973550437E7|
+----+-------------------+



# Pergunta 13

*Quantas ações tem 1, 2, 3, 4 e 5 caracteres em seu nome, respectivamente?*

In [None]:
df.withColumn('length_name', sql_f.length('Name')) \
              .groupBy('Name', 'length_name').count() \
              .groupBy('length_name').count().sort('length_name').show()

+-----------+-----+
|length_name|count|
+-----------+-----+
|          1|   10|
|          2|   50|
|          3|  323|
|          4|  117|
|          5|    5|
+-----------+-----+



In [None]:
# Preguiça de comparar resultados! Vamos usar o python para fazer isso.
result = df.withColumn('length_name', sql_f.length('Name')) \
           .groupBy('Name', 'length_name').count() \
           .groupBy('length_name').count().sort('length_name') \
           .collect()

answer = tuple((result[x]['count'] for x in range(len(result))))

answers = {'A': (10, 5, 323, 50, 117),
           'B': (10, 117, 50, 323, 50, 5),
           'C': (10, 323, 50, 5, 117),
           'D': (10, 50, 323, 117, 5)}

[opt for opt in answers.items() if opt[1] == answer][0][0]

Out[224]: 'D'

# Pergunta 14

*Qual a ação menos negociada da bolsa, em volume de transações?*

In [None]:
df.groupBy('Name').agg({'volume': 'sum'}).sort('sum(volume)').show(1)

+----+-----------+
|Name|sum(volume)|
+----+-----------+
|APTV|   92947779|
+----+-----------+
only showing top 1 row



# Pergunta 15

*Com qual frequência o preço de fechamento é também o mais alto do dia?*

In [None]:
print('Frequência do preço mais alto igual ao preço de fechamento: ', end='')
print(f"{(df[df['close'] > df['high']].count() / df.count()) * 100:.4e}%")

Frequência do preço mais alto igual ao preço de fechamento: 1.6154e-04%
