# Bootcamp: Cientista de Dados - Trabalho Prático Módulo 2

- Data: maio de 2022.

## Autor

Feito com por [Alexsander Lopes Camargos](https://github.com/alexcamargos). Entre em contato!

[![GitHub](https://img.shields.io/badge/-AlexCamargos-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=github&logoColor=white&link=https://github.com/alexcamargos)](https://github.com/alexcamargos)
[![Twitter Badge](https://img.shields.io/badge/-@alcamargos-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=twitter&logoColor=white&link=https://twitter.com/alcamargos)](https://twitter.com/alcamargos)
[![Linkedin Badge](https://img.shields.io/badge/-alexcamargos-1ca0f1?style=flat-square&logo=Linkedin&logoColor=white&link=https://www.linkedin.com/in/alexcamargos/)](https://www.linkedin.com/in/alexcamargos/)
[![Gmail Badge](https://img.shields.io/badge/-alcamargos@vivaldi.net-1ca0f1?style=flat-square&labelColor=1ca0f1&logo=Gmail&logoColor=white&link=mailto:alcamargos@vivaldi.net)](mailto:alcamargos@vivaldi.net)

## Licença

[MIT License](https://choosealicense.com/licenses/mit/)

## Objetivos

Bem-vindos(as) ao trabalho prático do módulo sobre Spark! Neste trabalho, você vai exercitar os conceitos trabalhados na primeira parte do módulo, e vai:

- Se acostumar a escrever e executar aplicações que usam o Spark;
- Construir aplicações Spark interativas usando o pyspark ou uma plataforma interativa como o jupyter-lab;
- Computar estatísticas descritivas usando o Spark;
- Manipular dados a partir da API de DataFrames.

## Enunciado

Dados do mercado financeiro são interessantes e ricos: cada ação negociada na bolsa de valores tem um preço que varia a cada dia. Você foi contratado como cientista de dados de uma empresa de Wall Street para criar modelos preditivos que, a partir da variação diária do preço das ações, consigam subsidiar e melhorar decisões de compra e venda de ações. Você disse que, como todo bom cientista de dados, gostaria de explorar os dados para entender suas características antes
de criar qualquer modelo preditivo.

Os dados estão disponíveis em [https://www.kaggle.com/camnugent/sandp500/](https://www.kaggle.com/camnugent/sandp500/) por meio do arquivo _all_stocks_5yr.csv_. O arquivo contém, para cada dia e ação do S&P 500 (lista de 500 maiores empresas americanas), os seguintes dados:

- _Date_ - no formato yy-mm-dd
- _Open_ - Preço da ação na abertura do mercado no dia, em dólares.
- _High_ - Maior preço alcançado naquele dia.
- _Low_ - Menor preço alcançado naquele dia.
- _Close_ - Preço da ação no fechamento do mercado no dia.
- _Volume_ - Número de ações vendidas / compradas.
- _Name_ - O nome da ação.

Apesar do volume de dados ser pequeno, você decidiu usar o Apache Spark para processar os dados para aprender a ferramenta, e tendo em vista que a sua empresa disse que, em breve, obterá dados por minuto, e não por dia, e de todas as ações do planeta, não apenas dos Estados Unidos. Neste caso, uma ferramenta desenhada para lidar com big data será necessária, e você já quer estar com o código pronto.

## Atividades

O aluno deve extrair as principais estatísticas descritivas do conjunto de dados, usando a API de Dataframe do Spark. Consulte a aula sobre DataFrames e materiais como:

- [https://www.datasciencemadesimple.com/descriptive-statistics-or-summary-statistics-ofdataframe-in-pyspark/](https://www.datasciencemadesimple.com/descriptive-statistics-or-summary-statistics-ofdataframe-in-pyspark/)
- [https://docs.databricks.com/spark/latest/dataframes-datasets/introduction-todataframes-python.html](https://docs.databricks.com/spark/latest/dataframes-datasets/introduction-todataframes-python.html)
- [https://medium.com/analytics-vidhya/spark-group-by-and-filter-deep-dive-5326088dec80](https://medium.com/analytics-vidhya/spark-group-by-and-filter-deep-dive-5326088dec80)
- [https://towardsdatascience.com/the-most-complete-guide-to-pyspark-dataframes-2702c343b2e8](https://towardsdatascience.com/the-most-complete-guide-to-pyspark-dataframes-2702c343b2e8)

As perguntas objetivas contêm perguntas específicas que o aluno deve responder por meio de aplicações Spark.

In [2]:
# Versão da Linguagem Python
from platform import python_version as py_version

print(f'Versão da linguagem Python utilizada neste Jupyter Notebook: {py_version()}')

Versão da linguagem Python utilizada neste Jupyter Notebook: 3.10.4


In [3]:
# pandas - Biblioteca para manipulação de dados
import pandas as pd

In [4]:
# Carregando a base de dados de dados.
dados = pd.read_csv('all_stocks_5yr.csv')

dados

Unnamed: 0,date,open,high,low,close,volume,Name
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL
2,2013-02-12,14.45,14.51,14.10,14.27,8126000,AAL
3,2013-02-13,14.30,14.94,14.25,14.66,10259500,AAL
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL
...,...,...,...,...,...,...,...
619035,2018-02-01,76.84,78.27,76.69,77.82,2982259,ZTS
619036,2018-02-02,77.53,78.12,76.73,76.78,2595187,ZTS
619037,2018-02-05,76.64,76.92,73.18,73.83,2962031,ZTS
619038,2018-02-06,72.74,74.56,72.13,73.27,4924323,ZTS


In [5]:
# Dimensionamento da base de dados.
print(f'Quantidade de linhas: {dados.shape[0]}')
print(f'Quantidade de colunas: {dados.shape[1]}')

Quantidade de linhas: 619040
Quantidade de colunas: 7


In [6]:
# Existe dados faltantes?
dados.isnull().sum()

date       0
open      11
high       8
low        8
close      0
volume     0
Name       0
dtype: int64

In [7]:
# Resumo descritivo da base de dados.
dados.describe()

Unnamed: 0,open,high,low,close,volume
count,619029.0,619032.0,619032.0,619040.0,619040.0
mean,83.023334,83.778311,82.256096,83.043763,4321823.0
std,97.378769,98.207519,96.507421,97.389748,8693610.0
min,1.62,1.69,1.5,1.59,0.0
25%,40.22,40.62,39.83,40.245,1070320.0
50%,62.59,63.15,62.02,62.62,2082094.0
75%,94.37,95.18,93.54,94.41,4284509.0
max,2044.0,2067.99,2035.11,2049.0,618237600.0


# Pergunta 1

*Quantos registros há na planilha?*

In [8]:
# Quantidade de registros no dataframe.
print(f'Quantidade de registros: {dados.shape[0]}')

Quantidade de registros: 619040


# Pergunta 2

*Quantos registros há na planilha para a ação da Apple (AAPL)?*

In [27]:
# Quantidade de registros para ações da Apple (AAPL).
print('Quantidade de registros para ações da Apple (AAPL): ', end='')
print(f"{dados.loc[dados['Name'] == 'AAPL'].shape[0]}")

Quantidade de registros para ações da Apple (AAPL): 1259


# Pergunta 3

*Quantas empresas distintas têm registros nessa planilha?*

In [29]:
# Quantidade de empresas distintas presentes no dataframe.
print('Quantidade de empresas distintas presentes no dataframe: ', end='')
print(f'{dados.Name.nunique()}')

Quantidade de empresas distintas presentes no dataframe: 505


# Pergunta 4

*Com qual frequência o preço de uma ação no fechamento é maior do que o preço na abertura?*

In [11]:
print('Frequência do preço de fechamento maior que o preço de abertura:')
print(f"{((dados[dados['close'] > dados['open']]).shape[0] / dados.shape[0]) * 100:.2f}%")

Frequência do preço de fechamento maior que o preço de abertura:
51.53%


# Pergunta 5

*Qual o maior valor das ações da Apple (AAPL) na história?*

In [32]:
# Maior preço da ação da apple na serie histórica.
print('Maior preço da ação da apple na serie histórica: ', end='')
print(f"{dados.loc[dados['Name'] == 'AAPL']['high'].max():.2f}")

Maior preço da ação da apple na serie histórica: 180.10


# Pergunta 6

*Qual ação tem a maior volatilidade?*

Uma forma é medir o desvio-padrão do preço de fechamento de cada ação e considerar a ação de maior desvio-padrão.

In [36]:
dados.groupby('Name').std().sort_values(by='close', ascending=False).head(1)

Unnamed: 0_level_0,open,high,low,close,volume
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
PCLN,320.2424,321.351969,319.458458,320.533473,361535.347055


# Pergunta 7

*Qual o dia com maior volume total de negociação da bolsa?*

In [14]:
dados.groupby('date')['volume'].sum().sort_values(ascending=False).head(1)

date
2015-08-24    4607945196
Name: volume, dtype: int64

# Pergunta 8

*Qual a ação mais negociada da bolsa, em volume de transações?*

In [15]:
dados.groupby('Name')['volume'].sum().sort_values(ascending=False).head(1)

Name
BAC    117884953591
Name: volume, dtype: int64

# Pergunta 9

*Quantas ações começam com a letra “A”?*

In [16]:
# Quantas ações únicas começam com a letra A?
print(f'Quantas ações únicas começam com a letra A: {len(pd.DataFrame.groupby(dados[dados.Name.str.startswith("A")], by="Name"))}')

Quantas ações únicas começam com a letra A: 59


# Pergunta 10

*Com qual frequência o preço mais alto do dia da ação também é o preço de fechamento?*

In [38]:
print('Frequência do preço mais alto igual ao preço de fechamento: ', end='')
print(f"{(dados[dados['high'] == dados['close']].shape[0] / dados.shape[0]) * 100:.2f}%")

Frequência do preço mais alto igual ao preço de fechamento: 1.20%


# Pergunta 11

*Em qual dia a ação da Apple mais subiu entre a abertura e o fechamento, de forma absoluta?*

In [58]:
aapl = dados[dados['Name'] == 'AAPL']
aapl.reset_index(drop=True, inplace=True)
aapl.loc[:, 'close - open'] = (aapl['close'] - aapl['open'])
aapl.sort_values(by='close - open', ascending=False).head(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  aapl.loc[:, 'close - open'] = (aapl['close'] - aapl['open'])


Unnamed: 0,date,open,high,low,close,volume,Name,close - open
639,2015-08-24,94.87,108.8,92.0,103.12,162206292,AAPL,8.25


# Pergunta 12

*Em média, qual o volume diário de transações das ações da AAPL?*

In [21]:
dados[dados['Name'] == 'AAPL']['volume'].mean()

54047899.73550437

# Pergunta 13

*Quantas ações tem 1, 2, 3, 4 e 5 caracteres em seu nome, respectivamente?*

In [22]:
len_shares = {share: len(share) for share in dados['Name'].unique()}

one_character = len([values for values in len_shares.values() if values == 1])
two_character = len([values for values in len_shares.values() if values == 2])
three_character = len([values for values in len_shares.values() if values == 3])
four_character = len([values for values in len_shares.values() if values == 4])
five_character = len([values for values in len_shares.values() if values == 5])

print(f'Quantidade de ações com 1 caractere: {one_character}')
print(f'Quantidade de ações com 2 caracteres: {two_character}')
print(f'Quantidade de ações com 3 caracteres: {three_character}')
print(f'Quantidade de ações com 4 caracteres: {four_character}')
print(f'Quantidade de ações com 5 caracteres: {five_character}')

Quantidade de ações com 1 caractere: 10
Quantidade de ações com 2 caracteres: 50
Quantidade de ações com 3 caracteres: 323
Quantidade de ações com 4 caracteres: 117
Quantidade de ações com 5 caracteres: 5


In [23]:
# Preguiça de comparar resultados! Vamos usar o python para fazer isso.
result = one_character, two_character, three_character, four_character, five_character

responses = {'A': (10, 5, 323, 50, 117),
             'B': (10, 117, 50, 323, 50, 5),
             'C': (10, 323, 50, 5, 117),
             'D': (10, 50, 323, 117, 5)}

[opt for opt in responses.items() if opt[1] == result][0][0]

'D'

# Pergunta 14

*Qual a ação menos negociada da bolsa, em volume de transações?*

In [65]:
dados.groupby('Name').sum().sort_values(by='volume').head(1)

Unnamed: 0_level_0,open,high,low,close,volume
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
APTV,3940.105,3984.3021,3895.707,3937.73,92947779


# Pergunta 15

*Com qual frequência o preço de fechamento é também o mais alto do dia?*

In [25]:
print('Frequência do preço mais alto no fechamento: ', end='')
print(f"{(dados[dados['close'] > dados['high']].shape[0] / dados.shape[0]) * 100:.2e}%")

Frequência do preço mais alto no fechamento: 1.62e-04%
