# Projeto 4 - Análise de Ações de Empresas

# Nova seção

O conjunto de dados lista preços históricos de ações para algumas empresas encontradas no índice S&P500.

Objetivo: Analisar os dados e responder as perguntas abaixo utilizando linguagem Python.

Fonte do dataset: https://www.kaggle.com/datasets/rohitjain454/all-stocks-5yr

In [1]:
#Versão da Linguagem Python
from platform import python_version
print("Versão python utilizada neste projeto: ", python_version())

Versão python utilizada neste projeto:  3.9.13


In [2]:
#Instala o pacote watermark. 
!pip install -q -U watermark

In [3]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt
import warnings
warnings.filterwarnings("ignore")

In [4]:
# Parâmetros de configuração dos gráficos
from matplotlib import rcParams

rcParams['figure.figsize'] = 12, 4
rcParams['lines.linewidth'] = 3
rcParams['xtick.labelsize'] = 'x-large'
rcParams['ytick.labelsize'] = 'x-large'

In [5]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark --iversions

numpy     : 1.21.5
pandas    : 1.4.4
seaborn   : 0.11.2
matplotlib: 3.5.2



Carregando o Dataset

In [6]:
#Carregando o  dataset
df = pd.read_csv('all_stocks_5yr.csv')

In [7]:
# Verificando o tipo do objeto
type(df)

pandas.core.frame.DataFrame

In [8]:
#Verificando quantas linhas e colunas tem o dataset
df.shape

(619040, 7)

In [9]:
#Total de registros considerando cada coluna
df.size

4333280

In [10]:
#Verifica os tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 619040 entries, 0 to 619039
Data columns (total 7 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   date    619040 non-null  object 
 1   open    619029 non-null  float64
 2   high    619032 non-null  float64
 3   low     619032 non-null  float64
 4   close   619040 non-null  float64
 5   volume  619040 non-null  int64  
 6   Name    619040 non-null  object 
dtypes: float64(4), int64(1), object(2)
memory usage: 33.1+ MB


In [11]:
#Amostra das 5 primeiras linhas
df.head(5)

Unnamed: 0,date,open,high,low,close,volume,Name
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL
2,2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL
3,2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL


In [12]:
#Amostra das 5 últimas linhas
df.tail()

Unnamed: 0,date,open,high,low,close,volume,Name
619035,2018-02-01,76.84,78.27,76.69,77.82,2982259,ZTS
619036,2018-02-02,77.53,78.12,76.73,76.78,2595187,ZTS
619037,2018-02-05,76.64,76.92,73.18,73.83,2962031,ZTS
619038,2018-02-06,72.74,74.56,72.13,73.27,4924323,ZTS
619039,2018-02-07,72.7,75.0,72.69,73.86,4534912,ZTS


Data - no formato: aa-mm-dd
Aberto - preço das ações no mercado aberto (estes são os dados da NYSE, então tudo em USD)
Alta - Maior preço alcançado no dia
Fechamento Baixo - Menor preço alcançado no dia
Volume - Número de ações negociadas
Nome - o nome do ticker da ação

In [13]:
#Colunas dos conjunto de dados
df.columns

Index(['date', 'open', 'high', 'low', 'close', 'volume', 'Name'], dtype='object')

In [14]:
#Método value_counts() para cada tipo de dado
df.dtypes.value_counts()

float64    4
object     2
int64      1
dtype: int64

In [15]:
#Convertendo a coluna date para tipo datetime
df['date'] = pd.to_datetime(df['date'], dayfirst = True)

In [16]:
#Verificando o tipo de dado de cada coluna
df.dtypes

date      datetime64[ns]
open             float64
high             float64
low              float64
close            float64
volume             int64
Name              object
dtype: object

In [17]:
#Extraindo o mês criando uma nova variável
df['mes'] = df['date'].dt.month

In [18]:
#Extraindo o ano criando uma nova variável
df['ano'] = df['date'].dt.year

In [19]:
#Extraindo o dia criando uma nova variável
df['dia'] = df['date'].dt.day

In [20]:
#Verificando quantas linhas e colunas tem o dataset após a criação das duas novas variáveis
df.shape

(619040, 10)

In [21]:
#Verificando as colunas criadas
df.head()

Unnamed: 0,date,open,high,low,close,volume,Name,mes,ano,dia
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL,2,2013,8
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL,2,2013,11
2,2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL,2,2013,12
3,2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL,2,2013,13
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL,2,2013,14


In [22]:
#Verificando se há registros duplicados
df.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
619035    False
619036    False
619037    False
619038    False
619039    False
Length: 619040, dtype: bool

In [23]:
#Verificando se há valores ausentes
df.isnull().sum()

date       0
open      11
high       8
low        8
close      0
volume     0
Name       0
mes        0
ano        0
dia        0
dtype: int64

In [24]:
#Substituindo os valores ausentes por NAN (not an number)
df['open'].replace('', np.nan, inplace=True)
df['high'].replace('', np.nan, inplace=True)
df['low'].replace('', np.nan, inplace=True)

In [25]:
#Verificando valores NA
df.isna().sum()

date       0
open      11
high       8
low        8
close      0
volume     0
Name       0
mes        0
ano        0
dia        0
dtype: int64

In [26]:
#Excluindo as linhas que possuem valores NA da coluna 'low'
df.dropna(subset=['low'], inplace=True)

In [27]:
#Verificando valores NA
df.isna().sum()

date      0
open      3
high      0
low       0
close     0
volume    0
Name      0
mes       0
ano       0
dia       0
dtype: int64

In [28]:
#Verificando a mediana da coluna 'open'
df_mediana_open = df['open'].median()
print(df_mediana_open)

62.59


In [29]:
#Preenchendo os valores ausentes da coluna 'open' com a mediana
df['open'].fillna(df_mediana_open, inplace=True)

In [30]:
#Verificando valores NA
df.isna().sum()

date      0
open      0
high      0
low       0
close     0
volume    0
Name      0
mes       0
ano       0
dia       0
dtype: int64

In [31]:
#Verificando se há valores ausentes
df.isnull().sum()

date      0
open      0
high      0
low       0
close     0
volume    0
Name      0
mes       0
ano       0
dia       0
dtype: int64

In [32]:
#Verificando quantas linhas e colunas tem o dataset
df.shape

(619032, 10)

In [33]:
#Descrevendo algumas estatísticas das colunas numéricas
df.describe()

Unnamed: 0,open,high,low,close,volume,mes,ano,dia
count,619032.0,619032.0,619032.0,619032.0,619032.0,619032.0,619032.0,619032.0
mean,83.023235,83.778311,82.256096,83.043199,4321878.0,6.556889,2015.125194,15.726891
std,97.378543,98.207519,96.507421,97.388698,8693652.0,3.42744,1.445843,8.745223
min,1.62,1.69,1.5,1.59,101.0,1.0,2013.0,1.0
25%,40.22,40.62,39.83,40.2408,1070359.0,4.0,2014.0,8.0
50%,62.59,63.15,62.02,62.62,2082143.0,7.0,2015.0,16.0
75%,94.37,95.18,93.54,94.41,4284538.0,10.0,2016.0,23.0
max,2044.0,2067.99,2035.11,2049.0,618237600.0,12.0,2018.0,31.0


Perguntas

1- Quantas transações da apple (AAPL) tiveram?

In [34]:
#Filtrando para a transação da apple
df_apple = df[df['Name'] == 'AAPL']

In [35]:
#Calculando a quantidade de transações da apple
df1 = df_apple['Name'].value_counts()
print(df1)

AAPL    1259
Name: Name, dtype: int64


2- Quantos nomes diferentes existem no dataset?

In [36]:
#Verificando os nomes únicos no conjunto de dados
df['Name'].unique()

array(['AAL', 'AAPL', 'AAP', 'ABBV', 'ABC', 'ABT', 'ACN', 'ADBE', 'ADI',
       'ADM', 'ADP', 'ADSK', 'ADS', 'AEE', 'AEP', 'AES', 'AET', 'AFL',
       'AGN', 'AIG', 'AIV', 'AIZ', 'AJG', 'AKAM', 'ALB', 'ALGN', 'ALK',
       'ALLE', 'ALL', 'ALXN', 'AMAT', 'AMD', 'AME', 'AMGN', 'AMG', 'AMP',
       'AMT', 'AMZN', 'ANDV', 'ANSS', 'ANTM', 'AON', 'AOS', 'APA', 'APC',
       'APD', 'APH', 'APTV', 'ARE', 'ARNC', 'ATVI', 'AVB', 'AVGO', 'AVY',
       'AWK', 'AXP', 'AYI', 'AZO', 'A', 'BAC', 'BAX', 'BA', 'BBT', 'BBY',
       'BDX', 'BEN', 'BF.B', 'BHF', 'BHGE', 'BIIB', 'BK', 'BLK', 'BLL',
       'BMY', 'BRK.B', 'BSX', 'BWA', 'BXP', 'CAG', 'CAH', 'CAT', 'CA',
       'CBG', 'CBOE', 'CBS', 'CB', 'CCI', 'CCL', 'CDNS', 'CELG', 'CERN',
       'CFG', 'CF', 'CHD', 'CHK', 'CHRW', 'CHTR', 'CINF', 'CI', 'CLX',
       'CL', 'CMA', 'CMCSA', 'CME', 'CMG', 'CMI', 'CMS', 'CNC', 'CNP',
       'COF', 'COG', 'COL', 'COO', 'COP', 'COST', 'COTY', 'CPB', 'CRM',
       'CSCO', 'CSRA', 'CSX', 'CTAS', 'CTL', 'CTSH', 'CTXS

In [37]:
#Verificando quantos são os nomes únicos no conjunto de dados
df['Name'].nunique()

505

3- Qual a frequência em que o preço de fechamento é maior que o de abertura?

In [38]:
#Filtrando para o preço de fechamento maior que o preço de abertura
df3 = df[df['close'] > df['open']]

In [71]:
#Calculando quantas transações tiveram preço de fechamento maior que o preço de abertura
df3_freq = df3.value_counts().sum()
print(df3_freq)

318971


In [40]:
#calculando a quantidade total de transações
df_total = df['open'].value_counts().sum()
print(df_total)

619032


In [41]:
#Calculando a frequência em que o preço de fechamento é maior que o de abertura
freq_close_maior_open = (df3_freq / df_total) *100
print(freq_close_maior_open)

51.52738469093682


4- Quais os valores máximos das ações da AAPL?

In [42]:
#Filtrando para o nome desejado
df4 = df[df['Name'] == 'AAPL']

In [43]:
df4_open_max = df4['open'].max()
df4_high_max = df4['high'].max()
df4_low_max = df4['low'].max()
df4_close_max = df4['close'].max()
df4_volume_max = df4['volume'].max()

In [44]:
print("O valor máximo para 'open' da ação AAPL é:", df4_open_max)
print("O valor máximo para 'high' da ação AAPL é:", df4_high_max)
print("O valor máximo para 'low' da ação AAPL é:", df4_low_max)
print("O valor máximo para 'close' da ação AAPL é:", df4_close_max)
print("O valor máximo para 'volume' da ação AAPL é:", df4_volume_max)

O valor máximo para 'open' da ação AAPL é: 179.37
O valor máximo para 'high' da ação AAPL é: 180.1
O valor máximo para 'low' da ação AAPL é: 178.25
O valor máximo para 'close' da ação AAPL é: 179.26
O valor máximo para 'volume' da ação AAPL é: 266833581


5- Quais os valores da apple (AAPL) ordenados de forma decrescente?

In [45]:
#Filtrando o valores 'open' da Apple de forma decrescente
open_dec = df_apple['open'].sort_values(ascending = False)
print(open_dec)

2503    179.3700
2504    178.6100
2501    177.9000
2506    177.3000
2505    177.3000
          ...   
1355     57.0357
1310     56.2199
1308     56.0914
1356     55.9085
1307     55.4242
Name: open, Length: 1259, dtype: float64


In [46]:
#Filtrando o valores 'high' da Apple de forma decrescente
high_dec = df_apple['high'].sort_values(ascending = False)
print(high_dec)

2503    180.1000
2504    179.5800
2506    179.4400
2501    179.3900
2502    179.2500
          ...   
1354     57.8271
1308     57.4571
1355     57.3414
1356     57.1814
1307     57.0857
Name: high, Length: 1259, dtype: float64


In [47]:
#Filtrando o valores 'low' da Apple de forma decrescente
low_dec = df_apple['low'].sort_values(ascending = False)
print(low_dec)

2503    178.2500
2504    177.4100
2506    176.8200
2505    176.6016
2501    176.1400
          ...   
1310     56.0714
1308     55.8964
1306     55.6774
1356     55.5528
1307     55.0142
Name: low, Length: 1259, dtype: float64


In [48]:
#Filtrando o valores 'close' da Apple de forma decrescente
close_dec = df_apple['close'].sort_values(ascending = False)
print(close_dec)

2503    179.2600
2502    179.1000
2504    178.4600
2500    177.0900
2506    177.0400
          ...   
1354     56.8671
1356     56.6471
1355     56.2542
1306     56.0071
1307     55.7899
Name: close, Length: 1259, dtype: float64


In [49]:
#Filtrando o valores 'volume' da Apple de forma decrescente
volume_dec = df_apple['volume'].sort_values(ascending = False)
print(volume_dec)

1502    266833581
1310    242387530
1305    236138966
1407    224250866
1387    219634975
          ...    
2320     14246347
2467     14026673
1984     13596680
1965     13046445
2216     11475922
Name: volume, Length: 1259, dtype: int64


6- Qual o somatório dos volumes por dia ordenando de forma decrescente?

In [50]:
#Agrupando por dia, calculando a soma de volume diário e ordenando de forma descrescente
df_som_vol = df.groupby('date')['volume'].sum().sort_values(ascending=False)
print(df_som_vol)

date
2015-08-24    4607945196
2016-06-24    4367393052
2015-12-18    4124454411
2016-01-20    4087629753
2018-02-06    4072080890
                 ...    
2015-11-27     791154818
2014-12-24     750895627
2013-12-24     742102410
2015-12-24     736263173
2017-11-24     728261080
Name: volume, Length: 1259, dtype: int64


7- Qual o somatório dos volumes por ação ordenando de forma decrescente?

In [51]:
#Agrupando por ação, calculando a soma de volume por ação e ordenando de forma descrescente
df_som_action_decres = df.groupby('Name')['volume'].sum().sort_values(ascending=False)
print(df_som_action_decres)

Name
BAC     117884953591
AAPL     68046305767
GE       53023644686
F        43388129992
FB       43258314899
            ...     
WLTW       414734590
AZO        397585127
MTD        214489754
BHF        144878389
APTV        92947779
Name: volume, Length: 505, dtype: int64


8- Quantos nomes de ação começam com a letra 'A'?

In [52]:
#Filtrando a coluna 'Name' com as ações que começam com a letra 'A' e calculando a quantidade
df_inicia_A = df['Name'].str.startswith('A').sum()
print(df_inicia_A)

72870


9- Qual a frequencia em que o preço de fechamento foi igual ao maior preço?

In [53]:
#Filtrando por preço de fechamento igual ao maior preço
df_igual_maior_preco = df[(df['close'] == df['high'])]

In [54]:
#Calculando a quantidade de vezes em que o preço de fechamento foi igual ao maior preço
df_quantid = df_igual_maior_preco['close'].value_counts().sum()
print(df_quantid)

7420


In [55]:
df_igual_close_maior = (df_quantid / df_total) *100
print(df_igual_close_maior)

1.1986456273665982


10- Qual a data em que houve o maior aumento absoluto no preço das ações da apple?

In [56]:
#Colocando a coluna date como índice
df.set_index('date', inplace = True)

In [57]:
#Criando uma coluna com a diferença entre os preços de fechamento e abertura
df['dif'] = df['close'] - df['open']

In [58]:
#Verificando o novo índice e nova coluna criada
df.head()

Unnamed: 0_level_0,open,high,low,close,volume,Name,mes,ano,dia,dif
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL,2,2013,8,-0.32
2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL,2,2013,11,-0.43
2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL,2,2013,12,-0.18
2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL,2,2013,13,0.36
2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL,2,2013,14,-0.95


In [59]:
#Filtrando para a transação da apple
df_apple = df[df['Name'] == 'AAPL']

In [60]:
#Filtrando a coluna 'dif' em ordem decrescente e verificando os valores
df_maior_aumento_apple = df_apple['dif'].sort_values(ascending=False)
print(df_maior_aumento_apple)

date
2015-08-24    8.25
2018-02-06    8.20
2017-05-08    3.98
2014-12-09    3.93
2017-10-27    3.76
              ... 
2017-08-10   -4.58
2015-08-21   -4.67
2018-02-02   -5.50
2017-06-09   -6.21
2015-08-25   -7.37
Name: dif, Length: 1259, dtype: float64


In [61]:
#Destacando a data em que houve o maior aumento absoluto no preço das ações da apple
df_data_maior = df_apple['dif'].idxmax()
print(df_data_maior)


2015-08-24 00:00:00


11- Qual a média de volumes de transações por ação?

In [62]:
#Agrupando por ação e calculando a média de volume de transações por ação
df_media_vol_action = df.groupby('Name')['volume'].mean()
print(df_media_vol_action)

Name
A       2.338039e+06
AAL     9.390321e+06
AAP     1.078043e+06
AAPL    5.404790e+07
ABBV    7.870683e+06
            ...     
XYL     1.183141e+06
YUM     3.209032e+06
ZBH     1.297144e+06
ZION    2.621178e+06
ZTS     3.681878e+06
Name: volume, Length: 505, dtype: float64


12- Qual a quantidade de letras que o nome de cada ação possui? Agrupe os nomes das ações por quantidade de letras.

In [63]:
#Filtrando a coluna 'Name' e calculando a quantidade de letras de cada ação
df_contar_letras = df['Name'].str.len()
print(df_contar_letras)

date
2013-02-08    3
2013-02-11    3
2013-02-12    3
2013-02-13    3
2013-02-14    3
             ..
2018-02-01    3
2018-02-02    3
2018-02-05    3
2018-02-06    3
2018-02-07    3
Name: Name, Length: 619032, dtype: int64


In [64]:
#Agrupando os nomes das ações por quantidade de letras
df_letras_agrupado = df_contar_letras.value_counts()
print(df_letras_agrupado)

3    399053
4    138967
2     62144
1     12573
5      6295
Name: Name, dtype: int64


13- Qual o somatório de volumes por ação em ordem crescente?

In [65]:
#Agrupando por ação, calculando a soma de volume por ação e ordenando de forma crescente
df_som_action_cresc = df.groupby('Name')['volume'].sum().sort_values(ascending=True)
print(df_som_action_cresc)

Name
APTV        92947779
BHF        144878389
MTD        214489754
AZO        397585127
WLTW       414734590
            ...     
FB       43258314899
F        43388129992
GE       53023644686
AAPL     68046305767
BAC     117884953591
Name: volume, Length: 505, dtype: int64


14- Qual a frequência em que o preço de abertura é o mesmo de fechamento?

In [66]:
#Filtrando para o preço de fechamento igual ao preço de abertura
df_open_igual_close = df[(df['open'] == df['close'])]

In [67]:
#calculando a quantidade total de transações
df_total = df['open'].value_counts().sum()
print(df_total)

619032


In [68]:
#Calculando quantas transações tiveram preço de fechamento igual ao preço de abertura
df_freq = df_open_igual_close.value_counts().sum()
print(df_freq)

5032


In [69]:
#Calculando a frequência em que o preço de fechamento é igual ao de abertura
frequencia = (df_freq / df_total) *100
print(frequencia)

0.8128820481009059
