# ALUNOS:  João Victor Alves e Thomas Yoshihiro Kofuji




# ANÁLISE EXPLORATÓRIA DE DADOS

## Etapas: Entendimento do problema, Tratamento dos Dados, Visualização dos dados e Análise Exploratória dos Dados


## Características principais:
- Date: A data dos dados de preço das ações.
- Open: O preço de abertura da ação nessa data.
- High: O maior preço que a ação atingiu durante o pregão.
- Low: O menor preço que a ação atingiu durante o pregão.
- Close: O preço de fechamento da ação nessa data.
- Volume: O volume de negociação, ou seja, o número de ações negociadas naquela data.
- Dividends: Dividendos pagos nessa data (se houver).
- Stock Splits: Informações sobre desdobramentos de ações (se houver).
- Brand_Name: O nome da marca ou empresa.
- Ticker: Símbolo de ticker para a ação.
- Industry_Tag: A categoria de indústria ou setor ao qual a marca pertence.
- Country: O país onde a marca está sediada ou opera principalmente.

## Análises potenciais da base

- Análise do Mercado de Ações: Analisar os preços históricos das ações para identificar tendências e padrões no mercado de ações.
- Brand Performance: Avalie o desempenho de várias marcas no mercado de ações ao longo do tempo.
- Estratégias de Investimento: Desenvolver estratégias de investimento com base em dados históricos de ações de marcas específicas.
- Análise Setorial: Explore como diferentes indústrias ou setores estão se comportando no mercado de ações.
- Comparação entre países: Compare o desempenho das ações das marcas em diferentes países.
- Análise de Sentimento de Mercado: Analise os movimentos dos preços das ações em relação a notícias ou eventos que afetam marcas ou setores específicos.

## Escolha um tipo de Análise e realize a Análise Exploratória

# Qual foi a Análise escolhida?
Resposta: Comparação entre países

# Importar e visualizar a base

In [61]:
# Importar as bibliotecas necessárias para solucionar o problema
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns



In [62]:
# Importar a base de dados
df = pd.read_csv('/content/sample_data/World-Stock-Prices-Dataset.csv')

In [None]:
# Visualizar os 4 primeiras linhas da base
df.head(4)

In [None]:
# Visualizar os 4 últimas linhas da base
df.tail(4)

In [None]:
# Visualizar a quantidade de linhas e colunas da base
df.shape

## Visualizando um resumo das informações

In [None]:
# Verificando o domínio dos dados
df.info()

In [None]:
# Corrigir o domínio do campo Date
df['Date'] = pd.to_datetime(df['Date'])

In [None]:
# Contando a quantidade de valores nulos
df.isnull().sum()

In [None]:
# Verificando as informações estatísticas da base
df.describe()

In [None]:
df.describe(exclude = 'number')

A cardinalidade nos ajuda a saber a quantidade de dados distintos em uma coluna

Se tivermos muitos valores distintos, provavelmente aquela coluna não será uma boa opção para usarmos no modelo
Matematicamente, cardinalidade é o número de elementos de um conjunto
Podemos verificar a cardinalidade usando o .nunique()

In [None]:
# Verificando a cardinalidade da base
df.nunique()

## Visualizando de forma gráfica

In [None]:
# Visualizando a informação da cardinalidade de forma gráfica (eixo X = índice e eixo Y = cardinalidade ). Aplique as boas práticas de visualização de dados

cardinalidade = df.nunique()

# Criando o gráfico
fig, ax = plt.subplots(figsize=(12, 6))
bars = ax.bar(cardinalidade.index, cardinalidade.values)

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)

ax.set_title("Cardinalidade das colunas do DataFrame", fontsize=14, pad=40)
ax.set_yticks([])
ax.set_xticklabels(cardinalidade.index, rotation=75, ha="right", fontsize=10)
ax.set_ylabel('Número de valores diferentes')

for bar in bars:
    ax.annotate(
        text=str(bar.get_height()),
        xy=(bar.get_x() + bar.get_width() / 2, bar.get_height()),
        xytext=(0, 10),
        textcoords="offset points",
        ha="center", fontsize=10, fontweight="bold"
    )

fig.tight_layout()

plt.show()


In [None]:
# Visualizando a informação anterior de forma gráfica em ordem decrescente.Aplique as boas práticas de visualização de dados

df['Brand_Name'] = df['Brand_Name'].astype('category')
df['Ticker'] = df['Ticker'].astype('category')
df['Industry_Tag'] = df['Industry_Tag'].astype('category')
df['Country'] = df['Country'].astype('category')

cardinalidade = df.nunique().sort_values(ascending=False)

fig, ax = plt.subplots(figsize=(12, 6))
bars = ax.bar(cardinalidade.index, cardinalidade.values)

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)

ax.set_title('Cardinalidade das colunas do DataFrame', fontsize = 14, pad = 40)
ax.set_yticks([])
ax.set_xticklabels(cardinalidade.index, rotation = 75, ha = 'right', fontsize = 10)
ax.set_ylabel('Número de valores diferentes')

# Adicionando os valores no topo das barras com annotate
for bar in bars:
    ax.annotate(
        text=str(bar.get_height()),
        xy=(bar.get_x() + bar.get_width() / 2, bar.get_height()),
        xytext=(0, 10),
        textcoords = 'offset points',
        ha = 'center', fontsize = 10, fontweight = 'bold'
    )

# Ajustando layout e exibindo o gráfico
fig.tight_layout()
plt.show()

In [None]:
# Verificando o histograma do volume negociado por país. Aplique as boas práticas de visualização de dados

ranges = [(0, 10000)] + [(10**i, 10**(i+1)) for i in range(4, 10)]

for min_range, max_range in ranges:
    plt.figure(figsize=(10, 6))  # Define o tamanho do gráfico

    sns.histplot(x = 'Volume', hue = 'Country', data = df, bins = 20, binrange = (min_range, max_range))

    plt.title(f'Histograma do Volume ({min_range} a {max_range})')
    plt.xlabel('Volume')
    plt.ylabel('Frequência')

    plt.show()



In [None]:
# Verificando o histograma do volume negociado por país apenas para os 8 maiores volumes de negociação por país. Aplique as boas práticas de visualização de dados

top_8_volumes_per_country = df.groupby('Country', group_keys=False).apply(lambda x: x.nlargest(8, 'Volume'))

plt.figure(figsize=(12, 8))
sns.histplot(x = 'Volume', hue = 'Country', data = top_8_volumes_per_country, bins = 20, multiple = 'stack')

# Personalizar o gráfico
plt.title('Histograma dos 8 Maiores Volumes de Cada País', fontsize = 16)
plt.grid(False)
plt.xlabel('Volume', fontsize=14)
plt.ylabel('Frequência', fontsize=14)

plt.show()


## O boxplot
- Permite visualizar os percentis e valores máximo e mínimo dos dados
- Permite visualizar, além de simetria e dispersão dos dados, valores extremos (outliers)
- O valor máximo e mínimo são calculados baseado no interquartil

In [None]:
# Verificando para a coluna Volume

sns.boxplot(x=df['Volume'])
plt.title('Boxplot das coluna Volume')
plt.grid(False)
plt.xscale('log')
plt.show()

In [None]:
# Criando o boxplot para as colunas Open e Close
sns.boxplot(data=df[['Open', 'Close']], orient = 'h')
plt.xscale('log')
plt.title('Boxplot das colunas Open e Close')
plt.show()

In [None]:
# Criando o boxplot para as colunas Low e High
sns.boxplot(data=df[['Low', 'High']], orient = 'h')
plt.xscale('log')
plt.title('Boxplot das colunas Low e High')
plt.show()

In [79]:
# Determinando o interquartil

Q1_Low = df['Low'].quantile(0.25)
Q3_Low = df['Low'].quantile(0.75)

Q1_High = df['High'].quantile(0.25)
Q3_High = df['High'].quantile(0.75)

print(f'Interquartil(IQR) para a coluna Low: {Q3_Low - Q1_Low}')
print(f'Interquartil para(IQR) a coluna High: {Q3_High - Q1_High}')

Interquartil(IQR) para a coluna Low: 56.79793854749853
Interquartil para(IQR) a coluna High: 57.72670220481982


In [None]:
# Calculando o valor máximo e mínimo

print(f"Valor mínimo para a coluna Low: {df['Low'].min()}")
print(f"Valor mínimo para a coluna High: {df['High'].min()}\n")

print(f"Valor máximo para a coluna Low: {df['Low'].max()}")
print(f"Valor máximo para a coluna High: {df['High'].max()}\n")

print(f"Coluna Low - Valor mínimo range interquartil([{Q1_Low}, {Q3_Low}]): {df['Low'][(df['Low'] >= Q1_Low) & (df['Low'] <= Q3_Low)].min()}")
print(f"Coluna Low - Valor máximo range interquartil([{Q1_Low}, {Q3_Low}]): {df['Low'][(df['Low'] >= Q1_Low) & (df['Low'] <= Q3_Low)].max()}\n")

print(f"Coluna High - Valor mínimo range interquartil([{Q1_High}, {Q3_High}]): {df['High'][(df['High'] >= Q1_High) & (df['High'] <= Q3_High)].min()}")
print(f"Coluna High - Valor máximo range interquartil([{Q1_High}, {Q3_High}]): {df['High'][(df['High'] >= Q1_High) & (df['High'] <= Q3_High)].max()}")


In [None]:
# Verificando a quantidade de registros em cada intervalo (<Q1, entre Q1 e Q2, entre Q2 e Q3,>Q3) para as colunas Open e Close

Q1_Open = df['Open'].quantile(0.25)
Q2_Open = df['Open'].quantile(0.50)
Q3_Open = df['Open'].quantile(0.75)

Q1_Close = df['Close'].quantile(0.25)
Q2_Close = df['Close'].quantile(0.50)
Q3_Close = df['Close'].quantile(0.75)

# Verificando a quantidade de registros em cada intervalo para a coluna 'Open'
open_min_Q1 = df[df['Open'] < Q1_Open].shape[0]
open_Q1_Q2 = df[(df['Open'] >= Q1_Open) & (df['Open'] < Q2_Open)].shape[0]
open_Q2_Q3 = df[(df['Open'] >= Q2_Open) & (df['Open'] < Q3_Open)].shape[0]
open_Q3_max = df[df['Open'] > Q3_Open].shape[0]

# Verificando a quantidade de registros em cada intervalo para a coluna 'Close'
close_min_Q1 = df[df['Close'] < Q1_Close].shape[0]
close_Q1_Q2 = df[(df['Close'] >= Q1_Close) & (df['Close'] < Q2_Close)].shape[0]
close_Q2_Q3 = df[(df['Close'] >= Q2_Close) & (df['Close'] < Q3_Close)].shape[0]
close_max_Q3 = df[df['Close'] > Q3_Close].shape[0]

print("Distribuição de registros para a coluna 'Open':")
print(f'< Q1: {open_min_Q1}')
print(f'Q1 <= Open < Q2: {open_Q1_Q2}')
print(f'Q2 <= Open < Q3: {open_Q2_Q3}')
print(f'>= Q3: {open_Q3_max}')

print("\nDistribuição de registros para a coluna 'Close':")
print(f'< Q1: {close_min_Q1}')
print(f'Q1 <= Close < Q2: {close_Q1_Q2}')
print(f'Q2 <= Close < Q3: {close_Q2_Q3}')
print(f'>= Q3: {close_max_Q3}')

## Criando uma matriz para mostrar a correlação de cada par de variáveis
- Podemos usar do pandas o `.plotting.scatter_matrix()` ou do seaborn o `.pairplot()`

In [None]:
# Apresentar a matriz de correção da base

df_correlacao = df[['Open', 'High', 'Low', 'Close', 'Volume', 'Dividends', 'Stock Splits']]
matriz_correlacao = df_correlacao.corr()

print(matriz_correlacao)

In [None]:
# Apresentar a matriz de correlação da base plotando no pairplot

sns.pairplot(df_correlacao, diag_kind = 'kde')
plt.show()


# Colunas 'Open', 'High', 'Low', 'Close' aprensentam correlação entre si

## Visualizando apenas o KDE**
- KDE: Kernel Density Estimation
    - Mede a chance de uma variável aleatória assumir determinado valor
    - A probabilidade é dada pela integral abaixo da curva na faixa de valor selecionada
- Parece uma "versão de linha suavizada" de um histograma

In [None]:
# Fazendo o kde do volume negociado por país
fig, ax = plt.subplots(nrows = 1, ncols = 1, figsize = (12, 6), tight_layout=True)
sns.kdeplot(x = 'Volume', hue = 'Country', data = df, fill = True, ax = ax)
ax.set_title('Volume Negociado por País')
plt.grid(False)
ax.set_ylabel('Densidade')
ax.set_xscale('log')
plt.tight_layout()
plt.show()

## Heatmap de correlação

In [None]:
# Verificando a correlação entre os dados utilizando o heatmap
plt.figure(figsize = (10, 8))
sns.heatmap(matriz_correlacao, annot = True, cmap = 'coolwarm', fmt = '.6f', vmin = -1, vmax = 1)

# Exibindo o gráfico
plt.title('Heatmap da Matriz de Correlação')
plt.show()

In [None]:
# Excluir colunas desnecessárias
df.drop(columns = ['Dividends', 'Stock Splits', 'Ticker'], inplace = True)

df.info()

In [87]:
# Conclusão: identifique quais colunas (variáveis) seriam utilizadas em um modelo de aprendizagem de máquina

# Nós escolheriamos as colunas 'Open', 'Close, 'Low' e 'High' para a aprendizagem de máquina, pois essas colunas tem uma correlação entre si

## Apresente uma conclusão de acordo com a Análise escolhida, demonstrando graficamente

O volume médio de negociações varia bastante entre os países. Alguns países têm marcas com volumes médios muito mais altos do que outros, o que pode refletir o tamanho e a atividade do mercado de ações local, bem como a importância econômica do país em questão.

As marcas com maior volume médio de negociações tendem a ser empresas grandes e bem conhecidas em seus respectivos países. Essas empresas geralmente têm um histórico sólido de desempenho e são consideradas investimentos mais seguros pelos investidores, o que pode contribuir para um maior volume de negociações.

Ao analisar os gráficos para cada país, é possível identificar as marcas mais importantes e influentes em cada mercado. Essas marcas podem ser consideradas líderes em seus setores e podem ter um impacto significativo na economia local.

Nosso objetivo inicial era comparar o volume de negociação das marcas em cada país, porém, nessa base de dados cada marca só tem suas ações negociadas em um país individualmente, ou seja, não é possível fazer essa comparação entre países sob a mesma marca

In [None]:
brand_volume = df.groupby(['Country', 'Brand_Name'])['Volume'].mean().reset_index()

brand_volume = brand_volume.sort_values(by=['Country', 'Volume'], ascending=[True, False])

brand_volume.dropna(inplace = True)

for country in brand_volume['Country'].unique():

    country_data = brand_volume[brand_volume['Country'] == country]


    plt.figure(figsize = (12, 6))
    plt.bar(country_data['Brand_Name'], country_data['Volume'])
    plt.grid(False)
    plt.ylabel('Volume Médio de Negociações')
    plt.title(f'Comparação do Volume Médio de Negociações por Marca ({country})', pad = 30)
    plt.xticks(rotation = 90)
    plt.show()

In [None]:
for brand in df['Brand_Name'].unique():

    brand_data = df[df['Brand_Name'] == brand]

    unique_countries = brand_data['Country'].unique()


    print(f"Marca: {brand}")
    print(f"Países: {unique_countries}")
    print(f"Número de países: {len(unique_countries)}")
    print("-" * 100)


    '''

    Cada marca está em somente 1 país.

    '''
