<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo 07** | Python: Programação Orientada a Objetos
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>from / import / as;</li>
  <li>Módulo;</li>
  <li>Pacote;</li>
  <li>Baixando pacotes.</li>
</ol>

---

# **Exercícios**

## 0\. Preparação do ambiente

Neste exercício vamos utilizar a base de dados de ações da bolsa de valores dos EUA, a Dow Jones. Os dados estão disponíveis para *download* neste [link](https://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index). Vamos utilizar o pacote `wget` para fazer o *download* dos dados.

 - Instalando o pacote `wget` na versão 3.2.

In [1]:
!pip install wget==3.2

Defaulting to user installation because normal site-packages is not writeable
Collecting wget==3.2
  Downloading wget-3.2.zip (10 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: wget
  Building wheel for wget (pyproject.toml): started
  Building wheel for wget (pyproject.toml): finished with status 'done'
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9709 sha256=9eaa969f6e338bbbbf6bb828a9b85328a465df11e0ec2cc77c452ebb99e2eb50
  Stored in directory: c:\users\cesar santos\appdata\local\pip\cache\wheels\01\46\3b\e29ffbe4ebe614ff224bad40fc6a5773a67a163251585a13a9
Successfully built wget
Installing collected packages: wget
Successfully installed wget-


[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


 - Fazendo o download dos dados no arquivo compactado `dados.zip`.

In [None]:
import wget

wget.download(url='https://archive.ics.uci.edu/ml/machine-learning-databases/00312/dow_jones_index.zip', out='./dados.zip')

 - Descompactando os `dados` na pasta dados com o pacote nativo `zipfile`.

In [None]:
import zipfile

with zipfile.ZipFile('./dados.zip', 'r') as fp:
  fp.extractall('./dados')

Verifique a pasta dados criada, ela deve conter dois arquivos:

 - **dow_jones_index.data**: um arquivo com os dados;
 - **dow_jones_index.names**: um arquivo com a descrição completa dos dados.

É possível observar que o arquivo de dados é um arquivo separado por virgulas, o famoso `csv`. Vamos renomear o arquivo de dados para que ele tenha a extensão `csv` com o pacote nativo `os`.

- Renomeando o arquivo com o pacote nativo `os`.

In [None]:
import os

os.rename('./dados/dow_jones_index.data', './dados/dow_jones_index.csv')

Pronto! Abra o arquivo e o Google Colab irá apresentar uma visualização bem legal dos dados.

---

## 1\. Pandas

Para processar os dados, vamos utilizar o pacote `pandas` na versão `1.1.5`. A documentação completa por ser encontrada neste [link](https://pandas.pydata.org/docs/)

In [None]:
!pip3 install pandas==1.1.5

Vamos importar o pacote com o apelido (alias) `pd`.

In [16]:
import pandas as pd

df = pd.read_csv('dow_jones_index.csv', delimiter=';', on_bad_lines="skip")



Estamos prontos para ler o arquivo.

In [20]:
import pandas as pd

df = pd.read_csv('dow_jones_index.csv', on_bad_lines='skip')



O pandas trabalha com o conceito de dataframe, uma estrutura de dados com muitos métodos e atributos que aceleram o processamento de dados. Alguns exemplos:

 - Visualizando as `n` primeiras linhas:

In [21]:
df.head(n=10)

Unnamed: 0,1. Title
0,: Weekly stock data for Dow Jones Index
1,2. Source:
2,This dataset comprises data reported by the ma...
3,3. Past Usage
4,This dataset was first used in:
5,the Financial Forecasting of Dow Jones Index S...
6,We request that you provide a citation to this...
7,4. Relevant Information
8,\tBut you cannot take advantage of data from a...
9,\tend of the day. You can use the data from M...


 - Visualizando o nome das colunas:

In [22]:
df.columns.to_list()

['1. Title']

 - Verificando o número de linhas e colunas.

In [23]:
linhas, colunas = df.shape
print(f'Número de linhas: {linhas}')
print(f'Número de colunas: {colunas}')

Número de linhas: 77
Número de colunas: 1


Vamos selecionar os valores de abertura, fechamento, máximo e mínimo das ações do McDonalds, listado na Dow Jones como MCD:

 - Selecionando as linha do dataframe original `df` em que a coluna `stock` é igual a `MCD`.

In [25]:
df.columns = df.columns.str.strip()  # Remove any leading/trailing whitespace
df = df.rename(columns={'Stock': 'stock'})  # Rename if needed


 - Selecionando apenas as colunas de data e valores de ações.

In [29]:
import pandas as pd
df_mcd = pd.read_csv('dow_jones_index.csv', on_bad_lines='skip')



Excelente, o problema é que as colunas com os valores possuem o carater `$` e são do tipo texto (`object` no `pandas`).

In [30]:
df_mcd.head(n=10)

Unnamed: 0,1. Title
0,: Weekly stock data for Dow Jones Index
1,2. Source:
2,This dataset comprises data reported by the ma...
3,3. Past Usage
4,This dataset was first used in:
5,the Financial Forecasting of Dow Jones Index S...
6,We request that you provide a citation to this...
7,4. Relevant Information
8,\tBut you cannot take advantage of data from a...
9,\tend of the day. You can use the data from M...


In [31]:
df_mcd.dtypes

1. Title    object
dtype: object

Vamos limpar as colunas com o método `apply`, que permite a aplicação de uma função anônima (`lambda`) qualquer. A função `lambda` remove o caracter **$** e faz a conversão do tipo de `str` para `float`.


In [36]:
for col in ['open', 'high', 'low', 'close']:
    if col in df_mcd.columns:
        df_mcd[col] = df_mcd[col].str.replace('$', '').astype(float)
    else:
        print(f"Column '{col}' not found in DataFrame.")



Column 'open' not found in DataFrame.
Column 'high' not found in DataFrame.
Column 'low' not found in DataFrame.
Column 'close' not found in DataFrame.


Verifique novamente os dados e seus tipos.

In [37]:
df_mcd.head(n=10)

Unnamed: 0,1. Title
0,: Weekly stock data for Dow Jones Index
1,2. Source:
2,This dataset comprises data reported by the ma...
3,3. Past Usage
4,This dataset was first used in:
5,the Financial Forecasting of Dow Jones Index S...
6,We request that you provide a citation to this...
7,4. Relevant Information
8,\tBut you cannot take advantage of data from a...
9,\tend of the day. You can use the data from M...


In [38]:
df_mcd.dtypes

1. Title    object
dtype: object

Excelente, agora podemos explorar os dados visualmente.

**Agora é a sua vez!** Conduza o mesmo processo para extrair e tratar os dados da empresa Coca-Cola (`stock` column igual a `KO`).

In [39]:
# extração e tratamento dos daimport pandas as pd

# Carrega os dados (supondo que estejam num arquivo CSV)
df = pd.read_csv('dados.csv')

# Filtra os dados da Coca-Cola (stock igual a "KO")
df_ko = df[df['stock'] == 'KO']

# Converte a coluna de datas (se houver) para o formato datetime
if 'date' in df_ko.columns:
    df_ko['date'] = pd.to_datetime(df_ko['date'])

# Ordena os dados pela data, se necessário
df_ko = df_ko.sort_values(by='date')

# Visualiza as primeiras linhas para conferir
print(df_ko.head())
dos da empresa Coca-Cola.

SyntaxError: invalid syntax (3120023271.py, line 18)

---

## 2\. Seaborn

Para visualizar os dados, vamos utilizar o pacote `seaborn` na versão `0.11.1`. A documentação completa por ser encontrada neste [link](https://seaborn.pydata.org/)

In [None]:
!pip install seaborn==0.11.1

Vamos importar o pacote com o apelido (alias) `sns`.

In [None]:
import seaborn as sns

Vamos visualizar o os valores de abertura das ações ao longo do tempo.

In [None]:
plot = sns.lineplot(x="date", y="open", data=df_mcd)
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Vamos também visualizar o os valores de fechamento das ações ao longo do tempo.

In [None]:
plot = sns.lineplot(x="date", y="close", data=df_mcd)
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Para facilitar a comparação, vamo visualizar os quatro valores no mesmo gráfico.

In [None]:
plot = sns.lineplot(x="date", y="value", hue='variable', data=pd.melt(df_mcd, ['date']))
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Para finalizar, vamos salvar o gráfico numa figura.

In [None]:
plot.figure.savefig("./mcd.png")

**Agora é a sua vez,** faça o gráfico acima para a empresa Coca-Cola e salve a imagem com o nome `ko.png`.

In [None]:
# visualização dos dados da Coca-Cola.

Analise as duas imagens e escreva pelo menos um *insight* que você consegue extrair dos dados. Fique a vontade para escrever quantos *insights* você quiser.

**Insight #1**: ...

---