<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo 07** | Python: Programação Orientada a Objetos
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>from / import / as;</li>
  <li>Módulo;</li>
  <li>Pacote;</li>
  <li>Baixando pacotes.</li>
</ol>

---

# **Exercícios**

## 0\. Preparação do ambiente

Neste exercício vamos utilizar a base de dados de ações da bolsa de valores dos EUA, a Dow Jones. Os dados estão disponíveis para *download* neste [link](https://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index). Vamos utilizar o pacote `wget` para fazer o *download* dos dados.

 - Instalando o pacote `wget` na versão 3.2.

In [1]:
!pip install wget==3.2

Defaulting to user installation because normal site-packages is not writeable


You should consider upgrading via the 'c:\program files\python39\python.exe -m pip install --upgrade pip' command.


 - Fazendo o download dos dados no arquivo compactado `dados.zip`.

In [3]:
import wget

wget.download(url='https://archive.ics.uci.edu/ml/machine-learning-databases/00312/dow_jones_index.zip', out='./dados.zip')

ModuleNotFoundError: No module named 'wget'

 - Descompactando os `dados` na pasta dados com o pacote nativo `zipfile`.

In [None]:
import zipfile

with zipfile.ZipFile('./dados.zip', 'r') as fp:
  fp.extractall('./dados')

FileNotFoundError: [Errno 2] No such file or directory: './dados.zip'

Verifique a pasta dados criada, ela deve conter dois arquivos:

 - **dow_jones_index.data**: um arquivo com os dados;
 - **dow_jones_index.names**: um arquivo com a descrição completa dos dados.

É possível observar que o arquivo de dados é um arquivo separado por virgulas, o famoso `csv`. Vamos renomear o arquivo de dados para que ele tenha a extensão `csv` com o pacote nativo `os`.

- Renomeando o arquivo com o pacote nativo `os`.

In [None]:
import os

os.rename('./dados/dow_jones_index.data', './dados/dow_jones_index.csv')

Pronto! Abra o arquivo e o Google Colab irá apresentar uma visualização bem legal dos dados.

---

## 1\. Pandas

Para processar os dados, vamos utilizar o pacote `pandas` na versão `1.1.5`. A documentação completa por ser encontrada neste [link](https://pandas.pydata.org/docs/)

In [None]:
!pip install pandas==1.1.5

Defaulting to user installation because normal site-packages is not writeable

You should consider upgrading via the 'c:\program files\python39\python.exe -m pip install --upgrade pip' command.



Collecting pandas==1.1.5
  Downloading pandas-1.1.5-cp39-cp39-win_amd64.whl (8.9 MB)
Collecting numpy>=1.15.4
  Downloading numpy-1.22.3-cp39-cp39-win_amd64.whl (14.7 MB)
Collecting python-dateutil>=2.7.3
  Using cached python_dateutil-2.8.2-py2.py3-none-any.whl (247 kB)
Collecting pytz>=2017.2
  Downloading pytz-2022.1-py2.py3-none-any.whl (503 kB)
Collecting six>=1.5
  Using cached six-1.16.0-py2.py3-none-any.whl (11 kB)
Installing collected packages: six, pytz, python-dateutil, numpy, pandas
Successfully installed numpy-1.22.3 pandas-1.1.5 python-dateutil-2.8.2 pytz-2022.1 six-1.16.0


Vamos importar o pacote com o apelido (alias) `pd`.

In [None]:
import pandas as pd

ModuleNotFoundError: No module named 'pandas'

Estamos prontos para ler o arquivo.

In [None]:
df = pd.read_csv('./dados/dow_jones_index.csv')

O pandas trabalha com o conceito de dataframe, uma estrutura de dados com muitos métodos e atributos que aceleram o processamento de dados. Alguns exemplos:

 - Visualizando as `n` primeiras linhas:

In [None]:
df.head(n=10)

 - Visualizando o nome das colunas:

In [None]:
df.columns.to_list()

 - Verificando o número de linhas e colunas.

In [None]:
linhas, colunas = df.shape
print(f'Número de linhas: {linhas}')
print(f'Número de colunas: {colunas}')

Vamos selecionar os valores de abertura, fechamento, máximo e mínimo das ações do McDonalds, listado na Dow Jones como MCD:

 - Selecionando as linha do dataframe original `df` em que a coluna `stock` é igual a `MCD`.

In [None]:
df_mcd = df[df['stock'] == 'MCD']

 - Selecionando apenas as colunas de data e valores de ações.

In [None]:
df_mcd = df_mcd[['date', 'open', 'high', 'low', 'close']]

Excelente, o problema é que as colunas com os valores possuem o carater `$` e são do tipo texto (`object` no `pandas`).

In [None]:
df_mcd.head(n=10)

In [None]:
df_mcd.dtypes

Vamos limpar as colunas com o método `apply`, que permite a aplicação de uma função anônima (`lambda`) qualquer. A função `lambda` remove o caracter **$** e faz a conversão do tipo de `str` para `float`.

In [None]:
for col in ['open', 'high', 'low', 'close']:
  df_mcd[col] = df_mcd[col].apply(lambda value: float(value.split(sep='$')[-1]))

Verifique novamente os dados e seus tipos.

In [None]:
df_mcd.head(n=10)

In [None]:
df_mcd.dtypes

Excelente, agora podemos explorar os dados visualmente.

**Agora é a sua vez!** Conduza o mesmo processo para extrair e tratar os dados da empresa Coca-Cola (`stock` column igual a `KO`).

In [None]:
# extração e tratamento dos dados da empresa Coca-Cola.
df_aa = df[df['stock'] == 'AA']
df_aa = df_aa[['date', 'open', 'high', 'low', 'close']]
for col in ['open', 'high', 'low', 'close']:
    df_aa[col] = df_aa[col].apply(lambda value: float(value.split(sep='$')[-1]))
print(df_aa.head)
print(df_aa.dtypes)

In [None]:
# extração e tratamento dos dados da empresa Coca-Cola.
df_ko = df[df['stock'] == 'KO']
df_ko = df_ko[['date', 'open', 'high', 'low', 'close']]
print(df_ko.head(n=10))
print(df_ko.dtypes)
for col in ['open', 'high', 'low', 'close']:
  df_ko[col] = df_ko[col].apply(lambda value: float(value.split(sep='$')[-1]))
print(df_ko.head(n=10))
print(df_ko.dtypes)

---

## 2\. Seaborn

Para visualizar os dados, vamos utilizar o pacote `seaborn` na versão `0.11.1`. A documentação completa por ser encontrada neste [link](https://seaborn.pydata.org/)

In [None]:
!pip install seaborn==0.11.1

Defaulting to user installation because normal site-packages is not writeable
Collecting seaborn==0.11.1
  Downloading seaborn-0.11.1-py3-none-any.whl (285 kB)


You should consider upgrading via the 'c:\program files\python39\python.exe -m pip install --upgrade pip' command.


Collecting scipy>=1.0
  Downloading scipy-1.8.0-cp39-cp39-win_amd64.whl (36.9 MB)
Collecting matplotlib>=2.2
  Downloading matplotlib-3.5.1-cp39-cp39-win_amd64.whl (7.2 MB)
Collecting pillow>=6.2.0
  Downloading Pillow-9.0.1-cp39-cp39-win_amd64.whl (3.2 MB)
Collecting kiwisolver>=1.0.1
  Downloading kiwisolver-1.4.0-cp39-cp39-win_amd64.whl (51 kB)
Collecting packaging>=20.0
  Downloading packaging-21.3-py3-none-any.whl (40 kB)
Collecting cycler>=0.10
  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)
Collecting fonttools>=4.22.0
  Downloading fonttools-4.31.2-py3-none-any.whl (899 kB)
Collecting pyparsing>=2.2.1
  Downloading pyparsing-3.0.7-py3-none-any.whl (98 kB)
Installing collected packages: pyparsing, pillow, packaging, kiwisolver, fonttools, cycler, scipy, matplotlib, seaborn
Successfully installed cycler-0.11.0 fonttools-4.31.2 kiwisolver-1.4.0 matplotlib-3.5.1 packaging-21.3 pillow-9.0.1 pyparsing-3.0.7 scipy-1.8.0 seaborn-0.11.1


Vamos importar o pacote com o apelido (alias) `sns`.

In [None]:
import seaborn as sns

ModuleNotFoundError: No module named 'seaborn'

Vamos visualizar o os valores de abertura das ações ao longo do tempo.

In [None]:
plot = sns.lineplot(x="date", y="open", data=df_mcd)
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Vamos também visualizar o os valores de fechamento das ações ao longo do tempo.

In [None]:
plot = sns.lineplot(x="date", y="close", data=df_mcd)
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Para facilitar a comparação, vamo visualizar os quatro valores no mesmo gráfico.

In [None]:
plot = sns.lineplot(x="date", y="value", hue='variable', data=pd.melt(df_mcd, ['date']))
_ = plot.set_xticklabels(labels=df_mcd['date'], rotation=90)

Para finalizar, vamos salvar o gráfico numa figura.

In [None]:
plot.figure.savefig("./mcd.png")

**Agora é a sua vez,** faça o gráfico acima para a empresa Coca-Cola e salve a imagem com o nome `ko.png`.

In [None]:
# visualização dos dados da Coca-Cola.
plot = sns.lineplot(
    x='date', 
    y = 'value',
    hue = 'variable',
    data = pd.melt(df_ko, ['date'])
) 

_ = plot.set_xticklabels(
    labels = df_ko['date'],
    rotation = 90
)

Analise as duas imagens e escreva pelo menos um *insight* que você consegue extrair dos dados. Fique a vontade para escrever quantos *insights* você quiser.

**Insight #1**: A oscilação entre as máximas e as mínimas parece ser maior nas ações do McDonald's do que nas ações da Coca-Cola.
**Insight #2**: Durante os meses de abril e maio de 2011, as ações do McDonald's tiveram uma valorização bem forte, mas espaçada. As ações da Coca tiveram uma rápida valorização no final de março e início de abril do mesmo ano.
**Insight #3**: A variação das ações do McDonald's (61-69) foi inferior à variação das ações da Coca (72 a 82)

---