<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Visualização Interativa de Dados
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Google Data Studio;</li>
  <li>Dados;</li>
  <li>Relatório.</li>
</ol>

---

# **Exercícios**

## 1\. Contexto

Você é o analista de dados de um grande aeroporto. O time de operações precisa acompanhar o fluxo mensal de passageiros para tomar decisões sobre manutenção, obras, etc. Você propõe a construção de um *dashboard* de dados para auxiliar o time na tomada de decisão.

## 2\. Preparação

Carregue as bibliotecas Python de manipulação de dados.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from babel.dates import get_month_names, format_date

### **2.1. Extração**

Carregue os dados de **voos** (*flights*) e responda as perguntas abaixo:

In [None]:
flights = sns.load_dataset('flights')

In [None]:
voos = pd.DataFrame(flights)

In [None]:
voos.head(2)

In [None]:
voos.info()

In [17]:
voos.columns = ['Ano', 'Mes', 'Passageiros']

In [None]:
voos.head()

In [None]:
voos.tail()

Responda:

 - Qual é a granularidade temporal da base de dados: **?**
 - Qual é o intervalo de tempo (min/max): **?**

**Resposta:** mensal , indo de janeiro de 1949 até dezembro de 1960

### **2.2. Transformação**

Tranforme o texto da coluna `month` para sua representação numérica, exemplo: `Jan` para `1` e `Dec` para `12`.

In [None]:
# resolução

In [28]:
# Criando a coluna 'data_completa' combinando 'ano' e 'mes'
voos['data_completa'] = pd.to_datetime(voos['Ano'].astype(str) + '-' +
                                        voos['Mes'].str[:3] + '-01',
                                        format='%Y-%b-%d')

In [32]:
voos.head()

Unnamed: 0,Ano,Mes,Passageiros,data_completa
0,1949,Jan,112,1949-01-01
1,1949,Feb,118,1949-02-01
2,1949,Mar,132,1949-03-01
3,1949,Apr,129,1949-04-01
4,1949,May,121,1949-05-01


In [52]:
voos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   data_completa  144 non-null    datetime64[ns]
 1   Mes            144 non-null    category      
 2   Mes_Num        144 non-null    int8          
 3   Ano            144 non-null    int64         
 4   Passageiros    144 non-null    int64         
dtypes: category(1), datetime64[ns](1), int64(2), int8(1)
memory usage: 4.2 KB


In [41]:
voos['Mes'] = voos['Mes'].apply(lambda x: format_date(pd.to_datetime(f"2024-{x[:3]}-01"), "MMMM", locale='pt_BR.UTF-8'))

In [45]:
voos['Mes_Num'] = voos['Mes'].cat.codes + 1

In [49]:
voos.head()

Unnamed: 0,Ano,Mes,Passageiros,data_completa,Mes_Num
0,1949,janeiro,112,1949-01-01,1
1,1949,fevereiro,118,1949-02-01,2
2,1949,março,132,1949-03-01,3
3,1949,abril,129,1949-04-01,4
4,1949,maio,121,1949-05-01,5


Crie uma chave temporal `year-month` no formato `YYYY-MM` através da concatenação das colunas `year` e `month`, exemplo: `1949-01`.

In [None]:
# resolução

Reordene as colunas da seguinte forma: `year-month`, `year`, `month` e `passengers`.

In [55]:
voos.head()

Unnamed: 0,data_completa,Mes,Mes_Num,Ano,Passageiros
0,1949-01-01,janeiro,1,1949,112
1,1949-02-01,fevereiro,2,1949,118
2,1949-03-01,março,3,1949,132
3,1949-04-01,abril,4,1949,129
4,1949-05-01,maio,5,1949,121


In [54]:
Voos = voos[['data_completa', 'Passageiros']]
Voos.head()

Unnamed: 0,data_completa,Passageiros
0,1949-01-01,112
1,1949-02-01,118
2,1949-03-01,132
3,1949-04-01,129
4,1949-05-01,121


### **2.3. Carregamento**

Persista o DataFrame em um arquivo com o nome `flights.csv`, no formato CSV. Garanta que o índice será descartado.

**Observação:** Resolvi levar para o looker studio apenas data_completa e passageiros, porque ai eu faço as dimensões de tempo com base nela ja no looker

In [56]:
# resolução
Voos.to_csv('./Voos.csv', sep=',', index=False)

## 3\. Dashboard

Conduza os items **3.1** e **3.2** no [Google Data Studio](https://datastudio.google.com/).

### **3.1. Fonte de dados**

Crie a fonte de dados `flights-data` através do *upload* do arquivo `flights.csv`.

### **3.2. Relatório**

Crie o relatório `flights-report` utilizando a fonte de dados `flights-data`. Edite o relatório conforme sua criatividade (texto, cores, etc.). Compartilhe o relatório e copie o link abaixo:

 - KPI

Crie um filtro a nível de página com a dimensão `year`. Adicione um `scorecard` com uma `métrica` que represente a `soma dos passageiros em um determinado ano`. Note que o valor do `scorecard` deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - EDA

Adicione um gráfico de série temporal (*time series chart*) utilizando com dimensão a coluna `year-month` e como métrica a soma da dimensão `passengers`. Note que o valor do gráfico deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - Link

 > Link do relatório: https://lookerstudio.google.com/s/mPXX4fJT9L0

---