<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Visualização Interativa de Dados
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Google Data Studio;</li>
  <li>Dados;</li>
  <li>Relatório.</li>
</ol>

---

# **Exercícios**

## 1\. Contexto

Você é o analista de dados de um grande aeroporto. O time de operações precisa acompanhar o fluxo mensal de passageiros para tomar decisões sobre manutenção, obras, etc. Você propõe a construção de um *dashboard* de dados para auxiliar o time na tomada de decisão.

## 2\. Preparação

Carregue as bibliotecas Python de manipulação de dados.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from datetime import datetime

### **2.1. Extração**

Carregue os dados de **voos** (*flights*) e responda as perguntas abaixo:

In [2]:
flights = sns.load_dataset('flights')

In [3]:
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [4]:
flights.tail()

Unnamed: 0,year,month,passengers
139,1960,Aug,606
140,1960,Sep,508
141,1960,Oct,461
142,1960,Nov,390
143,1960,Dec,432


Responda:

 - Qual é a granularidade temporal da base de dados:
 > **Mensal**
 - Qual é o intervalo de tempo (min/max):
   > **Intervalo mínimo: 28 dias (considerando que o mês de fevereiro tem 28 dias);**
   
   > **Intervalo máximo: 4382 dias, conforme cálculo abaixo.**

In [5]:
data_inicial = pd.to_datetime('1949-01-01')
data_final = pd.to_datetime('1960-12-31')

intervalo = data_final - data_inicial

print(intervalo)


4382 days 00:00:00


### **2.2. Transformação**

Tranforme o texto da coluna `month` para sua representação numérica, exemplo: `Jan` para `1` e `Dec` para `12`.

In [6]:
# resolução

flights.head(12)

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121
5,1949,Jun,135
6,1949,Jul,148
7,1949,Aug,148
8,1949,Sep,136
9,1949,Oct,119


In [7]:
# Criando um dicionário que mapeia os nomes abreviados dos meses para números correspondentes:

month_num = {'jan': 1, 'feb': 2, 'mar': 3, 'apr': 4, 'may': 5, 'jun': 6, 'jul': 7, 'aug': 8, 'sep': 9, 'oct': 10, 'nov': 11, 'dec': 12}

# Aplicando o método map() à coluna month para transformar os nomes de meses em números correspondentes:

flights['month'] = flights['month'].str.lower().map(month_num)

In [8]:
flights.head()

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121


In [9]:
flights.tail()

Unnamed: 0,year,month,passengers
139,1960,8,606
140,1960,9,508
141,1960,10,461
142,1960,11,390
143,1960,12,432


In [10]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   year        144 non-null    int64
 1   month       144 non-null    int64
 2   passengers  144 non-null    int64
dtypes: int64(3)
memory usage: 3.5 KB


Crie uma chave temporal `year-month` no formato `YYYY-MM` através da concatenação das colunas `year` e `month`, exemplo: `1949-01`.

In [11]:
# Criando a chave temporal 'year-month' através da concatenação das colunas:

flights['year-month'] = pd.to_datetime(flights['year'].astype(str) + '-' + flights['month'].astype(str), format='%Y-%m')
flights['year-month'] = flights['year-month'].dt.to_period('M')

In [12]:
flights.head()

Unnamed: 0,year,month,passengers,year-month
0,1949,1,112,1949-01
1,1949,2,118,1949-02
2,1949,3,132,1949-03
3,1949,4,129,1949-04
4,1949,5,121,1949-05


In [13]:
flights.tail()

Unnamed: 0,year,month,passengers,year-month
139,1960,8,606,1960-08
140,1960,9,508,1960-09
141,1960,10,461,1960-10
142,1960,11,390,1960-11
143,1960,12,432,1960-12


In [14]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype    
---  ------      --------------  -----    
 0   year        144 non-null    int64    
 1   month       144 non-null    int64    
 2   passengers  144 non-null    int64    
 3   year-month  144 non-null    period[M]
dtypes: int64(3), period[M](1)
memory usage: 4.6 KB


Reordene as colunas da seguinte forma: `year-month`, `year`, `month` e `passengers`.

In [15]:
#Reordenando as colunas do dataFrame:

flights = flights[['year-month', 'year', 'month', 'passengers']]
flights.head()

Unnamed: 0,year-month,year,month,passengers
0,1949-01,1949,1,112
1,1949-02,1949,2,118
2,1949-03,1949,3,132
3,1949-04,1949,4,129
4,1949-05,1949,5,121


### **2.3. Carregamento**

Persista o DataFrame em um arquivo com o nome `flights.csv`, no formato CSV. Garanta que o índice será descartado.

In [16]:
# resolução

# Ajustando a coluna 'year-month' para o formato do Google Data Studio:

flights['year-month'] = flights['year-month'].dt.strftime('%Y-%m')
flights['year-month'] = pd.PeriodIndex(flights['year-month'], freq='M').to_timestamp()

In [None]:
flights.head()

Unnamed: 0,year-month,year,month,passengers
0,1949-01-01,1949,1,112
1,1949-02-01,1949,2,118
2,1949-03-01,1949,3,132
3,1949-04-01,1949,4,129
4,1949-05-01,1949,5,121


In [17]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   year-month  144 non-null    datetime64[ns]
 1   year        144 non-null    int64         
 2   month       144 non-null    int64         
 3   passengers  144 non-null    int64         
dtypes: datetime64[ns](1), int64(3)
memory usage: 4.6 KB


In [18]:
flights.to_csv('./flights.csv', sep=',', index=False)

## 3\. Dashboard

Conduza os items **3.1** e **3.2** no [Google Data Studio](https://datastudio.google.com/).

### **3.1. Fonte de dados**

Crie a fonte de dados `flights-data` através do *upload* do arquivo `flights.csv`.

### **3.2. Relatório**

Crie o relatório `flights-report` utilizando a fonte de dados `flights-data`. Edite o relatório conforme sua criatividade (texto, cores, etc.). Compartilhe o relatório e copie o link abaixo:

 - KPI

Crie um filtro a nível de página com a dimensão `year`. Adicione um `scorecard` com uma `métrica` que represente a `soma dos passageiros em um determinado ano`. Note que o valor do `scorecard` deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - EDA

Adicione um gráfico de série temporal (*time series chart*) utilizando com dimensão a coluna `year-month` e como métrica a soma da dimensão `passengers`. Note que o valor do gráfico deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - Link

 > Link do relatório: **https://lookerstudio.google.com/reporting/aae2d4b0-7bcd-4374-a2a6-c05be8c55799**

---