<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Visualização Interativa de Dados
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Google Data Studio;</li>
  <li>Dados;</li>
  <li>Relatório.</li>
</ol>

---

# **Exercícios**

## 1\. Contexto

Você é o analista de dados de um grande aeroporto. O time de operações precisa acompanhar o fluxo mensal de passageiros para tomar decisões sobre manutenção, obras, etc. Você propõe a construção de um *dashboard* de dados para auxiliar o time na tomada de decisão.

## 2\. Preparação

Carregue as bibliotecas Python de manipulação de dados.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

### **2.1. Extração** 

Carregue os dados de **voos** (*flights*) e responda as perguntas abaixo:

In [2]:
flights = sns.load_dataset("flights")

In [3]:
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [4]:
flights.tail()

Unnamed: 0,year,month,passengers
139,1960,Aug,606
140,1960,Sep,508
141,1960,Oct,461
142,1960,Nov,390
143,1960,Dec,432


Responda:

 - Qual é a granularidade temporal da base de dados: 
 
 **A granularidade desses dados é mensal, pois cada mês tem disponibilizado o número de passageiros durante algum período do ano.**

 - Qual é o intervalo de tempo (min/max): 
 
 **O intervalo de tempo é do ano de 1949 até 1960. Cobre um período de 12 anos.**

### **2.2. Transformação** 

Tranforme o texto da coluna `month` para sua representação numérica, exemplo: `Jan` para `1` e `Dec` para `12`.

In [5]:
flights["month"].unique()

['Jan', 'Feb', 'Mar', 'Apr', 'May', ..., 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
Length: 12
Categories (12, object): ['Jan', 'Feb', 'Mar', 'Apr', ..., 'Sep', 'Oct', 'Nov', 'Dec']

In [6]:
meses = {'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 'Jun': 6,
             'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10, 'Nov': 11, 'Dec': 12}
flights["month"] = flights["month"].map(meses)

In [7]:
flights.head()

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121


Gostaria de fazer de um jeito mais prático, no caso a função do datetime, que nem foi feito no material de apoio com o strftime, pode me auxiliar?

Crie uma chave temporal `year-month` no formato `YYYY-MM` através da concatenação das colunas `year` e `month`, exemplo: `1949-01`.

In [8]:
flights["year-month"] = flights["year"].astype(str) + '-' + flights["month"].astype(str).str.zfill(2)

In [9]:
flights.head(1)

Unnamed: 0,year,month,passengers,year-month
0,1949,1,112,1949-01


In [10]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
 3   year-month  144 non-null    object  
dtypes: category(1), int64(2), object(1)
memory usage: 4.0+ KB


Reordene as colunas da seguinte forma: `year-month`, `year`, `month` e `passengers`.

In [11]:
flights = flights[["year-month", "year", "month", "passengers"]]
flights.head()

Unnamed: 0,year-month,year,month,passengers
0,1949-01,1949,1,112
1,1949-02,1949,2,118
2,1949-03,1949,3,132
3,1949-04,1949,4,129
4,1949-05,1949,5,121


In [12]:
flights["year"].unique()

array([1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959,
       1960])

In [13]:
flights["passengers"].sum()

40363

In [14]:
# passageiros por ano
passageiros_anual = flights.groupby("year")["passengers"].sum().reset_index()
passageiros_anual.head(12)

Unnamed: 0,year,passengers
0,1949,1520
1,1950,1676
2,1951,2042
3,1952,2364
4,1953,2700
5,1954,2867
6,1955,3408
7,1956,3939
8,1957,4421
9,1958,4572


In [15]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year-month  144 non-null    object  
 1   year        144 non-null    int64   
 2   month       144 non-null    category
 3   passengers  144 non-null    int64   
dtypes: category(1), int64(2), object(1)
memory usage: 4.0+ KB


In [16]:
# Convertendo a coluna "year" para uma data, assumindo o primeiro dia do ano
flights["year"] = pd.to_datetime(flights["year"].astype(str), format='%Y')

In [17]:
flights.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   year-month  144 non-null    object        
 1   year        144 non-null    datetime64[ns]
 2   month       144 non-null    category      
 3   passengers  144 non-null    int64         
dtypes: category(1), datetime64[ns](1), int64(1), object(1)
memory usage: 4.0+ KB


### **2.3. Carregamento** 

Persista o DataFrame em um arquivo com o nome `flights.csv`, no formato CSV. Garanta que o índice será descartado.

In [18]:
flights.to_csv("flights3.csv", sep=",", index=False)

## 3\. Dashboard 

Conduza os items **3.1** e **3.2** no [Google Data Studio](https://datastudio.google.com/).

### **3.1. Fonte de dados** 

Crie a fonte de dados `flights-data` através do *upload* do arquivo `flights.csv`.

### **3.2. Relatório** 

Crie o relatório `flights-report` utilizando a fonte de dados `flights-data`. Edite o relatório conforme sua criatividade (texto, cores, etc.). Compartilhe o relatório e copie o link abaixo:

 - KPI

Crie um filtro a nível de página com a dimensão `year`. Adicione um `scorecard` com uma `métrica` que represente a `soma dos passageiros em um determinado ano`. Note que o valor do `scorecard` deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - EDA

Adicione um gráfico de série temporal (*time series chart*) utilizando com dimensão a coluna `year-month` e como métrica a soma da dimensão `passengers`. Note que o valor do gráfico deve ser dinâmico, ou seja, deve se alterar com o filtro temporal `year`.

 - Link

 > Link do relatório: **https://lookerstudio.google.com/reporting/83c377c6-eeea-4e81-8000-11e193b88125**

---