## Pacotes Python Para Manipulação de Dados e Visualização

In [None]:
# Manipulação de Dados
import numpy as np
import pandas as pd
import datetime
from datetime import date, timedelta

# Plotly
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.colors import n_colors
from plotly.subplots import make_subplots

# Wordcloud
import wordcloud
from wordcloud import WordCloud
import matplotlib.pyplot as plt

## Carregando os Dados

In [None]:
# Carrega os dados
titanic = pd.read_csv('dados/titanic-train.csv')
titanic

In [None]:
# Carrega os dados
covid = pd.read_csv('dados/novel-corona-virus-2019-dataset-covid_19_data.csv')
covid

In [None]:
# Carrega os dados
world = pd.read_csv('dados/world-university-rankings-cwurData.csv')
world

### Heatmap

**Objetivo** : Exibir mapa de calor de variáveis quantitativas com uma variável numérica densa.

Como variam os preços dos bilhetes para todos os passageiros de diferentes sexos e portos de embarque no Titanic?

In [None]:
# Figura
fig = go.Figure(data = go.Heatmap(z = titanic['Fare'],
                                  x = titanic['Sex'],
                                  y = titanic['Embarked'],
                                  hoverongaps = False))

# Layout
fig.update_layout(title = 'Heatmap Preço do Ticket x Gênero de Passageiros do Titanic Por Porto de Embarque',
                  xaxis_title = "Genêro",
                  yaxis_title = "Porto de Embarque")

# Gráfico
fig.show()

### Heatmap Date Axis

**Objetivo** : Exibir mapa de calor de várias séries temporais. 

Quantas mortes suspeitas de Covid ocorreram no Brasil, EUA e Canada no mês anterior?

In [None]:
# Prepara os dados
covid['ObservationDate'] = pd.to_datetime(covid['ObservationDate'])

days_before = (date.today() - timedelta(days = 360)).isoformat()

last_month_df = covid[(covid['ObservationDate'] > days_before) & ((covid['Country/Region']=='US') | (covid['Country/Region']=='Brazil') | (covid['Country/Region']=='Canada'))]

country = last_month_df['Country/Region'].unique()

dates = pd.to_datetime(last_month_df['ObservationDate'].unique())

num_deaths=[]

for i in country:
    num_deaths.append(last_month_df[last_month_df['Country/Region']==i][['ObservationDate','Deaths']].groupby('ObservationDate').sum().reset_index()['Deaths'])


In [None]:
# Figura
fig = go.Figure(data = go.Heatmap(z = num_deaths,
                                  x = dates,
                                  y = country,
                                  colorscale = 'Viridis'))

# Layout
fig.update_layout(title = 'Mortes Por Suspeita de Covid nos Últimos 30 Dias', xaxis_nticks = 30)

# Gráfico
fig.show()

### Imshow

**Objetivo** : Exibir mapa de calor de variáveis quantitativas com uma variável numérica como densa (semelhante ao heatmap).

Qual a variação média dos preços dos bilhetes para passageiros de diferentes sexos e seu porto de embarque?

In [None]:
# Prepara os dados
emb_male = []

for i in titanic['Embarked'].unique():
    emb_male.append(titanic[(titanic['Sex']=='male') & (titanic['Embarked']==i)]['Fare'].mean())
    
emb_female = []

for j in titanic['Embarked'].unique():
    emb_female.append(titanic[(titanic['Sex']=='female') & (titanic['Embarked']==j)]['Fare'].mean())

emb = [emb_male,emb_female]

In [None]:
# Figura
fig = px.imshow(emb,
                labels = dict(x = "Porto de Embarque", y = "Gênero", color = "Valor Médio do Ticket"),
                x = titanic['Embarked'].unique(), 
                y = titanic['Sex'].unique())

# Eixos
fig.update_xaxes(side = "top")

# Gráfico
fig.show()

### Wordcloud

**Objetivo** : Exibir as palavras de uma coluna com o tamanho representando a frequência.

Quais países tem mais universidades avaliadas no dataset de avaliações de universidades?

In [None]:
# Colunas
world.columns

In [None]:
# Extrai a coluna com os países
df = world.country
df.head(10)

In [None]:
# Figura
plt.subplots(figsize = (8,8))

# Wordcloud
wordcloud = WordCloud(background_color = 'white',
                      width = 512,
                      height = 384).generate(' '.join(df))

plt.imshow(wordcloud) 
plt.axis('off') 
plt.show()