# Visualização de dados

A visualização de dados é muito importante na análise exploratória de dados (Exploratory Data Analysis - EDA). Com visualizações podemos aprender sobre nossos dados de forma mais intuitiva e podemos identificar padrões que podem ser estudados quantitativamente posteriormente.

Vamos estudar duas bibliotecas a princípio, mas todas elas funcionam de forma muito semelhante e em geral basta ler a documentação ou utilizar a função help() para obter ajuda nas funções que usamos para gerar os dados.

Para o seaborn, usei esse estudo do Kaggle como inspiração: https://www.kaggle.com/code/balraj98/visualizing-the-space-race/notebook

In [None]:
import pandas as pd
import datetime
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

In [None]:
# Importe os dados do arquivo Space_Corrected.csv como um DataFrame
dados = pd.read_csv('Space_Corrected.csv')
dados.head()

In [None]:
# A coluna Datum possui informações sobre a data de lançamento
# Para transformar a data de texto para datetime e poder obter o ano, vamos utilizar a função to_datetime
# Assim vamos obter o ano de cada lançamento e salvar em uma nova coluna
dados['Ano'] = [i.year for i in pd.to_datetime(dados['Datum'])]
# Obtenha quantos lançamentos foram realizados por ano e qual ano teve mais lançamentos
por_ano = dados.groupby('Ano').count().sort_values('Ano',ascending=False)

# O gráfico padrão da função plot() de um DataFrame é um gráfico de linhas.
por_ano.plot()

In [None]:
# Um gráfico de barras pode ser obtido utilizando a função bar() do módulo plot
por_ano[['Datum']][0:10].plot.bar()
#help(pd.DataFrame.plot.bar)

## Backends - Bibliotecas de Visualização

Ao longo de nossa jornada de programação, vamos nos deparar com diferentes bibliotecas para realizar a mesma tarefa, então podemos mudar de acordo com nossas preferências. É comum se referir à biblioteca por detrás de nossos gráficos como backend. 

Todos os gráficos que fizemos até aqui usando o módulo plot da biblioteca Pandas, ou seja, direto do DataFrame que contém os dados, utiliza a biblioteca Matplotlib como backend. Isso quer dizer que o Pandas usa a Matplotlib para produzir seus gráficos. 

Aqui vamos produzir o mesmo gráfico utilizando uma biblioteca chamada Seaborn. Entenda que é possível obter gráficos de alta qualidade com ambas as bibliotecas, ou backends.

In [None]:
# Para produzir nosso gráfico, começamos com 
# uma figura Matplotlib que vamos preencher com 
# nosso gráfico Seaborn
plt.figure(figsize=(8,18)) # nova figura
ax = sns.countplot(y=dados['Ano']) # gráfico de barras
ax.axes.set_title("Year vs. # Launches",fontsize=18) # título
ax.set_xlabel("Year",fontsize=16) # rótulos dos eixos x e y
ax.set_ylabel("# Launches",fontsize=16)
ax.tick_params(labelsize=12) # tamanho da fonte dos rótulos
plt.tight_layout() 
plt.show() # mostra o gráfico gerado



In [None]:
# O histograma permite visualizar o número de vezes que um valor se repete
# também chamado frequência daquele valor.
dados.plot.hist(bins=64)
#help(pd.DataFrame.plot.bar)

In [None]:
sns.histplot(data=dados,x = 'Ano',bins=64)

In [None]:

# Determine quantos lançamentos foram bem sucedidos
por_status = dados.groupby('Status Mission').count()

# O gráfico de pizza chama-se pie() no Matplotlib :9
por_status.plot.pie(y='Ano')
por_status

In [None]:
# Vamos agora obter como gráfico de barras

plt.figure(figsize=(6,6))
ax = sns.countplot(y="Status Mission", data=dados, order=dados["Status Mission"].value_counts().index, palette="Set2")
ax.set_xscale("log")
ax.axes.set_title("Mission Status vs. Count",fontsize=18)
ax.set_xlabel("Count",fontsize=16)
ax.set_ylabel("Mission Status",fontsize=16)
ax.tick_params(labelsize=12)
plt.tight_layout()
plt.show()



In [None]:


plt.figure(figsize=(6,6))
ax = sns.countplot(x="Status Rocket", data=dados, order=dados["Status Rocket"].value_counts().index, palette="pastel")
ax.axes.set_title("Rocket Status vs. Count",fontsize=18)
ax.set_xlabel("Count",fontsize=16)
ax.set_ylabel("Rocket Status",fontsize=16)
ax.tick_params(labelsize=12)
plt.tight_layout()
plt.show()



In [None]:
ussr_status = dados[dados['Company Name'] == 'RVSN USSR'].groupby('Status Mission').count()
ussr_status.plot.pie(y='Ano')
ussr_status

In [None]:

# Determine quantos lançamentos foram realizados por cada Company Name
# Quantos lançamentos são brasileiros (Agência Espacial Brasileira - AEB)?
por_compania = dados.groupby('Company Name').count()

por_compania.plot.pie(y='Ano')

In [None]:
plt.figure(figsize=(8,18))
ax = sns.countplot(y="Company Name", data=dados, order=dados["Company Name"].value_counts().index)
ax.set_xscale("log")
ax.axes.set_title("Company vs. # Launches (Log Scale)",fontsize=18)
ax.set_xlabel("Number of Launches (Log Scale)",fontsize=16)
ax.set_ylabel("Company Name",fontsize=16)
ax.tick_params(labelsize=12)
plt.tight_layout()
plt.show()

In [None]:
dados["Country"] = dados["Location"].apply(lambda location: location.split(", ")[-1])
dados.head()


plt.figure(figsize=(8,8))
ax = sns.countplot(y="Country", data=dados, order=dados["Country"].value_counts().index)
ax.set_xscale("log")
ax.axes.set_title("Country vs. # Launches (Log Scale)",fontsize=18)
ax.set_xlabel("Number of Launches (Log Scale)",fontsize=16)
ax.set_ylabel("Country",fontsize=16)
ax.tick_params(labelsize=12)
plt.tight_layout()
plt.show()

