# Aula 8 - Visualização de Dados

<div class="alert alert-block alert-info" style="border-left: 5px solid #0056b3;">
    <h4>🎯 Objetivos de Aprendizagem da Aula</h4>
    <ul style="margin-left: 20px;">
    <li>Entender a relação e o papel de matplotlib, pandas e seaborn no fluxo de trabalho de visualização de dados em Python.</li>
    <li>Compreender a sintaxe básica do Seaborn e como ele se integra de forma intuitiva com DataFrames do Pandas.</li>    
    <li>Criar gráficos comuns, como gráficos de linhas, barras, dispersão e histogramas.</li>
    <li>Customizar seus gráficos com títulos, rótulos de eixos e o uso inteligente do parâmetro hue para adicionar mais dimensões à sua visualização.</li>
    </ul>
</div>

## 1.1. Uma breve introdução sobre visualização

Antes de mergulharmos no Seaborn, é importante entender como ele se encaixa no ecossistema de visualização de dados em Python. Pense nessas três bibliotecas como membros de uma orquestra, cada um com seu papel, mas trabalhando em harmonia.

#### Pandas

- Papel: O Pandas é o seu "maestro" que organiza e estrutura os dados. Lembra dos DataFrames que aprendemos? Eles são a forma como o Pandas lida com tabelas de dados. Antes de visualizar, você precisa ter seus dados limpos e bem organizados.

- O Seaborn foi projetado para trabalhar perfeitamente com DataFrames do Pandas. Ele entende a estrutura de colunas e linhas, facilitando muito a criação de gráficos.

#### Matplotlib

- Papel: O Matplotlib é o "artista" principal, a base de tudo. É a biblioteca mais antiga e fundamental para criar qualquer tipo de gráfico em Python. Ele oferece um controle incrivelmente granular sobre cada pixel do seu gráfico.

- O Seaborn é construído EM CIMA do Matplotlib. Ele usa o Matplotlib para desenhar, mas adiciona uma camada de abstração e conveniência. Pense no Matplotlib como o "motor" e o Seaborn como a "carroceria bonita e com direção assistida". Você ainda pode usar comandos do Matplotlib para refinar gráficos criados com Seaborn!

#### Seaborn

- Papel: O Seaborn é o "estilista" da orquestra. Ele se especializa em criar gráficos estatísticos informativos e visualmente atraentes com pouco código. Ele automatiza muitas das tarefas de formatação e visualização que seriam manuais no Matplotlib.

Em resumo: Você usa Pandas para preparar seus dados, Seaborn para criar a maioria dos seus gráficos de forma elegante e rápida, e Matplotlib para ajustes finos e personalizações mais detalhadas quando necessário.

In [None]:
# Instalando as bibliotecas
!pip install pandas seaborn matplotlib -q

## 1.2. Sintaxe Básica do Seaborn e a Magia com DataFrames

A sintaxe do Seaborn é bastante intuitiva porque ela "fala a língua" do Pandas. Em vez de passar listas de dados para os eixos X e Y, você simplesmente diz ao Seaborn qual DataFrame usar e quais colunas mapear para os eixos.

Primeiro, vamos carregar um conjunto de dados de exemplo para trabalhar. Usaremos um dataset fictício de "dados econômicos" que simula informações do Tesouro.

In [None]:
# Importando as bibliotecas essenciais
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt # Matplotlib ainda é útil para plt.show(), plt.figure(), etc.

# Criando um DataFrame fictício para nossos exemplos
# Em um cenário real, você carregaria seu dados_economicos.csv aqui
# Ex: df_economicos = pd.read_csv('dados_economicos.csv')

data = {
    'Ano': range(2010, 2025),
    'PIB_Crescimento_Percent': [2.5, 4.0, 1.5, 0.8, 0.1, -3.5, 1.3, 2.0, 1.1, 0.5, -4.1, 4.6, 2.9, 3.0, 2.7],
    'Arrecadacao_Federal_Bi': [1000, 1100, 1050, 1150, 1200, 1080, 1180, 1250, 1300, 1350, 1280, 1400, 1480, 1550, 1600],
    'Populacao_Milhoes': [200, 202, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216],
    'Nivel_Confianca': ['Baixo', 'Medio', 'Alto', 'Medio', 'Baixo', 'Baixo', 'Medio', 'Alto', 'Alto', 'Medio', 'Baixo', 'Alto', 'Alto', 'Alto', 'Medio'],
    'Taxa_Juros': [10.5, 11.0, 9.5, 8.0, 7.0, 12.0, 13.0, 10.0, 9.0, 8.5, 14.0, 13.5, 12.5, 11.5, 10.0]
}
df_economicos = pd.DataFrame(data)

print("DataFrame de Dados Econômicos (primeiras 5 linhas):")
display(df_economicos.head())
print("\nInformações do DataFrame:")
df_economicos.info()

Com esses dados organizados, vamos ver como criar alguns dos gráficos mais utilizados para análise de dados.

## 1.3. Histograma: Visualizando Distribuições

Um histograma é excelente para entender a distribuição de uma única variável numérica. Ele mostra como os valores dessa variável se agrupam ou se espalham.

In [None]:
# Crie um histograma para visualizar a distribuição da coluna PIB_Crescimento_Percent.
# Adicione um título e rótulos adequados aos eixos.

plt.figure(figsize=(10, 6)) # Define o tamanho da figura do Matplotlib
sns.histplot(data=df_economicos, x='PIB_Crescimento_Percent', kde=True, bins=7)
# 'data' especifica o DataFrame
# 'x' especifica a coluna numérica para o histograma
# 'kde=True' adiciona uma linha de estimativa de densidade do kernel (suaviza a distribuição)
# 'bins' controla o número de "barras" no histograma

plt.title('Distribuição do Crescimento Percentual do PIB (2010-2024)', fontsize=16)
plt.xlabel('Crescimento do PIB (%)', fontsize=12)
plt.ylabel('Frequência', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7) # Adiciona um grid suave
plt.show()

## 1.4. Boxplot: Comparando Distribuições entre Grupos

Um Boxplot (ou "diagrama de caixa") é ótimo para comparar a distribuição de uma variável numérica entre diferentes categorias. Ele mostra a mediana, quartis e outliers de cada grupo.

In [None]:
# Crie um boxplot que compare as distribuições da Arrecadacao_Federal_Bi
# para cada categoria da coluna Nivel_Confianca.

plt.figure(figsize=(10, 6))
sns.boxplot(data=df_economicos, x='Nivel_Confianca', y='Arrecadacao_Federal_Bi', palette='viridis')
# 'data' especifica o DataFrame
# 'x' especifica a coluna categórica (as caixas serão criadas para cada categoria)
# 'y' especifica a coluna numérica (os valores dentro de cada caixa)
# 'palette' define um esquema de cores

plt.title('Arrecadação Federal por Nível de Confiança', fontsize=16)
plt.xlabel('Nível de Confiança', fontsize=12)
plt.ylabel('Arrecadação Federal (Bilhões)', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

## 1.5. Gráfico de Linhas: Evolução ao Longo do Tempo

Gráficos de linhas são ideais para visualizar a evolução de uma ou mais variáveis numéricas ao longo do tempo.

In [None]:
# Crie um gráfico de linhas para a evolução da Taxa_Juros ao longo do Ano.

plt.figure(figsize=(12, 6))
sns.lineplot(data=df_economicos, x='Ano', y='Taxa_Juros', marker='o') # 'marker' adiciona pontos nos dados
# 'x' é a variável de tempo
# 'y' é a variável que você quer ver a evolução

plt.title('Evolução da Taxa de Juros ao Longo dos Anos', fontsize=16)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Taxa de Juros (%)', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7) # Grid completo
plt.xticks(df_economicos['Ano']) # Garante que todos os anos sejam mostrados no eixo X
plt.show()

## 1.6. Gráfico de Dispersão (Scatter Plot): Relação entre Duas Variáveis

Um gráfico de dispersão é usado para visualizar a relação entre duas variáveis numéricas. Ele pode revelar padrões, correlações ou a ausência delas.

In [None]:
# Crie um gráfico de dispersão para ver a relação entre PIB_Crescimento_Percent e Arrecadacao_Federal_Bi.

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_economicos, x='PIB_Crescimento_Percent', y='Arrecadacao_Federal_Bi', hue='Nivel_Confianca', size='Populacao_Milhoes', sizes=(50, 400), alpha=0.7)
# 'x' e 'y' são as duas variáveis numéricas
# 'hue' adiciona uma terceira dimensão colorindo os pontos por categoria (Nivel_Confianca)
# 'size' adiciona uma quarta dimensão variando o tamanho dos pontos pela Populacao_Milhoes
# 'sizes' define o intervalo de tamanho dos pontos
# 'alpha' controla a transparência dos pontos

plt.title('Crescimento do PIB vs. Arrecadação Federal por Nível de Confiança', fontsize=16)
plt.xlabel('Crescimento do PIB (%)', fontsize=12)
plt.ylabel('Arrecadação Federal (Bilhões)', fontsize=12)
plt.legend(title='Nível de Confiança', bbox_to_anchor=(1.05, 1), loc='upper left') # Coloca a legenda fora do gráfico
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout() # Ajusta para evitar que a legenda se sobreponha
plt.show()

## 1.7. Customização de Gráficos: Títulos, Rótulos e o Parâmetro hue

Você já viu alguns exemplos de customização, mas vamos reforçar a importância deles e explorar mais o hue.

Títulos e Rótulos (plt.title(), plt.xlabel(), plt.ylabel()): Essenciais para que seu gráfico seja autoexplicativo. Lembre-se, um gráfico sem rótulos é um mistério, não uma informação!

Parâmetro hue: Uma funcionalidade poderosa do Seaborn que permite adicionar uma terceira dimensão categórica ao seu gráfico, colorindo os pontos ou barras de acordo com os valores de uma coluna. Isso é fantástico para comparar grupos.

Outras customizações:

- plt.figure(figsize=(width, height)): Define o tamanho do gráfico.

- plt.xticks(rotation=angle): Rotação dos rótulos do eixo X (útil para nomes longos).

- plt.grid(True): Adiciona um grid ao gráfico.

- plt.legend(): Controla a exibição e posição da legenda.

## Exercícios

Vamos puxar dados metereológicos de Brasília via uma API e vamos colocá-los em uma variável chamada df_clima:

In [None]:
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

# --- 1. Definir Localização, Período e Variáveis ---
# Coordenadas aproximadas para Brasília, DF
latitude = -15.78
longitude = -47.93

# Vamos pegar os dados do último mês (aproximadamente 30 dias)
data_final = datetime.now() # Data de hoje
data_inicial = data_final - timedelta(days=30) # 30 dias atrás

# Formatar as datas para o formato YYYY-MM-DD que a API espera
str_data_inicial = data_inicial.strftime('%Y-%m-%d')
str_data_final = data_final.strftime('%Y-%m-%d')

# Variáveis meteorológicas que queremos (temperatura a 2m, precipitação)
variaveis = "temperature_2m,precipitation"

# --- 2. Construir a URL da API Open-Meteo (Histórico) ---
# Usamos a API de arquivo para dados históricos
url_open_meteo = (
    f"https://archive-api.open-meteo.com/v1/archive?"
    f"latitude={latitude}&longitude={longitude}&"
    f"start_date={str_data_inicial}&end_date={str_data_final}&"
    f"hourly={variaveis}&"
    f"timezone=America%2FSao_Paulo" # Fuso horário de Brasília
)

print(f"Buscando dados meteorológicos históricos para Brasília em: {url_open_meteo}")

# --- 3. Fazer a Requisição ---
try:
    response = requests.get(url_open_meteo)
    response.raise_for_status() # Lança um erro para status de resposta ruins (4xx ou 5xx)
    dados_climaticos = response.json()
    print("Dados meteorológicos recebidos com sucesso!")

    # Inspecionar a estrutura dos dados retornados:
    # A API Open-Meteo aninha os dados dentro de uma chave 'hourly'
    # print(f"\nEstrutura dos dados (primeiras chaves): {dados_climaticos.keys()}")
    # if 'hourly' in dados_climaticos:
    #    print(f"\nChaves dentro de 'hourly': {dados_climaticos['hourly'].keys()}")

    # --- 4. Processar os Dados e Transformar em DataFrame ---
    # Os dados horários estão dentro do dicionário 'hourly'
    if 'hourly' in dados_climaticos:
        hourly_data = dados_climaticos['hourly']
        df_clima = pd.DataFrame(hourly_data)

        print("\n--- Primeiras linhas do DataFrame de Dados Climáticos ---")
        display(df_clima.head())
        print("\n--- Informações do DataFrame de Dados Climáticos ---")
        df_clima.info()

        # Limpeza e conversão de tipos
        df_clima['time'] = pd.to_datetime(df_clima['time'])
        # Renomear colunas para algo mais amigável, se desejar
        df_clima = df_clima.rename(columns={
            'time': 'DataHora',
            'temperature_2m': 'Temperatura_C',
            'precipitation': 'Precipitacao_mm'
        })
    else:
        print("A chave 'hourly' não foi encontrada nos dados da API. Verifique a estrutura da resposta.")

except requests.exceptions.RequestException as e:
    print(f"Erro ao buscar dados da Open-Meteo: {e}. Verifique sua conexão ou a URL da API.")
except Exception as e:
    print(f"Ocorreu um erro inesperado ao processar os dados: {e}")

1) Faça um gráfico de linhas com a coluna de temperatura

2) Faça um histograma com os dados de umidade relativa

3. Investigue, visualmente, se existe alguma relação entre a temperatura e a umidade relativa.

4. Compare a distribuição da temperatura em diferentes períodos do dia (manhã, tarde, noite, madrugada).

5) Calcular e visualizar a precipitação total acumulada por dia.

## 3. Bug Hunt
Os códigos abaixo possuem algum tipo de problema. Leia o código e a mensagem de erro atentamente e tente solucionar o bug!
Descreva o erro e a solução com suas próprias palavras.

In [None]:
df_exemplo = pd.DataFrame({'ValorA': [1, 2, 3], 'ValorB': [4, 5, 6]})
sns.scatterplot(data=df_exemplo, x='Valor_A', y='ValorB') 
plt.show()

In [None]:
df_series = pd.DataFrame({
    'DataStr': ['2023-01-01', '2023-01-03', '2023-01-07'],
    'Valor': [10, 12, 11]
})
sns.lineplot(data=df_series, x='DataStr', y='Valor')
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(6,4))
sns.histplot(data=df_exemplo, x='ValorA', ax=ax)
ax.xlabel('Meu Eixo X') # Deve ser ax.set_xlabel()
plt.show()

## 4. Projetos para você fazer

Escolha uma fonte de dados que seja útil ao seu trabalho e tente fazer uma visualização que seja útil para você usando o Seaborn.

## 5. Perguntas para discussão em grupo

1) Qual a principal vantagem de usar seaborn (ex: sns.barplot(data=df, x='Regiao', y='Arrecadacao')) em vez de usar matplotlib diretamente (ex: plt.bar(lista_regioes, lista_arrecadacao))?

2) Quando seria mais apropriado usar um histograma versus um boxplot para visualizar a distribuição de uma variável numérica? Quais insights diferentes cada um pode oferecer?

## 6. Sugestões de pesquisa

1) Explore as diversas paletas de cores disponíveis no Seaborn (ex: 'viridis', 'plasma', 'Set2', 'RdBu'). Pesquise sobre paletas sequenciais, divergentes e qualitativas. Quando cada tipo seria mais apropriado?

2) Pesquise os diferentes formatos de arquivo para exportar gráficos (.png, .jpg, .svg, .pdf). Quais são as vantagens e desvantagens de cada um para diferentes usos (apresentações, relatórios impressos, web)?