# Aula 8 - Visualiza√ß√£o de Dados

<div class="alert alert-block alert-info" style="border-left: 5px solid #0056b3;">
    <h4>üéØ Objetivos de Aprendizagem da Aula</h4>
    <ul style="margin-left: 20px;">
    <li>Entender a rela√ß√£o e o papel de matplotlib, pandas e seaborn no fluxo de trabalho de visualiza√ß√£o de dados em Python.</li>
    <li>Compreender a sintaxe b√°sica do Seaborn e como ele se integra de forma intuitiva com DataFrames do Pandas.</li>    
    <li>Criar gr√°ficos comuns, como gr√°ficos de linhas, barras, dispers√£o e histogramas.</li>
    <li>Customizar seus gr√°ficos com t√≠tulos, r√≥tulos de eixos e o uso inteligente do par√¢metro hue para adicionar mais dimens√µes √† sua visualiza√ß√£o.</li>
    </ul>
</div>

## 1.1. Uma breve introdu√ß√£o sobre visualiza√ß√£o

Antes de mergulharmos no Seaborn, √© importante entender como ele se encaixa no ecossistema de visualiza√ß√£o de dados em Python. Pense nessas tr√™s bibliotecas como membros de uma orquestra, cada um com seu papel, mas trabalhando em harmonia.

#### Pandas

- Papel: O Pandas √© o seu "maestro" que organiza e estrutura os dados. Lembra dos DataFrames que aprendemos? Eles s√£o a forma como o Pandas lida com tabelas de dados. Antes de visualizar, voc√™ precisa ter seus dados limpos e bem organizados.

- O Seaborn foi projetado para trabalhar perfeitamente com DataFrames do Pandas. Ele entende a estrutura de colunas e linhas, facilitando muito a cria√ß√£o de gr√°ficos.

#### Matplotlib

- Papel: O Matplotlib √© o "artista" principal, a base de tudo. √â a biblioteca mais antiga e fundamental para criar qualquer tipo de gr√°fico em Python. Ele oferece um controle incrivelmente granular sobre cada pixel do seu gr√°fico.

- O Seaborn √© constru√≠do EM CIMA do Matplotlib. Ele usa o Matplotlib para desenhar, mas adiciona uma camada de abstra√ß√£o e conveni√™ncia. Pense no Matplotlib como o "motor" e o Seaborn como a "carroceria bonita e com dire√ß√£o assistida". Voc√™ ainda pode usar comandos do Matplotlib para refinar gr√°ficos criados com Seaborn!

#### Seaborn

- Papel: O Seaborn √© o "estilista" da orquestra. Ele se especializa em criar gr√°ficos estat√≠sticos informativos e visualmente atraentes com pouco c√≥digo. Ele automatiza muitas das tarefas de formata√ß√£o e visualiza√ß√£o que seriam manuais no Matplotlib.

Em resumo: Voc√™ usa Pandas para preparar seus dados, Seaborn para criar a maioria dos seus gr√°ficos de forma elegante e r√°pida, e Matplotlib para ajustes finos e personaliza√ß√µes mais detalhadas quando necess√°rio.

In [None]:
# Instalando as bibliotecas
!pip install pandas seaborn matplotlib -q

## 1.2. Sintaxe B√°sica do Seaborn e a Magia com DataFrames

A sintaxe do Seaborn √© bastante intuitiva porque ela "fala a l√≠ngua" do Pandas. Em vez de passar listas de dados para os eixos X e Y, voc√™ simplesmente diz ao Seaborn qual DataFrame usar e quais colunas mapear para os eixos.

Primeiro, vamos carregar um conjunto de dados de exemplo para trabalhar. Usaremos um dataset fict√≠cio de "dados econ√¥micos" que simula informa√ß√µes do Tesouro.

In [None]:
# Importando as bibliotecas essenciais
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt # Matplotlib ainda √© √∫til para plt.show(), plt.figure(), etc.

# Criando um DataFrame fict√≠cio para nossos exemplos
# Em um cen√°rio real, voc√™ carregaria seu dados_economicos.csv aqui
# Ex: df_economicos = pd.read_csv('dados_economicos.csv')

data = {
    'Ano': range(2010, 2025),
    'PIB_Crescimento_Percent': [2.5, 4.0, 1.5, 0.8, 0.1, -3.5, 1.3, 2.0, 1.1, 0.5, -4.1, 4.6, 2.9, 3.0, 2.7],
    'Arrecadacao_Federal_Bi': [1000, 1100, 1050, 1150, 1200, 1080, 1180, 1250, 1300, 1350, 1280, 1400, 1480, 1550, 1600],
    'Populacao_Milhoes': [200, 202, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216],
    'Nivel_Confianca': ['Baixo', 'Medio', 'Alto', 'Medio', 'Baixo', 'Baixo', 'Medio', 'Alto', 'Alto', 'Medio', 'Baixo', 'Alto', 'Alto', 'Alto', 'Medio'],
    'Taxa_Juros': [10.5, 11.0, 9.5, 8.0, 7.0, 12.0, 13.0, 10.0, 9.0, 8.5, 14.0, 13.5, 12.5, 11.5, 10.0]
}
df_economicos = pd.DataFrame(data)

print("DataFrame de Dados Econ√¥micos (primeiras 5 linhas):")
display(df_economicos.head())
print("\nInforma√ß√µes do DataFrame:")
df_economicos.info()

Com esses dados organizados, vamos ver como criar alguns dos gr√°ficos mais utilizados para an√°lise de dados.

## 1.3. Histograma: Visualizando Distribui√ß√µes

Um histograma √© excelente para entender a distribui√ß√£o de uma √∫nica vari√°vel num√©rica. Ele mostra como os valores dessa vari√°vel se agrupam ou se espalham.

In [None]:
# Crie um histograma para visualizar a distribui√ß√£o da coluna PIB_Crescimento_Percent.
# Adicione um t√≠tulo e r√≥tulos adequados aos eixos.

plt.figure(figsize=(10, 6)) # Define o tamanho da figura do Matplotlib
sns.histplot(data=df_economicos, x='PIB_Crescimento_Percent', kde=True, bins=7)
# 'data' especifica o DataFrame
# 'x' especifica a coluna num√©rica para o histograma
# 'kde=True' adiciona uma linha de estimativa de densidade do kernel (suaviza a distribui√ß√£o)
# 'bins' controla o n√∫mero de "barras" no histograma

plt.title('Distribui√ß√£o do Crescimento Percentual do PIB (2010-2024)', fontsize=16)
plt.xlabel('Crescimento do PIB (%)', fontsize=12)
plt.ylabel('Frequ√™ncia', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7) # Adiciona um grid suave
plt.show()

## 1.4. Boxplot: Comparando Distribui√ß√µes entre Grupos

Um Boxplot (ou "diagrama de caixa") √© √≥timo para comparar a distribui√ß√£o de uma vari√°vel num√©rica entre diferentes categorias. Ele mostra a mediana, quartis e outliers de cada grupo.

In [None]:
# Crie um boxplot que compare as distribui√ß√µes da Arrecadacao_Federal_Bi
# para cada categoria da coluna Nivel_Confianca.

plt.figure(figsize=(10, 6))
sns.boxplot(data=df_economicos, x='Nivel_Confianca', y='Arrecadacao_Federal_Bi', palette='viridis')
# 'data' especifica o DataFrame
# 'x' especifica a coluna categ√≥rica (as caixas ser√£o criadas para cada categoria)
# 'y' especifica a coluna num√©rica (os valores dentro de cada caixa)
# 'palette' define um esquema de cores

plt.title('Arrecada√ß√£o Federal por N√≠vel de Confian√ßa', fontsize=16)
plt.xlabel('N√≠vel de Confian√ßa', fontsize=12)
plt.ylabel('Arrecada√ß√£o Federal (Bilh√µes)', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

## 1.5. Gr√°fico de Linhas: Evolu√ß√£o ao Longo do Tempo

Gr√°ficos de linhas s√£o ideais para visualizar a evolu√ß√£o de uma ou mais vari√°veis num√©ricas ao longo do tempo.

In [None]:
# Crie um gr√°fico de linhas para a evolu√ß√£o da Taxa_Juros ao longo do Ano.

plt.figure(figsize=(12, 6))
sns.lineplot(data=df_economicos, x='Ano', y='Taxa_Juros', marker='o') # 'marker' adiciona pontos nos dados
# 'x' √© a vari√°vel de tempo
# 'y' √© a vari√°vel que voc√™ quer ver a evolu√ß√£o

plt.title('Evolu√ß√£o da Taxa de Juros ao Longo dos Anos', fontsize=16)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Taxa de Juros (%)', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7) # Grid completo
plt.xticks(df_economicos['Ano']) # Garante que todos os anos sejam mostrados no eixo X
plt.show()

## 1.6. Gr√°fico de Dispers√£o (Scatter Plot): Rela√ß√£o entre Duas Vari√°veis

Um gr√°fico de dispers√£o √© usado para visualizar a rela√ß√£o entre duas vari√°veis num√©ricas. Ele pode revelar padr√µes, correla√ß√µes ou a aus√™ncia delas.

In [None]:
# Crie um gr√°fico de dispers√£o para ver a rela√ß√£o entre PIB_Crescimento_Percent e Arrecadacao_Federal_Bi.

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_economicos, x='PIB_Crescimento_Percent', y='Arrecadacao_Federal_Bi', hue='Nivel_Confianca', size='Populacao_Milhoes', sizes=(50, 400), alpha=0.7)
# 'x' e 'y' s√£o as duas vari√°veis num√©ricas
# 'hue' adiciona uma terceira dimens√£o colorindo os pontos por categoria (Nivel_Confianca)
# 'size' adiciona uma quarta dimens√£o variando o tamanho dos pontos pela Populacao_Milhoes
# 'sizes' define o intervalo de tamanho dos pontos
# 'alpha' controla a transpar√™ncia dos pontos

plt.title('Crescimento do PIB vs. Arrecada√ß√£o Federal por N√≠vel de Confian√ßa', fontsize=16)
plt.xlabel('Crescimento do PIB (%)', fontsize=12)
plt.ylabel('Arrecada√ß√£o Federal (Bilh√µes)', fontsize=12)
plt.legend(title='N√≠vel de Confian√ßa', bbox_to_anchor=(1.05, 1), loc='upper left') # Coloca a legenda fora do gr√°fico
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout() # Ajusta para evitar que a legenda se sobreponha
plt.show()

## 1.7. Customiza√ß√£o de Gr√°ficos: T√≠tulos, R√≥tulos e o Par√¢metro hue

Voc√™ j√° viu alguns exemplos de customiza√ß√£o, mas vamos refor√ßar a import√¢ncia deles e explorar mais o hue.

T√≠tulos e R√≥tulos (plt.title(), plt.xlabel(), plt.ylabel()): Essenciais para que seu gr√°fico seja autoexplicativo. Lembre-se, um gr√°fico sem r√≥tulos √© um mist√©rio, n√£o uma informa√ß√£o!

Par√¢metro hue: Uma funcionalidade poderosa do Seaborn que permite adicionar uma terceira dimens√£o categ√≥rica ao seu gr√°fico, colorindo os pontos ou barras de acordo com os valores de uma coluna. Isso √© fant√°stico para comparar grupos.

Outras customiza√ß√µes:

- plt.figure(figsize=(width, height)): Define o tamanho do gr√°fico.

- plt.xticks(rotation=angle): Rota√ß√£o dos r√≥tulos do eixo X (√∫til para nomes longos).

- plt.grid(True): Adiciona um grid ao gr√°fico.

- plt.legend(): Controla a exibi√ß√£o e posi√ß√£o da legenda.

## Exerc√≠cios

Vamos puxar dados metereol√≥gicos de Bras√≠lia via uma API e vamos coloc√°-los em uma vari√°vel chamada df_clima:

In [None]:
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

# --- 1. Definir Localiza√ß√£o, Per√≠odo e Vari√°veis ---
# Coordenadas aproximadas para Bras√≠lia, DF
latitude = -15.78
longitude = -47.93

# Vamos pegar os dados do √∫ltimo m√™s (aproximadamente 30 dias)
data_final = datetime.now() # Data de hoje
data_inicial = data_final - timedelta(days=30) # 30 dias atr√°s

# Formatar as datas para o formato YYYY-MM-DD que a API espera
str_data_inicial = data_inicial.strftime('%Y-%m-%d')
str_data_final = data_final.strftime('%Y-%m-%d')

# Vari√°veis meteorol√≥gicas que queremos (temperatura a 2m, precipita√ß√£o)
variaveis = "temperature_2m,precipitation"

# --- 2. Construir a URL da API Open-Meteo (Hist√≥rico) ---
# Usamos a API de arquivo para dados hist√≥ricos
url_open_meteo = (
    f"https://archive-api.open-meteo.com/v1/archive?"
    f"latitude={latitude}&longitude={longitude}&"
    f"start_date={str_data_inicial}&end_date={str_data_final}&"
    f"hourly={variaveis}&"
    f"timezone=America%2FSao_Paulo" # Fuso hor√°rio de Bras√≠lia
)

print(f"Buscando dados meteorol√≥gicos hist√≥ricos para Bras√≠lia em: {url_open_meteo}")

# --- 3. Fazer a Requisi√ß√£o ---
try:
    response = requests.get(url_open_meteo)
    response.raise_for_status() # Lan√ßa um erro para status de resposta ruins (4xx ou 5xx)
    dados_climaticos = response.json()
    print("Dados meteorol√≥gicos recebidos com sucesso!")

    # Inspecionar a estrutura dos dados retornados:
    # A API Open-Meteo aninha os dados dentro de uma chave 'hourly'
    # print(f"\nEstrutura dos dados (primeiras chaves): {dados_climaticos.keys()}")
    # if 'hourly' in dados_climaticos:
    #    print(f"\nChaves dentro de 'hourly': {dados_climaticos['hourly'].keys()}")

    # --- 4. Processar os Dados e Transformar em DataFrame ---
    # Os dados hor√°rios est√£o dentro do dicion√°rio 'hourly'
    if 'hourly' in dados_climaticos:
        hourly_data = dados_climaticos['hourly']
        df_clima = pd.DataFrame(hourly_data)

        print("\n--- Primeiras linhas do DataFrame de Dados Clim√°ticos ---")
        display(df_clima.head())
        print("\n--- Informa√ß√µes do DataFrame de Dados Clim√°ticos ---")
        df_clima.info()

        # Limpeza e convers√£o de tipos
        df_clima['time'] = pd.to_datetime(df_clima['time'])
        # Renomear colunas para algo mais amig√°vel, se desejar
        df_clima = df_clima.rename(columns={
            'time': 'DataHora',
            'temperature_2m': 'Temperatura_C',
            'precipitation': 'Precipitacao_mm'
        })
    else:
        print("A chave 'hourly' n√£o foi encontrada nos dados da API. Verifique a estrutura da resposta.")

except requests.exceptions.RequestException as e:
    print(f"Erro ao buscar dados da Open-Meteo: {e}. Verifique sua conex√£o ou a URL da API.")
except Exception as e:
    print(f"Ocorreu um erro inesperado ao processar os dados: {e}")

1) Fa√ßa um gr√°fico de linhas com a coluna de temperatura

2) Fa√ßa um histograma com os dados de umidade relativa

3. Investigue, visualmente, se existe alguma rela√ß√£o entre a temperatura e a umidade relativa.

4. Compare a distribui√ß√£o da temperatura em diferentes per√≠odos do dia (manh√£, tarde, noite, madrugada).

5) Calcular e visualizar a precipita√ß√£o total acumulada por dia.

## 3. Bug Hunt
Os c√≥digos abaixo possuem algum tipo de problema. Leia o c√≥digo e a mensagem de erro atentamente e tente solucionar o bug!
Descreva o erro e a solu√ß√£o com suas pr√≥prias palavras.

In [None]:
df_exemplo = pd.DataFrame({'ValorA': [1, 2, 3], 'ValorB': [4, 5, 6]})
sns.scatterplot(data=df_exemplo, x='Valor_A', y='ValorB') 
plt.show()

In [None]:
df_series = pd.DataFrame({
    'DataStr': ['2023-01-01', '2023-01-03', '2023-01-07'],
    'Valor': [10, 12, 11]
})
sns.lineplot(data=df_series, x='DataStr', y='Valor')
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(6,4))
sns.histplot(data=df_exemplo, x='ValorA', ax=ax)
ax.xlabel('Meu Eixo X') # Deve ser ax.set_xlabel()
plt.show()

## 4. Projetos para voc√™ fazer

Escolha uma fonte de dados que seja √∫til ao seu trabalho e tente fazer uma visualiza√ß√£o que seja √∫til para voc√™ usando o Seaborn.

## 5. Perguntas para discuss√£o em grupo

1) Qual a principal vantagem de usar seaborn (ex: sns.barplot(data=df, x='Regiao', y='Arrecadacao')) em vez de usar matplotlib diretamente (ex: plt.bar(lista_regioes, lista_arrecadacao))?

2) Quando seria mais apropriado usar um histograma versus um boxplot para visualizar a distribui√ß√£o de uma vari√°vel num√©rica? Quais insights diferentes cada um pode oferecer?

## 6. Sugest√µes de pesquisa

1) Explore as diversas paletas de cores dispon√≠veis no Seaborn (ex: 'viridis', 'plasma', 'Set2', 'RdBu'). Pesquise sobre paletas sequenciais, divergentes e qualitativas. Quando cada tipo seria mais apropriado?

2) Pesquise os diferentes formatos de arquivo para exportar gr√°ficos (.png, .jpg, .svg, .pdf). Quais s√£o as vantagens e desvantagens de cada um para diferentes usos (apresenta√ß√µes, relat√≥rios impressos, web)?