$$
\Huge \text{Capítulo 3}
\\
\LARGE \text{Análise de Dados com Pandas e Matplotlib}
\\[2em]
\text{Eduardo Palhares Júnior}
$$
<hr>

# 3.1 Introdução à Biblioteca Pandas

## O Poder das Bibliotecas: Por que usar Pandas?

In [None]:
import urllib.request

# ESSE BLOCO DE CÓDIGO CRIA O ARQUIVO QUE SERÁ UTILIZADO NO EXEMPLO À SEGUIR

# A URL do arquivo que você quer baixar
url = 'https://raw.githubusercontent.com/CITHA-AM/Python/refs/heads/main/Modulo%203/dados_rio.csv'

# Baixa o arquivo da URL e salva localmente com o nome 'temperaturas.txt'
urllib.request.urlretrieve(url, 'dados_rio.csv')

In [None]:
import csv

# Lista para guardar apenas os valores de temperatura
temperaturas = []

with open('dados_rio.csv', mode='r', encoding='utf-8') as arquivo:
    leitor_csv = csv.reader(arquivo)

    # Pula a primeira linha (o cabeçalho)
    next(leitor_csv)

    # Itera sobre as linhas para extrair a temperatura
    for linha in leitor_csv:
        # A temperatura está na 4ª coluna (índice 3)
        temperatura_str = linha[3]
        temperaturas.append(float(temperatura_str))

# Agora, calculamos a média manualmente
media = sum(temperaturas) / len(temperaturas)

print(f"A temperatura média da água é: {media:.2f}°C")

In [None]:
import pandas as pd

# 1. Ler o arquivo CSV diretamente para um DataFrame
# O 'pd' é o apelido padrão para o pandas
df = pd.read_csv('dados_rio.csv')

# 2. Calcular a média da coluna 'temperatura_c'
media_pandas = df['temperatura_c'].mean()

print(f"A temperatura média (calculada com Pandas) é: {media_pandas:.2f}°C")

## Series e DataFrames: As Estruturas Fundamentais

### A Series: A Coluna Inteligente

In [None]:
import pandas as pd

# Criando uma Series a partir de uma lista Python
dados_peixes = [120, 85, 98]
lagos = ["Lago do Puraquequara", "Lago do Janauari", "Lago do Tarumã-Açu"]

# Criando a Series com índices personalizados
s_peixes = pd.Series(data=dados_peixes, index=lagos)

print("Dados da Contagem de Espécies de Peixes:")
print(s_peixes)

### O DataFrame: A Tabela Superpoderosa

In [None]:
import pandas as pd

# Dicionário com os dados da pesquisa
dados_lagos = {
    'especies_peixes': [120, 85, 98],
    'ph_agua': [6.5, 6.8, 6.2],
    'turbidez_ntu': [4.5, 3.1, 5.8]
}

# Lista com os nomes dos lagos para usar como índice
nomes_lagos = ["Lago do Puraquequara", "Lago do Janauari", "Lago do Tarumã-Açu"]

# Criando o DataFrame
df_lagos = pd.DataFrame(dados_lagos, index=nomes_lagos)

print("Tabela de Monitoramento da Qualidade da Água e Biodiversidade:")
print(df_lagos)

In [None]:
# Selecionando uma única coluna do DataFrame
coluna_ph = df_lagos['ph_agua']

print("A coluna 'ph_agua' é do tipo:")
print(type(coluna_ph))
print("\nConteúdo da coluna:")
print(coluna_ph)

## Lendo Dados de Arquivos com Pandas

In [None]:
import urllib.request

# ESSE BLOCO DE CÓDIGO CRIA O ARQUIVO QUE SERÁ UTILIZADO NO EXEMPLO À SEGUIR

# A URL do arquivo que você quer baixar
url = 'https://raw.githubusercontent.com/CITHA-AM/Python/refs/heads/main/Modulo%203/producao_acai.csv'

# Baixa o arquivo da URL e salva localmente com o nome 'temperaturas.txt'
urllib.request.urlretrieve(url, 'producao_acai.csv')

In [None]:
import pandas as pd

# Usamos a função read_csv para ler o arquivo
# O Pandas identifica automaticamente o cabeçalho e as colunas
df_acai = pd.read_csv('producao_acai.csv')

# Vamos imprimir o DataFrame para ver o resultado
print("Dados de Produção de Açaí:")
print(df_acai)

### Ajustando a Leitura com Parâmetros

In [None]:
import urllib.request

# ESSE BLOCO DE CÓDIGO CRIA O ARQUIVO QUE SERÁ UTILIZADO NO EXEMPLO À SEGUIR

# A URL do arquivo que você quer baixar
url = 'https://raw.githubusercontent.com/CITHA-AM/Python/refs/heads/main/Modulo%203/dados_solo.csv'

# Baixa o arquivo da URL e salva localmente com o nome 'temperaturas.txt'
urllib.request.urlretrieve(url, 'dados_solo.csv')

In [None]:
import pandas as pd

# Especificamos que o delimitador é um ponto e vírgula
df_solo = pd.read_csv('dados_solo.csv', delimiter=';')

print("Dados de Qualidade do Solo:")
print(df_solo)

### Salvando Dados em Arquivos

In [None]:
import pandas as pd

# Supondo que 'df_acai' já foi carregado
# Agrupamos os dados por local e calculamos a média da produção
resumo_producao = df_acai.groupby('local')['producao_toneladas'].mean().reset_index()

print("Resumo a ser salvo:")
print(resumo_producao)

# Salvando o DataFrame em um novo arquivo CSV
resumo_producao.to_csv('resumo_acai_por_estado.csv')

print("\nArquivo 'resumo_acai_por_estado.csv' salvo com sucesso!")

# 3.2 Inspeção e Manipulação de Dados

## Primeiros Passos: Inspecionando seu DataFrame

In [None]:
import urllib.request

# ESSE BLOCO DE CÓDIGO CRIA O ARQUIVO QUE SERÁ UTILIZADO NO EXEMPLO À SEGUIR

# A URL do arquivo que você quer baixar
url = 'https://raw.githubusercontent.com/CITHA-AM/Python/refs/heads/main/Modulo%203/coleta_peixes.csv'

# Baixa o arquivo da URL e salva localmente com o nome 'temperaturas.txt'
urllib.request.urlretrieve(url, 'coleta_peixes.csv')

In [None]:
import pandas as pd

# Carregando os dados do arquivo CSV para o nosso DataFrame
df_peixes = pd.read_csv('coleta_peixes.csv')

# Exibindo o DataFrame completo para confirmar que carregou
print(df_peixes)

### Dando uma Espiada: .head() e .tail()

In [None]:
# Mostrando as 3 primeiras linhas
print("--- Primeiras 3 linhas com .head(3) ---")
print(df_peixes.head(3))

# Mostrando as 2 últimas linhas
print("\n--- Últimas 2 linhas com .tail(2) ---")
print(df_peixes.tail(2))

### Qual o Tamanho do Desafio? Conhecendo as Dimensões com .shape

In [None]:
# Obtendo as dimensões do nosso DataFrame
dimensoes = df_peixes.shape

print(f"O DataFrame tem {dimensoes[0]} linhas (observações) e {dimensoes[1]} colunas (variáveis).")

### A Ficha Técnica Completa: O Poder do .info()

In [None]:
# Obtendo um resumo completo do DataFrame
print("--- Resumo técnico do DataFrame com .info() ---")
df_peixes.info()

## Seleção e Filtragem de Dados

### A Lupa do Detetive: Selecionando Colunas

In [None]:
import pandas as pd

dados = {
    'local': ['Encontro das Águas', 'Frente a Manaus', 'Lago Janauari', 'Parintins', 'Frente a Manaus', 'Lago Janauari', 'Encontro das Águas'],
    'especie': ['Tambaqui', 'Tucunaré', 'Pirarucu', 'Tambaqui', 'Jaraqui', 'Tucunaré', 'Pirarucu'],
    'quantidade': [45.0, 22.0, 10.0, 56.0, 89.0, 15.0, None],
    'ph_agua': [6.8, 6.5, 7.1, None, 6.6, 7.0, 6.9]
}
df_peixes = pd.DataFrame(dados)

# Selecionando a coluna 'especie'
coluna_especies = df_peixes['especie']

print("--- Conteúdo da Coluna 'especie' ---")
print(coluna_especies)

print("\nTipo do objeto retornado:")
print(type(coluna_especies))

Selecionando Múltiplas Colunas

In [None]:
# Para selecionar múltiplas colunas, usamos uma lista de nomes
colunas_selecionadas = df_peixes[['local', 'quantidade']]

print("--- DataFrame com as colunas 'local' e 'quantidade' ---")
print(colunas_selecionadas)

print("\nTipo do objeto retornado:")
print(type(colunas_selecionadas))

### Pinças de Precisão: Selecionando Linhas com .loc e .iloc

Seleção por Rótulo com .loc

In [None]:
import pandas as pd

dados_lagos = {
    'especies_peixes': [120, 85, 98],
    'ph_agua': [6.5, 6.8, 6.2],
    'turbidez_ntu': [4.5, 3.1, 5.8]
}
nomes_lagos = ["Lago do Puraquequara", "Lago do Janauari", "Lago do Tarumã-Açu"]
df_lagos = pd.DataFrame(dados_lagos, index=nomes_lagos)

print("--- DataFrame com Índice Nominal ---")
print(df_lagos)

# Usando .loc para selecionar a linha com o rótulo "Lago do Janauari"
dados_janauari = df_lagos.loc["Lago do Janauari"]

print("\n--- Dados apenas do Lago do Janauari ---")
print(dados_janauari)

Seleção por Posição com .iloc

In [None]:
# Selecionando a primeira linha (posição 0) do df_peixes
primeira_linha = df_lagos.iloc[0]
print("--- Primeira Linha do DataFrame (posição 0) ---")
print(primeira_linha)

# Selecionando a terceira linha (posição 2)
terceira_linha = df_lagos.iloc[2]
print("\n--- Terceira Linha do DataFrame (posição 2) ---")
print(terceira_linha)

# Selecionando um intervalo de linhas (da posição 1 à 2)
intervalo_linhas = df_lagos.iloc[1:3]
print("\n--- Linhas da Posição 1 até a 2 ---")
print(intervalo_linhas)

### A Peneira Fina: Filtragem por Condições

Filtragem com uma Única Condição

In [None]:
# Passo 1: Criar a máscara booleana
# Isso cria uma Series de True/False
mascara_alta_quantidade = df_peixes['quantidade'] > 50
print("--- Máscara Booleana (Quantidade > 50) ---")
print(mascara_alta_quantidade)

# Passo 2: Aplicar a máscara ao DataFrame
coletas_grandes = df_peixes[mascara_alta_quantidade]
print("\n--- Coletas com mais de 50 indivíduos ---")
print(coletas_grandes)

Filtragem com Múltiplas Condições

In [None]:
# Criando as duas máscaras separadamente
mascara_ph_acido = df_peixes['ph_agua'] < 6.7
mascara_pirarucu = df_peixes['especie'] == 'Pirarucu'

# Combinando as máscaras com o operador OU (|)
registros_importantes = df_peixes[mascara_ph_acido | mascara_pirarucu]

print("--- Registros com pH ácido OU da espécie Pirarucu ---")
print(registros_importantes)

## Lidando com Dados Ausentes (Missing Data)

### Detecção: Onde Estão as Lacunas?

In [None]:
import pandas as pd
import numpy as np # Usaremos numpy para inserir NaN de forma controlada

# Recriando nosso DataFrame para o exemplo
dados = {
    'local': ['Encontro das Águas', 'Frente a Manaus', 'Lago Janauari', 'Parintins', 'Frente a Manaus', 'Lago Janauari', 'Encontro das Águas'],
    'especie': ['Tambaqui', 'Tucunaré', 'Pirarucu', 'Tambaqui', 'Jaraqui', 'Tucunaré', 'Pirarucu'],
    'quantidade': [45.0, 22.0, 10.0, 56.0, 89.0, 15.0, np.nan],
    'ph_agua': [6.8, 6.5, 7.1, np.nan, 6.6, 7.0, 6.9]
}
df_peixes = pd.DataFrame(dados)

# Usando .isnull().sum() para contar os dados ausentes
dados_ausentes = df_peixes.isnull().sum()

print("--- Contagem de Dados Ausentes por Coluna ---")
print(dados_ausentes)

### Estratégia 1: Removendo Dados Ausentes com .dropna()

In [None]:
# Criando uma cópia limpa do DataFrame removendo todas as linhas
# que contenham pelo menos um valor NaN.
df_completo = df_peixes.dropna()

print("--- DataFrame Original ---")
print(df_peixes)

print("\n--- DataFrame Após .dropna() ---")
print(df_completo)

### Estratégia 2: Preenchendo Dados Ausentes com .fillna()

Preenchendo com um Valor Fixo

In [None]:
# Criando uma cópia para não alterar o DataFrame original
df_preenchido = df_peixes.copy()

# Preenchendo o NaN na coluna 'quantidade' com o valor 0
df_preenchido['quantidade'] = df_preenchido['quantidade'].fillna(0)

print(df_preenchido)

Preenchendo com a Média ou Mediana

In [None]:
# Primeiro, calculamos a média da coluna (o Pandas ignora os NaNs no cálculo)
media_ph = df_peixes['ph_agua'].mean()
print(f"A média do pH calculada é: {media_ph:.2f}\n")

# Agora, preenchemos o NaN da coluna 'ph_agua' com a média
df_preenchido['ph_agua'] = df_preenchido['ph_agua'].fillna(media_ph)

print(df_preenchido)

## Modificando o DataFrame

### Criando Novas Colunas a Partir de Operações

In [None]:
import pandas as pd

# Criando um DataFrame com os dados da pesquisa de campo
dados_floresta = {
    'id': ['A1', 'A2', 'B1', 'B2'],
    'quantidade': [450, 510, 480, 530],
    'area': [2.0, 2.2, 2.1, 2.3]
}
df_floresta = pd.DataFrame(dados_floresta)

print("--- DataFrame Original ---")
print(df_floresta)

# Criando a nova coluna 'densidade_arvores'
# A operação é feita para todas as linhas de uma só vez!
df_floresta['densidade'] = df_floresta['quantidade'] / df_floresta['area']

print("\n--- DataFrame com a Nova Coluna de Densidade ---")
print(df_floresta)

### Renomeando Colunas para Maior Clareza

In [None]:
import pandas as pd

# DataFrame com nomes de colunas pouco claros
dados_sensor = {
    'location': ['Encontro das Águas', 'Lago Janauari'],
    'ph_val': [6.8, 7.1],
    'turb_ntu': [5.2, 3.1]
}
df_sensor = pd.DataFrame(dados_sensor)

# Usamos .rename() com um dicionário para mapear os nomes antigos para os novos
df_sensor_renomeado = df_sensor.rename(columns={
    'location': 'local_coleta',
    'ph_val': 'valor_ph',
    'turb_ntu': 'turbidez_ntu'
})

print("--- DataFrame Original ---")
print(df_sensor)

print("\n--- DataFrame com Colunas Renomeadas ---")
print(df_sensor_renomeado)

### Removendo Colunas Desnecessárias

In [None]:
import pandas as pd

# DataFrame com colunas a serem removidas
dados_completos = {
    'cod_coleta': ['C01', 'C02', 'C03'],
    'local': ['Parintins', 'Maués', 'Itacoatiara'],
    'especie': ['Tambaqui', 'Pirarucu', 'Tucunaré'],
    'timestamp': [1672531200, 1672617600, 1672704000]
}
df_completo = pd.DataFrame(dados_completos)

# Removendo uma lista de colunas com o método .drop()
# O argumento 'axis=1' informa ao Pandas que queremos remover colunas, não linhas
df_simplificado = df_completo.drop(columns=['cod_coleta', 'timestamp'])

print("--- DataFrame Original ---")
print(df_completo)

print("\n--- DataFrame Após Remover Colunas ---")
print(df_simplificado)

# 3.3 Análise e Agregação de Dados

## Cálculos Estatísticos Básicos: O Primeiro Raio-X dos Seus Dados

In [None]:
import pandas as pd
import numpy as np

# Recriando o DataFrame já com os dados ausentes tratados
dados = {
    'local': ['Encontro das Águas', 'Frente a Manaus', 'Lago Janauari', 'Parintins', 'Frente a Manaus', 'Lago Janauari', 'Encontro das Águas'],
    'especie': ['Tambaqui', 'Tucunaré', 'Pirarucu', 'Tambaqui', 'Jaraqui', 'Tucunaré', 'Pirarucu'],
    'quantidade': [45.0, 22.0, 10.0, 56.0, 89.0, 15.0, 0.0], # NaN preenchido com 0
    'ph_agua': [6.8, 6.5, 7.1, 6.82, 6.6, 7.0, 6.9] # NaN preenchido com a média
}
df_peixes = pd.DataFrame(dados)

# 1. Qual a quantidade total de peixes avistados? .sum()
total_peixes = df_peixes['quantidade'].sum()
print(f"Total de peixes avistados: {total_peixes}")

# 2. Qual foi a média de pH da água? .mean()
media_ph = df_peixes['ph_agua'].mean()
print(f"Média do pH da água: {media_ph:.2f}")

# 3. Qual o valor mediano da contagem de peixes? .median()
mediana_peixes = df_peixes['quantidade'].median()
print(f"Mediana da quantidade de peixes: {mediana_peixes}")

# 4. Qual foi a maior e a menor quantidade de peixes registrada? .max() e .min()
max_peixes = df_peixes['quantidade'].max()
min_peixes = df_peixes['quantidade'].min()
print(f"Maior contagem em um local: {max_peixes}")
print(f"Menor contagem em um local: {min_peixes}")

# 5. Quantas medições de pH foram realizadas? .count()
contagem_medicoes = df_peixes['ph_agua'].count()
print(f"Total de medições de pH: {contagem_medicoes}")

### A Ferramenta Definitiva: Resumo Estatístico com .describe()

In [None]:
# Gerando o resumo estatístico completo
resumo_estatistico = df_peixes.describe()

print("--- Resumo Estatístico do DataFrame ---")
print(resumo_estatistico)

## Agrupamento de Dados (groupby)

### Agrupando por uma Única Coluna

In [None]:
import pandas as pd
import numpy as np

# Recriando o DataFrame já com os dados ausentes tratados
dados = {
    'local': ['Encontro das Águas', 'Frente a Manaus', 'Lago Janauari', 'Parintins', 'Frente a Manaus', 'Lago Janauari', 'Encontro das Águas'],
    'especie': ['Tambaqui', 'Tucunaré', 'Pirarucu', 'Tambaqui', 'Jaraqui', 'Tucunaré', 'Pirarucu'],
    'quantidade': [45.0, 22.0, 10.0, 56.0, 89.0, 15.0, 0.0], # NaN preenchido com 0
    'ph_agua': [6.8, 6.5, 7.1, 6.82, 6.6, 7.0, 6.9] # NaN preenchido com a média
}
df_peixes = pd.DataFrame(dados)

# 1. Dividir: Agrupamos o DataFrame pela coluna 'especie'
# 2. Aplicar: Selecionamos a coluna 'quantidade' e aplicamos a soma (.sum())
# 3. Combinar: O Pandas combina os resultados em uma nova Series
contagem_por_especie = df_peixes.groupby('especie')['quantidade'].sum()

print("--- Contagem Total de Peixes por Espécie ---")
print(contagem_por_especie)

### Aplicando Múltiplas Agregações com .agg()

In [None]:
# Agrupamos por 'especie', selecionamos 'quantidade' e aplicamos .agg()
resumo_especies = df_peixes.groupby('especie')['quantidade'].agg(['sum', 'mean', 'max'])

print("--- Resumo Agregado por Espécie ---")
print(resumo_especies)

### Agrupando por Múltiplas Colunas

In [None]:
# Agrupamos por uma lista de colunas: ['local', 'especie']
media_por_local_especie = df_peixes.groupby(['local', 'especie'])['quantidade'].mean()

print("--- Média de Peixes por Local e Espécie ---")
print(media_por_local_especie)

# 3.4 Visualização de Dados com Matplotlib

## Gráficos Essenciais: Linhas e Barras

### Gráficos de Linha: Mostrando Tendências ao Longo do Tempo

In [None]:
import urllib.request

# ESSE BLOCO DE CÓDIGO CRIA O ARQUIVO QUE SERÁ UTILIZADO NO EXEMPLO À SEGUIR

# A URL do arquivo que você quer baixar
url = 'https://raw.githubusercontent.com/CITHA-AM/Python/refs/heads/main/Modulo%203/nivel_rio.csv'

# Baixa o arquivo da URL e salva localmente com o nome 'temperaturas.txt'
urllib.request.urlretrieve(url, 'nivel_rio.csv')

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carregar os dados para um DataFrame
df_rio = pd.read_csv('nivel_rio.csv')

# Criar o gráfico de linha usando o método .plot() do Pandas
# O Pandas usa o Matplotlib por baixo dos panos para criar o gráfico
df_rio.plot(kind='line', x='mes', y='nivel_m', marker='o')

# Customizando o gráfico com funções do Matplotlib
plt.title('Nível Médio Mensal do Rio na Bacia Amazônica')
plt.xlabel('Mês')
plt.ylabel('Nível (metros)')
plt.xticks(ticks=df_rio.index, labels=df_rio['mes'], rotation=45) # Incluí os meses como rótulo do eixo x e rotaciona para melhor vizualização
plt.grid(True) # Adiciona uma grade para facilitar a leitura
plt.tight_layout() # Ajusta o gráfico para caber tudo

# Exibir o gráfico
plt.show()

### Gráficos de Barras: Comparando Categorias

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Recriando o DataFrame de peixes já limpo
dados = {
    'local': ['Encontro das Águas', 'Frente a Manaus', 'Lago Janauari', 'Parintins', 'Frente a Manaus', 'Lago Janauari', 'Encontro das Águas'],
    'especie': ['Tambaqui', 'Tucunaré', 'Pirarucu', 'Tambaqui', 'Jaraqui', 'Tucunaré', 'Pirarucu'],
    'quantidade': [45.0, 22.0, 10.0, 56.0, 89.0, 15.0, 0.0]
}
df_peixes = pd.DataFrame(dados)

# 1. Agrupar os dados para obter a soma por espécie (Análise)
contagem_por_especie = df_peixes.groupby('especie')['quantidade'].sum()

# 2. Criar o gráfico de barras a partir do resultado (Visualização)
contagem_por_especie.plot(kind='bar', color=['skyblue', 'salmon', 'lightgreen', 'gold'])

# 3. Customizar e exibir o gráfico
plt.title('Contagem Total de Peixes por Espécie')
plt.xlabel('Espécie')
plt.ylabel('Quantidade Total Contada')
plt.xticks(rotation=0) # Mantém os nomes das espécies na horizontal
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

## Customizando suas Visualizações: Da Análise à Narrativa

### Aprimorando um Gráfico: Um Estudo de Caso do Nível do Rio

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# --- DADOS ---
dados_rio = {
    'mes': ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun',
            'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez'],
    'nivel_m': [18.5, 22.1, 25.7, 28.2, 29.5, 29.1, 27.3, 24.6, 21.0, 18.9, 17.8, 18.1]
}
df_rio = pd.DataFrame(dados_rio)

# --- PASSO 1: Usando um Estilo Profissional ---
# Esta única linha melhora drasticamente a aparência do gráfico.
plt.style.use('ggplot')

# --- PASSO 2: Criação da Figura e do Gráfico Base ---
# `plt.subplots` cria a "tela" (fig) e os "eixos" (ax) separados.
fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(df_rio['mes'], df_rio['nivel_m'], marker='o', linestyle='-', color='royalblue', label='Nível Médio do Rio')

# --- PASSO 3: Adicionando Contexto com Linhas de Referência ---
# `axhline` desenha uma linha para marcar um limiar importante.
ax.axhline(y=28.0, color='red', linestyle='--', linewidth=2, label='Nível de Alerta de Enchente')

# --- PASSO 4: Adicionando Narrativa com Anotações ---
# `annotate` permite adicionar texto e setas para destacar pontos.
pico_mes_index = 4 # Índice do mês de Maio
pico_valor = 29.5
ax.annotate('Pico da Cheia', xy=(pico_mes_index, pico_valor), xytext=(pico_mes_index - 2, pico_valor - 0.5), arrowprops=dict(facecolor='black', shrink=0.05, width=1, headwidth=8), fontsize=12, fontweight='bold')

# --- PASSO 5: Títulos, Rótulos e Legendas ---
ax.set_title('Monitoramento do Nível do Rio na Bacia Amazônica (2024)', fontsize=16)
ax.set_ylabel('Nível (metros)', fontsize=12)
ax.set_xlabel('Mês', fontsize=12)
plt.xticks(rotation=45)

# Ativa a legenda para identificar as linhas plotadas com 'label'
ax.legend()

# Ajustes finais para garantir que nada seja cortado
plt.tight_layout()
plt.show()

### Comparando Gráficos Lado a Lado com Subplots

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('seaborn-v0_8-whitegrid')

# --- DADOS ---
dados = {
    'mes': ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez'],
    'nivel_m': [18.5, 22.1, 25.7, 28.2, 29.5, 29.1, 27.3, 24.6, 21.0, 18.9, 17.8, 18.1],
    'precipitacao_mm': [310, 300, 320, 250, 180, 90, 60, 40, 70, 120, 150, 210]
}
df = pd.DataFrame(dados)

# --- CRIAÇÃO DOS SUBPLOTS ---
# Figura com 2 linhas e 1 coluna. 'sharex=True' alinha os meses.
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(10, 8), sharex=True)

# Adiciona um título geral para a figura inteira
fig.suptitle('Análise Sazonal: Chuva vs. Nível do Rio', fontsize=16, fontweight='bold')

# PLOT 1: Gráfico de Barras da Chuva (no 1º eixo: axes[0])
axes[0].bar(df['mes'], df['precipitacao_mm'], color='royalblue', label='Chuva')
axes[0].set_ylabel('Precipitação (mm)')
axes[0].legend()

# PLOT 2: Gráfico de Linha do Nível do Rio (no 2º eixo: axes[1])
axes[1].plot(df['mes'], df['nivel_m'], color='darkorange', marker='o', label='Nível do Rio')
axes[1].set_ylabel('Nível (metros)')
axes[1].set_xlabel('Mês')
axes[1].legend()

# Ajustes finais
plt.tight_layout(rect=[0, 0, 1, 0.96]) # Espaço para o subtitle
plt.show()

### Alternativas Visuais para Dados Categóricos

Barras Horizontais (barh): Para Clareza em Rótulos Longos

In [None]:
# 1. Agrupar os dados para obter a média por local e ordenar as barras de forma decrescente (maior para o menor)
contagem_por_local = df_peixes.groupby('local')['quantidade'].mean().sort_values()

# 2. Criar o gráfico de barras horizontal com os dados
contagem_por_local.plot(kind='barh', color=['skyblue', 'salmon', 'lightgreen', 'gold'])

# 3. Customizar e exibir o gráfico
plt.title('Média de Peixes por Local')
plt.xlabel('Quantidade Média Observada')
plt.ylabel('Local')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

Gráfico de Pizza (pie): Para Mostrar Proporções de um Todo

In [None]:
contagem_por_local.plot(
    kind='pie', # Estilo do gráfico
    y='quantidade', # Quais dados serão usados nas porcentagens
    autopct='%1.1f%%', # Mostra as porcentagens
    figsize=(6, 6), # Tamanho do gráfico
    legend=False, # Nesse caso é desnecessário
    labels=contagem_por_local.index, # Rótulos dos locais
    colors=['skyblue', 'salmon', 'lightgreen', 'gold']
)
plt.title('Composição Relativa da Média de Peixes Coletados')
plt.ylabel('') # Remove o rótulo 'quantidade' que é desnecessário
plt.show()

## Gráficos Estatísticos

### Conjunto de Dados: A Safra de Castanha-do-Pará

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Para garantir que nossos exemplos sejam reprodutíveis, vamos criar os dados
np.random.seed(42) # Semente para reprodutibilidade
dados = {
    'id_arvore': range(1, 101),
    'regiao': np.random.choice(['Reserva Tapajós', 'Floresta Jari'], 100),
    'diametro_cm': np.random.normal(loc=120, scale=25, size=100),
    'producao_kg': np.nan # Vamos preencher com base no diâmetro
}
df_safra = pd.DataFrame(dados)

# Criando uma relação realista entre diâmetro e produção com um pouco de ruído
df_safra['producao_kg'] = (df_safra['diametro_cm'] * 0.45) + np.random.normal(loc=0, scale=10, size=100)
# Garantindo que não haja produção negativa
df_safra['producao_kg'] = df_safra['producao_kg'].clip(lower=5)

print("--- Primeiras 5 linhas do nosso conjunto de dados ---")
print(df_safra.head())

print("\n--- Informações gerais do DataFrame ---")
df_safra.info()

### Histograma: A Frequência dos Dados

In [None]:
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8-whitegrid')

# Criando a figura e os eixos
fig, ax = plt.subplots(figsize=(10, 6))

# Plotando o histograma da coluna 'producao_kg' com 20 intervalos
ax.hist(df_safra['producao_kg'], bins=20, color='forestgreen', edgecolor='black')

# Customizando o gráfico
ax.set_title('Distribuição da Produção de Castanha-do-Pará', fontsize=16)
ax.set_xlabel('Produção por Árvore (kg)', fontsize=12)
ax.set_ylabel('Frequência (Nº de Árvores)', fontsize=12)
plt.show()

### Boxplot: Um Raio-X da Dispersão

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# O Pandas tem uma integração direta para criar boxplots por categoria
fig, ax = plt.subplots(figsize=(10, 7))

# Usamos o método .boxplot() do DataFrame
# 'column' é a variável que queremos analisar
# 'by' é a categoria pela qual queremos agrupar
df_safra.boxplot(column='producao_kg', by='regiao', ax=ax, grid=False)

# Customizando o gráfico
ax.set_title('Comparação da Produção de Castanha por Região', fontsize=16)
ax.set_ylabel('Produção por Árvore (kg)', fontsize=12)
ax.set_xlabel('Região de Coleta', fontsize=12)
fig.suptitle('') # Remove o título automático do pandas

plt.show()

### Diagrama de Dispersão: Investigando Relações

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(10, 6))

# Criando o diagrama de dispersão
# O eixo x será o diâmetro, e o eixo y, a produção
ax.scatter(x=df_safra['diametro_cm'], y=df_safra['producao_kg'], alpha=0.7, color='saddlebrown')

# Customizando
ax.set_title('Relação entre Diâmetro e Produção da Castanheira', fontsize=16)
ax.set_xlabel('Diâmetro do Tronco (cm)', fontsize=12)
ax.set_ylabel('Produção de Castanhas (kg)', fontsize=12)

plt.show()