In [1]:
# @title
# Curso IA Aplicada aos Desafios Socioambientais da Amazônia
# Notebook desenvolvido por: Onédio S Seabra junior
# Atualização : 3 de agosto de 2025

from IPython.display import display, HTML

# O caminho para a imagem
header_img = 'https://i.postimg.cc/2yTkHGZk/header-bloco-4-encontro13.png'
# O código HTML para exibir a imagem em tamanho original e centralizada
html = f'<img src="{header_img}" style="display: block; margin: 0 auto; width: 100%; height: 100%; object-fit: contain">'
# Exibe a imagem usando o display do IPython e o HTML
display(HTML(html))

# apresenta Sobre o Curso
html_sobre = '''
  <div style="width:100%; color: black; background-color:none; margin-top:20px">
    <div style="float: left; width: 45%; margin-top:10px">
      <h1 style="color:#000; margin-bottom:10px">Sobre o curso</h1>
      <p style="font-size:16px; line-height: 23px; text-align:justify">
        O curso Inteligência Artificial Aplicada aos Desafios Socioambientais da Amazônia, promovido pelo Instituto de Inteligência Artificial Aplicada (I2A2), é uma iniciativa pioneira voltada para capacitar moradores do Pará e da região Norte. Com duração de seis meses, combina aulas online, atividades assíncronas, workshops práticos, encontros com especialistas e mentoria contínua. O objetivo é aplicar a IA de forma prática em problemas ambientais reais, em alinhamento com as diretrizes e temas da COP30.
      </p3>
      <p style="font-size:16px; line-height: 23px; text-align:justify">
        Ao longo do curso, os participantes exploram desde fundamentos de Machine Learning até IA Generativa, trabalhando com dados ambientais da Amazônia para enfrentar questões como desmatamento, queimadas, qualidade da água e riscos climáticos. Cada grupo finaliza sua jornada com um projeto integrador, apresentando soluções sustentáveis e socialmente viáveis. A formação busca fortalecer competências técnicas e o protagonismo de lideranças locais, articulando ciência, tecnologia e justiça ambiental, consolidando a Amazônia como polo de inovação para o desenvolvimento sustentável.
      </p>
    </div>
    <div style="float: left; width: 55%; display: flex; justify-content: center; align-items: center;">
      <center>
        <img style="margin-top:80px;width:420px" src="https://i.postimg.cc/0jLdTyMD/logo-i2a2.png" />
      </center>
    </div>
  </div>
  <div style=”clear: both”></div>
  <div style="width:100%; color: black; background-color:none; margin-top:20px">
  <div style="float: left; width: 100%;">
    <center>
        <img style="margin-top:80px;width:200px" src="https://i.postimg.cc/qqXsDh6F/separator-python.png" />
      </center>
  </div>
  </div>

'''
display(HTML(html_sobre))


# **&#9776; Trilha do Conhecimento**

<h4 align="justify">&bullet; Tipos de problemas em dados reais.</h4>
<h4 align="justify">&bullet; Técnicas de limpeza com pandas.</h4>
<h4 align="justify">&bullet; Agrupamento e agregação.</h4>
<h4 align="justify">&bullet; Projeto Radar Amazônico.</h4>

# **&#9776; Apresentação sobre o Encontro 13**
---

<h4 align="justify">Vivemos em uma era em que as decisões mais importantes sobre o futuro da Amazônia estão, cada vez mais, apoiadas em dados. Monitorar a biodiversidade, prever desastres naturais, identificar áreas críticas para conservação ou combater queimadas ilegais exige não apenas o acesso a grandes volumes de informação, mas também a <b>confiança nesses dados</b>. No entanto, por mais que os dados sejam valiosos, eles não chegam até nós prontos para o uso. Muitas vezes vêm com erros, lacunas, formatos incoerentes e repetições. Por isso, a <b>qualidade dos dados ambientais</b> é um dos pilares centrais da inteligência artificial aplicada à proteção da floresta.</h4>
<h4 align="justify">Um dado mal tratado pode gerar decisões erradas, como o envio de recursos para uma área que não está em risco ou a negligência de uma comunidade em situação crítica. Isso ocorre, por exemplo, quando uma temperatura registrada incorretamente parece indicar um alerta que não existe ou quando a ausência de informações leva a conclusões imprecisas. Neste encontro, vamos olhar com atenção para as impurezas que podem estar escondidas nos nossos arquivos e aprender como identificá-las, tratá-las e, assim, elevar o nível da nossa análise. A qualidade do dado não é um detalhe técnico, é uma questão estratégica.</h4>
<h4 align="justify">Neste Encontro 13, aprenderemos a utilizar ferramentas do Python, especialmente a biblioteca <b>pandas</b>, para executar o que chamamos de <b>limpeza de dados</b>. Vamos detectar células vazias (<b><i>missing values</b></i>), valores duplicados, erros de digitação e formatos inadequados que podem atrapalhar nossas análises. Além disso, exploraremos os recursos de <b>agrupamento e agregação de dados</b>, técnicas que nos permitem, por exemplo, comparar municípios entre si, calcular médias e desvios padrão por região e identificar padrões ocultos que podem orientar ações ambientais concretas.</h4>
<h4 align="justify">Por fim, colocaremos esse conhecimento em prática com um <b>estudo dirigido baseado em dados de biodiversidade amazônica</b>. Você será convidado a investigar registros ambientais reais ou simulados, identificar inconsistências e extrair informações relevantes sobre conservação, riscos e indicadores por município. Ao final, estará apto a realizar análises mais precisas e confiáveis e, principalmente, a enxergar a floresta com os olhos de quem sabe trabalhar com dados que realmente representam a realidade.</h4>

# **&#9776; Sobre a Base de Dados**
---

<h4 align="justify">A base de dados utilizada neste encontro reúne <b>70 registros simulados</b> de observações ambientais em municípios da Amazônia, com foco na biodiversidade local. Cada linha representa uma ocorrência documentada por pesquisadores ou agentes comunitários, contendo informações como o <b>município da observação, a espécie registrada, a quantidade de indivíduos avistados</b>, além de variáveis ambientais como <b>temperatura média, umidade relativa do ar e o tipo de clima predominante</b> no dia da coleta. A base também indica se a <b>espécie observada é considerada um alvo de conservação</b>, permitindo análises comparativas entre regiões e identificação de áreas críticas para preservação. Com esses dados, os alunos aprenderão a realizar tarefas de <b>limpeza, filtragem, agrupamento e agregação</b>, utilizando Python e pandas para gerar insights práticos e contextualizados sobre os desafios ambientais da floresta.</h4>

# **:: Carregando os Dados**

In [11]:
import pandas as pd

try:
    df_biodiversidade = pd.read_csv('/content/dados_biodiversidade_amazonia_com_missing.csv')
    print("✅ Base de dados 'dados_biodiversidade_amazonia.csv' carregada com sucesso!")
except FileNotFoundError:
    print("❌ Erro: O arquivo 'dados_biodiversidade_amazonia.csv' não foi encontrado.")
except Exception as e:
    print(f"❌ Erro ao carregar a base de dados: {e}")

✅ Base de dados 'dados_biodiversidade_amazonia.csv' carregada com sucesso!


# **:: Carregando os 5 Registros Aleatórios**

In [12]:
df_biodiversidade.sample(5)

Unnamed: 0,ID,Município,Espécie Observada,Qtd Indivíduos,Temperatura Média (°C),Umidade Média (%),Alvo de Conservação,Data da Observação,Tipo de Clima
57,OBSQowu,Santarém,Tamanduá-bandeira,4.0,32.0,76.7,Não,2024-12-12,Seco
67,OBSkGZl,Oriximiná,Arara-vermelha,1.0,30.5,91.6,Sim,2024-11-08,Muito úmido
20,OBSyrDq,Belterra,Macaco-prego,5.0,29.6,80.0,Não,2025-06-07,Seco
48,OBSoStt,Belterra,Onça-pintada,3.0,29.6,82.9,Não,2025-01-18,Seco
45,OBSVkTL,Oriximiná,Onça-pintada,4.0,27.8,69.3,Não,2024-08-19,Muito úmido


# **:: Tipos de Dados de Cada Feature/Coluna**

In [13]:
# Exemplo 1
df_biodiversidade.dtypes

Unnamed: 0,0
ID,object
Município,object
Espécie Observada,object
Qtd Indivíduos,float64
Temperatura Média (°C),float64
Umidade Média (%),float64
Alvo de Conservação,object
Data da Observação,object
Tipo de Clima,object


In [14]:
# Exemplo 2
df_biodiversidade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID                      70 non-null     object 
 1   Município               70 non-null     object 
 2   Espécie Observada       63 non-null     object 
 3   Qtd Indivíduos          63 non-null     float64
 4   Temperatura Média (°C)  63 non-null     float64
 5   Umidade Média (%)       63 non-null     float64
 6   Alvo de Conservação     63 non-null     object 
 7   Data da Observação      70 non-null     object 
 8   Tipo de Clima           70 non-null     object 
dtypes: float64(3), object(6)
memory usage: 5.1+ KB


# **:: Conversão Coluna "Data de Observação" de object para datetime**

In [15]:
df_biodiversidade['Data da Observação'] = pd.to_datetime(df_biodiversidade['Data da Observação'])

In [16]:
df_biodiversidade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ID                      70 non-null     object        
 1   Município               70 non-null     object        
 2   Espécie Observada       63 non-null     object        
 3   Qtd Indivíduos          63 non-null     float64       
 4   Temperatura Média (°C)  63 non-null     float64       
 5   Umidade Média (%)       63 non-null     float64       
 6   Alvo de Conservação     63 non-null     object        
 7   Data da Observação      70 non-null     datetime64[ns]
 8   Tipo de Clima           70 non-null     object        
dtypes: datetime64[ns](1), float64(3), object(5)
memory usage: 5.1+ KB


# **&#9776; Limpeza dos Dados**
---

<h4 align="justify">A limpeza dos dados é uma etapa fundamental na análise ambiental, pois garante que os resultados obtidos reflitam com precisão a realidade observada. O primeiro passo é localizar os <b>valores nulos</b> ou ausentes, que podem ocorrer por falhas na coleta ou no armazenamento das informações. Com pandas, usamos o comando <b>.isnull().sum()</b> para identificar quantos valores estão faltando em cada coluna. A partir disso, podemos decidir se queremos <b>preencher essas lacunas</b> com dados médios (<b>.fillna()</b>) ou <b>remover completamente os registros incompletos</b> (<b>.dropna()</b>), dependendo do contexto e da importância da informação.</h4>
<h4 align="justify">Além disso, é necessário tratar <b>erros de digitação e inconsistências de formatação</b>, como variações em letras maiúsculas e minúsculas em respostas categóricas (por exemplo: "Sim", "sim", "SIM"). Esses problemas podem ser resolvidos padronizando os textos com <b>.str.lower()</b> ou utilizando <b>.replace()</b> para garantir uniformidade. Também é importante verificar se há <b>dados fora do intervalo plausível</b>, como temperaturas abaixo de 10°C ou acima de 45°C, que podem indicar erro de registro e devem ser filtradas. Por fim, <b>dados duplicados</b> podem enviesar a análise e devem ser detectados com <b>.duplicated()</b> e <b>removidos</b> com .<b>drop_duplicates()</b>, garantindo que cada observação represente uma ocorrência única. Essas práticas tornam a base mais limpa, confiável e pronta para análises significativas.</h4>

# **:: Localizar Valores Nulos ou Ausentes**

In [17]:
# localiza valores nulos nas colunas
df_biodiversidade.isnull().sum()

Unnamed: 0,0
ID,0
Município,0
Espécie Observada,7
Qtd Indivíduos,7
Temperatura Média (°C),7
Umidade Média (%),7
Alvo de Conservação,7
Data da Observação,0
Tipo de Clima,0


In [19]:
# apresentas as linhas que possuem valores nulos
df_biodiversidade[df_biodiversidade.isnull().any(axis=1)]

Unnamed: 0,ID,Município,Espécie Observada,Qtd Indivíduos,Temperatura Média (°C),Umidade Média (%),Alvo de Conservação,Data da Observação,Tipo de Clima
0,OBSGICn,Oriximiná,,,,,,2025-04-04,Seco
4,OBSOmsa,Paragominas,,,,,,2025-01-17,Muito úmido
10,OBSDxQL,Belterra,,,,,,2025-07-02,Seco
18,OBSWuOT,Altamira,,,,,,2025-04-29,Seco
22,OBSkuKE,Portel,,,,,,2024-08-22,Seco
49,OBSQxDR,Paragominas,,,,,,2025-02-08,Seco
54,OBSOsFB,Oriximiná,,,,,,2024-12-25,Úmido


# **:: Preencher Valores Nulos ou Ausentes**

<h4 align="justify">O preenchimento pode ser feito com um <b>valor fixo</b> (por exemplo, <b>df['Temperatura'].fillna(28.0)</b>), com a <b>média da coluna</b> (<b>df['Temperatura'].fillna(df['Temperatura'].mean())</b>) ou com o <b>valor anterior ou posterior</b> da própria série de dados (<b>.ffill()</b> ou <b>.bfill()</b>). A escolha do método depende do contexto: ao analisar séries temporais, pode ser interessante usar o valor anterior; em análises agregadas por região, a média pode ser mais apropriada. O mais importante é que o <b>preenchimento preserve a coerência dos dados e evite distorções</b>, permitindo que a inteligência artificial opere sobre uma base mais robusta e realista.</h4>

In [41]:
# copia base de dados para df_copia
df_copia = df_biodiversidade.copy()

In [42]:
# imprime linha que possui missing values

# imprime a linha cujo ID é OBSDxQL
print(df_copia[df_copia['ID'] == 'OBSDxQL'])

         ID Município Espécie Observada  Qtd Indivíduos  \
10  OBSDxQL  Belterra               NaN             NaN   

    Temperatura Média (°C)  Umidade Média (%) Alvo de Conservação  \
10                     NaN                NaN                 NaN   

   Data da Observação Tipo de Clima  
10         2025-07-02          Seco  


In [44]:
# usando preenchimento para a coluna Temperatura Média (°C)
# método usará valor fixo

# apresenta quantidade de valores nulos para Temperatura Média (°C)
print(f"Quantidade de missing values presentes na coluna 'Temperatura Média (°C)': {df_copia['Temperatura Média (°C)'].isnull().sum()}")

df_copia['Temperatura Média (°C)'] = df_copia['Temperatura Média (°C)'].fillna(28.0)

# apresenta nova quantidade de valores nulos para Temperatura Média (°C)
print(f"Quantidade de missing values presentes na coluna 'Temperatura Média (°C)', após preenchimento': {df_copia['Temperatura Média (°C)'].isnull().sum()}")

Quantidade de missing values presentes na coluna 'Temperatura Média (°C)': 7
Quantidade de missing values presentes na coluna 'Temperatura Média (°C)', após preenchimento': 0


In [45]:
# imprime a linha cujo ID é OBSDxQL
print(df_copia[df_copia['ID'] == 'OBSDxQL'])

         ID Município Espécie Observada  Qtd Indivíduos  \
10  OBSDxQL  Belterra               NaN             NaN   

    Temperatura Média (°C)  Umidade Média (%) Alvo de Conservação  \
10                    28.0                NaN                 NaN   

   Data da Observação Tipo de Clima  
10         2025-07-02          Seco  


In [46]:
# usando preenchimento para a coluna Qtd Indivíduos
# método usará a média

# apresenta quantidade de valores nulos para Temperatura Média (°C)
print(f"Quantidade de missing values presentes na coluna 'Qtd Indivíduos': {df_copia['Qtd Indivíduos'].isnull().sum()}")

df_copia['Qtd Indivíduos'] = df_copia['Qtd Indivíduos'].fillna(round(df_copia['Qtd Indivíduos'].mean()))

# apresenta nova quantidade de valores nulos para Temperatura Média (°C)
print(f"Quantidade de missing values presentes na coluna 'Qtd Indivíduos', após preenchimento': {df_copia['Qtd Indivíduos'].isnull().sum()}")

Quantidade de missing values presentes na coluna 'Qtd Indivíduos': 7
Quantidade de missing values presentes na coluna 'Qtd Indivíduos', após preenchimento': 0


In [47]:
# imprime a linha cujo ID é OBSDxQL
print(df_copia[df_copia['ID'] == 'OBSDxQL'])

         ID Município Espécie Observada  Qtd Indivíduos  \
10  OBSDxQL  Belterra               NaN             7.0   

    Temperatura Média (°C)  Umidade Média (%) Alvo de Conservação  \
10                    28.0                NaN                 NaN   

   Data da Observação Tipo de Clima  
10         2025-07-02          Seco  


# **:: Verificar Existência de Dados Duplicados**

In [49]:
print(f"Quantidade de dados duplicado: {df_biodiversidade.duplicated().sum()}")

Quantidade de dados duplicado: 0


In [51]:
# cria uma linha duplicada no DataFrame
# adiciona os dados cujo ID é "OBSOsFB"

df_biodiversidade = pd.concat([df_biodiversidade, df_biodiversidade[df_biodiversidade['ID'] == 'OBSOsFB']], ignore_index=True)


In [52]:
print(f"Quantidade de dados duplicado: {df_biodiversidade.duplicated().sum()}")

Quantidade de dados duplicado: 1


In [53]:
# remove dados duplicados
df_biodiversidade.drop_duplicates(inplace=True)

In [54]:
print(f"Quantidade de dados duplicado: {df_biodiversidade.duplicated().sum()}")

Quantidade de dados duplicado: 0


# **:: Remover *Missing* *Values***

In [56]:
# verifica se há ainda missing values
df_copia.isnull().sum()

Unnamed: 0,0
ID,0
Município,0
Espécie Observada,7
Qtd Indivíduos,0
Temperatura Média (°C),0
Umidade Média (%),7
Alvo de Conservação,7
Data da Observação,0
Tipo de Clima,0


In [57]:
# remover missing values
df_copia.dropna(inplace=True)

In [58]:
# verifica se há ainda missing values
df_copia.isnull().sum()

Unnamed: 0,0
ID,0
Município,0
Espécie Observada,0
Qtd Indivíduos,0
Temperatura Média (°C),0
Umidade Média (%),0
Alvo de Conservação,0
Data da Observação,0
Tipo de Clima,0


# **:: Aplicar Técnicas de Remoção de *Missing Values* no DataFrame "df_biodiversidade"**

* Qtd Indivíduos: preenchida com a média da coluna (arredondada).

* Temperatura Média (°C): preenchida com o valor anterior conhecido (forward fill).

* Umidade Média (%): preenchida com o valor posterior (backward fill).

* Espécie Observada: preenchida com o texto fixo "Espécie não informada".

* Alvo de Conservação: preenchida com a moda (valor mais frequente).

In [71]:
# Criar uma cópia para preservar o original
df_biodiversidade_limpo = df_biodiversidade.copy()

In [72]:
# aplica técnicas para remoção de missing values

# 1. Preencher "Qtd Indivíduos" com a média (arredondada para inteiro)
media_individuos = int(df_biodiversidade_limpo['Qtd Indivíduos'].mean())
df_biodiversidade_limpo['Qtd Indivíduos'] = df_biodiversidade_limpo['Qtd Indivíduos'].fillna(media_individuos)

# 2. Preencher "Temperatura Média (°C)" com valor anterior (forward fill)
df_biodiversidade_limpo['Temperatura Média (°C)'] = df_biodiversidade_limpo['Temperatura Média (°C)'].ffill()

# 3. Preencher "Umidade Média (%)" com valor posterior (backward fill)
df_biodiversidade_limpo['Umidade Média (%)'] = df_biodiversidade_limpo['Umidade Média (%)'].bfill()

# 4. Preencher "Espécie Observada" com valor fixo
df_biodiversidade_limpo['Espécie Observada'] = df_biodiversidade_limpo['Espécie Observada'].fillna("Espécie não informada")

# 5. Preencher "Alvo de Conservação" com o valor mais comum (moda)
moda_conservacao = df_biodiversidade_limpo['Alvo de Conservação'].mode()[0]
df_biodiversidade_limpo['Alvo de Conservação'] = df_biodiversidade_limpo['Alvo de Conservação'].fillna(moda_conservacao)


In [73]:
# verifica se há ainda missing values
df_biodiversidade_limpo.isnull().sum()

Unnamed: 0,0
ID,0
Município,0
Espécie Observada,0
Qtd Indivíduos,0
Temperatura Média (°C),1
Umidade Média (%),0
Alvo de Conservação,0
Data da Observação,0
Tipo de Clima,0


In [74]:
df_biodiversidade_limpo['Temperatura Média (°C)']  = df_biodiversidade_limpo['Temperatura Média (°C)'].fillna(round(df_biodiversidade_limpo['Temperatura Média (°C)'] .mean()))

In [75]:
# verifica se há ainda missing values
df_biodiversidade_limpo.isnull().sum()

Unnamed: 0,0
ID,0
Município,0
Espécie Observada,0
Qtd Indivíduos,0
Temperatura Média (°C),0
Umidade Média (%),0
Alvo de Conservação,0
Data da Observação,0
Tipo de Clima,0


In [76]:
# imprime a linha cujo ID é OBSDxQL
print(df_biodiversidade_limpo[df_biodiversidade_limpo['ID'] == 'OBSDxQL'])

         ID Município      Espécie Observada  Qtd Indivíduos  \
10  OBSDxQL  Belterra  Espécie não informada             7.0   

    Temperatura Média (°C)  Umidade Média (%) Alvo de Conservação  \
10                    27.9               70.4                 Não   

   Data da Observação Tipo de Clima  
10         2025-07-02          Seco  


# **&#9776; Agrupamento e Agregação**
---

<h4 align="justify">Ao analisarmos dados ambientais da Amazônia, é fundamental extrair informações que vão além das observações individuais. Para isso, utilizamos as <b>técnicas de agrupamento e agregação</b>, que nos permitem organizar os dados por categorias, como municípios, espécies ou datas, e aplicar cálculos que resumem padrões de comportamento. Por exemplo, ao agrupar os dados por município, podemos descobrir qual região apresentou a maior média de indivíduos observados ou onde os registros apresentaram maior variabilidade de temperatura. Isso nos ajuda a transformar dados brutos em conhecimento estratégico para a conservação.</h4>

<h4 align="justify">A ferramenta principal para realizar esse tipo de análise no Python é o método <b>.groupby()</b> da biblioteca pandas. Com ele, conseguimos agrupar os dados por uma ou mais colunas e, em seguida, aplicar funções como <b>.mean(), .sum(), .size(), .count() ou .std()</b> para calcular médias, totais, contagens ou desvios padrão. Também podemos utilizar o método <b>.agg()</b> para aplicar múltiplas funções ao mesmo tempo e gerar tabelas mais completas. Essa abordagem nos permite observar o comportamento coletivo de grupos e tomar decisões baseadas em padrões agregados, e não em exceções pontuais.</h4>

<h4 align="justify">Nos exemplos a seguir, vamos utilizar as técnicas de agrupamento e agregação para comparar os municípios da Amazônia em relação à quantidade média de espécies observadas, à temperatura registrada durante as coletas e aos níveis de umidade. Também iremos identificar as regiões com maior desvio padrão, o que revela uma variação mais acentuada nas condições ambientais e pode apontar instabilidades ou situações críticas. Esse tipo de análise é fundamental para embasar políticas públicas, fortalecer o monitoramento ambiental e orientar ações estratégicas baseadas em dados consistentes e bem tratados.</h4>

# **:: Distribuição da Diversidade Biológica nos Municípios**

In [77]:
# Este comando agrupa os dados por município, calcula quantas espécies diferentes (distintas) foram observadas em cada um,
# e ordena os resultados em ordem decrescente (do que teve mais diversidade para o que teve menos).
# A função .nunique() conta apenas os valores únicos (sem repetição) dentro de cada grupo.

df_biodiversidade_limpo.groupby('Município')['Espécie Observada'].nunique().sort_values(ascending=False)


Unnamed: 0_level_0,Espécie Observada
Município,Unnamed: 1_level_1
Belterra,7
Paragominas,7
Oriximiná,6
Portel,6
Altamira,5
Itaituba,5
Santarém,5


# **:: Média de Temperatura e Umidade por Município**

In [79]:
# Análise de Condições Ambientais Médias por Município
# Este comando agrupa os dados por município e calcula a média de temperatura e umidade em cada um deles.
# A função .mean() realiza a média aritmética, e .round(2) arredonda os resultados para duas casas decimais,
# facilitando a leitura e a comparação entre regiões.

df_biodiversidade_limpo.groupby('Município')[['Temperatura Média (°C)', 'Umidade Média (%)']].mean().round(2)


Unnamed: 0_level_0,Temperatura Média (°C),Umidade Média (%)
Município,Unnamed: 1_level_1,Unnamed: 2_level_1
Altamira,29.75,78.7
Belterra,30.23,78.99
Itaituba,33.31,76.94
Oriximiná,29.98,80.99
Paragominas,29.61,79.67
Portel,30.48,84.3
Santarém,32.03,80.28


**Insight baseado no resultado** : Itaituba apresenta a maior temperatura média (33,31 °C) e uma das menores umidades, sugerindo um microclima mais seco. Portel combina alta umidade (84,30%) com temperatura elevada, indicando possível estresse térmico. Altamira e Paragominas têm clima mais equilibrado.

# **:: Desvio Padrão da Temperatura e Umidade por Município**

In [80]:
# Análise de Variação das Condições Ambientais por Município (Desvio Padrão)
# Este comando agrupa os dados por município e calcula o desvio padrão da temperatura e umidade em cada um deles.
# Um desvio padrão alto indica maior variação nas condições ambientais, sugerindo instabilidade ou situações críticas.
# A função .std() calcula o desvio padrão, e .round(2) arredonda os resultados para duas casas decimais.

df_biodiversidade_limpo.groupby('Município')[['Temperatura Média (°C)', 'Umidade Média (%)']].std().round(2)

Unnamed: 0_level_0,Temperatura Média (°C),Umidade Média (%)
Município,Unnamed: 1_level_1,Unnamed: 2_level_1
Altamira,3.51,10.73
Belterra,2.74,7.38
Itaituba,3.53,12.18
Oriximiná,2.88,10.37
Paragominas,2.63,9.26
Portel,3.76,7.95
Santarém,2.96,10.06


**Insight baseado no resultado** : Portel apresenta a maior variação de temperatura (3,76 °C), indicando clima mais instável. Já Itaituba tem o maior desvio de umidade (12,18%), o que pode afetar a biodiversidade local. Paragominas mostra condições mais estáveis entre os municípios.

# **:: Municípios com Maior Número de Registros Ambientais**

In [81]:
# Contagem de Registros por Município
# Este comando agrupa os dados por município e conta quantos registros existem em cada um.
# A função .size() retorna o número de ocorrências por grupo.
# O resultado é ordenado do município com mais registros para o com menos.

df_biodiversidade_limpo.groupby('Município').size().sort_values(ascending=False)

Unnamed: 0_level_0,0
Município,Unnamed: 1_level_1
Paragominas,15
Oriximiná,12
Belterra,12
Altamira,10
Portel,8
Itaituba,7
Santarém,6


**Insight baseado no resultado** : Paragominas é o município com maior número de registros (15), indicando maior intensidade de monitoramento ou maior presença de atividades de observação ambiental. Já Santarém e Itaituba, com apenas 6 e 7 registros, respectivamente, podem representar áreas com menor cobertura de dados, sugerindo possíveis lacunas no acompanhamento da biodiversidade que merecem atenção em futuras coletas.

# **Total de Indivíduos Observados por Município**

In [82]:
# Soma de Indivíduos Observados por Município
# Este comando agrupa os dados pelo nome do município e soma os valores da coluna "Qtd Indivíduos".
# O resultado mostra quantos indivíduos foram registrados no total em cada município.
# A ordenação decrescente facilita a visualização dos municípios com maior concentração de fauna observada.

df_biodiversidade_limpo.groupby('Município')['Qtd Indivíduos'].sum().sort_values(ascending=False)


Unnamed: 0_level_0,Qtd Indivíduos
Município,Unnamed: 1_level_1
Paragominas,145.0
Oriximiná,93.0
Altamira,83.0
Itaituba,58.0
Belterra,56.0
Portel,55.0
Santarém,18.0


**Insight baseado no resultado** : Paragominas lidera com 145 indivíduos observados, indicando possível maior densidade populacional de fauna ou maior eficiência no esforço de coleta. Em contraste, Santarém apresenta apenas 18 registros, o que pode sinalizar baixa abundância local, sub-representação nas coletas ou necessidade de reforço no monitoramento ambiental naquela região.

# **Resumo Estatístico por Município com agg()**

In [83]:
# Resumo Estatístico por Município com Múltiplas Métricas
# Este comando agrupa os dados por município e aplica várias funções de agregação de uma só vez.
# A função .agg() permite calcular média, soma e desvio padrão simultaneamente para as colunas selecionadas.
# Os dados são arredondados para duas casas decimais para melhor leitura.

df_biodiversidade_limpo.groupby('Município')[['Qtd Indivíduos', 'Temperatura Média (°C)', 'Umidade Média (%)']].agg(
    {
        'Qtd Indivíduos': ['sum', 'mean', 'std'],
        'Temperatura Média (°C)': ['mean', 'std'],
        'Umidade Média (%)': ['mean', 'std']
    }
).round(2)


Unnamed: 0_level_0,Qtd Indivíduos,Qtd Indivíduos,Qtd Indivíduos,Temperatura Média (°C),Temperatura Média (°C),Umidade Média (%),Umidade Média (%)
Unnamed: 0_level_1,sum,mean,std,mean,std,mean,std
Município,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Altamira,83.0,8.3,3.89,29.75,3.51,78.7,10.73
Belterra,56.0,4.67,3.28,30.23,2.74,78.99,7.38
Itaituba,58.0,8.29,4.64,33.31,3.53,76.94,12.18
Oriximiná,93.0,7.75,3.57,29.98,2.88,80.99,10.37
Paragominas,145.0,9.67,4.08,29.61,2.63,79.67,9.26
Portel,55.0,6.88,4.7,30.48,3.76,84.3,7.95
Santarém,18.0,3.0,1.55,32.03,2.96,80.28,10.06


---
---

<img width="160" src="https://i.postimg.cc/0Qqh1tvk/Chat-GPT-Image-26-de-jul-de-2025-18-35-56-Photoroom.png">
<h3 align="justify"><b>PROJETO RADAR AMAZÔNICO - COMPARAÇÃO ENTRE MUNICÍPIOS COM BASE EM INDICADORES AMBIENTAIS</b></h3>
<h4 align="justify">A Amazônia é um dos biomas mais complexos e estratégicos do planeta, concentrando uma biodiversidade única, culturas tradicionais e um papel crucial no equilíbrio climático global. No entanto, essa riqueza está ameaçada por pressões crescentes como o desmatamento, a degradação ambiental e os efeitos das mudanças climáticas. Nesse cenário, surge a necessidade de fortalecer a vigilância ambiental com o apoio da tecnologia e da ciência de dados, para compreender melhor os sinais emitidos pela floresta e agir com mais eficiência.</h4>

<h4 align="justify">Neste projeto, você atuará como um <b>TecnoGuarda da Amazônia</b>, utilizando uma base de dados simulada com observações ambientais sobre espécies de macacos e variáveis ecológicas em diferentes municípios do bioma. Seu papel será identificar padrões, anomalias e potenciais riscos por meio de análises com Python e Pandas. Os dados representam registros coletados por sensores ou por comunidades locais, com colunas que incluem quantidade de indivíduos, temperatura, umidade, status de conservação e localização.</h4>

<h4 align="justify">A base foi propositalmente preparada com <b>valores ausentes e linhas duplicadas</b>, como forma de simular os desafios encontrados na realidade do campo. Ao lidar com essas imperfeições, você desenvolverá competências técnicas essenciais para trabalhar com dados reais, como limpeza, preenchimento, remoção de ruídos e padronização. Em seguida, aplicará <b>técnicas de agrupamento e agregação</b>, que permitem comparar os municípios com base em indicadores-chave.</h4>

<h4 align="justify">O objetivo é <b>transformar dados em insights estratégicos</b>, ajudando a responder perguntas fundamentais como: quais municípios apresentam maior biodiversidade? Onde há maior instabilidade ambiental? Quais áreas exigem maior atenção dos órgãos de proteção? Ao final, você terá usado a inteligência dos dados para apoiar a inteligência da floresta.</h4>

<h4><b>Atividade 1 - Remover Duplicações e Tratar Ausências</b></h4>
<h4 align="justify">Antes de realizar qualquer análise, é essencial garantir a integridade dos dados. Remova registros duplicados e preencha os valores ausentes com estratégias adequadas.</h4>

In [84]:
# @title
# Carregando os dados
import pandas as pd
df = pd.read_csv("/content/radar_amazonico_base.csv")

# Removendo duplicatas
df = df.drop_duplicates()

# Preenchendo valores ausentes com diferentes métodos
df['Qtd Indivíduos'] = df['Qtd Indivíduos'].fillna(int(df['Qtd Indivíduos'].mean()))
df['Temperatura Média (°C)'] = df['Temperatura Média (°C)'].ffill()
df['Umidade Média (%)'] = df['Umidade Média (%)'].bfill()
df['Espécie Observada'] = df['Espécie Observada'].fillna("Espécie não informada")

<h4><b>Atividade 2 - Total de Indivíduos Observados por Município</b></h4>
<h4 align="justify">Some a quantidade de indivíduos observados em cada município. Qual região apresenta a maior concentração populacional de fauna?</h4>

In [85]:
# @title
# Soma de indivíduos por município
df.groupby('Município')['Qtd Indivíduos'].sum().sort_values(ascending=False)

Unnamed: 0_level_0,Qtd Indivíduos
Município,Unnamed: 1_level_1
Paragominas,106.0
Itaituba,89.0
Oriximiná,85.0
Altamira,77.0
Belterra,60.0
Portel,59.0
Santarém,50.0


<h4><b>Atividade 3 - Temperatura e Umidade Média por Município</b></h4>
<h4 align="justify">Calcule a média da temperatura e da umidade em cada município para identificar condições ambientais predominantes.</h4>

In [86]:
# @title
# Média de temperatura e umidade por município
df.groupby('Município')[['Temperatura Média (°C)', 'Umidade Média (%)']].mean().round(2)

Unnamed: 0_level_0,Temperatura Média (°C),Umidade Média (%)
Município,Unnamed: 1_level_1,Unnamed: 2_level_1
Altamira,31.29,81.15
Belterra,30.3,83.57
Itaituba,33.09,73.09
Oriximiná,30.06,81.25
Paragominas,28.97,83.43
Portel,31.34,85.72
Santarém,29.88,78.85


<h4><b>Atividade 4 - Desvio Padrão das Condições Ambientais</b></h4>
<h4 align="justify">Avalie a instabilidade das condições ambientais calculando o desvio padrão da temperatura e da umidade por município.</h4>

In [87]:
# @title
# Desvio padrão da temperatura e umidade
df.groupby('Município')[['Temperatura Média (°C)', 'Umidade Média (%)']].std().round(2)

Unnamed: 0_level_0,Temperatura Média (°C),Umidade Média (%)
Município,Unnamed: 1_level_1,Unnamed: 2_level_1
Altamira,2.59,10.99
Belterra,2.86,7.1
Itaituba,2.43,6.65
Oriximiná,3.25,11.59
Paragominas,3.21,9.63
Portel,3.8,6.96
Santarém,3.35,10.21


<h4><b>Atividade 5 - Resumo Estatístico com .agg()</b></h4>
<h4 align="justify">Utilize o método .agg() para comparar municípios com base em soma, média e variação de três indicadores: número de indivíduos, temperatura e umidade.</h4>

In [88]:
# @title
# Agregações múltiplas
df.groupby('Município')[['Qtd Indivíduos', 'Temperatura Média (°C)', 'Umidade Média (%)']].agg({
    'Qtd Indivíduos': ['sum', 'mean', 'std'],
    'Temperatura Média (°C)': ['mean', 'std'],
    'Umidade Média (%)': ['mean', 'std']
}).round(2)


Unnamed: 0_level_0,Qtd Indivíduos,Qtd Indivíduos,Qtd Indivíduos,Temperatura Média (°C),Temperatura Média (°C),Umidade Média (%),Umidade Média (%)
Unnamed: 0_level_1,sum,mean,std,mean,std,mean,std
Município,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Altamira,77.0,7.7,5.36,31.29,2.59,81.15,10.99
Belterra,60.0,6.67,5.57,30.3,2.86,83.57,7.1
Itaituba,89.0,8.9,3.51,33.09,2.43,73.09,6.65
Oriximiná,85.0,7.73,4.15,30.06,3.25,81.25,11.59
Paragominas,106.0,7.57,4.48,28.97,3.21,83.43,9.63
Portel,59.0,7.38,4.1,31.34,3.8,85.72,6.96
Santarém,50.0,6.25,4.4,29.88,3.35,78.85,10.21


<h4><b>Atividade 6 - Elaborar Conclusões Ambientais</b></h4>
<h4 align="justify">Com base nos resultados obtidos, quais insights ambientais relevantes você conseguiu identificar? Destaque as principais conclusões relacionadas à biodiversidade, variações climáticas ou áreas que demandam maior atenção em ações de conservação.</h4>

<div align="center">
  <font size="6" color="#0000ff"><b>Fim do Encontro 13!</b></font>
</div>