<a href="https://colab.research.google.com/github/isabellehaga/aq-data-scientist-test/blob/master/01_etl.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Instru√ß√µes:
        1- Download dos dados municipais do estado de Minas Gerais;
        2- Transforma√ß√£o dos dados de desmatamento;
        3- Processamento dos dados:
            -reproje√ß√£o para EPSG:31983;
            -c√°lculo de √°rea;
        4- Gera√ß√£o dos arquivos de sa√≠da no formato GeoJSON;


# An√°lise Geoespacial do Desmatamento em Minas Gerais ‚Äî Processo Seletivo para Cientista de Dados na AgronomiQ

# Tarefa 1

## Importando as Bibliotecas

In [2]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
from shapely.geometry import Point, Polygon


## Explorando e entendendo os dados

1- Download dos dados municipais do estado de Minas Gerais;

*üìå Observa√ß√£o: Como a fonte de dados est√° dispon√≠vel em link p√∫blico, n√£o h√° necessidade de adicionar nenhum arquivo a este projeto para reproduzir os resultados.*

In [3]:
#Importando os dados
url = "https://raw.githubusercontent.com/tbrugz/geodata-br/master/geojson/geojs-31-mun.json"
gdf = gpd.read_file(url)

#Explorando e entendendo os dados
gdf.head()

Unnamed: 0,id,name,description,geometry
0,3100104,Abadia dos Dourados,Abadia dos Dourados,"POLYGON ((-47.4441 -18.15847, -47.43543 -18.16..."
1,3100203,Abaet√©,Abaet√©,"POLYGON ((-45.182 -18.88757, -45.17314 -18.889..."
2,3100302,Abre Campo,Abre Campo,"POLYGON ((-42.36955 -20.13218, -42.35755 -20.1..."
3,3100401,Acaiaca,Acaiaca,"POLYGON ((-43.11391 -20.35784, -43.10969 -20.3..."
4,3100500,A√ßucena,A√ßucena,"POLYGON ((-42.38592 -18.92388, -42.3814 -18.92..."


In [4]:
#Verificar duplicidade e dado ausente
gdf.describe()

Unnamed: 0,id,name,description,geometry
count,853,853,853,853
unique,853,853,853,853
top,3172202,Wenceslau Braz,Wenceslau Braz,"POLYGON ((-42.3540289472 -17.7833229926, -42.3..."
freq,1,1,1,1


In [5]:
# Verificar tipo de dados e confirmar n√∫mero de linhas e se h√° dado faltante
gdf.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   id           853 non-null    object  
 1   name         853 non-null    object  
 2   description  853 non-null    object  
 3   geometry     853 non-null    geometry
dtypes: geometry(1), object(3)
memory usage: 26.8+ KB


In [6]:
# Confirmar novamente se h√° duplicidade
gdf.duplicated().sum()

np.int64(0)

##üìë Descri√ß√£o do Dataset

*   id: identificador √∫nico de cada munic√≠pio
*   name: nome do munic√≠pio
*   description: repeti√ß√£o do nome do munic√≠pio
*   geometry: pol√≠gono de delimita√ß√£o do munic√≠pio

O dataset cont√©m 853 linhas, o que corresponde exatamente ao n√∫mero total de munic√≠pios do estado de Minas Gerais, conforme a lista oficial da Wikip√©dia (fonte: https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Minas_Gerais)

Al√©m disso, o dataset n√£o apresenta valores ausentes nem duplicados, garantindo a consist√™ncia inicial dos dados para as pr√≥ximas etapas da an√°lise.





## Transforma√ß√£o dos dados

Objetivos da segunda etapa:
*   Reprojetar os dados para o sistema de coordenadas EPSG:31983
*   Adicionar uma nova coluna contendo a √°rea de cada munic√≠pio em km¬≤
*   Salvar o arquivo no diret√≥rio dados/ com o nome municipios-mg.geojson
*   Converter o dataset para o formato GeoJSON


In [7]:
#2- Transforma√ß√£o dos dados de desmatamento;
# Reprojetar para EPSG:31983
gdf_31983 = gdf.to_crs(epsg=31983)

In [8]:
#3- Processamento dos dados:
 #       -reproje√ß√£o para EPSG:31983;
 #       -c√°lculo de √°rea;
# No GeoDataFrame reprojetado, adicionamos uma nova coluna chamada "area_km2".
# Como o sistema de coordenadas EPSG:31983 usa metros, o c√°lculo da √°rea retorna valores em m¬≤.
# Para obter a √°rea em km¬≤, dividimos os valores por 1.000.000 (10**6).

gdf_31983["area_km2"] = gdf_31983.geometry.area / 10**6


In [9]:
# Verificando nova coluna :)
gdf_31983.head()

Unnamed: 0,id,name,description,geometry,area_km2
0,3100104,Abadia dos Dourados,Abadia dos Dourados,"POLYGON ((241429.802 7990562.876, 242359.697 7...",895.115178
1,3100203,Abaet√©,Abaet√©,"POLYGON ((480831.209 7911603.048, 481764.623 7...",1814.504046
2,3100302,Abre Campo,Abre Campo,"POLYGON ((775002.321 7771717.815, 776244.59 77...",472.049598
3,3100401,Acaiaca,Acaiaca,"POLYGON ((696872.185 7747792.052, 697305.64 77...",100.723996
4,3100500,A√ßucena,A√ßucena,"POLYGON ((775332.208 7905556.756, 775804.655 7...",812.875627


üß™ Teste extra de valida√ß√£o (opcional, mas recomendado)

Para garantir que o c√°lculo da √°rea est√° correto, vamos comparar a √°rea calculada pelo GeoDataFrame com a √°rea oficial do munic√≠pio.

*   Erro absoluto (EA): diferen√ßa entre o valor calculado e o valor oficial.
*   Erro relativo (ER): erro absoluto dividido pelo valor oficial, mostrando a diferen√ßa proporcionalmente.

Esse teste √© completamente opcional, mas fornece confian√ßa na acur√°cia dos dados antes de prosseguir para as pr√≥ximas etapas.

In [10]:
# Valores conhecidos
area_oficial = 880.461  # km¬≤, fonte: https://pt.wikipedia.org/wiki/Abadia_dos_Dourados
area_calculada = 895.115178  # km¬≤, calculada pelo GeoDataFrame

# C√°lculo do erro absoluto
erro_absoluto = area_calculada - area_oficial

# C√°lculo do erro relativo em %
erro_relativo = (erro_absoluto / area_oficial) * 100

# Exibi√ß√£o dos resultados
print(f"Erro absoluto: {erro_absoluto:.3f} km¬≤")
print(f"Erro relativo: {erro_relativo:.2f}%")

# Interpreta√ß√£o:
# Valores de erro baixos indicam que o m√©todo de c√°lculo da √°rea √© confi√°vel.
# Essa metodologia pode ser aplicada a outros munic√≠pios, estados ou dados geogr√°ficos de outros pa√≠ses.

Erro absoluto: 14.654 km¬≤
Erro relativo: 1.66%


4- Gera√ß√£o dos arquivos de sa√≠da no formato GeoJSON;

Em vez de criar manualmente uma pasta dados e salvar o arquivo, optei por automatizar o processo, facilitando a reprodu√ß√£o dos resultados pelos recrutadores.


In [11]:
import os

pasta = "dados"

# Cria a pasta apenas se n√£o existir
if not os.path.exists(pasta):
    os.makedirs(pasta)
    print(f"Pasta '{pasta}' criada com sucesso!")
else:
    print(f"Pasta '{pasta}' j√° existe.")

# Salvar o GeoJSON na pasta j√° existente
gdf_31983.to_file("dados/municipios-mg.geojson", driver="GeoJSON")

#Checar ao lado se o arquivo foi criado na pasta dados/

Pasta 'dados' criada com sucesso!


#Tarefa 2

Objetivos da etapa de dados socioecon√¥micos

*   Procurar uma fonte de dados confi√°vel na internet para popula√ß√£o e PIB dos munic√≠pios brasileiros.
*   Filtrar os dados para incluir apenas os munic√≠pios de Minas Gerais.
*   Salvar os dados em um arquivo CSV com o nome:
dados/populacao-pib-municipios-mg.csv.

Observa√ß√£o: N√£o √© necess√°rio refazer esses passos, pois o arquivo populacao-pib-municipios-mg.csv j√° foi gerado. O c√≥digo completo foi mantido para fins did√°ticos e para demonstrar como os dados foram manipulados e filtrados.

##Filtrando os dados de PIB

A fonte dos dados de PIB e popula√ß√£o √© o site do IBGE: https://www.ibge.gov.br/

Nesta etapa, √© necess√°rio adicionar os arquivos no notebook. Na barra lateral √† esquerda clicar no √≠cone icone.png
e adicionar os arquivos:


*   PIB dos Munic√≠pios - base de dados 2010-2021
*   pop_2024

ps: pode ser que demore por conta do tamanho do arquivo e da velocidade da sua internet.



In [12]:
# Importando o arquivo de PIB
arquivo1 = "PIB dos Munic√≠pios - base de dados 2010-2021.xlsx"

# Lendo o arquivo e transformando em DataFrame
df1 = pd.read_excel(arquivo1)


 Observa√ß√£o: o DataFrame possui v√°rias linhas e colunas,
 mas para esta an√°lise, nos interessam apenas as seguintes linhas e colunas:
   - Sigla da Unidade da Federa√ß√£o (MG)
   - Ano (2021)
   - Nome do Munic√≠pio
   - Produto Interno Bruto, a pre√ßos correntes (R$ 1.000)


In [13]:
# Criando um novo DataFrame contendo apenas os valores de Minas Gerais no ano de 2021
df_mg_2021 = df1[(df1['Sigla da Unidade da Federa√ß√£o'] == 'MG') & (df1['Ano'] == 2021)]

# Verificando se o filtro funcionou corretamente
df_mg_2021.head(5)

Unnamed: 0,Ano,C√≥digo da Grande Regi√£o,Nome da Grande Regi√£o,C√≥digo da Unidade da Federa√ß√£o,Sigla da Unidade da Federa√ß√£o,Nome da Unidade da Federa√ß√£o,C√≥digo do Munic√≠pio,Nome do Munic√≠pio,Regi√£o Metropolitana,C√≥digo da Mesorregi√£o,...,"Valor adicionado bruto da Ind√∫stria,\na pre√ßos correntes\n(R$ 1.000)","Valor adicionado bruto dos Servi√ßos,\na pre√ßos correntes \n- exceto Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blicas e seguridade social\n(R$ 1.000)","Valor adicionado bruto da Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blicas e seguridade social, \na pre√ßos correntes\n(R$ 1.000)","Valor adicionado bruto total, \na pre√ßos correntes\n(R$ 1.000)","Impostos, l√≠quidos de subs√≠dios, sobre produtos, \na pre√ßos correntes\n(R$ 1.000)","Produto Interno Bruto, \na pre√ßos correntes\n(R$ 1.000)","Produto Interno Bruto per capita, \na pre√ßos correntes\n(R$ 1,00)",Atividade com maior valor adicionado bruto,Atividade com segundo maior valor adicionado bruto,Atividade com terceiro maior valor adicionado bruto
63499,2021,3,Sudeste,31,MG,Minas Gerais,3100104,Abadia dos Dourados,,3105,...,10618.285,43394.459,38588.616,167711.936,9061.722,176773.658,25174.26,"Pecu√°ria, inclusive apoio √† pecu√°ria","Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos
63500,2021,3,Sudeste,31,MG,Minas Gerais,3100203,Abaet√©,,3106,...,40612.969,220438.549,108971.88,497057.273,44181.933,541239.206,23266.1,Demais servi√ßos,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...","Pecu√°ria, inclusive apoio √† pecu√°ria"
63501,2021,3,Sudeste,31,MG,Minas Gerais,3100302,Abre Campo,,3112,...,14020.634,100230.035,61425.579,242427.859,20258.68,262686.538,19553.86,Demais servi√ßos,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...","Agricultura, inclusive apoio √† agricultura e a..."
63502,2021,3,Sudeste,31,MG,Minas Gerais,3100401,Acaiaca,,3112,...,12308.966,22209.014,23347.179,61428.753,3478.266,64907.018,16247.06,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos,Ind√∫strias extrativas
63503,2021,3,Sudeste,31,MG,Minas Gerais,3100500,A√ßucena,Colar Metropolitano,3108,...,75038.234,24519.318,41345.006,162867.106,2956.52,165823.625,17888.2,"Eletricidade e g√°s, √°gua, esgoto, atividades d...","Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos


In [14]:
## 2¬™ verifica√ß√£o do filtro :)
df_mg_2021[['Sigla da Unidade da Federa√ß√£o', 'Ano']].value_counts()


Unnamed: 0_level_0,Unnamed: 1_level_0,count
Sigla da Unidade da Federa√ß√£o,Ano,Unnamed: 2_level_1
MG,2021,853


In [15]:
# As colunas de interesse neste arquivo s√£o:
# - "Produto Interno Bruto, a pre√ßos correntes (R$ 1.000)"
# - "Nome do Munic√≠pio"
# Por isso, estamos renomeando essas colunas para o arquivo final que ser√° salvo.


df_mg_2021 = df_mg_2021.rename(columns={
    'Nome do Munic√≠pio': 'municipio',
    'Produto Interno Bruto, \na pre√ßos correntes\n(R$ 1.000)': 'PIB'
})

# Verificar se renomeou corretamente :)
df_mg_2021.head()


Unnamed: 0,Ano,C√≥digo da Grande Regi√£o,Nome da Grande Regi√£o,C√≥digo da Unidade da Federa√ß√£o,Sigla da Unidade da Federa√ß√£o,Nome da Unidade da Federa√ß√£o,C√≥digo do Munic√≠pio,municipio,Regi√£o Metropolitana,C√≥digo da Mesorregi√£o,...,"Valor adicionado bruto da Ind√∫stria,\na pre√ßos correntes\n(R$ 1.000)","Valor adicionado bruto dos Servi√ßos,\na pre√ßos correntes \n- exceto Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blicas e seguridade social\n(R$ 1.000)","Valor adicionado bruto da Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blicas e seguridade social, \na pre√ßos correntes\n(R$ 1.000)","Valor adicionado bruto total, \na pre√ßos correntes\n(R$ 1.000)","Impostos, l√≠quidos de subs√≠dios, sobre produtos, \na pre√ßos correntes\n(R$ 1.000)",PIB,"Produto Interno Bruto per capita, \na pre√ßos correntes\n(R$ 1,00)",Atividade com maior valor adicionado bruto,Atividade com segundo maior valor adicionado bruto,Atividade com terceiro maior valor adicionado bruto
63499,2021,3,Sudeste,31,MG,Minas Gerais,3100104,Abadia dos Dourados,,3105,...,10618.285,43394.459,38588.616,167711.936,9061.722,176773.658,25174.26,"Pecu√°ria, inclusive apoio √† pecu√°ria","Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos
63500,2021,3,Sudeste,31,MG,Minas Gerais,3100203,Abaet√©,,3106,...,40612.969,220438.549,108971.88,497057.273,44181.933,541239.206,23266.1,Demais servi√ßos,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...","Pecu√°ria, inclusive apoio √† pecu√°ria"
63501,2021,3,Sudeste,31,MG,Minas Gerais,3100302,Abre Campo,,3112,...,14020.634,100230.035,61425.579,242427.859,20258.68,262686.538,19553.86,Demais servi√ßos,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...","Agricultura, inclusive apoio √† agricultura e a..."
63502,2021,3,Sudeste,31,MG,Minas Gerais,3100401,Acaiaca,,3112,...,12308.966,22209.014,23347.179,61428.753,3478.266,64907.018,16247.06,"Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos,Ind√∫strias extrativas
63503,2021,3,Sudeste,31,MG,Minas Gerais,3100500,A√ßucena,Colar Metropolitano,3108,...,75038.234,24519.318,41345.006,162867.106,2956.52,165823.625,17888.2,"Eletricidade e g√°s, √°gua, esgoto, atividades d...","Administra√ß√£o, defesa, educa√ß√£o e sa√∫de p√∫blic...",Demais servi√ßos


In [16]:
# Criar um novo DataFrame apenas com as colunas 'municipio' e 'PIB'
# Isso facilita salvar os dados finais em CSV para uso posterior
df_PIB_final = df_mg_2021[['municipio', 'PIB']].copy()

# Visualizar os primeiros registros para confer√™ncia
df_PIB_final.head()

Unnamed: 0,municipio,PIB
63499,Abadia dos Dourados,176773.658
63500,Abaet√©,541239.206
63501,Abre Campo,262686.538
63502,Acaiaca,64907.018
63503,A√ßucena,165823.625


In [17]:
# Resetar o √≠ndice do DataFrame para remover o √≠ndice antigo
df_PIB_final = df_PIB_final.reset_index(drop=True)

In [18]:
#somente para checar :)
df_PIB_final.head()

Unnamed: 0,municipio,PIB
0,Abadia dos Dourados,176773.658
1,Abaet√©,541239.206
2,Abre Campo,262686.538
3,Acaiaca,64907.018
4,A√ßucena,165823.625


In [29]:
df_PIB_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   municipio  853 non-null    object 
 1   PIB        853 non-null    float64
dtypes: float64(1), object(1)
memory usage: 13.5+ KB


##Agora que temos os valores de PIB de cada munic√≠pio, vamos extrair os dados de popula√ß√£o e, em seguida, unir ambos em um √∫nico arquivo CSV para an√°lise.

DF final: df_PIB_final

##Filtando os dados de popula√ß√£o

In [19]:
#Importando o arquivo
arquivo2 = "pop_2024.xls"

# Lendo o Excel e usando a segunda linha como header
df2 = pd.read_excel(arquivo2, sheet_name=1, header=1)

 Observa√ß√£o: o DataFrame possui v√°rias linhas e colunas,
 mas para esta an√°lise, nos interessam apenas as seguintes colunas:
   - UF (MG)
   - Nome do Munic√≠pio
   - Popula√ß√£o Estimada


In [20]:
df2.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNIC√çPIO,POPULA√á√ÉO ESTIMADA,Unnamed: 5
0,RO,11.0,15.0,Alta Floresta D'Oeste,22853.0,
1,RO,11.0,23.0,Ariquemes,108573.0,
2,RO,11.0,31.0,Cabixi,5690.0,
3,RO,11.0,49.0,Cacoal,97637.0,
4,RO,11.0,56.0,Cerejeiras,16975.0,


In [21]:
# Filtrar apenas Minas Gerais
df_mg_2024 = df2[df2['UF'] == 'MG']

In [22]:
# Verificar resultado
df_mg_2024.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNIC√çPIO,POPULA√á√ÉO ESTIMADA,Unnamed: 5
2244,MG,31.0,104.0,Abadia dos Dourados,6365.0,
2245,MG,31.0,203.0,Abaet√©,23161.0,
2246,MG,31.0,302.0,Abre Campo,14312.0,
2247,MG,31.0,401.0,Acaiaca,3997.0,
2248,MG,31.0,500.0,A√ßucena,8995.0,


In [23]:
#2¬™ verifica√ß√£o
df_mg_2024['UF'].unique()

array(['MG'], dtype=object)

In [24]:
#Verificar se est√° faltando algum munic√≠pio
df_mg_2024.info()

<class 'pandas.core.frame.DataFrame'>
Index: 853 entries, 2244 to 3096
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   UF                  853 non-null    object 
 1   COD. UF             853 non-null    float64
 2   COD. MUNIC          853 non-null    float64
 3   NOME DO MUNIC√çPIO   853 non-null    object 
 4   POPULA√á√ÉO ESTIMADA  853 non-null    float64
 5   Unnamed: 5          0 non-null      object 
dtypes: float64(3), object(3)
memory usage: 78.9+ KB


In [25]:
df_mg_2024 = df_mg_2024.rename(columns={
    'NOME DO MUNIC√çPIO': 'municipio',
    'POPULA√á√ÉO ESTIMADA': 'populacao'
})

# Verificar resultado
df_mg_2024.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,municipio,populacao,Unnamed: 5
2244,MG,31.0,104.0,Abadia dos Dourados,6365.0,
2245,MG,31.0,203.0,Abaet√©,23161.0,
2246,MG,31.0,302.0,Abre Campo,14312.0,
2247,MG,31.0,401.0,Acaiaca,3997.0,
2248,MG,31.0,500.0,A√ßucena,8995.0,


In [26]:
# Criar um novo DataFrame apenas com as colunas 'municipio' e 'populacao'
# Isso facilita salvar os dados finais em CSV para uso posterior
df_mg_pop = df_mg_2024[['municipio', 'populacao']].copy()

# Verificar resultado
df_mg_pop.head()


Unnamed: 0,municipio,populacao
2244,Abadia dos Dourados,6365.0
2245,Abaet√©,23161.0
2246,Abre Campo,14312.0
2247,Acaiaca,3997.0
2248,A√ßucena,8995.0


##Agora que temos o n√∫mero de habitantes de cada munic√≠pio de Minas Gerais, vamos juntar com o DF anterior e unir ambos em um √∫nico arquivo CSV para an√°lise.

DF final: df_mg_pop

## Resultado final


In [27]:
df_mg_pop

Unnamed: 0,municipio,populacao
2244,Abadia dos Dourados,6365.0
2245,Abaet√©,23161.0
2246,Abre Campo,14312.0
2247,Acaiaca,3997.0
2248,A√ßucena,8995.0
...,...,...
3092,Virgin√≥polis,10519.0
3093,Virgol√¢ndia,4530.0
3094,Visconde do Rio Branco,40608.0
3095,Volta Grande,4473.0


In [28]:
df_PIB_final

Unnamed: 0,municipio,PIB
0,Abadia dos Dourados,176773.658
1,Abaet√©,541239.206
2,Abre Campo,262686.538
3,Acaiaca,64907.018
4,A√ßucena,165823.625
...,...,...
848,Virgin√≥polis,183952.719
849,Virgol√¢ndia,62673.559
850,Visconde do Rio Branco,1351678.582
851,Volta Grande,140360.687


In [30]:
# Unir popula√ß√£o + PIB pelo munic√≠pio
df_mg_completo = pd.merge(
    df_mg_pop,    # DataFrame com popula√ß√£o
    df_PIB_final,    # DataFrame com PIB
    on='municipio',  # chave de jun√ß√£o
    how='inner'      # mant√©m apenas munic√≠pios que existem em ambos
)



In [31]:
# Verificar resultado
df_mg_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   municipio  853 non-null    object 
 1   populacao  853 non-null    float64
 2   PIB        853 non-null    float64
dtypes: float64(2), object(1)
memory usage: 20.1+ KB


In [32]:
# Salvar o DataFrame final em CSV na pasta 'dados'
# O arquivo gerado ser√°: dados/populacao-pib-municipios-mg.csv
df_mg_completo.to_csv("dados/populacao-pib-municipios-mg.csv", index=False)

# <-- Verificar se o arquivo foi salvo corretamente
# e realizar o download, pois arquivos salvos no Colab
# ser√£o perdidos ao fechar a sess√£o.


# Tarefa 3

Objetivos da etapa de dados de desmatamento

- Unir os arquivos dados/desmatamento_ago22.gpkg e dados/desmatamento_set_22.gpkg.em um √∫nico dataset.
- Transformar o dataset combinado em formato GeoJSON com proje√ß√£o EPSG:31983.
- Salvar o arquivo final em: dados/focos-desmatamento-mg.geojson.

Observa√ß√£o: N√£o √© necess√°rio refazer os passos anteriores, pois o arquivo final j√° foi gerado a partir do c√≥digo mostrado. O c√≥digo completo foi mantido para fins did√°ticos e para demonstrar como os dados foram manipulados e processados.

Novamente ser√° necess√°rio adicionar os arquivos no notebook. Na barra lateral √† esquerda clicar no √≠cone icone.pngicone.png e adicionar os arquivos:

- desmatamento_ago22.gpkg
- desmatamento_set22.gpkg

In [38]:
# Importando arquivos
file_ago = "/content/desmatamento_ago22.gpkg"
file_set = "/content/desmatamento_set22.gpkg"

gdf_ago = gpd.read_file(file_ago)
gdf_set = gpd.read_file(file_set)

In [39]:
# Verificar se os dados foram importados corretamente
# e se correspondem ao arquivo esperado (desmatamento_ago22.gpkg),
# garantindo que as datas sejam referentes a agosto.
gdf_ago.head(4)

Unnamed: 0,ogc_fid,id,Inst√¢ncia,Data Inicial,Data Final,Cena,Score,Data Processamento,Bioma,NuFis,Cia PM,geometry
0,1,6726,9696,26/07/2022,05/08/2022,22KFC,0.9,08/08/2022 13:08,Cerrado,Tri√¢ngulo Mineiro,5,"POLYGON ((-49.15074 -20.03366, -49.15028 -20.0..."
1,2,6727,9700,21/07/2022,26/07/2022,22KFD,0.9,08/08/2022 13:08,Cerrado,Tri√¢ngulo Mineiro,5,"POLYGON ((-49.45834 -19.46058, -49.45555 -19.4..."
2,3,6728,9701,21/07/2022,26/07/2022,22KFD,0.9,08/08/2022 13:08,Cerrado,Tri√¢ngulo Mineiro,5,"POLYGON ((-49.28326 -19.63463, -49.28261 -19.6..."
3,4,6729,9702,21/07/2022,05/08/2022,22KFD,0.93,08/08/2022 13:08,Cerrado,Tri√¢ngulo Mineiro,5,"POLYGON ((-49.28382 -19.63454, -49.28289 -19.6..."


In [40]:
# Verificar se os dados foram importados corretamente
# e se correspondem ao arquivo esperado (desmatamento_set22.gpkg),
# garantindo que as datas sejam referentes a setembro.
gdf_set.head()

Unnamed: 0,Inst√¢ncia,Data Inicial,Data Final,Cena,Score,Bioma,NuFis,Cia PM,id,geometry
0,489,27/08/2022,01/09/2022,22KHC,0.85,Mata Atl√¢ntica,Tri√¢ngulo Mineiro,5,1,"POLYGON ((-47.88682 -20.0351, -47.8885 -20.035..."
1,451,04/09/2022,19/09/2022,22KGC,0.91,Cerrado,Tri√¢ngulo Mineiro,5,2,"POLYGON ((-48.79622 -20.01484, -48.79743 -20.0..."
2,56,15/08/2022,09/09/2022,22KEC,0.94,Mata Atl√¢ntica,Tri√¢ngulo Mineiro,5,3,"POLYGON ((-50.96237 -20.00151, -50.96284 -20.0..."
3,370,14/09/2022,24/09/2022,22KFD,0.91,Cerrado,Tri√¢ngulo Mineiro,5,4,"POLYGON ((-49.05217 -19.94629, -49.05161 -19.9..."
4,618,06/09/2022,11/09/2022,22KHD,0.87,Mata Atl√¢ntica,Tri√¢ngulo Mineiro,5,5,"POLYGON ((-47.84676 -19.94933, -47.84713 -19.9..."


In [41]:
# Concatenar os dois GeoDataFrames de desmatamento (agosto e setembro)
gdf_combined = gpd.GeoDataFrame(pd.concat([gdf_ago, gdf_set], ignore_index=True))

# Verificar o sistema de refer√™ncia de coordenadas (CRS) atual
print("CRS atual:", gdf_combined.crs)

# Observa√ß√£o: mais adiante, ser√° necess√°rio converter o CRS para EPSG:31983


CRS atual: EPSG:4326


## ps: Somente para testar se a concatena√ß√£o foi bem sucedida

In [44]:
# Verificando se a concatena√ß√£o foi sucedida
# N√∫mero de linhas em cada GeoDataFrame
print("N√∫mero de linhas em gdf_ago:", gdf_ago.shape[0])
print("N√∫mero de linhas em gdf_set:", gdf_set.shape[0])
print("N√∫mero de linhas em gdf_combined:", gdf_combined.shape[0])


N√∫mero de linhas em gdf_ago: 617
N√∫mero de linhas em gdf_set: 1422
N√∫mero de linhas em gdf_combined: 2039


In [45]:
print(gdf_ago.shape[0] + gdf_set.shape[0] == gdf_combined.shape[0])

True


##

In [46]:
gdf_combined.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 2039 entries, 0 to 2038
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   ogc_fid             617 non-null    float64 
 1   id                  2039 non-null   int64   
 2   Inst√¢ncia           2039 non-null   int64   
 3   Data Inicial        2039 non-null   object  
 4   Data Final          2039 non-null   object  
 5   Cena                2039 non-null   object  
 6   Score               2039 non-null   object  
 7   Data Processamento  617 non-null    object  
 8   Bioma               2039 non-null   object  
 9   NuFis               2039 non-null   object  
 10  Cia PM              2039 non-null   object  
 11  geometry            2039 non-null   geometry
dtypes: float64(1), geometry(1), int64(2), object(8)
memory usage: 191.3+ KB


In [47]:
# Reprojetar para EPSG:31983
gdf_combined = gdf_combined.to_crs(epsg=31983)

# Salvar como GeoJSON
gdf_combined.to_file("dados/focos-desmatamento-mg.geojson", driver="GeoJSON")

# Agora salve todos os arquivos gerados at√© o momento (caso ainda n√£o tenha feito). Eles ser√£o utilizados no segundo notebook, ent√£o √© importante que estejam dispon√≠veis.