In [None]:
# -*- coding: utf-8
# Reinaldo Chaves (reichaves@gmail.com)

O projeto que implementa um sistema de an√°lise de dados de processos miner√°rios brasileiros.

## Objetivo Principal
O script analisa dados do **SIGMINE** (Sistema de Informa√ß√µes Geogr√°ficas da Minera√ß√£o) da ANM (Ag√™ncia Nacional de Minera√ß√£o), que cont√©m informa√ß√µes sobre processos miner√°rios ativos no Brasil.

## Funcionalidades Principais

### 1. **An√°lise Estat√≠stica de Processos Miner√°rios**
- Calcula estat√≠sticas gerais: total de fei√ß√µes, √°rea total em hectares, √°rea mediana
- Identifica os 10 maiores processos por √°rea
- Distribui dados por UF (Unidade Federativa) e por FASE do processo

### 2. **Integra√ß√£o de Dados Geoespaciais e Administrativos**
- L√™ arquivos shapefile (.shp) com dados geogr√°ficos dos processos
- Integra com dados do Sistema de Cadastro Mineiro (SCM) para obter informa√ß√µes detalhadas sobre:
  - Pessoas f√≠sicas/jur√≠dicas respons√°veis (CPF/CNPJ)
  - Munic√≠pios onde os processos est√£o localizados
  - Subst√¢ncias minerais envolvidas

### 3. **Corre√ß√£o de Geometrias**
- Aplica corre√ß√µes em geometrias inv√°lidas usando `make_valid()` do GeoPandas
- Garante que todas as features sejam v√°lidas para an√°lise espacial

### 4. **Gera√ß√£o de Fichas Detalhadas**
- Cria fichas completas de processos espec√≠ficos contendo:
  - N√∫mero do processo
  - Nome e documento (CPF/CNPJ) do respons√°vel
  - Tipo de pessoa (f√≠sica/jur√≠dica)
  - Munic√≠pio e UF
  - Subst√¢ncia mineral
  - Fase do processo
  - √Årea em hectares

### 5. **Exporta√ß√£o de Resultados**
- Salva fichas de processos em formato CSV
- Organiza resultados em diret√≥rio espec√≠fico

## Fontes de Dados
- **SIGMINE**: dados geogr√°ficos dos processos miner√°rios
- **Sistema de Cadastro Mineiro**: dados administrativos e cadastrais
- **IBGE**: c√≥digos e nomes dos munic√≠pios brasileiros

## Tecnologias Utilizadas
- **GeoPandas**: manipula√ß√£o de dados geoespaciais
- **Pandas**: an√°lise de dados tabulares
- **Shapely**: opera√ß√µes geom√©tricas
- **Google Colab**: ambiente de execu√ß√£o

Todas as informa√ß√µes precisam ser checadas

In [None]:
# -----------------------------------------------
# üìä  Estat√≠sticas de processos miner√°rios (ANM)
#     Notebook para Google Colab
# -----------------------------------------------

In [None]:
'''
Fonte dos dados:
https://dados.gov.br/dados/conjuntos-dados/sistema-de-informacoes-geograficas-da-mineracao-sigmine
Arquivo de Metadados
Processos miner√°rios ativos - Brasil

+ Cadastro Mineiro
https://dados.gov.br/dados/conjuntos-dados/sistema-de-cadastro-mineiro
Microdados SCM
https://app.anm.gov.br/dadosabertos/SCM/microdados/
'''

In [None]:
# 1) Instalar depend√™ncias ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# (Shapely 2+ √© compat√≠vel com GeoPandas ‚â•‚ÄØ0.14)
!pip -q install geopandas shapely pyproj fiona pyogrio

[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m56.6/56.6 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m17.3/17.3 MB[0m [31m24.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# 2) Montar o Google‚ÄØDrive ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# 3) Definir pasta dos dados ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
base_dir = "/content/drive/My Drive/domingo_de_dados_2025/dados_ambientais/sigmine_ativos/dados/BRASIL"

In [None]:
# 4) Localizar o arquivo .shp ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import glob, os
shp_files = glob.glob(os.path.join(base_dir, "*.shp"))
assert shp_files, "Nenhum .shp encontrado no caminho especificado."
shp_path = shp_files[0]
print(f"Usando shapefile: {shp_path}")

Usando shapefile: /content/drive/My Drive/domingo_de_dados_2025/dados_ambientais/sigmine_ativos/dados/BRASIL/BRASIL.shp


In [None]:
# 5) Ler com GeoPandas ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import geopandas as gpd, pandas as pd

gdf = gpd.read_file(shp_path)

# se precisar corrigir de verdade - Para garantir que todas as features sejam v√°lidas WKT
gdf["geometry"] = gdf.geometry.make_valid()        # GeoPandas >= 0.14 / Shapely >= 2
# alternativa tradicional (buffer‚Äë0) ‚Äì menos robusta
# gdf["geometry"] = gdf.geometry.buffer(0)



  return ogr_read(
  return ogr_read(


In [None]:
# 6) Estat√≠sticas principais ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
n_feat   = len(gdf)
total_ha = gdf["AREA_HA"].sum()
med_ha   = gdf["AREA_HA"].median()

In [None]:
print(f"Total de fei√ß√µes: {n_feat:,}")
print(f"√Årea total: {total_ha:,.0f} ha")
print(f"√Årea mediana: {med_ha:,.1f} ha")

Total de fei√ß√µes: 255,230
√Årea total: 218,241,541 ha
√Årea mediana: 74.0 ha


In [None]:
# 7) Top‚Äë10 maiores √°reas ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
top10 = gdf.nlargest(10, "AREA_HA")[["DSProcesso", "UF", "AREA_HA"]]
display(top10)

Unnamed: 0,DSProcesso,UF,AREA_HA
181654,803.237/2022,PI,207815.13
192323,850.232/2023,PA,167348.57
227198,813.684/1969,PA,98910.42
66744,605.626/1976,SE,92498.5
543,001.662/1936,MG,74633.97
198667,800.988/2023,CE,48914.66
684,813.682/1969,PA,30000.0
237514,815.118/1994,SC,26385.82
293,002.019/1939,GO,24542.04
162912,886.166/2021,RO,20882.67


In [None]:
registro = gdf.query("PROCESSO == '803237/2022'")     # ou DSProcesso == '803237/2022'
print(registro.T)           # exibe todas as colunas verticalmente

                                                       181654
PROCESSO                                          803237/2022
NUMERO                                                 803237
ANO                                                      2022
AREA_HA                                             207815.13
ID                     {923B1CA9-6840-49DA-99C9-82A08CB0DD27}
FASE                                 RECONHECIMENTO GEOL√ìGICO
ULT_EVENTO  10 - RECONH GEOL/REQUERIMENTO RECONHECIMENTO G...
NOME           AVANT GEOTECNOLOGIAS E ENGENHARIA MINERAL LTDA
SUBS                                      DADO N√ÉO CADASTRADO
USO                                       DADO N√ÉO CADASTRADO
UF                                                         PI
DSProcesso                                       803.237/2022
geometry    POLYGON Z ((-42.077533332999906 -4.16381388899...


In [None]:
# 8) Distribui√ß√£o por UF e por FASE ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
uf_counts   = gdf["UF"].value_counts().rename_axis("UF").to_frame("fei√ß√µes")
fase_counts = gdf["FASE"].value_counts().rename_axis("FASE").to_frame("fei√ß√µes")

In [None]:
display(uf_counts.head())
display(fase_counts.head())

Unnamed: 0_level_0,fei√ß√µes
UF,Unnamed: 1_level_1
MG,49523
BA,29039
PA,23914
SP,15732
GO,15196


Unnamed: 0_level_0,fei√ß√µes
FASE,Unnamed: 1_level_1
AUTORIZA√á√ÉO DE PESQUISA,104091
REQUERIMENTO DE PESQUISA,24405
REQUERIMENTO DE LAVRA,21449
LICENCIAMENTO,20658
DISPONIBILIDADE,20304


### PARA VER O CPF OU CNPJ DO RESPONS√ÅVEL

In [None]:
!pip -q install geopandas shapely pyogrio pandas pyarrow openpyxl

In [None]:
import os, csv, glob, zipfile, re, pandas as pd, geopandas as gpd

In [None]:
# ‚îÄ‚îÄ 0. caminhos --------------------------------------------------------------
BASE  = "/content/drive/My Drive/domingo_de_dados_2025/dados_ambientais/sigmine_ativos/dados"
SHP   = f"{BASE}/BRASIL/BRASIL.shp"
TXT   = f"{BASE}/microdados-scm"

files = dict(
    pessoa   = f"{TXT}/Pessoa.txt",
    proc_pes = f"{TXT}/ProcessoPessoa.txt",
    proc_mun = f"{TXT}/ProcessoMunicipio.txt",
    proc_sub = f"{TXT}/ProcessoSubstancia.txt",
    subst    = f"{TXT}/Substancia.txt",
)

In [None]:
# ‚îÄ‚îÄ 1. utilidades ------------------------------------------------------------
norm = lambda s: re.sub(r"[^A-Z0-9]", "", str(s).upper())
read = lambda p, cols=None: pd.read_csv(
    p, sep=";", encoding="latin1", engine="python", on_bad_lines="warn",
    usecols=cols, dtype=str)

In [None]:
# ‚îÄ‚îÄ 2. leitura e normaliza√ß√£o -----------------------------------------------
pessoa   = read(files["pessoa"],
                lambda c: norm(c) in {"IDPESSOA","NRCPFCNPJ","TPPESSOA","NMPESSOA"})
pessoa.columns = [norm(c) for c in pessoa.columns]

proc_pes = read(files["proc_pes"],
                lambda c: norm(c) in {"DSPROCESSO","IDPESSOA"})
proc_pes.columns = [norm(c) for c in proc_pes.columns]

proc_mun = read(files["proc_mun"],
                lambda c: norm(c) in {"DSPROCESSO","IDMUNICIPIO"})
proc_mun.columns = [norm(c) for c in proc_mun.columns]

proc_sub = read(files["proc_sub"],
                lambda c: norm(c) in {"DSPROCESSO","IDSUBSTANCIA"})
proc_sub.columns = [norm(c) for c in proc_sub.columns]

subst    = read(files["subst"],
                lambda c: norm(c) in {"IDSUBSTANCIA","NMSUBSTANCIA"})
subst.columns = [norm(c) for c in subst.columns]

In [None]:
# ‚îÄ‚îÄ 3. juntar pessoa ‚Üî processo ---------------------------------------------
scm = proc_pes.merge(pessoa, on="IDPESSOA", how="left")

# ‚îÄ‚îÄ 4. anexar munic√≠pio ------------------------------------------------------
scm = scm.merge(proc_mun, on="DSPROCESSO", how="left")

In [None]:
# (opcional) traduzir c√≥digo‚ÄëIBGE em nome
ibge_url = "https://raw.githubusercontent.com/kelvins/municipios-brasileiros/master/csv/municipios.csv"
ibge = pd.read_csv(ibge_url, dtype=str)
ibge = ibge.rename(columns={'codigo_ibge': 'IDMUNICIPIO'})
ibge = ibge.rename(columns={'nome': 'nome_municipio'})
scm = scm.merge(ibge, on="IDMUNICIPIO", how="left")

In [None]:
ibge.columns

Index(['IDMUNICIPIO', 'nome_municipio', 'latitude', 'longitude', 'capital',
       'codigo_uf', 'siafi_id', 'ddd', 'fuso_horario'],
      dtype='object')

In [None]:
# ‚îÄ‚îÄ 5. anexar subst√¢ncia -----------------------------------------------------
scm = scm.merge(proc_sub, on="DSPROCESSO", how="left")
scm = scm.merge(subst,    on="IDSUBSTANCIA", how="left")

In [None]:
# ‚îÄ‚îÄ 6. shapefile SIGMINE -----------------------------------------------------
gdf = gpd.read_file(SHP)[["DSProcesso","UF","FASE","AREA_HA","geometry"]]
full = gdf.merge(scm, left_on="DSProcesso", right_on="DSPROCESSO", how="left")

  return ogr_read(
  return ogr_read(


In [None]:
# ‚îÄ‚îÄ 7. ficha do processo -----------------------------------------------------
proc = "803.237/2022"
cols = ["DSProcesso","NMPESSOA","NRCPFCNPJ","TPPESSOA",
        "nome_municipio","UF","NMSUBSTANCIA","FASE","AREA_HA"]
print(full.query("DSProcesso == @proc")[cols].T)

                                  948417                    948418  \
DSProcesso                  803.237/2022              803.237/2022   
NMPESSOA         DANIEL FERREIRA MARIANO   DANIEL FERREIRA MARIANO   
NRCPFCNPJ                    ***699106**               ***699106**   
TPPESSOA                               F                         F   
nome_municipio                    Barras                   Batalha   
UF                                    PI                        PI   
NMSUBSTANCIA                         NaN                       NaN   
FASE            RECONHECIMENTO GEOL√ìGICO  RECONHECIMENTO GEOL√ìGICO   
AREA_HA                        207815.13                 207815.13   

                                  948419                    948420  \
DSProcesso                  803.237/2022              803.237/2022   
NMPESSOA         DANIEL FERREIRA MARIANO   DANIEL FERREIRA MARIANO   
NRCPFCNPJ                    ***699106**               ***699106**   
TPPESSOA         

In [None]:
# ‚îÄ‚îÄ 8. salvar ficha em CSV ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import os

# 1) definir diret√≥rio‚Äëalvo
out_dir = "/content/drive/My Drive/domingo_de_dados_2025/dados_ambientais/sigmine_ativos/dados/resultados"
os.makedirs(out_dir, exist_ok=True)          # cria se n√£o existir

# 2) filtrar novamente (caso mude o proc) e salvar
proc = "803.237/2022"                        # <- use o mesmo formato de DSProcesso
cols = ["DSProcesso","NMPESSOA","NRCPFCNPJ","TPPESSOA",
        "nome_municipio","UF","NMSUBSTANCIA","FASE","AREA_HA"]

registro = full.query("DSProcesso == @proc")[cols]
fname    = os.path.join(out_dir, f"ficha_{proc.replace('/','_').replace('.','')}.csv")

registro.to_csv(fname, index=False, encoding="utf-8")
print(f"‚úî CSV salvo em: {fname}")

‚úî CSV salvo em: /content/drive/My Drive/domingo_de_dados_2025/dados_ambientais/sigmine_ativos/dados/resultados/ficha_803237_2022.csv
