In [1]:
# !conda install -n arcgis -q -y sqlalchemy psycopg2 python-slugify geopandas

In [1]:
# import arcgis
import logging
import geopandas as gpd
import pandas as pd

from slugify import slugify
from sqlalchemy import create_engine

logger = logging.getLogger()
logger.setLevel(logging.INFO)

# Ler do banco de dados e salvar em Parquet (Silver)

## Infomações da tabela e dados

In [2]:
# Info da tabela
table = "resultados_analiticos_mineralometria"
schema = "sde"
primary_key = "objectid"

x_field = "longitude"
y_field = "latitude"
srid = 4674

# Puxar os dados e converter em dataframe
try:
    src_engine = create_engine("postgresql://airflow:airflow@gaia.cprm.gov.br:5432/geoq_valida")    
    df = pd.read_sql_table(table, src_engine, schema=schema, index_col=primary_key)
    
except Exception as e:
    logging.error(e)

assert not df.empty, "Esta tabela está vazia. Abortando..."
assert df.index.is_unique, f"Esta tabela não possui identifcador único de registro no campo <{primary_key}>"

df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 14477 entries, 1 to 13697
Columns: 168 entries, projeto_amostragem to observação
dtypes: datetime64[ns](1), float64(2), object(165)
memory usage: 19.2+ MB


## Análise de Colunas

In [3]:
# Colunas fixas
fixed_columns = (
    "projeto_amostragem", "projeto_publicação", "centro_de_custo", 
    "classe", "número_de_campo", "número_de_laboratório", "duplicata", 
    x_field, y_field, "laboratório", "job", "data_de_análise", "observação"
)

# Colunas extras
extra_columns = ()

# checa se as colunas fixas e extras existem na tabela
for col in fixed_columns + extra_columns:
    try:
        assert col in df.columns
        
    except AssertionError:
        logging.error(f"the fixed column <{col}> is not in table columns")

# Colunas a excluir
excluded_columns = ("globalid", "lote", "ra", "método", "abertura", "created_user", "created_date", "last_edited_user", "last_edited_date")

# fixed_columns + extra_columns

## Template de saída em Parquet

In [4]:
template_parquet_file = "data/{}_{}_{}.parquet"

## Tabelas de amostras (Survey)

In [5]:
# ArcGIS SDF
# survey_df = pd.DataFrame.spatial.from_xy(
#     df = df.filter(fixed_columns + extra_columns),
#     x_column=x_field, 
#     y_column=y_field, 
#     sr=srid
# )

# GeoPandas
survey_df = gpd.GeoDataFrame(
    df.filter(fixed_columns + extra_columns)
        .apply(lambda col: col.replace("", None))
        .rename(columns=lambda col: slugify(col, separator="_")),
    geometry=gpd.points_from_xy(
        df[x_field], 
        df[y_field], 
        crs=srid
    )
)

# ObjectID tem que ser único e não pode ter geometria nula ou vazia
assert survey_df.index.is_unique, f"ObjectID precisa ser único: {survey_df[survey_df.index.duplicated()].index.tolist()}"
assert not (survey_df.geometry.isna().all() and survey_df.geometry.is_empty.all()), "A tabela não pode ter geometria nula ou vazia"

# Gravar em Parquet
out_survey_file = template_parquet_file.format(schema, table, "survey")
survey_df.to_parquet(out_survey_file, index=True)

survey_df.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 14477 entries, 1 to 13697
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   projeto_amostragem     14477 non-null  object        
 1   projeto_publicacao     14477 non-null  object        
 2   centro_de_custo        14477 non-null  object        
 3   classe                 14477 non-null  object        
 4   numero_de_campo        14477 non-null  object        
 5   numero_de_laboratorio  14477 non-null  object        
 6   duplicata              2401 non-null   object        
 7   longitude              14477 non-null  float64       
 8   latitude               14477 non-null  float64       
 9   laboratorio            14477 non-null  object        
 10  job                    14250 non-null  object        
 11  data_de_analise        14014 non-null  datetime64[ns]
 12  observacao             1306 non-null   object        
 13

## Tabelas de análises (assays)

In [6]:
assay_sample_field = "amostra"
assay_analyte_field = "analito"
assay_value_field = "valor"

# padrão para achar espaços
spaces_regex = r"\s+"
# Segunda lista é o padrão para missings de read_csv do pandas
missing_values = ["ND", "", "N.A."] + [" ", "#N/A", "#N/A N/A", "#NA", "-1.#IND", "-1.#QNAN", "-NaN", "-nan", "1.#IND", "1.#QNAN", "<NA>", "N/A", "NA", "NULL", "NaN", "None", "n/a", "nan", "null"]
normalize_values = {
    ',': "."
}

# Funções para Pipes
def handle_missing(series, extra_missing_values=[]):
    return (
        series.str.replace(spaces_regex, "", regex=True)
            .replace(missing_values + extra_missing_values, None) 
    )

def handle_normalized(series, extra_replaces={}):
    extra_replaces.update(normalize_values)
    
    for key, value in extra_replaces.items():
        series = series.str.replace(key, value)
    return series

### Dados de pesagem

In [7]:
# Colunas de peso de amostra
weight_columns = [
    'peso_inicial_g', 'peso_fracionado_g', 'peso_conc_0_3g', 'peso_bateia__0_3g',
    'magnetico_imã_mão_g', 'total_pesado_g', 'não_analisadas_leves_g', 
    'semi_magnetico_g', 'não_magneticos_g', 'total_analisado_g'
]
    
for col in weight_columns:
    assert col in weight_columns, f"A coluna <{col}> não existe nas colunas de peso de amostra"

# Primeiras limpezas
weight_df = (
    df.filter(weight_columns)
        .apply(lambda col: col.replace("", None))
        .rename(columns=lambda col: slugify(col, separator="_"))
        # De-pivot
        .stack()
        # Ajusta nomes
        .rename_axis([assay_sample_field, assay_analyte_field])
        .rename(assay_value_field)
        # handle missing data on values
        .pipe(handle_missing)
        .dropna()
        # normalize values + qualificators
        .pipe(handle_normalized, normalize_values)
        # converte para float (peso não tem qualificador)
        .astype(float)
        .to_frame()
)

# Index tem que ser único
assert weight_df.index.is_unique

# Gravar em Parquet
out_weight_file = template_parquet_file.format(schema, table, "weight")
weight_df.to_parquet(out_weight_file, index=True)

weight_df

Unnamed: 0_level_0,Unnamed: 1_level_0,valor
amostra,analito,Unnamed: 2_level_1
8207,peso_inicial_g,68.100
8208,peso_inicial_g,52.900
8209,peso_inicial_g,155.100
8210,peso_inicial_g,52.400
8211,peso_inicial_g,100.000
...,...,...
13930,total_pesado_g,2.114
13930,nao_analisadas_leves_g,43.796
13930,semi_magnetico_g,1.773
13930,nao_magneticos_g,0.749


In [9]:
weight_df.reset_index().analito.value_counts()

analito
peso_inicial_g            1275
peso_fracionado_g          886
total_pesado_g             659
nao_analisadas_leves_g     616
peso_bateia_0_3g           616
magnetico_ima_mao_g        616
total_analisado_g          515
semi_magnetico_g           488
nao_magneticos_g           488
peso_conc_0_3g             142
Name: count, dtype: int64

### Dados de minerais

In [8]:
# Metadado de análise
assay_meta = ("leitura",)
assay_analyte_field = "substancia"

for col in assay_meta:
    assert col in assay_meta, f"A coluna <{col}> não existe nas colunas de metadados de análise"

# Colunas com object_id + Assays - (fixed_columns + excluded_columns - colunas de peso)
_excluded = fixed_columns + excluded_columns + tuple(weight_columns)
assay_columns = [col for col in df.columns if col not in _excluded]
del _excluded

# normalizar
extra_values = {
    "1" : "S1",
    "3" : "S3",
    "15": "S15",
    "40": "S40",
    "60": "S60",
    "85": "S85",
}

# Regex para validar valores
semiquant_regex = "^S(1|3|15|40|60|85)$"
qualit_regex = "^(X|Y|Z)$"
    
# Primeiras limpezas
assay_df = (
    df.filter(assay_columns)
        .apply(lambda col: col.replace("", None))
        .rename(columns=lambda col: slugify(col, separator="_"))
        # Traz o objectid para o index do dataframe
        .set_index(list(assay_meta), append=True)
        # De-pivot
        .stack()
        # Ajusta nomes
        .rename_axis([assay_sample_field] + list(assay_meta) + [assay_analyte_field])
        .rename(assay_value_field)
        # handle missing data on values
        .pipe(handle_missing)
        .dropna()
        # ajustar valores semiquantitativos
        .replace(extra_values.keys(), extra_values.values())
)

# ObjectID tem que ser único
assert survey_df.index.is_unique

# # Decomposição de valores para valor, qualificador

# # Valores precisam atender a padrão de valores
# values_match = assay_df.squeeze().astype(str).str.match(r"^[<>]?\d+(\.\d+)?$")
# assert values_match.all(), f"Alguns valores não coincidiram com a expressão regluar: {assay_df[~values_match].head()}"

# assay_df = (
#     assay_df.join(
#         assay_df[assay_value_field].str.extract(r'([<>]?)(\d+\.?\d*)').rename(columns={0: "qualificador", 1: "valor"})
#     )
#     .assign(
#         valor = lambda df: pd.to_numeric(df.valor, errors="raise"),
#         qualificador = lambda df: df.qualificador.pipe(handle_missing).astype("category")
#     )
#     .drop(
#         [assay_value_field], 
#         axis="columns"
#     )
    
# )

# # Gravar em Parquet
# out_assay_file = template_parquet_file.format(schema, table, "assay")
# assay_df.to_parquet(out_assay_file, index=True)

assay_df.head()

amostra  leitura                   substancia        
1        Análise Semiquantitativa  anatasio               S3
                                   epidoto                S1
                                   fosfato                S3
                                   fragmento_de_rocha     S3
                                   ilmenita              S40
Name: valor, dtype: object

In [9]:
assay_df.loc[1]

leitura                   substancia        
Análise Semiquantitativa  anatasio               S3
                          epidoto                S1
                          fosfato                S3
                          fragmento_de_rocha     S3
                          ilmenita              S40
                          leucoxenio             S1
                          magnetita             S60
                          mica                   S1
                          monazita               S3
                          oxido_de_ferro        S40
                          pirita                 S3
                          piroxenio              S1
                          rutilo                 S1
                          turmalina              S1
                          zircao                 S3
Name: valor, dtype: object

In [22]:
 assay_df[~(assay_df.str.match(semiquant_regex) | assay_df.str.match(qualit_regex))]

amostra  leitura                   substancia
4894     Análise Semiquantitativa  ilmenita       75
8183     Análise Qualitativa       espinelio       c
8184     Análise Qualitativa       anatasio        0
8185     Análise Qualitativa       anatasio        0
9711     Análise Semiquantitativa  ilmenita       90
                                                ... 
11863    Análise Semiquantitativa  limonita      >75
11864    Análise Semiquantitativa  limonita      >75
11865    Análise Semiquantitativa  limonita      >75
13343    Análise Semiquantitativa  epidoto        30
13452    Análise Semiquantitativa  epidoto         5
Name: valor, Length: 210, dtype: object

In [10]:
value_enum = {
    "S1" : "<1%",
    "S3" : "1-5%",
    "S15": "5-25%",
    "S40": "25-50%",
    "S60": "50-75%",
    "S85": ">75%",
    "X"  : ">50%",
    "Y"  : "5-50%",
    "Z"  : "<5%",
}

error_oids = assay_df[~(assay_df.str.match(semiquant_regex) | assay_df.str.match(qualit_regex))].index.get_level_values(assay_sample_field).drop_duplicates()
assay_df[assay_df.index.get_level_values(0).isin(error_oids)].replace(value_enum.keys(), value_enum.values()).unstack().fillna("") #.to_csv("teste.csv")

Unnamed: 0_level_0,substancia,andaluzita,anfibolio,cianita,epidoto,ilmenita,leucoxenio,magnetita,monazita,oxido_de_ferro,rutilo,...,calcopirita,carbonato,goethita,pirita_oxidada,gahnita,agregado,gorceixita,xenotimio,piroxenio,celadonita
amostra,leitura,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
4894,Análise Semiquantitativa,<1%,<1%,<1%,<1%,75,<1%,<1%,<1%,<1%,<1%,...,,,,,,,,,,
8183,Análise Qualitativa,,,,,<5%,<5%,<5%,<5%,<5%,<5%,...,,,,,,,,,,
8184,Análise Qualitativa,,,,,<5%,,<5%,<5%,<5%,<5%,...,,,,,,,,,,
8185,Análise Qualitativa,,,,<5%,5-50%,<5%,<5%,<5%,5-50%,<5%,...,,,,,,,,,,
9711,Análise Semiquantitativa,,,,,90,,1-5%,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11863,Análise Semiquantitativa,,,,<1%,5-25%,,5-25%,,,<1%,...,,,<1%,,,,,,,
11864,Análise Semiquantitativa,,,,<1%,5-25%,,5-25%,,,<1%,...,,,<1%,,,,,,,
11865,Análise Semiquantitativa,,,<1%,1-5%,1-5%,,<1%,,,<1%,...,,,,,,<1%,,,,
13343,Análise Semiquantitativa,,<1%,<1%,30,5-25%,,1-5%,,,<1%,...,,,,,,,,,<1%,


In [11]:
assay_df.index.get_level_values("leitura").value_counts()

leitura
Análise Semiquantitativa    138557
Análise Qualitativa          47202
Name: count, dtype: int64

# Ler do Parquet e mandar para o banco de dados (Gold)

In [12]:
survey_df2 = gpd.read_parquet(out_survey_file)
pd.testing.assert_frame_equal(survey_df, survey_df2)

survey_df2.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 14477 entries, 1 to 13697
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   projeto_amostragem     14477 non-null  object        
 1   projeto_publicacao     14477 non-null  object        
 2   centro_de_custo        14477 non-null  object        
 3   classe                 14477 non-null  object        
 4   numero_de_campo        14477 non-null  object        
 5   numero_de_laboratorio  14477 non-null  object        
 6   duplicata              2401 non-null   object        
 7   longitude              14477 non-null  float64       
 8   latitude               14477 non-null  float64       
 9   laboratorio            14477 non-null  object        
 10  job                    14250 non-null  object        
 11  data_de_analise        14014 non-null  datetime64[ns]
 12  observacao             1306 non-null   object        
 13

In [13]:
assay_df2 = pd.read_parquet(out_assay_file)
pd.testing.assert_frame_equal(assay_df, assay_df2)

assay_df2.info()

NameError: name 'out_assay_file' is not defined