In [None]:
# !conda install -n arcgis -q -y sqlalchemy psycopg2 python-slugify geopandas

In [None]:
# import arcgis
import logging
import geopandas as gpd
import pandas as pd

from slugify import slugify
from sqlalchemy import create_engine

logger = logging.getLogger()
logger.setLevel(logging.INFO)

# Ler do banco de dados e salvar em Parquet (Silver)

## Infomações da tabela e dados

In [None]:
# table = "resultados_analiticos_agua"
# table = "resultados_analiticos_concentrado_de_bateia"
# table = "resultados_analiticos_contagem_au" # script separado
# table = "resultados_analiticos_furo_de_sondagem" # script separado
# table = "resultados_analiticos_mineral_minerio"  # extras
# table = "resultados_analiticos_mineralometria" # script separado
# table = "resultados_analiticos_outros"
# table = "resultados_analiticos_rocha"  # extras
table = "resultados_analiticos_sedimento_de_corrente"
# table = "resultados_analiticos_solo"    # 15169   Fusão Tetraborato de Lítio Fluorescência de Raios-X nb      ppm              5N
# table = "resultados_analiticos_vegetacao"

In [None]:
not df.empty

In [None]:
# Info da tabela
schema = "sde"
primary_key = "objectid"

x_field = "longitude"
y_field = "latitude"
srid = 4674

# Puxar os dados e converter em dataframe
try:
    src_engine = create_engine("postgresql://airflow:airflow@gaia.cprm.gov.br:5432/geoq_valida")    
    df = pd.read_sql_table(table, src_engine, schema=schema, index_col=primary_key)
    
except Exception as e:
    logging.error(e)

assert not df.empty, "Esta tabela está vazia. Abortando..."
assert df.index.is_unique, f"Esta tabela não possui identifcador único de registro no campo <{primary_key}>"

df.info()


## Análise de Colunas

In [None]:
# Colunas fixas
fixed_columns = (
    "projeto_amostragem", "projeto_publicação", "centro_de_custo", 
    "classe", "número_de_campo", "número_de_laboratório", "duplicata", 
    x_field, y_field, "laboratório", "job", "data_de_análise", "observação"
)

# Colunas extras
extra_columns = ()

# checa se as colunas fixas e extras existem na tabela
for col in fixed_columns  extra_columns:
    try:
        assert col in df.columns
        
    except AssertionError:
        logging.error(f"the fixed column <{col}> is not in table columns")

# Colunas a excluir
excluded_columns = ("globalid", "lote", "ra", "método", "created_user", "created_date", "last_edited_user", "last_edited_date")

# fixed_columns  extra_columns

## Template de saída em Parquet

In [None]:
template_parquet_file = "data/{}_{}_{}.parquet"

## Tabelas de amostras (Survey)

In [None]:
# ArcGIS SDF
# survey_df = pd.DataFrame.spatial.from_xy(
#     df = df.filter(fixed_columns  extra_columns),
#     x_column=x_field, 
#     y_column=y_field, 
#     sr=srid
# )

# GeoPandas
survey_df = gpd.GeoDataFrame(
    df.filter(fixed_columns  extra_columns)
        .apply(lambda col: col.replace("", None))
        .rename(columns=lambda col: slugify(col, separator="_")),
    geometry=gpd.points_from_xy(
        df[x_field], 
        df[y_field], 
        crs=srid
    )
)

# ObjectID tem que ser único e não pode ter geometria nula ou vazia
assert survey_df.index.is_unique, f"ObjectID precisa ser único: {survey_df[survey_df.index.duplicated()].index.tolist()}"
assert not (survey_df.geometry.isna().all() and survey_df.geometry.is_empty.all()), "A tabela não pode ter geometria nula ou vazia"

# Gravar em Parquet
out_survey_file = template_parquet_file.format(schema, table, "survey")
survey_df.to_parquet(out_survey_file, index=True)

survey_df.info()

## Tabelas de análises (assays)

In [None]:
# Colunas com object_id  Assays - (fixed_columns  excluded_columns)
assay_columns = [col for col in df.columns if col not in fixed_columns and col not in excluded_columns]
assay_meta = ["abertura", "leitura"]

assay_sample_field = "amostra"
assay_analyte_field = "analito_unidade"
assay_value_field = "valor_bruto"

spaces_regex = r"\s"
missing_values = ["ND", "", "N.A."]  [" ", "#N/A", "#N/A N/A", "#NA", "-1.#IND", "-1.#QNAN", "-NaN", "-nan", "1.#IND", "1.#QNAN", "<NA>", "N/A", "NA", "NULL", "NaN", "None", "n/a", "nan", "null"]
normalize_values = {
    ',': ".",
    "-": "<",
    "<.": "<0.",
}

# Pipes
def handle_missing(series, extra_missing_values=[]):
    return (
        series.str.replace(spaces_regex, "", regex=True)
            .replace(missing_values  extra_missing_values, None) 
    )

def handle_normalized(series, replaces={}):
    for key, value in replaces.items():
        series = series.str.replace(key, value)
    return series
    
# Primeiras limpezas
assay_df = (
    df.filter(assay_columns)
        .apply(lambda col: col.replace("", None))
        .rename(columns=lambda col: slugify(col, separator="_"))
        # Traz o objectid para o index do dataframe
        .set_index(assay_meta, append=True)
        # De-pivot
        .stack()
        # Ajusta nomes
        .rename_axis([assay_sample_field]  assay_meta  [assay_analyte_field])
        .rename(assay_value_field)
        # handle missing data on values
        .pipe(handle_missing)
        .dropna()
        # normalize values  qualificators
        .pipe(handle_normalized, normalize_values)
)

# Tratamento de index
assay_df = (
    assay_df.to_frame()
    .join(
        pd.DataFrame(
            assay_df.index.get_level_values(assay_analyte_field).str.rsplit("_", n=1, expand=True).to_list(), 
            index=assay_df.index, 
            columns=assay_analyte_field.split("_")
        )
    )
    .reset_index(level=assay_analyte_field)
    .set_index(assay_analyte_field.split("_"), append=True)
    .drop(assay_analyte_field, axis="columns")
)

# ObjectID tem que ser único
assert survey_df.index.is_unique

# Decomposição de valores para valor, qualificador

# Valores precisam atender a padrão de valores
values_match = assay_df.squeeze().astype(str).str.match(r"^[<>]?\d(\.\d)?$")
assert values_match.all(), f"Alguns valores não coincidiram com a expressão regluar: {assay_df[~values_match].head()}"

assay_df = (
    assay_df.join(
        assay_df[assay_value_field].str.extract(r'([<>]?)(\d\.?\d*)').rename(columns={0: "qualificador", 1: "valor"})
    )
    .assign(
        valor = lambda df: pd.to_numeric(df.valor, errors="raise"),
        qualificador = lambda df: df.qualificador.pipe(handle_missing).astype("category")
    )
    .drop(
        [assay_value_field], 
        axis="columns"
    )
    
)

# Gravar em Parquet
out_assay_file = template_parquet_file.format(schema, table, "assay")
assay_df.to_parquet(out_assay_file, index=True)

assay_df.info()

# Ler do Parquet e mandar para o banco de dados (Gold)

In [None]:
survey_df2 = gpd.read_parquet(out_survey_file)
pd.testing.assert_frame_equal(survey_df, survey_df2)

survey_df2.info()

In [None]:
assay_df2 = pd.read_parquet(out_assay_file)
pd.testing.assert_frame_equal(assay_df, assay_df2)

assay_df2.info()