In [40]:
from pathlib import Path

import pandas as pd
from pysus.online_data import SINAN

metadata = SINAN.metadata_df("DENG")

In [41]:
path = Path().resolve().parents[0] / "data" / "raw"
path.mkdir(parents=True, exist_ok=True)

In [42]:
experiment_path = (
    Path().resolve().parents[0] / "src" / "data" / "parquet" / "CHIKBR23.parquet"
)

In [43]:
metadata

Unnamed: 0,Nome do campo,Campo,Tipo,Categoria,Descrição,Características,DBF
0,2-Agravo/doença,,VARCHAR(1),1-Dengue\n2-Chikungunya,Especifica a suspeição do agravo.,"Campo Obrigatório\nPreenchendo o código,\na de...",ID_AGRAVO
1,31-Data da Investigação,dt_investigacao,DATE,,Informar a data da investigação,Campo obrigatório\n- Não aceitar Data da\ninve...,DT_INVEST
2,32- Ocupação/ramo de atividade econômica,co_cbo_ocupacao,VARCHAR(6),,Informar a atividade exercida pelo paciente no...,,ID_OCUPA_N
3,33- Sinais clínicos (Febre),,VARCHAR(1),1 – Sim\n2 – Não,Informar qual sinal clínico ou achados\nlabora...,Campo obrigatório,FEBRE
4,33- Sinais clínicos (Mialgia),,VARCHAR(1),1 – Sim\n2 – Não,Informar qual sinal clínico ou achados\nlabora...,Campo obrigatório,MIALGIA
...,...,...,...,...,...,...,...
83,70- Dengue grave (Alteração da consciência),,VARCHAR(1),1 – Sim\n2 – Não,Informar qual sinal de gravidade foi\nencontrado,Campo obrigatório\nSe campo 62-\nClassificação...,GRAV_CONSC
84,70- Dengue grave (Outros órgãos),,,,Informar qual sinal de gravidade foi\nencontrado,Campo obrigatório\nSe campo 62-\nClassificação...,GRAV_ORGAO
85,71- Dengue grave Data de início dos sintomas,,DATE,,Informar data de início dos sinais de alarme.\...,Campo obrigatório\nSe campo 62-\nClassificação...,DT_GRAV
86,Informações complementares e observações adici...,ds_observacao,VARCHAR(255),,Informações complementares e observações\nadic...,Habilitado para todas\nnotificações,DS_OBS


In [44]:
metadata.columns

Index(['Nome do campo', 'Campo', 'Tipo', 'Categoria', 'Descrição',
       'Características', 'DBF'],
      dtype='object')

In [45]:
data = metadata[["DBF", "Nome do campo", "Descrição", "Tipo"]]

In [46]:
data.head()

Unnamed: 0,DBF,Nome do campo,Descrição,Tipo
0,ID_AGRAVO,2-Agravo/doença,Especifica a suspeição do agravo.,VARCHAR(1)
1,DT_INVEST,31-Data da Investigação,Informar a data da investigação,DATE
2,ID_OCUPA_N,32- Ocupação/ramo de atividade econômica,Informar a atividade exercida pelo paciente no...,VARCHAR(6)
3,FEBRE,33- Sinais clínicos (Febre),Informar qual sinal clínico ou achados\nlabora...,VARCHAR(1)
4,MIALGIA,33- Sinais clínicos (Mialgia),Informar qual sinal clínico ou achados\nlabora...,VARCHAR(1)


In [47]:
data.to_csv(path / "metadata.csv", index=False)

In [48]:
dbf_data = data["DBF"].tolist()

In [49]:
df = pd.read_parquet(experiment_path)

In [50]:
columns_data = df.columns.tolist()

In [51]:
comparation = [x for x in dbf_data if x in columns_data]
len(comparation)

78

In [52]:
len(dbf_data)

88

In [53]:
len(columns_data)

122

In [54]:
missing_columns_dbf_data = [x for x in columns_data if x not in dbf_data]
missing_columns_column_data = [x for x in dbf_data if x not in columns_data]

In [55]:
missing_columns_column_data

['PETÉQUIA_N',
 'ÁCIDO_PEPT',
 'HOSPITAL',
 'DDD_HOSP',
 'TEL_HOSP',
 'CODISINF',
 'CO_BAINF\nNOBAIINF',
 'CLINIC_CHIK',
 'DS_OBS',
 nan]

In [56]:
print(missing_columns_dbf_data)

['TP_NOT', 'DT_NOTIFIC', 'SEM_NOT', 'NU_ANO', 'SG_UF_NOT', 'ID_MUNICIP', 'ID_REGIONA', 'ID_UNIDADE', 'DT_SIN_PRI', 'SEM_PRI', 'ANO_NASC', 'NU_IDADE_N', 'CS_SEXO', 'CS_GESTANT', 'CS_RACA', 'CS_ESCOL_N', 'SG_UF', 'ID_MN_RESI', 'ID_RG_RESI', 'ID_PAIS', 'PETEQUIA_N', 'ACIDO_PEPT', 'DOENCA_TRA', 'CLINC_CHIK', 'MANI_HEMOR', 'EPISTAXE', 'GENGIVO', 'METRO', 'PETEQUIAS', 'HEMATURA', 'SANGRAM', 'LACO_N', 'PLASMATICO', 'EVIDENCIA', 'PLAQ_MENOR', 'CON_FHD', 'COMPLICA', 'NU_LOTE_I', 'TP_SISTEMA', 'NDUPLIC_N', 'DT_DIGITA', 'CS_FLXRET', 'FLXRECEBI', 'MIGRADO_W']


In [57]:
df_cols = pd.DataFrame(columns_data, columns=["columns"])
df_cols.to_csv(path / "columns_data.csv", index=False)

In [58]:
df.head()

Unnamed: 0,TP_NOT,ID_AGRAVO,DT_NOTIFIC,SEM_NOT,NU_ANO,SG_UF_NOT,ID_MUNICIP,ID_REGIONA,ID_UNIDADE,DT_SIN_PRI,...,PLAQ_MENOR,CON_FHD,COMPLICA,NU_LOTE_I,TP_SISTEMA,NDUPLIC_N,DT_DIGITA,CS_FLXRET,FLXRECEBI,MIGRADO_W
0,2,A92.0,20230417,202316,2023,31,314330,1473,6629296,20230417,...,,,,,2,,20230420,1,,
1,2,A92.0,20230417,202316,2023,31,310850,1473,2172461,20230415,...,,,,,2,,20230424,0,,
2,2,A92.0,20230417,202316,2023,31,310620,1449,23663,20230417,...,,,,,2,,20230425,1,,
3,2,A92.0,20230417,202316,2023,31,314330,1473,2219255,20230410,...,,,,,2,,20230418,0,,
4,2,A92.0,20230417,202316,2023,31,310620,1449,23442,20230415,...,,,,,2,,20230417,1,,


In [59]:
df["TP_NOT"].value_counts()

TP_NOT
2    248193
Name: count, dtype: int64

In [60]:
df["DOENCA_TRA"].head(5)

0     
1     
2     
3     
4     
Name: DOENCA_TRA, dtype: object

In [61]:
df["CON_FHD"].head(5)

0     
1     
2     
3     
4     
Name: CON_FHD, dtype: object

In [62]:
import duckdb

duckdb_path = Path().resolve().parents[0] / "src" / "data" / "db" / "db.db"
conn = duckdb.connect(str(duckdb_path))

# read the data from conn
df2 = conn.table("sinan")

In [63]:
df2

┌─────────┬───────────┬────────────┬─────────┬─────────┬───────────┬────────────┬────────────┬────────────┬────────────┬─────────┬──────────┬────────────┬─────────┬────────────┬─────────┬────────────┬─────────┬────────────┬────────────┬─────────┬───────────┬────────────┬─────────┬─────────┬──────────┬──────────┬─────────┬─────────┬────────────┬────────────┬─────────┬───────────┬────────────┬────────────┬─────────┬───────────┬──────────┬───────────┬───────────┬─────────┬────────────┬────────────┬────────────┬────────────┬────────────┬──────────┬────────────┬────────────┬────────────┬──────────┬────────────┬──────────┬───────────┬──────────┬────────────┬──────────┬────────────┬──────────┬───────────┬──────────┬────────────┬────────────┬─────────┬───────────┬───────────┬─────────┬───────────┬──────────┬────────────┬──────────┬────────────┬────────────┬──────────┬──────────┬────────────┬────────────┬───────────┬──────────┬───────────┬────────────┬────────────┬────────────┬────────────┬────

In [64]:
df2

┌─────────┬───────────┬────────────┬─────────┬─────────┬───────────┬────────────┬────────────┬────────────┬────────────┬─────────┬──────────┬────────────┬─────────┬────────────┬─────────┬────────────┬─────────┬────────────┬────────────┬─────────┬───────────┬────────────┬─────────┬─────────┬──────────┬──────────┬─────────┬─────────┬────────────┬────────────┬─────────┬───────────┬────────────┬────────────┬─────────┬───────────┬──────────┬───────────┬───────────┬─────────┬────────────┬────────────┬────────────┬────────────┬────────────┬──────────┬────────────┬────────────┬────────────┬──────────┬────────────┬──────────┬───────────┬──────────┬────────────┬──────────┬────────────┬──────────┬───────────┬──────────┬────────────┬────────────┬─────────┬───────────┬───────────┬─────────┬───────────┬──────────┬────────────┬──────────┬────────────┬────────────┬──────────┬──────────┬────────────┬────────────┬───────────┬──────────┬───────────┬────────────┬────────────┬────────────┬────────────┬────

In [65]:
df3 = df2.df()

In [66]:
df3_alt = conn.execute("SELECT * FROM sinan").fetchdf()

In [67]:
parquet_path = (
    Path().resolve().parents[0] / "src" / "data" / "parquet" / "CHIKBR23.parquet"
)
df3_alt2 = pd.read_parquet(parquet_path)