# Este notebook corresponde a filtragem da base de dados utilizada nos estudos

In [1]:
import pandas as pd
import numpy as np
import difflib
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

In [2]:
path = '/home/marcussilva/Documents/bases/'

### Lendo os dados

In [3]:
dtO = pd.read_csv(path + 'dadosGenéricos.csv')

dtO.head(5)

Unnamed: 0,CD_CONVENIO,NM_CONVENIO,CD_AVISO_CIRURGIA,CD_CIRURGIA_AVISO,NOVO_CD_CIRURGIA,DS_CIRURGIA,SN_PRINCIPAL,CD_CID,DS_CID,NOVO_CD_ESPECIALIDADE,...,NOVO_CD_ESPECIE_MESTRE,DS_ESPECIE_MESTRE,NOVO_CD_CLASSE_MESTRE,DS_CLASSE_MESTRE,NOVO_CD_SUB_CLA_MESTRE,DS_SUB_CLA_MESTRE,DT_REALIZACAO,QT_MOVIMENTACAO,ANO_REALIZACAO,ANO_MES_REALIZACAO
0,COV379,Convenio 0,AVC776,CAV731,NCIR412,Cirurgia 0,S,CID994,CID 0,ESP371,...,ESPM584,Especie Mestre 0,CLAM988,Classe Mestre 0,SUBCLAM925,Subclasse Mestre 0,2020-08-01,47,2024,2024-01
1,COV839,Convenio 1,AVC517,CAV970,NCIR382,Cirurgia 1,N,CID787,CID 1,ESP885,...,ESPM375,Especie Mestre 1,CLAM629,Classe Mestre 1,SUBCLAM933,Subclasse Mestre 1,2020-07-13,9,2020,2024-05
2,COV828,Convenio 2,AVC618,CAV197,NCIR866,Cirurgia 2,S,CID549,CID 2,ESP522,...,ESPM206,Especie Mestre 2,CLAM158,Classe Mestre 2,SUBCLAM356,Subclasse Mestre 2,2022-01-11,23,2022,2022-04
3,COV536,Convenio 3,AVC669,CAV467,NCIR744,Cirurgia 3,N,CID511,CID 3,ESP187,...,ESPM214,Especie Mestre 3,CLAM380,Classe Mestre 3,SUBCLAM179,Subclasse Mestre 3,2023-06-27,85,2022,2024-07
4,COV607,Convenio 4,AVC435,CAV559,NCIR556,Cirurgia 4,S,CID618,CID 4,ESP219,...,ESPM116,Especie Mestre 4,CLAM249,Classe Mestre 4,SUBCLAM779,Subclasse Mestre 4,2020-03-12,22,2020,2022-01


In [4]:
dtO.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 32 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   CD_CONVENIO             20 non-null     object
 1   NM_CONVENIO             20 non-null     object
 2   CD_AVISO_CIRURGIA       20 non-null     object
 3   CD_CIRURGIA_AVISO       20 non-null     object
 4   NOVO_CD_CIRURGIA        20 non-null     object
 5   DS_CIRURGIA             20 non-null     object
 6   SN_PRINCIPAL            20 non-null     object
 7   CD_CID                  20 non-null     object
 8   DS_CID                  20 non-null     object
 9   NOVO_CD_ESPECIALIDADE   20 non-null     object
 10  DS_ESPECIALID           20 non-null     object
 11  NOVO_CD_PRODUTO         20 non-null     object
 12  DS_PRODUTO              20 non-null     object
 13  NOVO_CD_ESPECIE         20 non-null     object
 14  DS_ESPECIE              20 non-null     object
 15  NOVO_CD_

### Retirando dados nulos e dados que não viriam a serem utilizados

In [None]:
dtO['QT_MOVIMENTACAO'] = dtO['QT_MOVIMENTACAO'].replace(0, np.nan)
dtO.info()

In [None]:
dtO.dropna(subset = ['DS_PRODUTO_MESTRE'], inplace = True)
dtO.dropna(subset = ['QT_MOVIMENTACAO'], inplace = True)

dtO.reset_index()
dtO.info()

In [None]:
sn = dtO[dtO['SN_PRINCIPAL'] == 'N'].index
dtO.drop(sn, inplace = True)

dtO.info()

### Retirando as inconsistências relativas as relações entre código e descrição da base de dados

In [None]:
def regulaColunas(a, b):
    new = dtO[a].unique()

    for idx in range(len(dtO[a].unique())):
        dtO.loc[dtO[a] == new[idx], b] = str(idx)

In [None]:
a = 'DS_CIRURGIA'
b = 'NOVO_CD_CIRURGIA'

regulaColunas(a, b)

In [None]:
a = 'DS_ESPECIALID'
b = 'NOVO_CD_ESPECIALIDADE'

regulaColunas(a, b)

In [None]:
a = 'DS_PRODUTO'
b = 'NOVO_CD_PRODUTO'

regulaColunas(a, b)

In [None]:
a = 'DS_ESPECIE'
b = 'NOVO_CD_ESPECIE'

regulaColunas(a, b)

In [None]:
a = 'DS_CLASSE'
b = 'NOVO_CD_CLASSE'

regulaColunas(a, b)

In [None]:
a = 'DS_SUB_CLA'
b = 'NOVO_CD_SUB_CLA'

regulaColunas(a, b)

In [None]:
a = 'DS_PRODUTO_MESTRE'
b = 'NOVO_CD_PRODUTO_MESTRE'

regulaColunas(a, b)

In [None]:
a = 'DS_ESPECIE_MESTRE'
b = 'NOVO_CD_ESPECIE_MESTRE'

regulaColunas(a, b)

In [None]:
a = 'DS_CLASSE_MESTRE'
b = 'NOVO_CD_CLASSE_MESTRE'

regulaColunas(a, b)

In [None]:
a = 'DS_SUB_CLA_MESTRE'
b = 'NOVO_CD_SUB_CLA_MESTRE'

regulaColunas(a, b)

### Removendo colunas antigas e inconsistentes e organizando a disposição das novas colunas

In [None]:
dtO.drop(columns = 'CD_ESPECIALID', inplace = True)
dtO.drop(columns = 'CD_PRODUTO_MESTRE', inplace = True)
dtO.drop(columns = 'CD_ESPECIE_MESTE', inplace = True)
dtO.drop(columns = 'CD_CLASSE_MESTRE', inplace = True)
dtO.drop(columns = 'CD_PRODUTO', inplace = True)
dtO.drop(columns = 'CD_CLASSE', inplace = True)
dtO.drop(columns = 'CD_SUB_CLA_MESTRE', inplace = True)
dtO.drop(columns = 'CD_CIRURGIA', inplace = True)
dtO.drop(columns = 'CD_SUB_CLA', inplace = True)

In [None]:
dtO = dtO[['CD_CONVENIO','NM_CONVENIO','CD_AVISO_CIRURGIA','CD_CIRURGIA_AVISO',
         'NOVO_CD_CIRURGIA','DS_CIRURGIA','SN_PRINCIPAL','CD_CID','DS_CID',
         'NOVO_CD_ESPECIALIDADE','DS_ESPECIALID','NOVO_CD_PRODUTO','DS_PRODUTO','NOVO_CD_ESPECIE',
         'DS_ESPECIE','NOVO_CD_CLASSE','DS_CLASSE','NOVO_CD_SUB_CLA','DS_SUB_CLA',
         'DS_UNIDADE_REFERENCIA','NOVO_CD_PRODUTO_MESTRE','DS_PRODUTO_MESTRE','NOVO_CD_ESPECIE_MESTRE',
         'DS_ESPECIE_MESTRE','NOVO_CD_CLASSE_MESTRE','DS_CLASSE_MESTRE','NOVO_CD_SUB_CLA_MESTRE',
         'DS_SUB_CLA_MESTRE','DT_REALIZACAO','QT_MOVIMENTACAO']]

### Organizando as colunas relativas as datas de realização dos procedimentos cirúrgicos

In [None]:
dtO['DT_REALIZACAO'] =  pd.to_datetime(dtO['DT_REALIZACAO'], format='%d/%m/%y %H:%M:%S')

dtO['ANO_REALIZACAO'] =  dtO['DT_REALIZACAO'].dt.strftime('%Y')

dtO['ANO_MES_REALIZACAO'] =  dtO['DT_REALIZACAO'].dt.strftime('%Y%m')

dtO[['DT_REALIZACAO','ANO_REALIZACAO', 'ANO_MES_REALIZACAO']].head(3)

### Salvando os dados filtrados em uma nova base de dados

In [None]:
dtO.to_csv(path + 'dadosGenéricos.csv')