# Pré-processamento dos dados clinicos

**Gera o arquivo plano.csv**

Cada linha de **plano.csv** é formado por `["id","plano"]`

- `"id"` identificador do texto
- `"plano"` texto a ser processado.

# 1 Preparação do ambiente

Preparação do ambiente para execução do script.

## 1.1 Tempo inicial de processamento

In [1]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicioProcessamento = time.time()

## 1.2 Tratamento de logs

In [2]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## 1.3 Identificando o ambiente Colab

In [3]:
# Import das bibliotecas.
import sys # Biblioteca para acessar módulos do sistema

# Se estiver executando no Google Colaboratory
# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## 1.4 Monta uma pasta no google drive para carregar os arquivos de dados.

In [4]:
# import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount("/content/drive")

Mounted at /content/drive


## 1.5 Nome do diretório do clinibert

In [5]:
# Diretório do clinibert
DIRETORIO_CLINIBERT = "DADOS_CLINICOS_PLANO_BERTIMBAU"

## 1.6 Define o caminho para os arquivos de dados

In [6]:
# Diretório local para os arquivos pré-processados
DIRETORIO_LOCAL = "/content/" + DIRETORIO_CLINIBERT + "/"

# Diretório no google drive com os arquivos pré-processados
DIRETORIO_DRIVE = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_CLINIBERT + "/"

# 2 Copia o arquivos de dados bruto do google drive

## 2.1 Especifica os nomes dos arquivos de dados



In [7]:
# Nome do arquivo
NOMEARQUIVOFONTE = "dados_clinicos.csv"
NOMEARQUIVOFONTEEDITADO = "plano.csv"

## 2.2 Cria o diretório para receber os dados

In [8]:
# Importando as bibliotecas.
import os

# Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):  
    # Cria o diretório
    os.makedirs(dirbase)    
    logging.info("Diretório criado: {}".format(dirbase))
else:    
    logging.info("Diretório já existe: {}".format(dirbase))

Cria o diretório para receber os dados

In [9]:
# Importando as bibliotecas.
import os

# Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):  
    # Cria o diretório
    os.makedirs(dirbase)    
    logging.info("Diretório criado: {}".format(dirbase))
else:    
    logging.info("Diretório já existe: {}".format(dirbase))

In [10]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:

  !cp "$DIRETORIO_DRIVE$NOMEARQUIVOFONTE" "$DIRETORIO_LOCAL"
  
  logging.info("Terminei a cópia!")

# 3 Carrega os dados no formato bruto

Atributos do arquivo **CliniBERT**:
0. "id"
1. "plano" 

**Alteração do arquivo csv para o formato desejado**

Informar o numero da coluna de texto em `[COLUNAPLANO]`

In [11]:
COLUNAID = 0
COLUNAPLANO = 5

In [34]:
!pip install ipdb

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ipdb
  Downloading ipdb-0.13.9.tar.gz (16 kB)
Collecting ipython>=7.17.0
  Downloading ipython-7.34.0-py3-none-any.whl (793 kB)
[K     |████████████████████████████████| 793 kB 4.9 MB/s 
Collecting matplotlib-inline
  Downloading matplotlib_inline-0.1.6-py3-none-any.whl (9.4 kB)
Collecting jedi>=0.16
  Downloading jedi-0.18.1-py2.py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 50.8 MB/s 
Building wheels for collected packages: ipdb
  Building wheel for ipdb (setup.py) ... [?25l[?25hdone
  Created wheel for ipdb: filename=ipdb-0.13.9-py3-none-any.whl size=11648 sha256=26b5ff8db664643501b6414ec2d45e60694cd631d2d170f6d09a86788871e579
  Stored in directory: /root/.cache/pip/wheels/65/cd/cc/aaf92acae337a28fdd2aa4d632196a59745c8c39f76eaeed01
Successfully built ipdb
Installing collected packages: matplotlib-inline, jedi, ipython, ipdb
  Attempting uninst

In [39]:
#Biblioteca
import pandas as pd
# Biblioteca para barra de progresso
from tqdm.notebook import tqdm as tqdm_notebook

novo_arquivo = []
linhas_em_branco = 0
# Abre o arquivo e retorna o DataFrame
lista_documentos_fonte = pd.read_csv(DIRETORIO_LOCAL + NOMEARQUIVOFONTE, sep=";", quotechar='"', encoding="UTF-8")
df = lista_documentos_fonte

dados_bar = tqdm_notebook(df.iterrows(), desc=f"Dados", unit=f"registro", total=len(df))

# Percorre os registros dos dados bruto
#for (i, linha) in df.iterrows():
for (i, linha) in dados_bar:
  if pd.isnull(linha.values[COLUNAPLANO]) or len(linha.values[COLUNAPLANO]) < 2:
    linhas_em_branco += 1
  else:
    linha.values[COLUNAPLANO] = linha.values[COLUNAPLANO] #.replace('\s+',' ')
    # print(linha.str.replace('\s+',' ',regex=True)) # esta transformando ID em NaN
    novo_arquivo.append([linha.values[COLUNAID], linha.values[COLUNAPLANO]])


Dados:   0%|          | 0/1014 [00:00<?, ?registro/s]

In [40]:
print("Quantidades de linhas em branco: {}.".format(linhas_em_branco))

Quantidades de linhas em branco: 556.


In [41]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
dfnovo_arquivo = pd.DataFrame(novo_arquivo, columns = ["id","plano"])

# Salva o arquivo original
dfnovo_arquivo.to_csv(DIRETORIO_LOCAL + NOMEARQUIVOFONTEEDITADO, sep=";", index=False)

Copia o arquivo **plano.csv** para o GoogleDrive



In [42]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
    # Copia o arquivo original   
    !cp "$DIRETORIO_LOCAL$NOMEARQUIVOFONTEEDITADO" "$DIRETORIO_DRIVE"

    logging.info("Terminei a cópia")

# 4 Finalização

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [43]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempoArredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempoArredondado))    

## 4.1 Tempo final de processamento



In [44]:
# Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print("")
print("  Tempo processamento:  {:} (h:mm:ss)".format(tempoTotalProcessamento))


  Tempo processamento:  0:14:23 (h:mm:ss)
