In [95]:
import pandas as pd
import pandas_profiling as pp
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns
import unicodedata
sns.set(color_codes=True)
%matplotlib inline

# Pré-processamento de dados

## Carregar tabelas

In [2]:
if not os.path.exists("./data"):
    os.makedirs("./data")

caso_intoxicacao = pd.read_table("./data/01_caso_intoxicacao", sep="|", encoding='UTF-8', index_col="identificador_caso")
atendimento = pd.read_table("./data/02_atendimento", sep="|", encoding='UTF-8', index_col="identificador_caso")
solicitante = pd.read_table("./data/03_solicitante", sep="|", encoding='UTF-8', index_col="identificador_caso")
paciente = pd.read_table("./data/04_paciente", sep="|", encoding='UTF-8', index_col="identificador_caso")
exposicao = pd.read_table("./data/05_exposicao", sep="|", encoding='UTF-8', index_col="identificador_caso")
agente_intoxicante = pd.read_table("./data/06_agente_intoxicante", sep="|", encoding='UTF-8', index_col="identificador_caso")
manifestacao = pd.read_table("./data/07_manifestacao", sep="|", encoding='UTF-8', index_col="identificador_caso")
tratamento = pd.read_table("./data/08_tratamento", sep="|", encoding='UTF-8', index_col="identificador_caso")
exame = pd.read_table("./data/09_exame", sep="|", encoding='UTF-8', index_col="identificador_caso")
historia = pd.read_table("./data/10_historia", sep="|", encoding='UTF-8', index_col="identificador_caso")
acompanhamento = pd.read_table("./data/11_acompanhamento", sep="|", encoding='UTF-8', index_col="identificador_caso")
encerramento = pd.read_table("./data/12_encerramento", sep="|", encoding='UTF-8', index_col="identificador_caso")
informacao = pd.read_table("./data/13_informacao", sep="|", encoding='UTF-8', index_col="identificador_caso")
paciente_animal = pd.read_table("./data/14_paciente_animal", sep="|", encoding='UTF-8', index_col="identificador_caso")
banco_agentes_intoxicantes = pd.read_table("./data/99_banco_agentes_intoxicantes", sep="|", encoding='UTF-8')


  interactivity=interactivity, compiler=compiler, result=result)


## Gerar relatórios gerais sobre os atributos

In [3]:
if not os.path.exists("./tmp"):
    os.makedirs("./tmp")
    
pp.ProfileReport(caso_intoxicacao).to_file(outputfile="./tmp/01_caso_intoxicacao.html")
pp.ProfileReport(atendimento).to_file(outputfile="./tmp/02_atendimento.html")
pp.ProfileReport(solicitante).to_file(outputfile="./tmp/03_solicitante.html")
pp.ProfileReport(paciente).to_file(outputfile="./tmp/04_paciente.html")
pp.ProfileReport(exposicao).to_file(outputfile="./tmp/05_exposicao.html")
pp.ProfileReport(agente_intoxicante).to_file(outputfile="./tmp/06_agente_intoxicante.html")
pp.ProfileReport(manifestacao).to_file(outputfile="./tmp/07_manifestacao.html")
pp.ProfileReport(tratamento).to_file(outputfile="./tmp/08_tratamento.html")
pp.ProfileReport(exame).to_file(outputfile="./tmp/09_exame.html")
pp.ProfileReport(historia).to_file(outputfile="./tmp/10_historia.html")
pp.ProfileReport(acompanhamento).to_file(outputfile="./tmp/11_acompanhamento.html")
pp.ProfileReport(encerramento).to_file(outputfile="./tmp/12_encerramento.html")
pp.ProfileReport(informacao).to_file(outputfile="./tmp/13_informacao.html")
pp.ProfileReport(paciente_animal).to_file(outputfile="./tmp/14_paciente_animal.html")
# pp.ProfileReport(banco_agentes_intoxicantes).to_file(outputfile="./tmp/99_banco_agentes_intoxicantes.html")


## Seleção manual de atributos

In [4]:
true = ['t']; false = ['f']

caso_intoxicacao = pd.read_table("./data/01_caso_intoxicacao", sep="|",
                                 encoding='UTF-8',
                                 index_col="identificador_caso",
                                 true_values=true, false_values=false,
                                 usecols=["identificador_caso", "classificacao_gravidade", "tipo_atendimento"])

atendimento = pd.read_table("./data/02_atendimento", sep="|",
                            encoding='UTF-8',
                            index_col="identificador_caso",
                            true_values=true, false_values=false,
                            usecols=["identificador_caso", "local_atendimento"])

solicitante = pd.read_table("./data/03_solicitante", sep="|",
                            encoding='UTF-8',
                            index_col="identificador_caso",
                            true_values=true, false_values=false,
                            usecols=["identificador_caso", "cidade_solicitacao", "estado_solicitacao"])

paciente = pd.read_table("./data/04_paciente", sep="|",
                         encoding='UTF-8',
                         index_col="identificador_caso",
                         true_values=true, false_values=false,
                         usecols=["identificador_caso", "idade", "especificacao_idade", "sexo", "data_nascimento"])      

exposicao = pd.read_table("./data/05_exposicao", sep="|",
                          encoding='UTF-8',
                          index_col="identificador_caso",
                          true_values=true, false_values=false,
                          usecols=["identificador_caso", "cidade_exposicao", "estado_exposicao"])

agente_intoxicante = pd.read_table("./data/06_agente_intoxicante", sep="|",
                                   encoding='UTF-8',
                                   index_col="identificador_caso",
                                   true_values=true, false_values=false,
                                   usecols=["identificador_caso", "grupo_agente"])          

#manifestacao = pd.read_table("./data/07_manifestacao", sep="|",
#                             encoding='UTF-8',
#                             index_col="identificador_caso",
#                             true_values=true, false_values=false,
#                             usecols=["identificador_caso"])                    

#tratamento = pd.read_table("./data/08_tratamento", sep="|",
#                           encoding='UTF-8',
#                           index_col="identificador_caso",
#                           true_values=true, false_values=false,
#                           usecols=["identificador_caso"])                    

#exame = pd.read_table("./data/09_exame", sep="|",
#                      encoding='UTF-8',
#                      index_col="identificador_caso",
#                      true_values=true, false_values=false,
#                      usecols=["identificador_caso"])                    

#historia = pd.read_table("./data/10_historia", sep="|",
#                         encoding='UTF-8',
#                         index_col="identificador_caso",
#                         true_values=true, false_values=false,
#                         usecols=["identificador_caso"])                    

#acompanhamento = pd.read_table("./data/11_acompanhamento", sep="|",
#                               encoding='UTF-8',
#                               index_col="identificador_caso",
#                               true_values=true, false_values=false,
#                               usecols=["identificador_caso"])                    

encerramento = pd.read_table("./data/12_encerramento", sep="|",
                             encoding='UTF-8',
                             index_col="identificador_caso",
                             true_values=true, false_values=false,
                             usecols=["identificador_caso", "desfecho"])                    

#informacao = pd.read_table("./data/13_informacao", sep="|",
#                           encoding='UTF-8',
#                           index_col="identificador_caso",
#                           true_values=true, false_values=false,
#                           usecols=["identificador_caso"])                    

#paciente_animal = pd.read_table("./data/14_paciente_animal", sep="|",
#                                encoding='UTF-8',
#                                index_col="identificador_caso",
#                                true_values=true, false_values=false,
#                                usecols=["identificador_caso"])                    

#banco_agentes_intoxicantes = pd.read_table("./data/99_banco_agentes_intoxicantes", sep="|",
#                                           encoding='UTF-8',
#                                           true_values=true, false_values=false)                    


## Junção das tabelas

In [5]:
data = caso_intoxicacao.join(
       atendimento).join(
       solicitante).join(
       paciente).join(
       exposicao).join(
       agente_intoxicante).join(
       encerramento)

pp.ProfileReport(data).to_file(outputfile="./tmp/data.html")

In [6]:
data.count()

tipo_atendimento           75525
classificacao_gravidade    70654
local_atendimento          74434
cidade_solicitacao         74051
estado_solicitacao         74051
idade                      70257
especificacao_idade        71007
sexo                       71024
data_nascimento            58504
cidade_exposicao           69553
estado_exposicao           71662
grupo_agente               73903
desfecho                   71399
dtype: int64

## Limpeza de dados

### Remoção de missings e dados duplicados
Retirando-se todos os registros que contém algum valor nulo em qualquer dos atributos, reduzimos a tabela de 75525 para 46563 registros.

In [7]:
data = data.drop_duplicates()
data = data.drop("data_nascimento", axis=1)
data = data.dropna()
pp.ProfileReport(data).to_file(outputfile="./tmp/data_no_missings.html")

### Remoção de casos fora de SC

In [8]:
data = data[data.estado_solicitacao == 'SC']
data = data[data.estado_exposicao == 'SC']
data = data.drop(['estado_solicitacao', 'estado_exposicao'], axis=1)

### Remoção de casos animais ou pedidos de informação

In [9]:
data = data[data.tipo_atendimento == 'H']
data = data.drop('tipo_atendimento', axis=1)

In [10]:
pp.ProfileReport(data).to_file(outputfile="./tmp/data_sc.html")
data.count()

classificacao_gravidade    46807
local_atendimento          46807
cidade_solicitacao         46807
idade                      46807
especificacao_idade        46807
sexo                       46807
cidade_exposicao           46807
grupo_agente               46807
desfecho                   46807
dtype: int64

## Transformação de  Dados

### Atributo idade

In [11]:
data['especificacao_idade'].value_counts()

Anos     45915
Meses      848
Dias        44
Name: especificacao_idade, dtype: int64

Transformação Meses e Dias para Anos

In [12]:
data.loc[data.especificacao_idade == 'Meses', 'idade'] /= 12
data.loc[data.especificacao_idade == 'Dias', 'idade'] /= 360
data = data.drop('especificacao_idade', axis=1)

Discretização em faixas etárias

Bebê -> 0 a 3

Criança -> 3 a 15

Jovem -> 15 a 30

Adulto -> 30 a 60

Idoso -> 60 em diante

In [13]:
data.loc[data.idade < 3, 'classificacao_idade'] = 'Bebe'
data.loc[(data.idade >= 3) & (data.idade < 15), 'classificacao_idade'] = 'Crianca'
data.loc[(data.idade >= 15) & (data.idade < 30), 'classificacao_idade'] = 'Jovem'
data.loc[(data.idade >= 30) & (data.idade < 60), 'classificacao_idade'] = 'Adulto'
data.loc[data.idade >= 60, 'classificacao_idade'] = 'Idoso'
data = data.drop('idade', axis=1)

In [14]:
data.classificacao_idade.value_counts()

Adulto     18398
Jovem      12092
Crianca     6836
Bebe        5703
Idoso       3778
Name: classificacao_idade, dtype: int64

In [15]:
pp.ProfileReport(data, check_correlation=False).to_file(outputfile="./tmp/data_prepared.html")

### Categórico para numérico


In [16]:
cat_to_num = {"classificacao_idade": {"Bebe": 0, "Crianca": 1, "Jovem": 2, "Adulto": 3, "Idoso": 4},
              }
data.replace(cat_to_num, inplace=True)

In [17]:
data["classificacao_gravidade"] = data["classificacao_gravidade"].astype('category')
data["classificacao_gravidade_num"] = data["classificacao_gravidade"].cat.codes

### Cidades para mesoregiões

In [108]:
def normalize_str(text):
    text = (
        unicodedata
        .normalize('NFKD', text)
        .encode('ascii', 'ignore')
        .decode("utf-8")
    )
    return str(text).upper()

municipios = (
    pd.read_csv("./municipiosSC.csv")
    .assign(municipio = lambda df: df['municipio'].apply(normalize_str))
    .assign(mesoregiao = lambda df: df['mesoregiao'].apply(normalize_str))
)
municipios_dict = {}
for index, row in municipios.iterrows():
    municipios_dict[row.municipio] = row.mesoregiao
    
data = (
    data.
    assign(mesoregiao=lambda df: df['cidade_solicitacao'].apply(normalize_str).replace(municipios_dict))
)

In [109]:
data.mesoregiao.value_counts()

GRANDE FLORIANOPOLIS    12020
VALE DO ITAJAI           9886
OESTE CATARINENSE        9191
NORTE CATARINENSE        7073
SUL CATARINENSE          6253
SERRANA                  2384
Name: mesoregiao, dtype: int64