> Notebook com o carregamento dos dados gerados pelo K-Means para sua exploração, visando o entendimento das relações dos clusters

---

#**Bibliotecas e instalações**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

import pickle

In [2]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

# **Dicionário de variáveis**

*   **ESCOLARI**: Código para escolaridade do paciente (int = 1).

      1 – ANALFABETO

      2 – ENS. FUND. INCOMPLETO

      3 – ENS. FUND. COMPLETO

      4 – ENSINO MÉDIO

      5 – SUPERIOR

      9 – IGNORADA
*   **IDADE**: Idade do paciente (int = 3).
*   **SEXO**: Sexo do paciente (int = 1). 

      1 – MASCULINO

      2 – FEMININO
*   **UFNASC**: UF de nascimento (char = 2). Outras opções: SI - Sem informação; OP - Outro país.	
*   **UFRESID**: UF de residência (char = 2). Outras opções: OP - Outro país.
*   **IBGE**: Código da cidade de residência do paciente segundo IBGE com digito verificador (char = 7).
*   **CIDADE**: Cidade de residência do paciente (char = 200).
*   **CATEATEND**: Categoria de atendimento ao diagnóstico (int = 1). 

      1 - CONVENIO

      2 - SUS

      3 – PARTICULAR

      9 – SEM INFORMAÇÃO
*   **DTCONSULT**: Data da 1ª consulta (date = 10). Formato: DD/MM/YYYY	
*   **CLINICA**: Código da clinica (int = 2).

      1 – ALERGIA/IMUNOLOGIA

      2 – CIRURGIA CARDIACA

      3 – CIRURGIA CABEÇA E PESCOÇO

      4 – CIRURGIA GERAL

      5 – CIRURGIA PEDIATRICA

      6 – CIRURGIA PLASTICA

      7 – CIRURGIA TORAXICA

      8 – CIRURGIA VASCULAR

      9 – CLINICA MEDICA

      10 – DERMATOLOGIA

      11 – ENDOCRINOLOGIA

      12 – GASTROCIRURGIA
      
      13 – GASTROENTEROLOGIA
      
      14 – GERIATRIA
      
      15 – GINECOLOGIA
      
      16 – GINECOLOGIA / OBSTETRICIA
      
      17 – HEMATOLOGIA
      
      18 – INFECTOLOGIA
      
      19 – NEFROLOGIA
      
      20 – NEUROCIRURGIA
      
      21 – NEUROLOGIA
      
      22 – OFTALMOLOGIA
      
      23 – ONCOLOGIA CIRURGICA
      
      24 – ONCOLOGIA CLINICA
      
      25 – ONCOLOGIA PEDIATRICA
      
      26 – ORTOPEDIA
      
      27 – OTORRINOLARINGOLOGIA
      
      28 – PEDIATRIA
      
      29 – PNEUMOLOGIA
      
      30 – PROCTOLOGIA
      
      31 – RADIOTERAPIA
      
      32 – UROLOGIA
      
      33 – MASTOLOGIA
      
      34 – ONCOLOGIA CUTANEA
      
      35 – CIRURGIA PELVICA
      
      36 – CIRURGIA ABDOMINAL
      
      37 – ODONTOLOGIA
      
      38 – TRANSPLANTE HEPATICO
      
      99 – IGNORADO	
*   **DIAGPREV**: Diagnóstico e tratamento anterior (int = 1).

      1 – SEM DIAGNÓSTICO / SEM TRATAMENTO
      
      2 – COM DIAGNÓSTICO / SEM TRATAMENTO
      
      3 – COM DIAGNÓSTICO / COM TRATAMENTO
      
      4 – OUTROS	
*   **DTDIAG**: Data do diagnóstico (date = 10). Formato: DD/MM/YYYY	
*   **BASEDIAG**: Código da base do diagnóstico (int = 1).
      
      1 – EXAME CLINICO
      
      2 – RECURSOS AUXILIARES NÃO MICROSCÓPICOS
      
      3 – CONFIRMAÇÃO MICROSCÓPICA
      
      4 – SEM INFORMAÇÃO	
*   **TOPO**: Código da topografia (char = 4). Formato: C999 	
*   **TOPOGRUP**: Grupo da topografia	(char = 3). Formato: C99	
*   **DESCTOPO**: Descrição da Topografia (char = 80).
*   **MORFO**: Código da morfologia (char = 5). Formato: 99999
*   **DESCMORFO**: Descrição da morfologia (char = 80).
*   **EC**: Estádio clínico (char = 5).
*   **ECGRUP**: Grupo do estadiamento clínico (char = 3).

      0 - Tumores primários, classificados como in situ

      I - Tumores localizados

      II - Tumores com envolvimento regional por extensão direta

      III - Tumores com envolvimento regional de linfonodos
      
      IV - Tumores com metástase à distância 

      X - Para tumores não avaliados pelo profissional responsável ou sem informação sobre estadiamento anotada no prontuário

      Y - Para tumores em que não se aplica a classificação TNM. São os tumores não sólidos (por exemplo, as leucemias)
*   **T**: Classificação TNM - T (char = 5).
*   **N**: Classificação TNM - N (char = 5).	
*   **M**: Classificação TNM - M (char = 3).	
*   **PT**: Estadiamento pós cirúrgico (char = 5).
*   **PN**: Estadiamento pós cirúrgico (char = 5).	
*   **PM**: Estadiamento pós cirúrgico (char = 3).	
*   **S**: Classificação TNM - S (int = 1). Domínio: 0; 1; 2; 3; 8 – NÃO SE APLICA; 9 – X
*   **G**: Classificação TNM – G (Grau) (char = 5). 

      Domínio (exceto C40, C41, C381, C382, C383, C47, C48 e C49):
      0; 1; 2; 3; 4; 8 – NÃO SE APLICA; 9 – X

      Domínio (somente C40, C41, C381, C382, C383, C47, C48 e C49):
      ALTO; BAIXO; 8 – NÃO SE APLICA; 9 – X
	
*   **LOCALTNM**: Classificação TNM - Localização (int = 1).
      
      1 – SUPERIOR
      
      2 – MEDIO
      
      3 – INFERIOR
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **IDMITOTIC**: Classificação TNM – Índice Mitótico (int = 1).
      
      1 – ALTA
      
      2 – BAIXA
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **PSA**: Classificação TNM - PSA (int = 1).
      
      1 – MENOR QUE 10
      
      2 – MAIOR OU IGUAL A 10 E MENOR QUE 20
      
      3 – MAIOR OU IGUAL A 20
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **GLEASON**: Classificação TNM - Gleason (int = 1).
      
      1 – MENOR OU IGUAL A 6
      
      2 – IGUAL A 7
      
      3 – MAIOR OU IGUAL A 8
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **OUTRACLA**: Outra classificação de estadiamento (char = 20).
*   **META01**: Metástase (char = 3).	Formato: C99
*   **META02**: Metástase (char = 3).	Formato: C99
*   **META03**: Metástase (char = 3).	Formato: C99
*   **META04**: Metástase (char = 3).	Formato: C99
*   **DTTRAT**: Data de inicio do tratamento (date = 10). Formato: DD/MM/YYYY	
*   **NAOTRAT**: Código da razão para não realização do tratamento (int = 1).
      
      1 – RECUSA DO TRATAMENTO
      
      2 – DOENÇA AVANÇADA, FALTA DE CONDIÇÕES CLINICAS
      
      3 – OUTRAS DOENÇAS ASSOCIADAS
      
      4 – ABANDONO DE TRATAMENTO
      
      5 – OBITO POR CANCER
      
      6 – OBITO POR OUTRAS CAUSAS, SOE
      
      7 – OUTRAS
      
      8 – NÃO SE APLICA (CASO TENHA TRATAMENTO)
      
      9 – SEM INFORMAÇÃO	
*   **TRATAMENTO**: Código de combinação dos tratamentos realizados (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado	
*   **TRATHOSP**: Código de combinação dos tratamentos realizados no hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento

      J – Nenhum tratamento realizado	
*   **TRATFANTES**: Código de combinação dos tratamentos realizados antes/durante admissão fora do hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado
      
      K – Sem informação
*   **TRATFAPOS**: Código de combinação dos tratamentos realizados após admissão fora do hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado
      
      K – Sem informação
*   **NENHUM**: Tratamento recebido no hospital = nenhum (int = 1). 0 – NÃO; 1 – SIM
*   **CIRURGIA**: Tratamento recebido no hospital = cirurgia (int = 1). 0 – NÃO; 1 – SIM
*   **RADIO**: Tratamento recebido no hospital = radioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **QUIMIO**: Tratamento recebido no hospital = quimioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **HORMONIO**: Tratamento recebido no hospital = hormonioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **TMO**: Tratamento recebido no hospital = tmo (int = 1). 0 – NÃO; 1 – SIM
*   **IMUNO**: Tratamento recebido no hospital = imunoterapia (int = 1). 0 – NÃO; 1 – SIM
*   **OUTROS**: Tratamento recebido no hospital = outros (int = 1). 0 – NÃO; 1 – SIM
*   **NENHUMANT**: Tratamento recebido fora do hospital e antes da admissão = nenhum (int = 1). 0 – NÃO; 1 – SIM
*   **CIRURANT**: Tratamento recebido fora do hospital e antes da admissão = cirurgia (int = 1). 0 – NÃO; 1 – SIM
*   **RADIOANT**: Tratamento recebido fora do hospital e antes da admissão = radioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **QUIMIOANT**: Tratamento recebido fora do hospital e antes da admissão = quimioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **HORMOANT**: Tratamento recebido fora do hospital e antes da admissão = hormonioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **TMOANT**: Tratamento recebido fora do hospital e antes da admissão = tmo (int = 1). 0 – NÃO; 1 – SIM
*   **IMUNOANT**: Tratamento recebido fora do hospital e antes da admissão = imunoterapia (int = 1). 0 – NÃO; 1 – SIM
*   **OUTROANT**: Tratamento recebido fora do hospital e antes da admissão = outros (int = 1). 0 – NÃO; 1 – SIM	
*   **NENHUMAPOS**: Tratamento recebido fora do hospital e durante/após admissão = nenhum	(int = 1). 0 – NÃO; 1 – SIM	
*   **CIRURAPOS**: Tratamento recebido fora do hospital e durante/após admissão = cirurgia	(int = 1). 0 – NÃO; 1 – SIM	
*   **RADIOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = radioterapia	(int = 1). 0 – NÃO; 1 – SIM	
*   **QUIMIOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = quimioterapia	(int = 1). 0 – NÃO; 1 – SIM		
*   **HORMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = hormonioterapia	(int = 1). 0 – NÃO; 1 – SIM		
*   **TMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = tmo	(int = 1). 0 – NÃO; 1 – SIM		
*   **IMUNOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = imunoterapia	(int = 1). 0 – NÃO; 1 – SIM	
*   **OUTROAPOS**: Tratamento recebido fora do hospital e durante/após admissão = outros	(int = 1). 0 – NÃO; 1 – SIM	
*   **DTULTINFO**: Data da última informação do paciente (date = 10). Formato: DD/MM/YYYY
*   **ULTINFO**: Última informação sobre o paciente (int = 1).
      
      1 – VIVO, COM CÂNCER
      
      2 – VIVO, SOE
      
      3 – OBITO POR CANCER
      
      4 – OBITO POR OUTRAS CAUSAS, SOE
*   **CONSDIAG**: Diferença em dias entre as datas de consulta o diagnóstico (num = dias).
*   **TRATCONS**: Diferença em dias entre as datas de consulta e tratamento (num = dias).	
*   **DIAGTRAT**: Diferença em dias entre as datas de tratamento e diagnóstico (num = dias).
*   **ANODIAG**: Ano de diagnóstico (int = 4). Formato: 9999
*   **CICI**: Tumor infantil (char = 5).	
*   **CICIGRUP**: Tumor infantil – Grupo (char = 80).	
*   **CICISUBGRU**: Tumor infantil – Sub grupo (char = 80).	
*   **FAIXAETAR**: Faixa etária do paciente (char = 5).	
*   **LATERALI**: Lateralidade (int = 1).
      
      1 – DIREITA
      
      2 – ESQUERDA
      
      3 – BILATERAL
      
      8 - NÃO SE APLICA	
*   **INSTORIG**: Instituição de origem (char = 200). Obrigatório somente se DIAGPREV = 03 – COM DIAGNÓSTICO / COM TRATAMENTO
*   **DRS**: Departamentos Regionais de Saúde (char = 200).
*   **RRAS**: RRAS (char = 200).	
*   **PERDASEG**: Perda de seguimento (int = 1). 
      
      0 – Não
      
      1 – Sim
      
      8 – Não se aplica (excluído do cálculo para o indicador perda de seguimento)	
*   **ERRO**: Admissão com erro (int = 1). 0 – Sem; 1 – Com
*   **DTRECIDIVA**: Data da última ocorrência de recidiva (date = 10). Formato: DD/MM/YYYY	
*   **RECNENHUM**: Sem recidiva (int = 1). 0 - Não; 1 - Sim
*   **RECLOCAL**: Recidiva local (int = 1). 0 - Não; 1 - Sim	
*   **RECREGIO**: Recidiva regional (int = 1). 0 - Não; 1 - Sim	
*   **RECDIST**: Recidiva a distância / metástase (int = 1). 0 - Não; 1 - Sim	
*   **REC01**: Local da recidiva/metástase (char = 3). Formato: C99 
*   **REC02**: Local da recidiva/metástase (char = 3). Formato: C99 	
*   **REC03**: Local da recidiva/metástase (char = 3). Formato: C99 
*   **REC04**: Local da recidiva/metástase (char = 3). Formato: C99 	
*   **IBGEATEN**: Código IBGE da instituição (int = 7).	
*   **CIDO**: Código da morfologia 3ª Edição (int = 5). Formato: 99999	
*   **DSCCIDO**: Descrição da morfologia 3ª Edição (char = 89).




# **Dados**

In [3]:
df = pd.read_csv('/content/drive/MyDrive/Trabalho/Cancer/Datasets/kmeans_preprocessing.csv')
df.head()

Unnamed: 0,ESCOLARI,IDADE,SEXO,UFRESID,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,TOPO,TOPOGRUP,MORFO,EC,ECGRUP,T,N,M,PT,PN,PM,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,META01,META02,META03,META04,NAOTRAT,TRATAMENTO,TRATHOSP,TRATFANTES,TRATFAPOS,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,CICI,CICIGRUP,FAIXAETAR,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,REC01,REC02,REC03,REC04,IBGEATEN,GRUPO
0,4,40.0,2,26,3530805,9,15,1,3,222,45,81402,0,0,25,15,0,30,0,0,8,8,8,8,8,0,0,0,0,8,0,0,2,9,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,7,95.0,88.0,2000,23,5,4,8,14,15,1,1,0,0,0,0,0,0,0,3509502,2
1,9,45.0,2,26,3509502,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,5,5,2,9,0,0,1,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,12,15.0,3.0,2000,23,5,4,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
2,2,63.0,2,26,3509502,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,15.0,9.0,2000,23,5,6,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
3,9,64.0,2,26,3545803,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,33.0,27.0,2000,23,5,6,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
4,1,48.0,2,26,3530805,9,15,2,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,0,132.0,132.0,2000,23,5,4,8,14,15,1,1,0,0,0,0,0,0,0,3509502,2


In [4]:
with open('/content/drive/MyDrive/Trabalho/Cancer/Modelos/encoders_pp.pkl', 'rb') as handle:
  encoders = pickle.load(handle)

In [5]:
df_aux = df.copy()
for col, le in encoders.items():
  df_aux[col] = le.inverse_transform(df_aux[col])

df_aux.head()

Unnamed: 0,ESCOLARI,IDADE,SEXO,UFRESID,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,TOPO,TOPOGRUP,MORFO,EC,ECGRUP,T,N,M,PT,PN,PM,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,META01,META02,META03,META04,NAOTRAT,TRATAMENTO,TRATHOSP,TRATFANTES,TRATFAPOS,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,CICI,CICIGRUP,FAIXAETAR,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,REC01,REC02,REC03,REC04,IBGEATEN,GRUPO
0,4,40.0,2,SP,3530805,9,15,1,3,C539,C53,81402,0,0,X,X,0,IS,0,0,8,8,8,8,8,0,0,0,0,8,A,A,J,J,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,7,95.0,88.0,2000,Sem informação,Sem informação,40-49,8,14,15,1,1,0,0,0,0,0,0,0,3509502,2
1,9,45.0,2,SP,3509502,9,15,1,3,C539,C53,80703,IIIB,III,X,X,0,X,X,X,8,8,8,8,8,0,0,0,0,8,F,F,J,J,0,0,1,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,12,15.0,3.0,2000,Sem informação,Sem informação,40-49,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
2,2,63.0,2,SP,3509502,9,15,1,3,C539,C53,80703,IIIB,III,X,X,0,X,X,X,8,8,8,8,8,0,0,0,0,8,B,B,J,J,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,15.0,9.0,2000,Sem informação,Sem informação,60-69,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
3,9,64.0,2,SP,3545803,9,15,1,3,C539,C53,80703,IIIB,III,X,X,0,X,X,X,8,8,8,8,8,0,0,0,0,8,B,B,J,J,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,33.0,27.0,2000,Sem informação,Sem informação,60-69,8,7,15,0,1,0,0,0,0,0,0,0,3509502,12
4,1,48.0,2,SP,3530805,9,15,2,3,C539,C53,80703,IIIB,III,X,X,0,X,X,X,8,8,8,8,8,0,0,0,0,8,B,B,J,J,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,0,132.0,132.0,2000,Sem informação,Sem informação,40-49,8,14,15,1,1,0,0,0,0,0,0,0,3509502,2


In [6]:
k = df_aux.GRUPO.nunique()
dict_grup = {} # Dicionário com os grupos separados
for i in range(0, k):
  dict_grup[i] = df_aux[df_aux.GRUPO == i]

In [7]:
n = 0 # Grupo para análise
df_grupo = dict_grup[n]
df_grupo.head()

Unnamed: 0,ESCOLARI,IDADE,SEXO,UFRESID,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,TOPO,TOPOGRUP,MORFO,EC,ECGRUP,T,N,M,PT,PN,PM,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,META01,META02,META03,META04,NAOTRAT,TRATAMENTO,TRATHOSP,TRATFANTES,TRATFAPOS,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,CICI,CICIGRUP,FAIXAETAR,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,REC01,REC02,REC03,REC04,IBGEATEN,GRUPO
16,2,77.0,2,SP,3509502,9,15,2,3,C541,C54,89303,Y,Y,Y,Y,Y,Y,Y,Y,8,8,8,8,8,C22,C34,0,0,8,A,A,J,J,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,0,56.0,56.0,2000,Sem informação,Sem informação,70+,8,7,15,0,1,0,0,0,C41,0,0,0,3509502,0
27,9,69.0,2,SP,3522505,9,15,1,3,C569,C56,86201,Y,Y,Y,Y,Y,Y,Y,Y,8,8,8,8,8,0,0,0,0,8,A,A,J,J,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,28,28.0,0.0,2000,Sem informação,Sem informação,60-69,8,1,5,1,1,0,0,0,0,0,0,0,3509502,0
60,3,53.0,2,SP,3549102,9,15,2,3,C569,C56,86201,Y,Y,Y,Y,Y,Y,Y,Y,8,8,8,8,8,0,0,0,0,8,A,A,J,J,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,0,90.0,90.0,2000,Sem informação,Sem informação,50-59,8,14,15,1,1,0,0,0,0,0,0,0,3509502,0
338,9,68.0,2,SP,3552403,9,15,1,3,C569,C56,85901,Y,Y,Y,Y,Y,Y,Y,Y,8,8,8,8,8,0,0,0,0,8,E,E,J,J,0,1,0,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,23,23.0,0.0,2000,Sem informação,Sem informação,60-69,8,7,15,0,0,1,0,0,0,0,0,0,3509502,0
346,9,81.0,2,SP,3552403,9,15,1,3,C539,C53,88003,Y,Y,Y,Y,Y,Y,Y,Y,8,8,8,8,8,0,0,0,0,8,I,I,J,J,0,0,1,0,0,0,0,1,1,0,0,1,0,0,0,0,0,0,0,3,13,69.0,56.0,2000,Sem informação,Sem informação,70+,8,7,15,0,1,0,0,0,0,0,0,0,3509502,0


# **Análise**

In [8]:
df_grupo.describe()

Unnamed: 0,ESCOLARI,IDADE,SEXO,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,MORFO,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,NAOTRAT,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,IBGEATEN,GRUPO
count,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0,105965.0
mean,4.740386,54.700363,1.488652,3506102.0,5.420686,19.444222,1.311565,2.977832,90333.398424,8.035314,8.000151,7.99967,8.007833,8.00838,7.998292,0.011589,0.446534,0.196036,0.549672,0.028302,0.025924,0.01476,0.104506,0.996206,0.0,0.0,0.970858,9e-06,0.000104,6.6e-05,2.8e-05,0.001246,8.5e-05,0.011532,2.422319,44.517058,57.721965,51.113377,2009.577106,7.336102,5.702741,12.101071,0.191091,0.936517,0.056868,0.006549,0.000132,3536556.0,0.0
std,3.011567,19.83893,0.499874,252499.7,3.584668,9.629332,0.463135,0.357078,7212.822786,0.192088,0.012287,0.065527,0.106572,0.094214,0.115136,0.107026,0.497136,0.396998,0.497529,0.165834,0.158908,0.12059,0.305918,0.061476,0.0,0.0,0.168204,0.003072,0.010188,0.008127,0.005321,0.035273,0.009216,0.106767,0.903981,129.229966,119.656738,127.856011,5.338964,1.968392,5.462693,16.578875,0.393163,0.243831,0.231591,0.080663,0.011494,17915.03,0.0
min,1.0,0.0,1.0,1100015.0,1.0,1.0,1.0,1.0,80001.0,3.0,8.0,1.0,1.0,3.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,2000.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,3502804.0,0.0
25%,2.0,43.0,1.0,3518800.0,2.0,15.0,1.0,3.0,81403.0,8.0,8.0,8.0,8.0,8.0,8.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,2.0,7.0,0.0,2005.0,8.0,1.0,6.0,0.0,1.0,0.0,0.0,0.0,3525300.0,0.0
50%,4.0,58.0,1.0,3543402.0,3.0,20.0,1.0,3.0,93511.0,8.0,8.0,8.0,8.0,8.0,8.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,14.0,27.0,16.0,2010.0,8.0,4.0,9.0,0.0,1.0,0.0,0.0,0.0,3549805.0,0.0
75%,9.0,69.0,2.0,3550308.0,9.0,24.0,2.0,3.0,96843.0,8.0,8.0,8.0,8.0,8.0,8.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,43.0,66.0,56.0,2014.0,8.0,10.0,13.0,0.0,1.0,0.0,0.0,0.0,3550308.0,0.0
max,9.0,113.0,2.0,5300108.0,9.0,99.0,2.0,9.0,99893.0,9.0,9.0,9.0,9.0,9.0,9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,4.0,4554.0,4051.0,3969.0,2020.0,8.0,17.0,99.0,1.0,1.0,1.0,1.0,1.0,3555000.0,0.0


*   **DIAGPREV**: Diagnóstico e tratamento anterior (int = 1).

      1 – SEM DIAGNÓSTICO / SEM TRATAMENTO
      
      2 – COM DIAGNÓSTICO / SEM TRATAMENTO
      
      3 – COM DIAGNÓSTICO / COM TRATAMENTO
      
      4 – OUTROS

In [9]:
df_grupo.DIAGPREV.value_counts()

1    72950
2    33015
Name: DIAGPREV, dtype: int64

In [10]:
df_aux.DIAGPREV.value_counts()

1    593200
2    350459
Name: DIAGPREV, dtype: int64

*   **BASEDIAG**: Código da base do diagnóstico (int = 1).
      
      1 – EXAME CLINICO
      
      2 – RECURSOS AUXILIARES NÃO MICROSCÓPICOS
      
      3 – CONFIRMAÇÃO MICROSCÓPICA
      
      9 – SEM INFORMAÇÃO

In [11]:
df_grupo.BASEDIAG.value_counts()

3    102307
2      2991
1       420
9       247
Name: BASEDIAG, dtype: int64

In [12]:
df_aux.BASEDIAG.value_counts()

3    927293
2     13320
1      2059
9       987
Name: BASEDIAG, dtype: int64

*   **TOPO**: Código da topografia (char = 4). Formato: C999 	

In [13]:
df_grupo.TOPO.nunique()

322

In [14]:
df_aux.TOPO.nunique()

331

* **TOPOGRUP**: Grupo da topografia (char = 3). Formato: C99

In [15]:
df_grupo.TOPOGRUP.value_counts()#.head(10)

C42    24447
C44    13589
C77    13333
C71     6878
C61     3426
       ...  
C65       24
C39       16
C66       15
C04        9
C12        7
Name: TOPOGRUP, Length: 70, dtype: int64

In [16]:
df_aux.TOPOGRUP.value_counts().head(10)

C44    214251
C50    127597
C61    100165
C53     45784
C34     44507
C16     35745
C42     35574
C18     34933
C20     26979
C73     21141
Name: TOPOGRUP, dtype: int64

*   **MORFO**: Código da morfologia (char = 5). Formato: 99999

In [17]:
df_grupo.MORFO.value_counts().head(15)

97323    6666
80903    6403
95913    5445
81403    5421
80703    5072
96803    4864
94403    3321
98613    3111
98633    2747
80003    2453
80103    2228
85503    1782
96503    1609
96633    1459
98233    1405
Name: MORFO, dtype: int64

In [18]:
df_aux.MORFO.value_counts().head(15)

80703    152682
81403    131221
80903     97765
85003     92006
85503     64828
82113     28346
80973     23730
80103     23522
80702     17026
82603     10133
87203      9712
80003      8658
80102      8301
80503      7886
97323      7713
Name: MORFO, dtype: int64

*   **T**: Classificação TNM - T (char = 5). 
*   **N**: Classificação TNM - N (char = 5). 
*   **M**: Classificação TNM - M (char = 3). 


In [19]:
df_grupo['T'].value_counts()

Y     83163
X     22718
4        29
2        18
3        18
1         7
4B        5
4A        2
2B        2
3A        1
3B        1
2C        1
Name: T, dtype: int64

In [20]:
df_aux['T'].value_counts()

1        211140
X        152837
Y        120431
2        112052
3        107138
4         56554
1C        26653
IS        23265
4A        19815
2C        19425
4B        19087
1A        14889
2A        14082
2B        12591
1B         9619
3A         8567
3B         5818
A          2683
4D         2518
CDIS       1886
0          1408
4C          746
1MIC        173
CLIS        168
3C           76
PAGET        30
4E            8
Name: T, dtype: int64

In [21]:
df_grupo.N.value_counts()

Y    83163
X    22754
3       28
0        8
1        6
2        6
Name: N, dtype: int64

In [22]:
df_aux.N.value_counts()

0      489481
X      158458
Y      120431
1       88490
2       43839
3       20300
2B       5872
2A       4609
2C       3743
1A       3035
1B       2778
3A       1070
3B        646
3C        552
1C        336
PN0        11
CN0         8
Name: N, dtype: int64

In [23]:
df_grupo.M.value_counts()

Y     83163
X     18962
1      3499
1A      133
1B      131
0        59
1C       18
Name: M, dtype: int64

In [24]:
df_aux.M.value_counts()

0     669181
Y     120431
1      98235
X      39923
1B      9656
1A      5393
1C       840
Name: M, dtype: int64

*   **PT**: Estadiamento pós cirúrgico (char = 5). 
*   **PN**: Estadiamento pós cirúrgico (char = 5). 
*   **PM**: Estadiamento pós cirúrgico (char = 3).

In [25]:
df_grupo.PT.value_counts()

Sem informação    65196
Y                 29231
X                 10173
< ...               323
2                   279
3                   178
1                   166
4                    77
0                    68
1C                   57
IS                   36
2B                   34
2A                   23
1A                   22
1B                   21
A                    20
4B                   13
2C                   12
3A                   11
4A                    9
3C                    7
3B                    4
PAGET                 2
4C                    1
1MIC                  1
4D                    1
Name: PT, dtype: int64

In [26]:
df_aux.PT.value_counts()

Sem informação    520304
X                 108003
1                  88413
2                  45487
Y                  42202
3                  37362
IS                 14893
4                  12999
1C                 11326
2C                 10775
1A                  8289
1B                  7106
2B                  5445
2A                  5267
4A                  4658
3A                  4179
4B                  4100
0                   3286
3B                  2922
< ...               1895
A                   1822
CDIS                 645
4D                   551
3C                   465
1A1                  327
1B1                  320
1MIC                 189
4C                   127
1B2                  124
CLIS                  94
1A2                   63
PAGET                  6
T3B                    2
T1C                    2
T2                     2
4E                     2
T1A                    1
T1B                    1
IC                     1
PIS                    1


In [27]:
df_grupo.PN.value_counts()

Sem informação    65367
Y                 29154
X                 10411
0                   455
< ...               323
1                   153
2                    51
3                    24
2A                   11
3A                    6
1A                    5
1B                    4
2B                    1
Name: PN, dtype: int64

In [28]:
df_aux.PN.value_counts()

Sem informação    524869
0                 191548
X                 125357
Y                  42073
1                  32485
2                  12607
3                   3517
2A                  2076
1A                  1918
< ...               1910
2B                  1865
1B                  1565
3A                   847
2C                   669
1C                   163
3B                   115
3C                    65
N0                     3
1B1                    2
N3                     1
N2B                    1
PN0                    1
N1                     1
1B2                    1
Name: PN, dtype: int64

In [29]:
df_grupo.PM.value_counts()

Sem informação    65634
Y                 29047
X                 10077
1                   714
< .                 323
0                   135
1A                   19
1B                   13
1C                    3
Name: PM, dtype: int64

In [30]:
df_aux.PM.value_counts()

Sem informação    546925
0                 214326
X                 119640
Y                  41928
1                  16777
< .                 1922
1A                  1081
1B                   948
1C                   106
M0                     6
Name: PM, dtype: int64

*   **G**: Classificação TNM – G (Grau) (char = 5). 

      Domínio (exceto C40, C41, C381, C382, C383, C47, C48 e C49):
      0; 1; 2; 3; 4; 8 – NÃO SE APLICA; 9 – X

      Domínio (somente C40, C41, C381, C382, C383, C47, C48 e C49):
      ALTO; BAIXO; 8 – NÃO SE APLICA; 9 – X

In [31]:
df_grupo.G.value_counts()

8    102151
9      3800
4        12
3         2
Name: G, dtype: int64

In [32]:
df_aux.G.value_counts()

8    903221
9     12770
3     10600
2      8549
1      4720
4      3799
Name: G, dtype: int64

*   **LOCALTNM**: Classificação TNM - Localização (int = 1).
      
      1 – SUPERIOR
      
      2 – MEDIO
      
      3 – INFERIOR
      
      8 – NÃO SE APLICA
      
      9 – X	


In [33]:
df_grupo.LOCALTNM.value_counts()

8    105949
9        16
Name: LOCALTNM, dtype: int64

In [34]:
df_aux.LOCALTNM.value_counts()

8    939048
2      2006
9      1384
1       625
3       596
Name: LOCALTNM, dtype: int64

*   **IDMITOTIC**: Classificação TNM – Índice Mitótico (int = 1).
      
      1 – ALTA
      
      2 – BAIXA
      
      8 – NÃO SE APLICA
      
      9 – X	

In [35]:
df_grupo.IDMITOTIC.value_counts()

8    105921
9        33
2         9
1         2
Name: IDMITOTIC, dtype: int64

In [36]:
df_aux.IDMITOTIC.value_counts()

8    943154
2       267
1       151
9        87
Name: IDMITOTIC, dtype: int64

*   **PSA**: Classificação TNM - PSA (int = 1).
      
      1 – MENOR QUE 10
      
      2 – MAIOR OU IGUAL A 10 E MENOR QUE 20
      
      3 – MAIOR OU IGUAL A 20
      
      8 – NÃO SE APLICA
      
      9 – X	

In [37]:
df_grupo.PSA.value_counts()

8    105065
9       889
3         8
2         2
1         1
Name: PSA, dtype: int64

In [38]:
df_aux.PSA.value_counts()

8    911113
1     17698
2      6282
3      5362
9      3204
Name: PSA, dtype: int64

*   **GLEASON**: Classificação TNM - Gleason (int = 1).
      
      1 – MENOR OU IGUAL A 6
      
      2 – IGUAL A 7
      
      3 – MAIOR OU IGUAL A 8
      
      8 – NÃO SE APLICA
      
      9 – X

In [39]:
df_grupo.GLEASON.value_counts()

8    105065
9       898
3         2
Name: GLEASON, dtype: int64

In [40]:
df_aux.GLEASON.value_counts()

8    911113
2     13794
1     10079
3      6282
9      2391
Name: GLEASON, dtype: int64

*   **NAOTRAT**: Código da razão para não realização do tratamento (int = 1).
      
      1 – RECUSA DO TRATAMENTO
      
      2 – DOENÇA AVANÇADA, FALTA DE CONDIÇÕES CLINICAS
      
      3 – OUTRAS DOENÇAS ASSOCIADAS
      
      4 – ABANDONO DE TRATAMENTO
      
      5 – OBITO POR CANCER
      
      6 – OBITO POR OUTRAS CAUSAS, SOE
      
      7 – OUTRAS
      
      8 – NÃO SE APLICA (CASO TENHA TRATAMENTO)
      
      9 – SEM INFORMAÇÃO

In [41]:
df_grupo.NAOTRAT.value_counts()

8    104723
7       690
9       544
3         4
5         2
6         1
1         1
Name: NAOTRAT, dtype: int64

In [42]:
df_aux.NAOTRAT.value_counts()

8    868396
5     30655
7     20453
2      9166
9      7324
6      2474
3      1892
4      1718
1      1581
Name: NAOTRAT, dtype: int64

*   **TRATAMENTO**: Código de combinação dos tratamentos realizados (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado	


In [43]:
df_grupo.TRATAMENTO.value_counts()

C    32372
A    30324
I    17881
F     6553
E     6172
B     4572
G     3450
D     3340
J     1209
H       92
Name: TRATAMENTO, dtype: int64

In [44]:
df_aux.TRATAMENTO.value_counts()

A    348265
I    152381
C     91449
J     74664
F     61147
E     59374
G     47249
B     46128
D     36372
H     26630
Name: TRATAMENTO, dtype: int64

*   **TRATHOSP**: Código de combinação dos tratamentos realizados no hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento

      J – Nenhum tratamento realizado


In [45]:
df_grupo.TRATHOSP.value_counts()

C    32816
A    30453
I    17153
F     6586
E     6227
B     4586
G     3459
D     3346
J     1247
H       92
Name: TRATHOSP, dtype: int64

In [46]:
df_aux.TRATHOSP.value_counts()

A    355515
I    151134
C     97661
J     78680
E     61222
F     56380
B     44720
G     42325
D     33016
H     23006
Name: TRATHOSP, dtype: int64

*   **TRATFAPOS**: Código de combinação dos tratamentos realizados após admissão fora do hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado
      
      K – Sem informação


In [47]:
df_grupo.TRATFAPOS.value_counts()

J    104608
I      1357
Name: TRATFAPOS, dtype: int64

In [48]:
df_aux.TRATFAPOS.value_counts()

J    900529
B     24186
I      8708
C      4887
A      2773
F      1611
D       379
E       353
G       174
H        59
Name: TRATFAPOS, dtype: int64

*   **NENHUM**: Tratamento recebido no hospital = nenhum (int = 1). 0 – NÃO; 1 – SIM
*   **CIRURGIA**: Tratamento recebido no hospital = cirurgia (int = 1). 0 – NÃO; 1 – SIM
*   **RADIO**: Tratamento recebido no hospital = radioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **QUIMIO**: Tratamento recebido no hospital = quimioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **HORMONIO**: Tratamento recebido no hospital = hormonioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **TMO**: Tratamento recebido no hospital = tmo (int = 1). 0 – NÃO; 1 – SIM
*   **IMUNO**: Tratamento recebido no hospital = imunoterapia (int = 1). 0 – NÃO; 1 – SIM
*   **OUTROS**: Tratamento recebido no hospital = outros (int = 1). 0 – NÃO; 1 – SIM

In [49]:
df_grupo.NENHUM.value_counts()

0    104737
1      1228
Name: NENHUM, dtype: int64

In [50]:
df_aux.NENHUM.value_counts()

0    865018
1     78641
Name: NENHUM, dtype: int64

In [51]:
df_grupo.CIRURGIA.value_counts()

0    58648
1    47317
Name: CIRURGIA, dtype: int64

In [52]:
df_aux.CIRURGIA.value_counts()

1    588858
0    354801
Name: CIRURGIA, dtype: int64

In [53]:
df_grupo.RADIO.value_counts()

0    85192
1    20773
Name: RADIO, dtype: int64

In [54]:
df_aux.RADIO.value_counts()

0    698252
1    245407
Name: RADIO, dtype: int64

In [55]:
df_grupo.QUIMIO.value_counts()

1    58246
0    47719
Name: QUIMIO, dtype: int64

In [56]:
df_aux.QUIMIO.value_counts()

0    613077
1    330582
Name: QUIMIO, dtype: int64

In [57]:
df_grupo.HORMONIO.value_counts()

0    102966
1      2999
Name: HORMONIO, dtype: int64

In [58]:
df_aux.HORMONIO.value_counts()

0    828493
1    115166
Name: HORMONIO, dtype: int64

In [59]:
df_grupo.TMO.value_counts()

0    103218
1      2747
Name: TMO, dtype: int64

In [60]:
df_aux.TMO.value_counts()

0    939989
1      3670
Name: TMO, dtype: int64

In [61]:
df_grupo.IMUNO.value_counts()

0    104401
1      1564
Name: IMUNO, dtype: int64

In [62]:
df_aux.IMUNO.value_counts()

0    937380
1      6279
Name: IMUNO, dtype: int64

In [63]:
df_grupo.OUTROS.value_counts()

0    94891
1    11074
Name: OUTROS, dtype: int64

In [64]:
df_aux.OUTROS.value_counts()

0    883832
1     59827
Name: OUTROS, dtype: int64

*   **NENHUMAPOS**: Tratamento recebido fora do hospital e durante/após admissão = nenhum	(int = 1). 0 – NÃO; 1 – SIM		
*   **HORMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = hormonioterapia	(int = 1). 0 – NÃO; 1 – SIM		
*   **TMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = tmo	(int = 1). 0 – NÃO; 1 – SIM		
*   **IMUNOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = imunoterapia	(int = 1). 0 – NÃO; 1 – SIM	

In [65]:
df_grupo.NENHUMAPOS.value_counts()

1    102877
0      3088
Name: NENHUMAPOS, dtype: int64

In [66]:
df_aux.NENHUMAPOS.value_counts()

1    889063
0     54596
Name: NENHUMAPOS, dtype: int64

In [67]:
df_grupo.HORMOAPOS.value_counts()

0    105962
1         3
Name: HORMOAPOS, dtype: int64

In [68]:
df_aux.HORMOAPOS.value_counts()

0    941470
1      2189
Name: HORMOAPOS, dtype: int64

In [69]:
df_grupo.TMOAPOS.value_counts()

0    105833
1       132
Name: TMOAPOS, dtype: int64

In [70]:
df_aux.TMOAPOS.value_counts()

0    943421
1       238
Name: TMOAPOS, dtype: int64

In [71]:
df_grupo.IMUNOAPOS.value_counts()

0    105956
1         9
Name: IMUNOAPOS, dtype: int64

In [72]:
df_aux.IMUNOAPOS.value_counts()

0    943516
1       143
Name: IMUNOAPOS, dtype: int64

*   **ULTINFO**: Última informação sobre o paciente (int = 1).
      
      1 – VIVO, COM CÂNCER
      
      2 – VIVO, SOE
      
      3 – OBITO POR CANCER
      
      4 – OBITO POR OUTRAS CAUSAS, SOE

In [73]:
df_grupo.ULTINFO.value_counts()

2    38178
3    37417
1    17802
4    12568
Name: ULTINFO, dtype: int64

In [74]:
df_aux.ULTINFO.value_counts()

2    435227
3    275158
4    123266
1    110008
Name: ULTINFO, dtype: int64

*   **CICI**: Tumor infantil (char = 5).

In [75]:
df_grupo.CICI.value_counts()

Sem informação    100495
VIA                  880
VA                   838
VIIIA                543
IXA                  465
XC                   356
IXD                  331
VIIIC                302
IXB                  227
XIF                  217
XB                   197
VIIA                 161
XA                   159
XIA                  153
IXE                  101
XIIB                  79
XE                    72
VIIID                 61
VIB                   39
XIB                   32
VIIIE                 32
XIIA                  30
IVB                   28
XID                   28
XIC                   28
VIIIB                 27
VIIB                  26
XIE                   21
XD                    20
VIC                    9
VIIC                   5
IXC                    2
IVA                    1
Name: CICI, dtype: int64

In [76]:
df_aux.CICI.value_counts()

Sem informação    918111
IA                  4468
IIA                 1919
IB                  1612
VIIIA               1239
IIB                 1237
IIIB                1216
IVA                 1108
VIA                 1081
VA                  1056
XIF                  885
IIIC                 792
IXA                  755
XC                   753
IIC                  655
VIIIC                631
XIB                  533
IXD                  532
IIID                 491
IIIA                 391
IIIE                 354
IXB                  322
XIE                  294
XB                   283
IE                   257
IC                   249
ID                   236
XIC                  214
VIIA                 204
XIA                  203
IXE                  195
XA                   191
XID                  137
IID                  112
IIE                  101
XIIB                  98
IIIF                  96
VIB                   89
XE                    88
VIIIB                 87


*   **CICIGRUP**: Tumor infantil – Grupo (char = 80).

In [77]:
df_grupo.CICIGRUP.value_counts()

Sem informação    100495
IX                  1126
VIII                 965
VI                   928
V                    838
X                    804
XI                   479
VII                  192
XII                  109
IV                    29
Name: CICIGRUP, dtype: int64

In [78]:
df_aux.CICIGRUP.value_counts()

Sem informação    918111
I                   6822
II                  4024
III                 3340
XI                  2266
VIII                2080
IX                  1806
X                   1380
VI                  1179
IV                  1159
V                   1056
VII                  294
XII                  142
Name: CICIGRUP, dtype: int64

*   **FAIXAETAR**: Faixa etária do paciente (char = 5).

      00-09 

      10-19

      20-29

      30-39

      40-49

      50-59

      60-69

      70+

In [79]:
df_grupo.FAIXAETAR.value_counts()

70+      26349
60-69    23123
50-59    20218
40-49    13561
30-39     9268
20-29     7794
00-09     3335
10-19     2317
Name: FAIXAETAR, dtype: int64

In [80]:
df_aux.FAIXAETAR.value_counts()

70+      287862
60-69    241092
50-59    196325
40-49    113183
30-39     54412
20-29     25002
00-09     13446
10-19     12337
Name: FAIXAETAR, dtype: int64

*   **RECNENHUM**: Sem recidiva (int = 1). 0 - Não; 1 - Sim	
*   **RECREGIO**: Recidiva regional (int = 1). 0 - Não; 1 - Sim	
*   **RECDIST**: Recidiva a distância / metástase (int = 1). 0 - Não; 1 - Sim

In [81]:
df_grupo.RECNENHUM.value_counts()

1    99238
0     6727
Name: RECNENHUM, dtype: int64

In [82]:
df_aux.RECNENHUM.value_counts()

1    865619
0     78040
Name: RECNENHUM, dtype: int64

In [83]:
df_grupo.RECLOCAL.value_counts()

0    99939
1     6026
Name: RECLOCAL, dtype: int64

In [84]:
df_aux.RECLOCAL.value_counts()

0    905605
1     38054
Name: RECLOCAL, dtype: int64

In [85]:
df_grupo.RECREGIO.value_counts()

0    105271
1       694
Name: RECREGIO, dtype: int64

In [86]:
df_aux.RECREGIO.value_counts()

0    920648
1     23011
Name: RECREGIO, dtype: int64

In [87]:
df_grupo.RECDIST.value_counts()

0    105951
1        14
Name: RECDIST, dtype: int64

In [88]:
df_aux.RECDIST.value_counts()

0    922659
1     21000
Name: RECDIST, dtype: int64