> Notebook com o carregamento dos dados pré-processados e a divisão dos mesmos pelas suas topografias

---

#**Bibliotecas e instalações**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

import pickle

In [3]:
from sklearn.preprocessing import LabelEncoder

# **Dicionário de variáveis**

*   **ESCOLARI**: Código para escolaridade do paciente (int = 1).

      1 – ANALFABETO

      2 – ENS. FUND. INCOMPLETO

      3 – ENS. FUND. COMPLETO

      4 – ENSINO MÉDIO

      5 – SUPERIOR

      9 – IGNORADA
*   **IDADE**: Idade do paciente (int = 3).
*   **SEXO**: Sexo do paciente (int = 1). 

      1 – MASCULINO

      2 – FEMININO
*   **UFNASC**: UF de nascimento (char = 2). Outras opções: SI - Sem informação; OP - Outro país.	
*   **UFRESID**: UF de residência (char = 2). Outras opções: OP - Outro país.
*   **IBGE**: Código da cidade de residência do paciente segundo IBGE com digito verificador (char = 7).
*   **CIDADE**: Cidade de residência do paciente (char = 200).
*   **CATEATEND**: Categoria de atendimento ao diagnóstico (int = 1). 

      1 - CONVENIO

      2 - SUS

      3 – PARTICULAR

      9 – SEM INFORMAÇÃO
*   **DTCONSULT**: Data da 1ª consulta (date = 10). Formato: DD/MM/YYYY	
*   **CLINICA**: Código da clinica (int = 2).

      1 – ALERGIA/IMUNOLOGIA

      2 – CIRURGIA CARDIACA

      3 – CIRURGIA CABEÇA E PESCOÇO

      4 – CIRURGIA GERAL

      5 – CIRURGIA PEDIATRICA

      6 – CIRURGIA PLASTICA

      7 – CIRURGIA TORAXICA

      8 – CIRURGIA VASCULAR

      9 – CLINICA MEDICA

      10 – DERMATOLOGIA

      11 – ENDOCRINOLOGIA

      12 – GASTROCIRURGIA
      
      13 – GASTROENTEROLOGIA
      
      14 – GERIATRIA
      
      15 – GINECOLOGIA
      
      16 – GINECOLOGIA / OBSTETRICIA
      
      17 – HEMATOLOGIA
      
      18 – INFECTOLOGIA
      
      19 – NEFROLOGIA
      
      20 – NEUROCIRURGIA
      
      21 – NEUROLOGIA
      
      22 – OFTALMOLOGIA
      
      23 – ONCOLOGIA CIRURGICA
      
      24 – ONCOLOGIA CLINICA
      
      25 – ONCOLOGIA PEDIATRICA
      
      26 – ORTOPEDIA
      
      27 – OTORRINOLARINGOLOGIA
      
      28 – PEDIATRIA
      
      29 – PNEUMOLOGIA
      
      30 – PROCTOLOGIA
      
      31 – RADIOTERAPIA
      
      32 – UROLOGIA
      
      33 – MASTOLOGIA
      
      34 – ONCOLOGIA CUTANEA
      
      35 – CIRURGIA PELVICA
      
      36 – CIRURGIA ABDOMINAL
      
      37 – ODONTOLOGIA
      
      38 – TRANSPLANTE HEPATICO
      
      99 – IGNORADO	
*   **DIAGPREV**: Diagnóstico e tratamento anterior (int = 1).

      1 – SEM DIAGNÓSTICO / SEM TRATAMENTO
      
      2 – COM DIAGNÓSTICO / SEM TRATAMENTO
      
      3 – COM DIAGNÓSTICO / COM TRATAMENTO
      
      4 – OUTROS	
*   **DTDIAG**: Data do diagnóstico (date = 10). Formato: DD/MM/YYYY	
*   **BASEDIAG**: Código da base do diagnóstico (int = 1).
      
      1 – EXAME CLINICO
      
      2 – RECURSOS AUXILIARES NÃO MICROSCÓPICOS
      
      3 – CONFIRMAÇÃO MICROSCÓPICA
      
      4 – SEM INFORMAÇÃO	
*   **TOPO**: Código da topografia (char = 4). Formato: C999 	
*   **TOPOGRUP**: Grupo da topografia	(char = 3). Formato: C99	
*   **DESCTOPO**: Descrição da Topografia (char = 80).
*   **MORFO**: Código da morfologia (char = 5). Formato: 99999
*   **DESCMORFO**: Descrição da morfologia (char = 80).
*   **EC**: Estádio clínico (char = 5).
*   **ECGRUP**: Grupo do estadiamento clínico (char = 3).

      0 - Tumores primários, classificados como in situ

      I - Tumores localizados

      II - Tumores com envolvimento regional por extensão direta

      III - Tumores com envolvimento regional de linfonodos
      
      IV - Tumores com metástase à distância 

      X - Para tumores não avaliados pelo profissional responsável ou sem informação sobre estadiamento anotada no prontuário

      Y - Para tumores em que não se aplica a classificação TNM. São os tumores não sólidos (por exemplo, as leucemias)
*   **T**: Classificação TNM - T (char = 5).
*   **N**: Classificação TNM - N (char = 5).	
*   **M**: Classificação TNM - M (char = 3).	
*   **PT**: Estadiamento pós cirúrgico (char = 5).
*   **PN**: Estadiamento pós cirúrgico (char = 5).	
*   **PM**: Estadiamento pós cirúrgico (char = 3).	
*   **S**: Classificação TNM - S (int = 1). Domínio: 0; 1; 2; 3; 8 – NÃO SE APLICA; 9 – X
*   **G**: Classificação TNM – G (Grau) (char = 5). 

      Domínio (exceto C40, C41, C381, C382, C383, C47, C48 e C49):
      0; 1; 2; 3; 4; 8 – NÃO SE APLICA; 9 – X

      Domínio (somente C40, C41, C381, C382, C383, C47, C48 e C49):
      ALTO; BAIXO; 8 – NÃO SE APLICA; 9 – X
	
*   **LOCALTNM**: Classificação TNM - Localização (int = 1).
      
      1 – SUPERIOR
      
      2 – MEDIO
      
      3 – INFERIOR
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **IDMITOTIC**: Classificação TNM – Índice Mitótico (int = 1).
      
      1 – ALTA
      
      2 – BAIXA
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **PSA**: Classificação TNM - PSA (int = 1).
      
      1 – MENOR QUE 10
      
      2 – MAIOR OU IGUAL A 10 E MENOR QUE 20
      
      3 – MAIOR OU IGUAL A 20
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **GLEASON**: Classificação TNM - Gleason (int = 1).
      
      1 – MENOR OU IGUAL A 6
      
      2 – IGUAL A 7
      
      3 – MAIOR OU IGUAL A 8
      
      8 – NÃO SE APLICA
      
      9 – X	
*   **OUTRACLA**: Outra classificação de estadiamento (char = 20).
*   **META01**: Metástase (char = 3).	Formato: C99
*   **META02**: Metástase (char = 3).	Formato: C99
*   **META03**: Metástase (char = 3).	Formato: C99
*   **META04**: Metástase (char = 3).	Formato: C99
*   **DTTRAT**: Data de inicio do tratamento (date = 10). Formato: DD/MM/YYYY	
*   **NAOTRAT**: Código da razão para não realização do tratamento (int = 1).
      
      1 – RECUSA DO TRATAMENTO
      
      2 – DOENÇA AVANÇADA, FALTA DE CONDIÇÕES CLINICAS
      
      3 – OUTRAS DOENÇAS ASSOCIADAS
      
      4 – ABANDONO DE TRATAMENTO
      
      5 – OBITO POR CANCER
      
      6 – OBITO POR OUTRAS CAUSAS, SOE
      
      7 – OUTRAS
      
      8 – NÃO SE APLICA (CASO TENHA TRATAMENTO)
      
      9 – SEM INFORMAÇÃO	
*   **TRATAMENTO**: Código de combinação dos tratamentos realizados (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado	
*   **TRATHOSP**: Código de combinação dos tratamentos realizados no hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento

      J – Nenhum tratamento realizado	
*   **TRATFANTES**: Código de combinação dos tratamentos realizados antes/durante admissão fora do hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado
      
      K – Sem informação
*   **TRATFAPOS**: Código de combinação dos tratamentos realizados após admissão fora do hospital (char = 1).
      
      A – Cirurgia
      
      B – Radioterapia
      
      C – Quimioterapia
      
      D – Cirurgia + Radioterapia
      
      E – Cirurgia + Quimioterapia
      
      F – Radioterapia + Quimioterapia
      
      G – Cirurgia + Radio + Quimio
      
      H – Cirurgia + Radio + Quimio + Hormonio
      
      I – Outras combinações de tratamento
      
      J – Nenhum tratamento realizado
      
      K – Sem informação
*   **NENHUM**: Tratamento recebido no hospital = nenhum (int = 1). 0 – NÃO; 1 – SIM
*   **CIRURGIA**: Tratamento recebido no hospital = cirurgia (int = 1). 0 – NÃO; 1 – SIM
*   **RADIO**: Tratamento recebido no hospital = radioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **QUIMIO**: Tratamento recebido no hospital = quimioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **HORMONIO**: Tratamento recebido no hospital = hormonioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **TMO**: Tratamento recebido no hospital = tmo (int = 1). 0 – NÃO; 1 – SIM
*   **IMUNO**: Tratamento recebido no hospital = imunoterapia (int = 1). 0 – NÃO; 1 – SIM
*   **OUTROS**: Tratamento recebido no hospital = outros (int = 1). 0 – NÃO; 1 – SIM
*   **NENHUMANT**: Tratamento recebido fora do hospital e antes da admissão = nenhum (int = 1). 0 – NÃO; 1 – SIM
*   **CIRURANT**: Tratamento recebido fora do hospital e antes da admissão = cirurgia (int = 1). 0 – NÃO; 1 – SIM
*   **RADIOANT**: Tratamento recebido fora do hospital e antes da admissão = radioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **QUIMIOANT**: Tratamento recebido fora do hospital e antes da admissão = quimioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **HORMOANT**: Tratamento recebido fora do hospital e antes da admissão = hormonioterapia (int = 1). 0 – NÃO; 1 – SIM
*   **TMOANT**: Tratamento recebido fora do hospital e antes da admissão = tmo (int = 1). 0 – NÃO; 1 – SIM
*   **IMUNOANT**: Tratamento recebido fora do hospital e antes da admissão = imunoterapia (int = 1). 0 – NÃO; 1 – SIM
*   **OUTROANT**: Tratamento recebido fora do hospital e antes da admissão = outros (int = 1). 0 – NÃO; 1 – SIM	
*   **NENHUMAPOS**: Tratamento recebido fora do hospital e durante/após admissão = nenhum	(int = 1). 0 – NÃO; 1 – SIM	
*   **CIRURAPOS**: Tratamento recebido fora do hospital e durante/após admissão = cirurgia	(int = 1). 0 – NÃO; 1 – SIM	
*   **RADIOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = radioterapia	(int = 1). 0 – NÃO; 1 – SIM	
*   **QUIMIOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = quimioterapia	(int = 1). 0 – NÃO; 1 – SIM		
*   **HORMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = hormonioterapia	(int = 1). 0 – NÃO; 1 – SIM		
*   **TMOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = tmo	(int = 1). 0 – NÃO; 1 – SIM		
*   **IMUNOAPOS**: Tratamento recebido fora do hospital e durante/após admissão = imunoterapia	(int = 1). 0 – NÃO; 1 – SIM	
*   **OUTROAPOS**: Tratamento recebido fora do hospital e durante/após admissão = outros	(int = 1). 0 – NÃO; 1 – SIM	
*   **DTULTINFO**: Data da última informação do paciente (date = 10). Formato: DD/MM/YYYY
*   **ULTINFO**: Última informação sobre o paciente (int = 1).
      
      1 – VIVO, COM CÂNCER
      
      2 – VIVO, SOE
      
      3 – OBITO POR CANCER
      
      4 – OBITO POR OUTRAS CAUSAS, SOE
*   **CONSDIAG**: Diferença em dias entre as datas de consulta o diagnóstico (num = dias).
*   **TRATCONS**: Diferença em dias entre as datas de consulta e tratamento (num = dias).	
*   **DIAGTRAT**: Diferença em dias entre as datas de tratamento e diagnóstico (num = dias).
*   **ANODIAG**: Ano de diagnóstico (int = 4). Formato: 9999
*   **CICI**: Tumor infantil (char = 5).	
*   **CICIGRUP**: Tumor infantil – Grupo (char = 80).	
*   **CICISUBGRU**: Tumor infantil – Sub grupo (char = 80).	
*   **FAIXAETAR**: Faixa etária do paciente (char = 5).	
*   **LATERALI**: Lateralidade (int = 1).
      
      1 – DIREITA
      
      2 – ESQUERDA
      
      3 – BILATERAL
      
      8 - NÃO SE APLICA	
*   **INSTORIG**: Instituição de origem (char = 200). Obrigatório somente se DIAGPREV = 03 – COM DIAGNÓSTICO / COM TRATAMENTO
*   **DRS**: Departamentos Regionais de Saúde (char = 200).
*   **RRAS**: RRAS (char = 200).	
*   **PERDASEG**: Perda de seguimento (int = 1). 
      
      0 – Não
      
      1 – Sim
      
      8 – Não se aplica (excluído do cálculo para o indicador perda de seguimento)	
*   **ERRO**: Admissão com erro (int = 1). 0 – Sem; 1 – Com
*   **DTRECIDIVA**: Data da última ocorrência de recidiva (date = 10). Formato: DD/MM/YYYY	
*   **RECNENHUM**: Sem recidiva (int = 1). 0 - Não; 1 - Sim
*   **RECLOCAL**: Recidiva local (int = 1). 0 - Não; 1 - Sim	
*   **RECREGIO**: Recidiva regional (int = 1). 0 - Não; 1 - Sim	
*   **RECDIST**: Recidiva a distância / metástase (int = 1). 0 - Não; 1 - Sim	
*   **REC01**: Local da recidiva/metástase (char = 3). Formato: C99 
*   **REC02**: Local da recidiva/metástase (char = 3). Formato: C99 	
*   **REC03**: Local da recidiva/metástase (char = 3). Formato: C99 
*   **REC04**: Local da recidiva/metástase (char = 3). Formato: C99 	
*   **IBGEATEN**: Código IBGE da instituição (int = 7).	
*   **CIDO**: Código da morfologia 3ª Edição (int = 5). Formato: 99999	
*   **DSCCIDO**: Descrição da morfologia 3ª Edição (char = 89).




# **Leitura dos dados**

In [9]:
df = pd.read_csv('/content/drive/MyDrive/Trabalho/Cancer/Datasets/cancer_preprocessing.csv')
df.head()

Unnamed: 0,ESCOLARI,IDADE,SEXO,UFRESID,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,TOPO,TOPOGRUP,MORFO,EC,ECGRUP,T,N,M,PT,PN,PM,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,META01,META02,META03,META04,NAOTRAT,TRATAMENTO,TRATHOSP,TRATFANTES,TRATFAPOS,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,CICI,CICIGRUP,FAIXAETAR,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,REC01,REC02,REC03,REC04,IBGEATEN
0,4,40.0,2,26,3530805,9,15,1,3,222,45,81402,0,0,25,15,0,30,0,0,8,8,8,8,8,0,0,0,0,8,0,0,2,9,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,7,95.0,88.0,2000,23,5,4,8,14,15,1,1,0,0,0,0,0,0,0,3509502
1,9,45.0,2,26,3509502,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,5,5,2,9,0,0,1,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,12,15.0,3.0,2000,23,5,4,8,7,15,0,1,0,0,0,0,0,0,0,3509502
2,2,63.0,2,26,3509502,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,15.0,9.0,2000,23,5,6,8,7,15,0,1,0,0,0,0,0,0,0,3509502
3,9,64.0,2,26,3545803,9,15,1,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,33.0,27.0,2000,23,5,6,8,7,15,0,1,0,0,0,0,0,0,0,3509502
4,1,48.0,2,26,3530805,9,15,2,3,222,45,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,0,132.0,132.0,2000,23,5,4,8,14,15,1,1,0,0,0,0,0,0,0,3509502


In [10]:
with open('/content/drive/MyDrive/Trabalho/Cancer/Modelos/encoders_pp.pkl', 'rb') as handle:
    encoders = pickle.load(handle)

enc_topogrup = encoders['TOPOGRUP']
df.TOPOGRUP = enc_topogrup.inverse_transform(df.TOPOGRUP)

In [11]:
df.head(3)

Unnamed: 0,ESCOLARI,IDADE,SEXO,UFRESID,IBGE,CATEATEND,CLINICA,DIAGPREV,BASEDIAG,TOPO,TOPOGRUP,MORFO,EC,ECGRUP,T,N,M,PT,PN,PM,G,LOCALTNM,IDMITOTIC,PSA,GLEASON,META01,META02,META03,META04,NAOTRAT,TRATAMENTO,TRATHOSP,TRATFANTES,TRATFAPOS,NENHUM,CIRURGIA,RADIO,QUIMIO,HORMONIO,TMO,IMUNO,OUTROS,NENHUMANT,CIRURANT,RADIOANT,NENHUMAPOS,CIRURAPOS,RADIOAPOS,QUIMIOAPOS,HORMOAPOS,TMOAPOS,IMUNOAPOS,OUTROAPOS,ULTINFO,CONSDIAG,TRATCONS,DIAGTRAT,ANODIAG,CICI,CICIGRUP,FAIXAETAR,LATERALI,DRS,RRAS,PERDASEG,RECNENHUM,RECLOCAL,RECREGIO,RECDIST,REC01,REC02,REC03,REC04,IBGEATEN
0,4,40.0,2,26,3530805,9,15,1,3,222,C53,81402,0,0,25,15,0,30,0,0,8,8,8,8,8,0,0,0,0,8,0,0,2,9,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,2,7,95.0,88.0,2000,23,5,4,8,14,15,1,1,0,0,0,0,0,0,0,3509502
1,9,45.0,2,26,3509502,9,15,1,3,222,C53,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,5,5,2,9,0,0,1,1,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,12,15.0,3.0,2000,23,5,4,8,7,15,0,1,0,0,0,0,0,0,0,3509502
2,2,63.0,2,26,3509502,9,15,1,3,222,C53,80703,19,3,25,15,0,41,22,8,8,8,8,8,8,0,0,0,0,8,1,1,2,9,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,3,6,15.0,9.0,2000,23,5,6,8,7,15,0,1,0,0,0,0,0,0,0,3509502


In [13]:
np.sort(df.TOPOGRUP.unique())

array(['C00', 'C01', 'C02', 'C03', 'C04', 'C05', 'C06', 'C07', 'C08',
       'C09', 'C10', 'C11', 'C12', 'C13', 'C14', 'C15', 'C16', 'C17',
       'C18', 'C19', 'C20', 'C21', 'C22', 'C23', 'C24', 'C25', 'C26',
       'C30', 'C31', 'C32', 'C33', 'C34', 'C37', 'C38', 'C39', 'C40',
       'C41', 'C42', 'C44', 'C47', 'C48', 'C49', 'C50', 'C51', 'C52',
       'C53', 'C54', 'C55', 'C56', 'C57', 'C58', 'C60', 'C61', 'C62',
       'C63', 'C64', 'C65', 'C66', 'C67', 'C68', 'C69', 'C70', 'C71',
       'C72', 'C73', 'C74', 'C75', 'C76', 'C77', 'C80'], dtype=object)

# **Agrupamentos**

In [77]:
def agrup(filtro):
  df_aux = df[filtro]
  df_aux = df_aux.drop(columns=['TOPOGRUP'])
  return df_aux

## **Topografia**

In [115]:
dict = {}

### **C00**

In [116]:
C0 = df.TOPOGRUP == 'C00'
df_c0 = agrup(C0)
dict['C0'] = df_c0
df_c0.shape

(3123, 73)

### **C01 - C02**

In [117]:
C1_C2 = (df.TOPOGRUP == 'C01') | (df.TOPOGRUP == 'C02')
df_c1_c2 = agrup(C1_C2)
dict['C1_C2'] = df_c1_c2

df_c1_c2.shape

(11937, 73)

### **C03 - C04 - C05 - C06**

In [118]:
C3_C4_C5_C6 = (df.TOPOGRUP == 'C03') | (df.TOPOGRUP == 'C04') | (df.TOPOGRUP == 'C05') | (df.TOPOGRUP == 'C06')
df_c3_c4_c5_c6 = agrup(C3_C4_C5_C6)
dict['C3_C4_C5_C6'] = df_c3_c4_c5_c6

df_c3_c4_c5_c6.shape

(12140, 73)

### **C07 - C08**

In [119]:
C7_C8 = (df.TOPOGRUP == 'C07') | (df.TOPOGRUP == 'C08')
df_c7_c8 = agrup(C7_C8)
dict['C7_C8'] = df_c7_c8

df_c7_c8.shape

(2243, 73)

### **C09**

### **C10**

### **C11**

In [120]:
C9 = df.TOPOGRUP == 'C09'
df_c9 = agrup(C9)
dict['C9'] = df_c9
print(f'C09: {df_c9.shape}')

C10 = df.TOPOGRUP == 'C10'
df_c10 = agrup(C10)
dict['C10'] = df_c10
print(f'C10: {df_c10.shape}')

C11 = df.TOPOGRUP == 'C11'
df_c11 = agrup(C11)
dict['C11'] = df_c11
print(f'C11: {df_c11.shape}')

C09: (3809, 73)
C10: (5460, 73)
C11: (2313, 73)


### **C12 - C13**

In [121]:
C12_C13 = (df.TOPOGRUP == 'C12') | (df.TOPOGRUP == 'C13')
df_c12_c13 = agrup(C12_C13)
dict['C12_C13'] = df_c12_c13

df_c12_c13.shape

(5495, 73)

### **C14**

### **C15**

### **C16**

### **C17**

### **C18**

In [122]:
C14 = df.TOPOGRUP == 'C14'
df_c14 = agrup(C14)
dict['C14'] = df_c14
print(f'C14: {df_c14.shape}')

C15 = df.TOPOGRUP == 'C15'
df_c15 = agrup(C15)
dict['C15'] = df_c15
print(f'C15: {df_c15.shape}')

C16 = df.TOPOGRUP == 'C16'
df_c16 = agrup(C16)
dict['C16'] = df_c16
print(f'C16: {df_c16.shape}')

C17 = df.TOPOGRUP == 'C17'
df_c17 = agrup(C17)
dict['C17'] = df_c17
print(f'C17: {df_c17.shape}')

C18 = df.TOPOGRUP == 'C18'
df_c18 = agrup(C18)
dict['C18'] = df_c18
print(f'C18: {df_c18.shape}')

C14: (697, 73)
C15: (17920, 73)
C16: (35745, 73)
C17: (2679, 73)
C18: (34933, 73)


### **C19 - C20**

In [123]:
C19_C20 = (df.TOPOGRUP == 'C19') | (df.TOPOGRUP == 'C20')
df_c19_c20 = agrup(C19_C20)
dict['C19_C20'] = df_c19_c20

df_c19_c20.shape

(31392, 73)

### **C21**

### **C22**

In [124]:
C21 = df.TOPOGRUP == 'C21'
df_c21 = agrup(C21)
dict['C21'] = df_c21
print(f'C21: {df_c21.shape}')

C22 = df.TOPOGRUP == 'C22'
df_c22 = agrup(C22)
dict['C22'] = df_c22
print(f'C22: {df_c22.shape}')

C21: (3178, 73)
C22: (7754, 73)


### **C23 - C24**

In [125]:
C23_C24 = (df.TOPOGRUP == 'C23') | (df.TOPOGRUP == 'C24')
df_c23_c24 = agrup(C23_C24)
dict['C23_C24']= df_c23_c24

df_c23_c24.shape

(4569, 73)

### **C25**

In [126]:
C25 = df.TOPOGRUP == 'C25'
df_c25 = agrup(C25)
dict['C25']= df_c25

df_c25.shape

(11224, 73)

### **C26 - C39 - C48 - C76 - C80**
Other and unspecified

In [127]:
other_unsp = (df.TOPOGRUP == 'C26') | (df.TOPOGRUP == 'C39') | (df.TOPOGRUP == 'C48') | (df.TOPOGRUP == 'C76') | (df.TOPOGRUP == 'C80')
df_other_unsp = agrup(other_unsp) 
dict['other_unsp'] = df_other_unsp

df_other_unsp.shape

(19492, 73)

### **C30 - C31**

In [128]:
C30_C31 = (df.TOPOGRUP == 'C30') | (df.TOPOGRUP == 'C31')
df_c30_c31 = agrup(C30_C31)
dict['C30_C31'] = df_c30_c31

df_c30_c31.shape

(2070, 73)

### **C32**

In [129]:
C32 = df.TOPOGRUP == 'C32'
df_c32 = agrup(C32)
dict['C32'] = df_c32

df_c32.shape

(15667, 73)

### **C33 - C34**

In [130]:
C33_C34 = (df.TOPOGRUP == 'C33') | (df.TOPOGRUP == 'C34')
df_c33_c34 = agrup(C33_C34)
dict['C33_C34'] = df_c33_c34

df_c33_c34.shape

(44615, 73)

### **C37 - C38**

In [131]:
C37_C38 = (df.TOPOGRUP == 'C37') | (df.TOPOGRUP == 'C38')
df_c37_c38 = agrup(C37_C38)
dict['C37_C38'] = df_c37_c38

df_c37_c38.shape

(3259, 73)

### **C40 - C41**

In [132]:
C40_C41 = (df.TOPOGRUP == 'C40') | (df.TOPOGRUP == 'C41')
df_c40_c41 = agrup(C40_C41)
dict['C40_C41'] = df_c40_c41

df_c40_c41.shape

(6251, 73)

### **C42**

### **C44**

In [133]:
C42 = df.TOPOGRUP == 'C42'
df_c42 = agrup(C42)
dict['C42'] = df_c42
print(f'C42: {df_c42.shape}')

C44 = df.TOPOGRUP == 'C44'
df_c44 = agrup(C44)
dict['C44'] = df_c44
print(f'C44: {df_c44.shape}')

C42: (35574, 73)
C44: (214251, 73)


### **C47 - C49**

In [134]:
C47_C49 = (df.TOPOGRUP == 'C47') | (df.TOPOGRUP == 'C49')
df_c47_c49 = agrup(C47_C49)
dict['C47_C49'] = df_c47_c49

df_c47_c49.shape

(6169, 73)

### **C50**
### **C51**
### **C52**
### **C53**
### **C54**
### **C55**
### **C56**
### **C57**
### **C58**
### **C60**
### **C61**
### **C62**
### **C63**
### **C64**
### **C65**
### **C66**
### **C67**
### **C68**
### **C69**

In [135]:
C50 = df.TOPOGRUP == 'C50'
df_c50 = agrup(C50)
dict['C50'] = df_c50
print(f'C50: {df_c50.shape}')

C51 = df.TOPOGRUP == 'C51'
df_c51 = agrup(C51)
dict['C51'] = df_c51
print(f'C51: {df_c51.shape}')

C52 = df.TOPOGRUP == 'C52'
df_c52 = agrup(C52)
dict['C52'] = df_c52 
print(f'C52: {df_c52.shape}')

C53 = df.TOPOGRUP == 'C53'
df_c53 = agrup(C53)
dict['C53'] = df_c53 
print(f'C53: {df_c53.shape}')

C54 = df.TOPOGRUP == 'C54'
df_c54 = agrup(C54)
dict['C54'] = df_c54
print(f'C54: {df_c54.shape}')

C55 = df.TOPOGRUP == 'C55'
df_c55 = agrup(C55)
dict['C55'] = df_c55 
print(f'C55: {df_c55.shape}')

C56 = df.TOPOGRUP == 'C56'
df_c56 = agrup(C56)
dict['C56'] = df_c56
print(f'C56: {df_c56.shape}')

C57 = df.TOPOGRUP == 'C57'
df_c57 = agrup(C57)
dict['C57'] = df_c57
print(f'C57: {df_c57.shape}')

C58 = df.TOPOGRUP == 'C58'
df_c58 = agrup(C58)
dict['C58'] = df_c58
print(f'C58: {df_c58.shape}')

C60 = df.TOPOGRUP == 'C60'
df_c60 = agrup(C60)
dict['C60'] = df_c60
print(f'C60: {df_c60.shape}')

C61 = df.TOPOGRUP == 'C61'
df_c61 = agrup(C61)
dict['C61'] = df_c61
print(f'C61: {df_c61.shape}')

C62 = df.TOPOGRUP == 'C62'
df_c62 = agrup(C62)
dict['C62'] = df_c62
print(f'C62: {df_c62.shape}')

C63 = df.TOPOGRUP == 'C63'
df_c63 = agrup(C63)
dict['C63'] = df_c63
print(f'C63: {df_c63.shape}')

C64 = df.TOPOGRUP == 'C64'
df_c64 = agrup(C64)
dict['C64'] = df_c64
print(f'C64: {df_c64.shape}')

C65 = df.TOPOGRUP == 'C65'
df_c65 = agrup(C65)
dict['C65'] = df_c65
print(f'C65: {df_c65.shape}')

C66 = df.TOPOGRUP == 'C66'
df_c66 = agrup(C66)
dict['C66'] = df_c66
print(f'C66: {df_c66.shape}')

C67 = df.TOPOGRUP == 'C67'
df_c67 = agrup(C67)
dict['C67'] = df_c67
print(f'C67: {df_c67.shape}')

C68 = df.TOPOGRUP == 'C68'
df_c68 = agrup(C68)
dict['C68'] = df_c68
print(f'C68: {df_c68.shape}')

C69 = df.TOPOGRUP == 'C69'
df_c69= agrup(C69)
dict['C69'] = df_c69
print(f'C69: {df_c69.shape}')

C50: (127597, 73)
C51: (2976, 73)
C52: (956, 73)
C53: (45784, 73)
C54: (13710, 73)
C55: (891, 73)
C56: (11261, 73)
C57: (225, 73)
C58: (311, 73)
C60: (1872, 73)
C61: (100165, 73)
C62: (4271, 73)
C63: (90, 73)
C64: (14285, 73)
C65: (478, 73)
C66: (334, 73)
C67: (16761, 73)
C68: (140, 73)
C69: (4053, 73)


### **C70 - C71 - C72**

In [136]:
C70_C71_C72 = (df.TOPOGRUP == 'C70') | (df.TOPOGRUP == 'C71') | (df.TOPOGRUP == 'C72')
df_c70_c71_c72 = agrup(C70_C71_C72)
dict['C70_C71_C72'] = df_c70_c71_c72

df_c70_c71_c72.shape

(12731, 73)

### **C73**

### **C74**

### **C75**

### **C77**

In [137]:
C73 = df.TOPOGRUP == 'C73'
df_c73 = agrup(C73)
dict['C73'] = df_c73 
print(f'C73: {df_c73.shape}')

C74 = df.TOPOGRUP == 'C74'
df_c74 = agrup(C74)
dict['C74'] = df_c74
print(f'C74: {df_c74.shape}')

C75 = df.TOPOGRUP == 'C75'
df_c75 = agrup(C75)
dict['C75'] = df_c75
print(f'C75: {df_c75.shape}')

C77 = df.TOPOGRUP == 'C77'
df_c77 = agrup(C77)
dict['C77'] = df_c77
print(f'C77: {df_c77.shape}')

C73: (21141, 73)
C74: (1079, 73)
C75: (705, 73)
C77: (17884, 73)
