In [12]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [41]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [42]:
df = pd.read_csv("/content/drive/MyDrive/Datasets/df_Limpo.csv")

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 437712 entries, 0 to 437711
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   sexo         437712 non-null  int64  
 1   racacor      437712 non-null  float64
 2   clitrat      437712 non-null  float64
 3   histfamc     437712 non-null  float64
 4   alcoolis     437712 non-null  float64
 5   tabagism     437712 non-null  float64
 6   loctudet     437712 non-null  int64  
 7   tnm          437712 non-null  object 
 8   estadiam     437712 non-null  object 
 9   pritrath     437712 non-null  float64
 10  ocupacao     437712 non-null  int64  
 11  dias         437712 non-null  int64  
 12  idade1       437712 non-null  float64
 13  tipohist1    437712 non-null  int64  
 14  tipohist2    437712 non-null  int64  
 15  estadofinal  437712 non-null  object 
dtypes: float64(7), int64(6), object(3)
memory usage: 53.4+ MB


In [44]:
sexo_map = {1: 'Masculino', 2: 'Feminino'}
raca_cor_map = {1: 'Branca', 2: 'Preta', 3: 'Amarela', 4: 'Parda', 5: 'Indígena'}
clinica_map = {
    88: 'Não Se Aplica',
    99: 'Sem Informação',
    1: 'Alergia/Imunologia',
    2: 'Cirurgia Cardiaca',
    3: 'Cabeça e Pescoço',
    4: 'Cirurgia Geral',
    5: 'Pediatria Cirúrgica',
    6: 'Cirurgia Plástica',
    7: 'Cirurgia Torácica',
    8: 'Cirurgia Vascular',
    9: 'Clínica Médica',
    10: 'Dermatologia',
    11: 'Endocrinologia',
    12: 'Gastrocirurgia',
    13: 'Gastroenterologia',
    14: 'Geriatria',
    15: 'Ginecologia',
    16: 'Ginecologia/Obstetrícia',
    17: 'Hematologia Clínica',
    18: 'Infectologia',
    19: 'Nefrologia',
    20: 'Neurocirurgia',
    21: 'Neurologia',
    22: 'Oftalmologia',
    23: 'Oncologia Cirúrgica',
    24: 'Oncologia Clínica',
    25: 'Pediatria Oncológica',
    26: 'Ortopedia',
    27: 'Otorrinolaringologia',
    28: 'Pediatria',
    29: 'Pneumologia',
    30: 'Proctologia',
    31: 'Radioterapia',
    32: 'Urologia',
    33: 'Mastologia',
    34: 'Oncologia Cutânea',
    35: 'Cirurgia Pélvica',
    36: 'Cirurgia Abdominal',
    37: 'Odontologia',
    38: 'Cemo',
    39: 'Endoscopia',
    40: 'Estomato - Odontologia',
    41: 'Plástica Reparadora',
    42: 'Tecido Ósseo e Conectivo',
    43: 'Hemoterapia',
    44: 'Medicina Nuclear',
    45: 'Psiquiatria',
    46: 'Triagem',
    47: 'Clínica da Dor',
    48: 'Suporte Terapêutico Oncológico',
    50: 'Abdômen Pélvica'
}
histfamc_map = {1:'Sim', 2:'Nao', 8: 'Não Se Aplica'}
alcolism_map = {1:'Nunca', 2:'Ex-consumidor', 3:'Sim', 4:'Não avaliado', 8: 'Não se aplica'}
tabagism_map = {1:'Nunca', 2:'Ex-consumidor', 3:'Sim', 4:'Não avaliado', 8: 'Não se aplica'}
loctudet_map = {
  0: 'LABIO',
  1: 'BASE DA LINGUA',
  2: 'LINGUA',
  3: 'GENGIVA',
  4: 'ASSOALHO DA BOCA',
  5: 'PALATO',
  6: 'OUTRAS PARTES DA BOCA E DAS NAO ESPECIFICADAS',
  7: 'GLANDULA PAROTIDA',
  8: 'OUTRAS GLANDULAS SALIVARES MAIORES',
  9: 'AMIGDALAS',
  10: 'OROFARINGE',
  11: 'NASOFARINGE',
  12: 'SEIO PERIFORME',
  13: 'HIPOFARINGE',
  14: 'LOCALIZACOES MAL DEFINIDAS DO LABIO BOCA E FARINGE',
  15: 'ESOFAGO',
  16: 'ESTOMAGO',
  17: 'INTESTINO DELGADO',
  18: 'COLON',
  19: 'JUNCAO RETOSSIGMOIDIANA',
  20: 'RETO',
  21: 'CANAL ANAL E ANUS',
  22: 'FIGADO E VIAS BILIARES INTRA-HEPATICAS',
  23: 'VESICULA BILIAR',
  24: 'OUTRAS PARTES E PARTES ESPECIF. DAS VIAS BILIARES',
  25: 'PANCREAS',
  26: 'OUTRAS LOCALIZACOES MAL DEF. DOS ORGAOS DIGESTIVOS',
  30: 'CAVIDADES NASAIS E OUVIDO MEDIO E INTERNO',
  31: 'SEIOS DA FACE',
  32: 'LARINGE',
  33: 'TRAQUEIA',
  34: 'BRONQUIO E PULMAO',
  37: 'TIMO',
  38: 'CORACAO, MEDIASTINO E PELURA',
  40: 'OSSOS, ARTICUL. E CART. ARTICULAR DOS MEMBROS',
  41: 'OSSOS, ARTICUL. E CART. ARTICUL. DE OUTRAS REGIOES',
  42: 'SISTEMAS HEMATOPOETICO E RETICULOENDOTELIAL',
  44: 'PELE',
  47: 'NERVOS PERIFERICOS E DO SISTEMA NERVOSO AUTONOMO',
  48: 'RETROPERITONIO E PERITONIO',
  49: 'CONJUNTIVO SUBCUTANEO E OUTROS TECIDOS MOLES',
  50: 'MAMA',
  51: 'VULVA',
  52: 'VAGINA',
  53: 'COLO DO UTERO',
  54: 'CORPO DO UTERO',
  55: 'UTERO',
  56: 'OVARIO',
  57: 'OUTROS ORGAOS GENITAIS FEMININOS E OS NAO ESPECIF.',
  58: 'PLACENTA',
  60: 'PENIS',
  61: 'PROSTATA',
  62: 'TESTICULO',
  63: 'OUTROS ORGAOS GENITAIS MASCULINOS',
  64: 'RIM',
  65: 'PELVE RENAL',
  66: 'URETER',
  67: 'BEXIGA',
  68: 'OUTROS ORGAOS URINARIOS NAO ESPECIFICADOS',
  69: 'OLHO E ANEXOS',
  70: 'MENINGES',
  71: 'ENCEFALO',
  72: 'MEDULA ESPINHAL E OUTRAS PARTES DO S.N.C.',
  73: 'TIREOIDE',
  74: 'GLANDULA SUPRARRENAL',
  75: 'OUTRAS GLANDULAS ENDOCRINAS E ESTRUTURAS RELATIVAS',
  76: 'LOCALIZACOES MAL DEFINIDAS',
  77: 'LINFONODOS (GANGLIOS LINFATICOS)',
  80: 'LOCALIZACAO PRIMARIA DESCONHECIDA'
}

tipohist_map ={8000: 'Outros',
 8001: 'Outros',
 8003: 'Outros',
 8010: 'Carcinoma',
 8013: 'Carcinoma',
 8020: 'Carcinoma',
 8021: 'Carcinoma',
 8022: 'Carcinoma',
 8031: 'Carcinoma',
 8032: 'Carcinoma',
 8033: 'Carcinoma',
 8041: 'Carcinoma',
 8042: 'Carcinoma',
 8043: 'Carcinoma',
 8045: 'Carcinoma',
 8046: 'Carcinoma',
 8050: 'Carcinoma',
 8051: 'Carcinoma',
 8052: 'Carcinoma',
 8070: 'Carcinoma',
 8071: 'Carcinoma',
 8072: 'Carcinoma',
 8074: 'Carcinoma',
 8075: 'Carcinoma',
 8076: 'Carcinoma',
 8077: 'Outros',
 8081: 'Carcinoma',
 8082: 'Carcinoma',
 8083: 'Carcinoma',
 8084: 'Carcinoma',
 8090: 'Carcinoma',
 8091: 'Carcinoma',
 8092: 'Carcinoma',
 8093: 'Carcinoma',
 8094: 'Carcinoma',
 8095: 'Carcinoma',
 8097: 'Carcinoma',
 8098: 'Carcinoma',
 8120: 'Carcinoma',
 8122: 'Carcinoma',
 8123: 'Carcinoma',
 8130: 'Carcinoma',
 8140: 'Carcinoma',
 8144: 'Carcinoma',
 8145: 'Carcinoma',
 8147: 'Carcinoma',
 8148: 'Outros',
 8160: 'Carcinoma',
 8162: 'Carcinoma',
 8170: 'Carcinoma',
 8174: 'Carcinoma',
 8180: 'Carcinoma',
 8200: 'Carcinoma',
 8201: 'Carcinoma',
 8210: 'Carcinoma',
 8211: 'Carcinoma',
 8215: 'Carcinoma',
 8220: 'Carcinoma',
 8230: 'Carcinoma',
 8231: 'Carcinoma',
 8240: 'Carcinoma',
 8242: 'Carcinoma',
 8243: 'Carcinoma',
 8245: 'Carcinoma',
 8246: 'Carcinoma',
 8247: 'Carcinoma',
 8249: 'Carcinoma',
 8250: 'Carcinoma',
 8251: 'Carcinoma',
 8252: 'Carcinoma',
 8253: 'Carcinoma',
 8254: 'Carcinoma',
 8255: 'Carcinoma',
 8260: 'Carcinoma',
 8261: 'Carcinoma',
 8262: 'Carcinoma',
 8263: 'Carcinoma',
 8270: 'Carcinoma',
 8290: 'Carcinoma',
 8310: 'Carcinoma',
 8312: 'Carcinoma',
 8313: 'Carcinoma',
 8316: 'Carcinoma',
 8317: 'Carcinoma',
 8318: 'Carcinoma',
 8319: 'Carcinoma',
 8323: 'Carcinoma',
 8330: 'Carcinoma',
 8335: 'Carcinoma',
 8340: 'Carcinoma',
 8341: 'Carcinoma',
 8342: 'Carcinoma',
 8343: 'Carcinoma',
 8344: 'Carcinoma',
 8350: 'Carcinoma',
 8370: 'Carcinoma',
 8380: 'Carcinoma',
 8381: 'Outros',
 8382: 'Carcinoma',
 8384: 'Carcinoma',
 8390: 'Carcinoma',
 8401: 'Carcinoma',
 8402: 'Outros',
 8407: 'Carcinoma',
 8409: 'Outros',
 8410: 'Carcinoma',
 8413: 'Carcinoma',
 8430: 'Carcinoma',
 8440: 'Carcinoma',
 8441: 'Carcinoma',
 8442: 'Carcinoma',
 8450: 'Carcinoma',
 8452: 'Carcinoma',
 8453: 'Carcinoma',
 8460: 'Carcinoma',
 8461: 'Carcinoma',
 8470: 'Carcinoma',
 8472: 'Outros',
 8473: 'Carcinoma',
 8480: 'Carcinoma',
 8481: 'Carcinoma',
 8490: 'Carcinoma',
 8500: 'Carcinoma',
 8501: 'Carcinoma',
 8502: 'Carcinoma',
 8503: 'Carcinoma',
 8504: 'Carcinoma',
 8507: 'Carcinoma',
 8510: 'Carcinoma',
 8513: 'Carcinoma',
 8514: 'Carcinoma',
 8520: 'Carcinoma',
 8521: 'Carcinoma',
 8522: 'Carcinoma',
 8523: 'Carcinoma',
 8524: 'Carcinoma',
 8525: 'Carcinoma',
 8530: 'Carcinoma',
 8540: 'Outros',
 8542: 'Outros',
 8543: 'Carcinoma',
 8550: 'Carcinoma',
 8551: 'Carcinoma',
 8560: 'Carcinoma',
 8562: 'Carcinoma',
 8573: 'Carcinoma',
 8574: 'Carcinoma',
 8575: 'Carcinoma',
 8582: 'Sarcoma',
 8583: 'Sarcoma',
 8584: 'Sarcoma',
 8585: 'Sarcoma',
 8586: 'Carcinoma',
 8620: 'Outros',
 8631: 'Outros',
 8650: 'Outros',
 8680: 'Outros',
 8692: 'Outros',
 8693: 'Outros',
 8700: 'Outros',
 8720: 'Melanoma',
 8721: 'Melanoma',
 8742: 'Melanoma',
 8743: 'Melanoma',
 8744: 'Melanoma',
 8746: 'Melanoma',
 8771: 'Melanoma',
 8800: 'Sarcoma',
 8801: 'Sarcoma',
 8802: 'Sarcoma',
 8803: 'Sarcoma',
 8804: 'Sarcoma',
 8805: 'Sarcoma',
 8806: 'Sarcoma',
 8810: 'Sarcoma',
 8811: 'Sarcoma',
 8815: 'Sarcoma',
 8821: 'Sarcoma',
 8822: 'Sarcoma',
 8825: 'Carcinoma',
 8830: 'Outros',
 8832: 'Sarcoma',
 8833: 'Sarcoma',
 8840: 'Sarcoma',
 8841: 'Outros',
 8850: 'Sarcoma',
 8851: 'Sarcoma',
 8852: 'Sarcoma',
 8854: 'Sarcoma',
 8858: 'Sarcoma',
 8890: 'Sarcoma',
 8891: 'Sarcoma',
 8894: 'Sarcoma',
 8895: 'Sarcoma',
 8897: 'Outros',
 8900: 'Sarcoma',
 8902: 'Sarcoma',
 8910: 'Sarcoma',
 8912: 'Sarcoma',
 8920: 'Sarcoma',
 8930: 'Sarcoma',
 8931: 'Sarcoma',
 8933: 'Sarcoma',
 8934: 'Outros',
 8935: 'Outros',
 8936: 'Sarcoma',
 8940: 'Outros',
 8941: 'Carcinoma',
 8950: 'Outros',
 8960: 'Carcinoma',
 8963: 'Outros',
 8964: 'Sarcoma',
 8970: 'Carcinoma',
 8980: 'Sarcoma',
 8982: 'Outros',
 8991: 'Sarcoma',
 9014: 'Carcinoma',
 9015: 'Outros',
 9020: 'Sarcoma',
 9040: 'Sarcoma',
 9041: 'Sarcoma',
 9043: 'Sarcoma',
 9044: 'Sarcoma',
 9050: 'Outros',
 9052: 'Outros',
 9053: 'Outros',
 9060: 'Outros',
 9061: 'Outros',
 9062: 'Outros',
 9063: 'Outros',
 9064: 'Outros',
 9065: 'Outros',
 9070: 'Carcinoma',
 9071: 'Outros',
 9080: 'Outros',
 9085: 'Outros',
 9101: 'Carcinoma',
 9104: 'Carcinoma',
 9110: 'Outros',
 9120: 'Sarcoma',
 9130: 'Sarcoma',
 9133: 'Sarcoma',
 9140: 'Sarcoma',
 9161: 'Outros',
 9180: 'Sarcoma',
 9181: 'Sarcoma',
 9182: 'Sarcoma',
 9186: 'Sarcoma',
 9200: 'Outros',
 9210: 'Outros',
 9220: 'Sarcoma',
 9240: 'Sarcoma',
 9242: 'Sarcoma',
 9243: 'Sarcoma',
 9250: 'Sarcoma',
 9252: 'Sarcoma',
 9260: 'Sarcoma',
 9350: 'Sistema Nervoso Central',
 9364: 'Sarcoma',
 9370: 'Sarcoma',
 9371: 'Sarcoma',
 9380: 'Sistema Nervoso Central',
 9382: 'Sistema Nervoso Central',
 9391: 'Sistema Nervoso Central',
 9394: 'Sistema Nervoso Central',
 9400: 'Sistema Nervoso Central',
 9401: 'Sistema Nervoso Central',
 9410: 'Sistema Nervoso Central',
 9421: 'Sistema Nervoso Central',
 9424: 'Sistema Nervoso Central',
 9440: 'Sistema Nervoso Central',
 9441: 'Sistema Nervoso Central',
 9442: 'Sarcoma',
 9450: 'Sistema Nervoso Central',
 9451: 'Sistema Nervoso Central',
 9470: 'Sistema Nervoso Central',
 9473: 'Sistema Nervoso Central',
 9474: 'Sistema Nervoso Central',
 9500: 'Sarcoma',
 9505: 'Sistema Nervoso Central',
 9508: 'Outros',
 9510: 'Outros',
 9512: 'Outros',
 9522: 'Sarcoma',
 9530: 'Sistema Nervoso Central',
 9538: 'Sistema Nervoso Central',
 9539: 'Sistema Nervoso Central',
 9561: 'Sarcoma',
 9571: 'Sarcoma',
 9581: 'Sarcoma',
 9590: 'Linfoma',
 9591: 'Linfoma',
 9596: 'Linfoma',
 9650: 'Linfoma',
 9651: 'Linfoma',
 9652: 'Linfoma',
 9653: 'Linfoma',
 9659: 'Linfoma',
 9663: 'Linfoma',
 9664: 'Linfoma',
 9665: 'Linfoma',
 9667: 'Linfoma',
 9670: 'Linfoma',
 9671: 'Linfoma',
 9673: 'Linfoma',
 9675: 'Linfoma',
 9679: 'Linfoma',
 9680: 'Linfoma',
 9684: 'Linfoma',
 9687: 'Linfoma',
 9689: 'Linfoma',
 9690: 'Linfoma',
 9691: 'Linfoma',
 9695: 'Linfoma',
 9698: 'Linfoma',
 9699: 'Linfoma',
 9700: 'Linfoma',
 9702: 'Linfoma',
 9705: 'Linfoma',
 9709: 'Linfoma',
 9714: 'Linfoma',
 9719: 'Linfoma',
 9727: 'Linfoma',
 9728: 'Linfoma',
 9729: 'Linfoma',
 9731: 'Outros',
 9732: 'Outros',
 9733: 'Leucemia',
 9734: 'Outros',
 9751: 'Outros',
 9758: 'Sarcoma',
 9761: 'Outros',
 9765: 'Outros',
 9768: 'Linfoma',
 9769: 'Outros',
 9800: 'Leucemia',
 9801: 'Leucemia',
 9805: 'Leucemia',
 9820: 'Leucemia',
 9823: 'Leucemia',
 9826: 'Leucemia',
 9831: 'Leucemia',
 9834: 'Leucemia',
 9835: 'Leucemia',
 9836: 'Leucemia',
 9837: 'Leucemia',
 9840: 'Leucemia',
 9860: 'Leucemia',
 9861: 'Leucemia',
 9863: 'Leucemia',
 9866: 'Leucemia',
 9867: 'Leucemia',
 9873: 'Leucemia',
 9875: 'Leucemia',
 9876: 'Leucemia',
 9891: 'Leucemia',
 9895: 'Leucemia',
 9896: 'Leucemia',
 9920: 'Leucemia',
 9930: 'Sarcoma',
 9940: 'Leucemia',
 9945: 'Leucemia',
 9950: 'Outros',
 9960: 'Outros',
 9961: 'Outros',
 9962: 'Outros',
 9963: 'Leucemia',
 9970: 'Linfoma',
 9975: 'Outros',
 9980: 'Outros',
 9986: 'Outros',
 9987: 'Outros',
 9989: 'Outros'}
estado_f_map = {
  0: "Sem evidencia",
  1: "Remissao parcial",
  2: "Doenca estavel",
  3: "Doenca em progressao",
    }
sexo_map = {
    1: "Masculino",
    2: "Feminino"
}

pritrath_map = {1:"nenhum", 2: "Cirurgia", 3: "Radioterapia", 4: "Quimioterapia", 5: "Hormonioterapia", 6:"Transplante de medula óssea"
,7: "Imunoterapia", 8: " Outras"}

In [45]:
df = df.drop(columns=['tipohist2'])
df = df.drop(columns=['ocupacao'])
df = df.drop(columns=['tnm'])

In [46]:
df['sexo'] = df['sexo'].map(sexo_map)
df['racacor'] = df['racacor'].map(raca_cor_map)
df['clitrat'] = df['clitrat'].map(clinica_map)
df['histfamc'] = df['histfamc'].map(histfamc_map)
df['alcoolis'] = df['alcoolis'].map(alcolism_map)
df['tabagism'] = df['tabagism'].map(tabagism_map)
df['loctudet'] = df['loctudet'].map(loctudet_map)
df['tipohist1'] = df['tipohist1'].map(tipohist_map)
df['pritrath'] = df['pritrath'].map(pritrath_map)

In [47]:
# Remover linhas onde 'estadofinal' é igual a 'Suporte terapêutico oncológico' ou 'Sem informação'
df = df[~df['estadofinal'].isin(['Suporte terapêutico oncológico', 'Sem informação'])]

In [48]:
df['estadofinal'].value_counts()

Unnamed: 0_level_0,count
estadofinal,Unnamed: 1_level_1
Sem evidência da doença (remissão completa),139751
Doença estável,121150
Doença em progressão,42095
Remissão parcial,35817
Não se aplica,10011


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 347209 entries, 1 to 437706
Data columns (total 13 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   sexo         347209 non-null  object 
 1   racacor      347209 non-null  object 
 2   clitrat      347209 non-null  object 
 3   histfamc     347209 non-null  object 
 4   alcoolis     347209 non-null  object 
 5   tabagism     347209 non-null  object 
 6   loctudet     347209 non-null  object 
 7   estadiam     347209 non-null  object 
 8   pritrath     347209 non-null  object 
 9   dias         347209 non-null  int64  
 10  idade1       347209 non-null  float64
 11  tipohist1    347209 non-null  object 
 12  estadofinal  347209 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 37.1+ MB


In [49]:
# prompt: me ajude a baixar o df

from google.colab import files

df.to_csv('FINAL.csv', encoding='utf-8', index=False)
files.download('FINAL.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Rascunho

In [None]:
# prompt: me ajude a manipular o dataframe tipohist, eu quero que em uma coluna contenha o codigo e a outra o nome. Note que a formatação ocorre da seguinte forma, (codigo - nome - CID-X)

# Crie uma nova coluna 'codigo' e 'nome'
tipohist[['codigo', 'nome']] = tipohist['TOTAL'].str.split(' - ', n=1, expand=True)

# Remova a parte 'CID-X' da coluna 'nome'
tipohist['nome'] = tipohist['nome'].str.split(' - ').str[0]

# Exclua a coluna 'tipohist1'
tipohist = tipohist[['codigo', 'nome']]

# Exiba o dataframe
# Remova o número após a barra na coluna 'codigo'
tipohist['codigo'] = tipohist['codigo'].str.split('/').str[0]

# Exiba o dataframe
tipohist

tipohist = pd.read_csv("/content/drive/MyDrive/Datasets/TIPOHIST.csv")

df = tipohist.copy()

import pandas as pd


# Palavras-chave para cada grupo principal
keywords = {
    'Carcinoma': ['Carcinoma', 'Adenocarcinoma', 'Colangiocarcinoma', 'Klatskin', 'Carcinóide',
                  'Adenocarcinóide', 'Microcarcinoma', 'Adenocarcinoma', 'Cistadenocarcinoma',
                  'Cistadenoma', 'comedocarcinoma',
                  'Hepatoblastoma','Adenocarcinofibroma','Coriocarcinoma','Tumor Trofoblástico do Localização Placentária',
                  'Tumor Miofibroblástico','Doença de Bowen','Nefroblastoma'],
    'Sarcoma': ['Sarcoma','Tumor Filodes','Adenossarcoma','Rabdomiossarcoma','Carcinossarcoma','Lipossarcoma',
                'Mixossarcoma','Miossarcoma','Dermatofibrossarcoma','Angiomiossarcoma',
                'Leiomiossarcoma','Hemangiossarcoma','Hemangioendotelioma','Hemangioendotelioma','Osteossarcoma',
                'Condrossarcoma','Tumor de Células Gigantes do Osso','Tumor Maligno de Células Gigantes Tenossivial',
                'Tumor Neuroectodérmico Periférico','Cordoma','Neuroblastoma','Rabdomioblástica','Perineuroma','Timoma','Gliossarcoma','Fibrossarcoma','Fibromixossarcoma'
                'Tumor desmoplásico de Células Pequenas e Redondas','Tumor Maligno Fibroso','Fibromatose','Gliossarcoma','Fibromixossarcoma','desmoplásico'],
    'Leucemia': ['Leucemia'],
    'Linfoma': ['Linfoma','Micose Fungóide','Linfoproliferativa'],
    'Melanoma': ['Melanoma','Lentigo'],
    'Sistema Nervoso Central': ['Glioma', 'Astrocitoma', 'Meduloblastoma','Craniofaringioma','Ependimoma',
                                'Xantoastrocitoma','Glioblastoma','Oligodendroglioma','Neuroectodérmico','Ganglioglioma',
                                'Meningeoma','Meningioma'],
    'Outros': ['Neoplasia', 'Tumor Pseudopapilar','Tumor Císitico Mucinoso de Malignidade Limítrofe (C569)	',
                              'Tumor de Células da Granulosa', 'Mucinoso'
                'Tumor de Células de Sertoli-Leydig',
                'Tumor de Células de Leydig', 'Paraganglioma',
                'Tumor do Corpo Carotídeo',
                  'Paget', 'Poroma', 'Hidradenoma', 'Células Tumorais',
                  'Fibromatose Abdominal',
                  'Histiocitoma Fibroso Maligno',
                  'Angiomixoma','Tumor de Músculo Liso','Carcinofibroma','Tumor Estromal','Tumor Misto'
                  ,'Mioepitelioma','Adenofibroma','Mesotelioma','Disgerminoma','Seminoma',
                  'Germinoma','Tumor de Células Germinativas','Tumor de Saco Vitelino',
               'Teratoma', 'Tumor Misto de Células Germinativas','Mesonefroma','Hemangioblastoma','Retinoblastoma','Plasmocitoma','Mieloma','Histiocitose',
               'Macroglobulinemia de Waldenstrom','Gamopatia','Doença de Depósito de Imunoglobulina','Policitemia Vera','Mieloproliferativa','Mielosclerose com Metaplasia Mielóide',
               'Trombocitemia','Anemia Refratária','Mielodisplásica','Tumor Teratóide/Rabdóide Atípico','Tumor Maligno de Células Gigantes','Feocromocitoma','Osteoblastoma Agressivo'
               'Osteocondromatose,','Meningiomatose','Rabdóide','Osteoblastoma','Osteocondromatose, SOE (C40.-, C41.-)	']

}

# Função para mapear o grupo histológico com base em palavras-chave
def map_histologic_group(row):
    # Dicionário para armazenar correspondências encontradas
    matches = {group: any(keyword in row['nome'] for keyword in keywords[group]) for group in keywords}

    # Prioridade de classificação: ajustável conforme necessário
    priority = ['Carcinoma', 'Sarcoma', 'Leucemia', 'Linfoma', 'Melanoma', 'Sistema Nervoso Central','Outros']

    # Atribuir o grupo com base na prioridade de correspondência
    for group in priority:
        if matches[group]:
            return group
    return 'Outros'  # Caso não se encaixe em nenhum grupo

df['grupo_hist'] = df.apply(map_histologic_group, axis=1)

new_map = {df.loc[i, 'codigo']: df.loc[i, 'grupo_hist'] for i in df.index}

new_map = {int(k) if k.isdigit() else k: v for k, v in new_map.items()}

new_map

# teste por tipo