# Filtragem dos dados
O arquivo, depois de convertido de .dbf para .cvs (Passo a passo no arquivo 'DBF_to_CSV.ipnyb' nessa pasta.), estava com 3,5GB e com uma quantidade de dados além do que é preciso no projeto. Portanto, fez-se necessária uma primeira filtragem.

## Importando bibliotecas

In [3]:
import pandas as pd 
import numpy as np 

## Importando a tabela o arquivo .csv gerado no 'DBF_to_CSV.ipnyb'

In [4]:
dados = pd.read_csv('data_total_cancer_2000_2019.csv', sep = ',', low_memory = False)

In [5]:
dados.head()

Unnamed: 0.1,Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,0,2,2,71,RJ,1,9,10,88,2,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,1,2,1,0,99,9,9,27,88,9,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,2,1,2,49,RJ,1,9,20,20,2,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,3,1,1,66,ES,1,9,32,32,1,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,4,1,2,60,99,1,9,11,4,1,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


## Conferindo as colunas existentes

In [5]:
dados.columns

Index(['Unnamed: 0', 'TPCASO', 'SEXO', 'IDADE', 'LOCALNAS', 'RACACOR',
       'INSTRUC', 'CLIATEN', 'CLITRAT', 'HISTFAMC', 'ALCOOLIS', 'TABAGISM',
       'ESTADRES', 'PROCEDEN', 'ANOPRIDI', 'ORIENC', 'EXDIAG', 'ESTCONJ',
       'ANTRI', 'DTPRICON', 'DIAGANT', 'BASMAIMP', 'LOCTUDET', 'LOCTUPRI',
       'TIPOHIST', 'LATERALI', 'LOCTUPRO', 'MAISUMTU', 'TNM', 'ESTADIAM',
       'OUTROESTA', 'PTNM', 'RZNTR', 'DTINITRT', 'PRITRATH', 'ESTDFIMT',
       'CNES', 'UFUH', 'MUUH', 'OCUPACAO', 'DTDIAGNO', 'DTTRIAGE',
       'DATAPRICON', 'DATAINITRT', 'DATAOBITO', 'VALOR_TOT', 'BASDIAGSP'],
      dtype='object')

## Traduzindo as siglas conforme o informado no site do INCA e selecionando os dados a serem utilizados

In [6]:
'''

Legenda dos nomes das colunas da tabela retirada do site do INCA
Os nomes com ** serão utilizados no projeto

'TPCASO' - Tipo de caso
    **'SEXO' - Sexo do paciente
    **'IDADE' - Idade do paciente
'LOCALNAS' - Local de nascimento
    **'RACACOR' - Cor
'INSTRUC' - Escolaridade
'CLIATEN' - Clínicas do primeiro atendimento - entrada do paciente
'CLITRAT' - Clínica de início do tratamento
    **'HISTFAMC' - Histórico familiar de câncer
    **'ALCOOLIS' - Histórico de consumo de bebida alcóolica
    **'TABAGISM' - Histórico de consumo de tabaco
    **'ESTADRES' - UF da residência
'PROCEDEN' - Código do município de residência
    **'ANOPRIDI' - Ano do diagnóstico
'ORIENC' - Origem do encaminhamento
'EXDIAG' - Exames relevantes para o diagnóstico e planejamento da terapêutica do tumos
'ESTCONJ' - Estado conjugal atual
'ANTRI' - Ano da triagem
    **'DIAGANT' - Diagnóstico e tratamento anteriores
'BASMAIMP' - Base mais importante para o diagnóstico do tumor
    **'LOCTUDET' - Localização primária da doença (CID-O, 3 dígitos)
'LOCTUPRI' - Localização primária detalhada (CID-O, 4 dígitos)
'TIPOHIST' - Tipo histológico do tumor primário
'LATERALI' - Lateralidade do tumor
'LOCTUPRO' - Localização provável do tumor primário
'MAISUMTU' - Ocorrência de mais de um tumor primário
'TNM' - Codificação do estágio clínico
'ESTADIAM' - Estadiamento clínico do tumor
'OUTROESTA' - Outros estadiamentos clínicos do tumor
'PTNM' - (Sem tradução)
'RZNTR' - Principal razão para a não realização do tratamento antineoplásico no hospital
'DTINITRT' - Ano do início do primeiro tratamento específico para o tumor no hospital
'PRITRATH' - Primeiro tratamento recebido no hospital
'ESTDFIMT' - Estado da doença ao final do primeiro tratamento no hospital
'CNES' - Número no CNES do hospital
    **'UFUH' - UF da unidade hospitalar
'MUUH' - Município da unidade hospitalar
'OCUPACAO' - Ocupação principal
    **'DTDIAGNO' - Data do primeiro diagnóstico
'DTTRIAGE' - Data da triagem
    **'DATAPRICON' - Data da 1ª consulta
    **'DATAINITRT' - Data do início do primeiro tratamento do tumor
'DATAOBITO' - Data do óbito
'VALOR_TOT' - (Sem tradução)
'BASDIAGSP' - Base mais importante para o diagnóstico do tumor do estado de SP

'''

# DataFrame das colunas desejadas para análise

dados_filtrados = dados[['SEXO', 'IDADE', 'RACACOR', 'HISTFAMC', 'ALCOOLIS', 
                    'TABAGISM', 'ESTADRES', 'ANOPRIDI', 'DIAGANT', 'LOCTUDET', 
                    'UFUH', 'DTDIAGNO']]

In [7]:
# Conferindo

dados_filtrados.head()

Unnamed: 0,SEXO,IDADE,RACACOR,HISTFAMC,ALCOOLIS,TABAGISM,ESTADRES,ANOPRIDI,DIAGANT,LOCTUDET,UFUH,DTDIAGNO
0,2,71,1,2,1,1,RJ,2002,1,C44,RJ,10/03/2002
1,1,0,9,9,9,9,99,2002,9,C13,RJ,02/01/2002
2,2,49,1,2,1,1,RJ,2002,1,C49,RJ,21/07/2002
3,1,66,1,1,9,3,RJ,2002,1,C61,RJ,27/05/2002
4,2,60,1,1,1,3,RJ,2002,1,C73,RJ,21/08/2002


In [8]:
# Modificando os nomes das colunas

dados_filtrados1 = dados_filtrados.rename(columns = {
    'SEXO' : 'sexo',
    'IDADE' : 'idade',
    'RACACOR' : 'cor',
    'HISTFAMC' : 'historico_familiar',
    'ALCOOLIS' : 'uso_alcool', 
    'TABAGISM' : 'uso_tabaco',
    'ESTADRES' : 'local_residencia',
    'ANOPRIDI' : 'ano_diagnostico',
    'DIAGANT' : 'diagnost_trat_anterior',
    'LOCTUDET' : 'codigo_doenca',
    'UFUH' : 'local_hospital',
    'DTDIAGNO' : 'data_primeiro_diagnost'
})

dados_filtrados1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4083377 entries, 0 to 4083376
Data columns (total 12 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   sexo                    int64 
 1   idade                   object
 2   cor                     int64 
 3   historico_familiar      int64 
 4   uso_alcool              int64 
 5   uso_tabaco              int64 
 6   local_residencia        object
 7   ano_diagnostico         object
 8   diagnost_trat_anterior  int64 
 9   codigo_doenca           object
 10  local_hospital          object
 11  data_primeiro_diagnost  object
dtypes: int64(6), object(6)
memory usage: 373.8+ MB


In [9]:
# Organizando as informações no DataFrame
# Na parte posterior, os dados pessoais e, na parte anterior, os dados relacionados à doença

dados_filtrados2 = dados_filtrados1[[
    'sexo', 'idade', 'cor', 'local_residencia', 'uso_alcool', 'uso_tabaco',
    'ano_diagnostico', 'data_primeiro_diagnost', 'historico_familiar', 
    'diagnost_trat_anterior', 'local_hospital', 'codigo_doenca'
]]

In [10]:
dados_filtrados2.columns

Index(['sexo', 'idade', 'cor', 'local_residencia', 'uso_alcool', 'uso_tabaco',
       'ano_diagnostico', 'data_primeiro_diagnost', 'historico_familiar',
       'diagnost_trat_anterior', 'local_hospital', 'codigo_doenca'],
      dtype='object')

In [11]:
dados_filtrados2.head()

Unnamed: 0,sexo,idade,cor,local_residencia,uso_alcool,uso_tabaco,ano_diagnostico,data_primeiro_diagnost,historico_familiar,diagnost_trat_anterior,local_hospital,codigo_doenca
0,2,71,1,RJ,1,1,2002,10/03/2002,2,1,RJ,C44
1,1,0,9,99,9,9,2002,02/01/2002,9,9,RJ,C13
2,2,49,1,RJ,1,1,2002,21/07/2002,2,1,RJ,C49
3,1,66,1,RJ,9,3,2002,27/05/2002,1,1,RJ,C61
4,2,60,1,RJ,1,3,2002,21/08/2002,1,1,RJ,C73


## Importando o DataFrame gerado para um arquivo .csv

In [12]:
dados_filtrados2.to_csv("filtro1_data_cancer_INCA.csv")