# 1. Importação de Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
plt.style.use('seaborn-v0_8-notebook') 

# 2. Leitura do CSV

In [4]:
df = pd.read_csv("/mnt/c/Users/AcerGamer/Downloads/Tuberculose/Projeto-Tuberculose/dados/arquivos_csv/dados_tuberculose_completos.csv", encoding="latin1", low_memory=False)  # ou 'utf-8' se não tiver acentuação errada
df.head()

Unnamed: 0,TP_NOT,ID_AGRAVO,DT_NOTIFIC,NU_ANO,SG_UF_NOT,ID_MUNICIP,ID_REGIONA,DT_DIAG,ANO_NASC,NU_IDADE_N,...,BENEF_GOV,AGRAVDROGA,AGRAVTABAC,TEST_MOLEC,TEST_SENSI,ANT_RETRO,BAC_APOS_6,TRANSF,UF_TRANSF,MUN_TRANSF
0,2,A169,20200930,2020,15,150650,148.0,20200930,2009.0,4011.0,...,9.0,2.0,2.0,5.0,,,,2.0,15.0,15.0
1,2,A169,20200710,2020,15,150530,149.0,20200707,1973.0,4046.0,...,2.0,2.0,2.0,5.0,,,3.0,,,
2,2,A169,20201203,2020,22,220770,186.0,20201119,1955.0,4065.0,...,1.0,2.0,2.0,5.0,,,,2.0,22.0,22.0
3,2,A169,20200210,2020,24,240920,141.0,20200208,1960.0,4059.0,...,2.0,2.0,1.0,3.0,,,,,,
4,2,A169,20210114,2021,43,430210,160.0,20201226,1984.0,4035.0,...,9.0,2.0,1.0,5.0,,,3.0,,,


# 3. Verificar Qualidade dos Dados

### a. Ver estrutura básica

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502271 entries, 0 to 502270
Data columns (total 97 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   TP_NOT      502271 non-null  int64  
 1   ID_AGRAVO   502271 non-null  object 
 2   DT_NOTIFIC  502271 non-null  int64  
 3   NU_ANO      502271 non-null  int64  
 4   SG_UF_NOT   502271 non-null  int64  
 5   ID_MUNICIP  502271 non-null  int64  
 6   ID_REGIONA  297899 non-null  float64
 7   DT_DIAG     502271 non-null  int64  
 8   ANO_NASC    500066 non-null  float64
 9   NU_IDADE_N  502068 non-null  float64
 10  CS_SEXO     502271 non-null  object 
 11  CS_GESTANT  502222 non-null  float64
 12  CS_RACA     492687 non-null  float64
 13  CS_ESCOL_N  463257 non-null  float64
 14  SG_UF       502271 non-null  int64  
 15  ID_MN_RESI  502271 non-null  int64  
 16  ID_RG_RESI  296327 non-null  float64
 17  ID_PAIS     389768 non-null  float64
 18  NDUPLIC_N   48911 non-null   float64
 19  IN

### b. Verificar valores ausentes

In [15]:
df = pd.read_csv('/mnt/c/Users/AcerGamer/Downloads/Tuberculose/Projeto-Tuberculose/dados/arquivos_csv/dados_tuberculose_completos.csv', low_memory=False)

# Calcular a porcentagem de valores ausentes por coluna
porcentagem_nulos = df.isnull().mean().sort_values(ascending=False) * 100

# Exibir as colunas com 100% de valores ausentes
colunas_muito_nulas = porcentagem_nulos[porcentagem_nulos == 100]
print(f"Colunas com 100% de valores ausentes ({len(colunas_muito_nulas)} colunas):")
display(colunas_muito_nulas)

Colunas com 100% de valores ausentes (3 colunas):


FLXRECEBI     100.0
DT_TRANSRM    100.0
CS_FLXRET     100.0
dtype: float64

### b.1 Remover essas colunas do DataFrame

In [16]:
# Remover as colunas com 100% de valores ausentes
df_limpo = df.drop(columns=colunas_muito_nulas.index)

print(f"Formato do DataFrame original: {df.shape}")
print(f"Formato após remoção: {df_limpo.shape}")


Formato do DataFrame original: (502271, 97)
Formato após remoção: (502271, 94)


### c. Descrição estatística (numéricas)

In [None]:
df.describe()

### d. Valores únicos por coluna

In [None]:
df.nunique()

# 4. Entender o Significado das Variáveis

### Renomear variaveis para nomes mais amigáveis

In [None]:
df.rename(columns={
    'TP_NOT': 'Tipo_Notificacao',
    'ID_AGRAVO': 'Codigo_Agravo',
    'DT_NOTIFIC': 'Data_Notificacao',
    'NU_ANO' : 'Ano_Notificcao',
    'SG_UF_NOT' : 'Sigla_UF_Notificacao',   
    'ID_MUNICIP' : 'Codigo_Municipio',
    'ID_REGIONA' : 'Codigo_Regiao',
    'DT_DIAG' : 'Data_Diagnostico',
    'ANO_NASC' : 'Ano_Nascimento',    
    'NU_IDADE_N' : 'Idade_Valor_Unidade', 
    'CS_SEXO' : 'Paciente_Sexo',
    'CS_GESTANT' : 'Paciente_Gestante',
    'CS_RACA' : 'Paciente_Raca',
    'CS_ESCOL_N' : 'Paciente_Escolaridade',
    'SG_UF' : 'UF_Residente',       
    'ID_MN_RESI' : 'Codigo_Municipio',
    'ID_RG_RESI' : 'Codigo_Regiao',
    'ID_PAIS' : 'Codigo_Pais',
    'NDUPLIC_N' : 'Duplicidade',
    'IN_VINCULA' : 'Caso_Vinculado',  
    'DT_DIGITA' : 'Data_Digitacao',
    'DT_TRANSUS' : 'Data_Transferencia_Unidade_Saude',
    'DT_TRANSDM' : 'Data_Tranferencia_Distrito_Municipal',
    'DT_TRANSSM' : 'Data_Transferencia_Secretaria_Municipal',
    'DT_TRANSRM' : 'Data_Transferencia_Regional_Municipal',  
    'DT_TRANSRS' : 'Data_Transferencia_Regional_Saude',  
    'DT_TRANSSE' : 'Data_Transferencia_Secretaria_Estadual_Saude',  
    'CS_FLXRET' : 'Fluxo_Retorno',   
    'FLXRECEBI' : 'Recebido_Fluxo_Retorno',   
    'MIGRADO_W' : 'Origem_Migracao',   
    'ID_OCUPA_N' : 'Ocupacao_Codificada',  
    'TRATAMENTO' : 'Tipo_Tratamento', 
    'INSTITUCIO' : 'Institucionalizado',   
    'RAIOX_TORA' : 'RaioX_Torax',  
    'TESTE_TUBE' : 'Teste_Tuberculineo',  
    'FORMA' : 'Forma_Clinica_Tuberculose',       
    'AGRAVAIDS' : 'Comorbidade_AIDS',   
    'AGRAVALCOO' : 'Comorbidade_Alcoolismo',  
    'AGRAVDIABE' : 'Comorbidade_Diabetes',  
    'AGRAVDOENC' : 'Comorbidade_Doenca',  
    'AGRAVOUTRA' : 'Comorbidade_Outra',  
    'AGRAVOUTDE' : 'Comorbidade_Especifique', 
    'BACILOSC_E' : 'Baciloscopia_Escarro1',
    'BACILOS_E2' : 'Baciloscopia_Escarro2',
    'BACILOSC_O' : 'Baciloscopia_OutroMaterial',
    'CULTURA_ES' : 'Cultura_Escarro',
    'CULTURA_OU' : 'Cultura_Outros',
    'HISTOPATOL' : 'Histopatologia',
    'DT_INIC_TR' : 'Data_Inicio_Tratamento', 
    'RIFAMPICIN' : 'Medicamentos_TB_Rifampicina',
    'ISONIAZIDA' : 'Medicamentos_Isoniazida',  
    'ETAMBUTOL' : 'Medicamentos_Etambutol',   
    'ESTREPTOMI' : 'Medicamentos_Estreptomicina', 
    'PIRAZINAMI' : 'Medicamentos_Pirazinamida', 
    'ETIONAMIDA' : 'Medicamentos_Etionamida', 
    'OUTRAS' : 'Medicamentos_Outros',      
    'OUTRAS_DES' : 'Medicamentos_Outros_Descricao',  
    'TRAT_SUPER' : 'Tratamento_Supervisionado',  
    'NU_CONTATO' : 'Numero_Contato',  
    'DOENCA_TRA' : 'Doenca_Tratamento_Especial',  
    'SG_UF_AT' : 'UF_Atendimento_Atual',    
    'ID_MUNIC_A' : 'Municipio_Atendimento_Atual',  
    'DT_NOTI_AT' : 'Data_Notificacao_Atual',  
    'SG_UF_2' : 'UF_Residencia_Atual',     
    'ID_MUNIC_2' : 'Municipio_Residencia_Atual',  
    'BACILOSC_1' : 'Baciloscopia_1Mes', 
    'BACILOSC_2' : 'Baciloscopia_2Mes', 
    'BACILOSC_3' : 'Baciloscopia_3Mes', 
    'BACILOSC_4' : 'Baciloscopia_4Mes', 
    'BACILOSC_5' : 'Baciloscopia_5Mes', 
    'BACILOSC_6' : 'Baciloscopia_6Mes',  
    'TRATSUP_AT' : 'Trat_Supervisionado_Atual',  
    'DT_MUDANCA' : 'Data_Mudanca_Tratamento',
    'NU_COMU_EX' : 'Contatos_Examinados', 
    'SITUA_9_M' : 'Situacao_9_Meses',   
    'SITUA_12_M' : 'Situacao_12_Meses',  
    'SITUA_ENCE' : 'Situacao_Encerramento',  
    'DT_ENCERRA' : 'Data_Encerramento',  
    'TPUNINOT' : 'Tipo_Unidade_Notificadora',    
    'POP_LIBER' : 'Populacao_Prisioneira',   
    'POP_RUA' : 'Populacao_Rua',     
    'POP_SAUDE' : 'Populacao_Saude',   
    'POP_IMIG' : 'Populacao_Imigrantes',
    'BENEF_GOV' : 'Beneficiario_Programa',   
    'AGRAVDROGA' : 'Comorbidade_Drogas',  
    'AGRAVTABAC' : 'Comorbidade_Tabaco',  
    'TEST_MOLEC' : 'Teste_Molecular',  
    'TEST_SENSI' : 'Teste_Sensibilidade',  
    'ANT_RETRO' : 'Terapia_Antirretroviral',   
    'BAC_APOS_6' : 'Baciloscopia_Apos_6Meses',
}, inplace=True)

In [None]:
df.info()

# 5. Análises Iniciais

### a. Casos por Ano

In [None]:
# converte a formatação da coluna de '12345678' para '1234-56-78'
df['Data_Notificacao'] = pd.to_datetime(df['Data_Notificacao'].astype(str), format='%Y%m%d', errors='coerce')


In [None]:
df['Data_Notificacao'].head(10)

In [None]:
df['Ano'] = pd.to_datetime(df['Data_Notificacao'], errors='coerce').dt.year
df['Ano'].value_counts().sort_index().plot(kind='bar')
plt.title('Casos de Tuberculose por Ano')
plt.xlabel('Ano')
plt.ylabel('Número de Casos')
plt.tight_layout()
plt.show()

### b. Casos por Estado

In [None]:
# Dicionário de códigos IBGE das UFs:
cod_uf_para_sigla = {
    11: 'RO', 12: 'AC', 13: 'AM', 14: 'RR', 15: 'PA', 16: 'AP', 17: 'TO',
    21: 'MA', 22: 'PI', 23: 'CE', 24: 'RN', 25: 'PB', 26: 'PE', 27: 'AL',
    28: 'SE', 29: 'BA', 31: 'MG', 32: 'ES', 33: 'RJ', 35: 'SP', 41: 'PR',
    42: 'SC', 43: 'RS', 50: 'MS', 51: 'MT', 52: 'GO', 53: 'DF'
}

In [None]:
# Incorporação do dicionário ao Data Frame
df['Sigla_UF_Notificacao'] = df['Sigla_UF_Notificacao'].replace(cod_uf_para_sigla)

In [None]:
df['Sigla_UF_Notificacao'].value_counts().sort_values(ascending=True).plot(kind='barh')
plt.title('Casos por Estado')
plt.xlabel('Número de Casos')
plt.ylabel('Estado')
plt.tight_layout()
plt.show()


### c. Distribuição por Sexo

In [None]:
sns.countplot(data=df, x='Paciente_Sexo')
plt.title('Distribuição por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Número de Casos')
plt.show()

### d. Faixa Etária

O código da idade segue o padrão:
CÓDIGO = XYYY, onde:
X = unidade de tempo
YYY = valor da idade

Significado de X (unidade):
Código X	Unidade
0	Idade ignorada
1	Horas
2	Dias
3	Meses
4	Anos
Exemplos:
4005 = 5 anos
3009 = 9 meses
2015 = 15 dias
4030 = 30 anos
0000 = idade ignorada

O código abaixo converte este "padrão de idade" para o padrão convencional


In [None]:
# Extrai unidade (1º dígito) e valor (últimos 3)
df['unidade'] = df['Idade_Valor_Unidade'] // 1000
df['valor'] = df['Idade_Valor_Unidade'] % 1000

# Converte tudo para anos
def converter_idade(row):
    if row['unidade'] == 1:  # Horas
        return row['valor'] / (24 * 365)
    elif row['unidade'] == 2:  # Dias
        return row['valor'] / 365
    elif row['unidade'] == 3:  # Meses
        return row['valor'] / 12
    elif row['unidade'] == 4:  # Anos
        return row['valor']
    else:
        return None  # Ignorado ou inválido

df['Idade_Ano'] = df.apply(converter_idade, axis=1)

In [None]:
sns.histplot(df['Idade_Ano'], bins=20, kde=True)
plt.title('Distribuição de Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

# 6. Cruzamento de Variáveis

### a. Casos por Sexo e UF

In [None]:
#Se quiser ordenar por um sexo específico (ex.: só por número de mulheres 'F'),
#basta trocar o .sum(axis=1) por tabela['F'].

In [None]:
tabela = pd.crosstab(df['Sigla_UF_Notificacao'], df['Paciente_Sexo'])
# Ordena pela soma total das linhas
tabela = tabela.loc[tabela.sum(axis=1).sort_values(ascending=True).index]
# Plotar gráfico
tabela.plot(kind='barh', stacked=True)
plt.title('Casos por UF e Sexo')
plt.xlabel('Número de Casos')
plt.ylabel('Estado')
plt.tight_layout()
plt.show()


### b. Idade média por raça

In [None]:
raca_map = {
    1: 'Branca',
    2: 'Preta',
    3: 'Amarela',
    4: 'Parda',
    5: 'Indígena',
    6: 'Ignorado',
    9: 'Não Informado'
}

df['Paciente_Raca'] = df['Paciente_Raca'].replace(raca_map)

In [None]:
df.groupby('Paciente_Raca')['Idade_Ano'].mean().sort_values().plot(kind='barh')
plt.title('Idade Média por Raça')
plt.xlabel('Idade Média (anos)')
plt.ylabel('Raça')
plt.tight_layout()
plt.show()

# 7. Correlações

In [None]:
plt.figure(figsize=(16, 12))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)

plt.title('Mapa de Correlação')
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

# 8. Gráficos Complementares

### a. Distribuição da forma da tuberculose por sexo

In [None]:
sns.countplot(data=df, x='Forma_Clinica_Tuberculose', hue='Paciente_Sexo')
plt.title('Distribuição da FORMA por Sexo')
plt.show()

### b. Faixa etária categorizada

In [None]:
bins = [0, 12, 18, 30, 45, 60, 75, 120]
labels = ['Criança', 'Adolescente', 'Jovem', 'Adulto', 'Meia-idade', 'Idoso', 'Muito Idoso']
df['Faixa_Etaria'] = pd.cut(df['Idade_Ano'], bins=bins, labels=labels)

sns.countplot(data=df, x='Faixa_Etaria', order=labels)
plt.title('Casos por Faixa Etária')
plt.xticks(rotation=45)
plt.show()
