# IMPORTAÇÃO DOS DADOS

In [None]:
import numpy as np
import pandas as pd

In [None]:
# Defina o caminho do arquivo XLSX
caminho_arquivo = './DENGUE2024.xlsx'

# Ler os dados do arquivo Excel
df_dengue = pd.read_excel(caminho_arquivo, engine='openpyxl')

In [None]:
df_dengue.head()

In [None]:
# Defina o caminho do arquivo XLSX
caminho_arquivo = './CHIK2024.xlsx'

# Ler os dados do arquivo Excel
df_chik = pd.read_excel(caminho_arquivo, engine='openpyxl')

In [None]:
df_chik.head()

In [None]:
df_chik.shape

In [None]:
df_dengue.shape

# integração dos dataframes

In [None]:
dados = pd.concat([df_dengue, df_chik], axis=0)

In [None]:
dados.shape

In [None]:
dados.head()

# agrupamento das classes

In [None]:
# DENGUE 1
dados.loc[dados['CLASSI_FIN'] == 10, 'CLASSI_FIN'] = 1
dados.loc[dados['CLASSI_FIN'] == 11, 'CLASSI_FIN'] = 1
dados.loc[dados['CLASSI_FIN'] == 12, 'CLASSI_FIN'] = 1

# CHIKUNGUNYA 2
dados.loc[dados['CLASSI_FIN'] == 13, 'CLASSI_FIN'] = 2

# OUTRAS_DOENCAS 0
dados.loc[dados['CLASSI_FIN'] == 5, 'CLASSI_FIN'] = 0

# verificação de tipos

In [None]:
dados.dtypes

# verificação de valores nulos

In [None]:
# Contando valores nulos em cada coluna
nulos_por_coluna = dados.isnull().sum()
print("\nNúmero de valores nulos em cada coluna:")
print(nulos_por_coluna)

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

# remoção de registros que nao preencheram sintomas, comorbidades ou classe

In [None]:
sintomas = [
    'FEBRE', 'MIALGIA', 'CEFALEIA', 'EXANTEMA', 'VOMITO',
    'NAUSEA', 'DOR_COSTAS', 'CONJUNTVIT', 'ARTRITE', 'ARTRALGIA',
    'PETEQUIA_N', 'LACO', 'DOR_RETRO', 'DIABETES', 'HEMATOLOG',
    'HEPATOPAT', 'RENAL', 'HIPERTENSA', 'ACIDO_PEPT', 'AUTO_IMUNE', 'CLASSI_FIN'
]

# Remover registros com valores nulos em qualquer uma das colunas de sintomas
dados = dados.dropna(subset=sintomas)

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

In [None]:
valores_nulos_por_coluna = dados.isnull().sum()
print(valores_nulos_por_coluna)

# CRIAÇÃO DA VARIAVEL DIAS

In [None]:
# criando a variavel DIAS
dados['DIAS'] = 0
dados['DT_NOTIFIC'] = pd.to_datetime(dados['DT_NOTIFIC'])
dados['DT_SIN_PRI'] = pd.to_datetime(dados['DT_SIN_PRI'])
# calculando a diferença em dias com sintomas
dados['DIAS'] = (dados['DT_NOTIFIC'] - dados['DT_SIN_PRI']).dt.days

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

In [None]:
dados.dtypes

# remoção das variaveis temporarias

In [None]:
dados.drop(columns=['DT_NOTIFIC', 'DT_SIN_PRI', 'CRITERIO', 'UF'], inplace=True)

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

# codificação da variavel CS_SEXO

In [None]:
# F = 0
# M = 1
# I = 9
# nan = 9
dados['CS_SEXO'] = dados['CS_SEXO'].replace("I", 9)
dados['CS_SEXO'] = dados['CS_SEXO'].replace("F", 0)
dados['CS_SEXO'] = dados['CS_SEXO'].replace("M", 1)

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

# remoção de dados duplicados

In [None]:
dados = dados.drop_duplicates()

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

# substituição dos valores nulos

In [None]:
# Contando valores nulos em cada coluna
nulos_por_coluna = dados.isnull().sum()
print("\nNúmero de valores nulos em cada coluna:")
print(nulos_por_coluna)

In [None]:
# Substituindo os valores nulos por 9
dados['CS_SEXO'] = dados['CS_SEXO'].fillna(9)

In [None]:
# Substituindo os valores nulos por 9
dados['CS_GESTANT'] = dados['CS_GESTANT'].fillna(9)

In [None]:
# Substituindo os valores nulos por 9
dados['CS_RACA'] = dados['CS_RACA'].fillna(9)

In [None]:
dados.dtypes

# remoção de registros com classes desconhecidades

In [None]:
# Nomes das colunas que você deseja pular
colunas_ignoradas = ['DIAS', 'NU_IDADE_N']

# Para cada coluna do dataset, imprime os valores únicos, pulando as colunas ignoradas
for coluna in dados.columns:
    if coluna in colunas_ignoradas:
        continue  # Pula a iteração se for uma das colunas ignoradas
    valores_unicos = dados[coluna].unique()
    print(f"\nCOLUNA {coluna}: ", valores_unicos)


In [None]:
dados = dados[dados['CLASSI_FIN'] != 8]

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

# substituição de outliers

In [None]:
import matplotlib.pyplot as plt


#### idade

In [None]:
# Criando o boxplot
plt.figure(figsize=(10, 6))
plt.boxplot(dados['NU_IDADE_N'])
plt.title('Boxplot da Idade')
plt.xlabel('Idade')
plt.ylabel('Valores')
plt.xticks([1], ['Idade'])  # Adiciona rótulo à categoria única
plt.show()

In [None]:
dados["NU_IDADE_N"].min()

In [None]:
dados["NU_IDADE_N"].max()

In [None]:
mediana1 = dados['NU_IDADE_N'].median()
mediana1

In [None]:
def convert_to_hours(age):
    # Converte para inteiro caso o valor seja float
    age = int(age)

    age_str = str(age)

    # Verifica se a string de idade tem exatamente 4 caracteres
    if len(age_str) != 4:
        return -1

    try:
        unit = int(age_str[0])  # O primeiro dígito representa a unidade
        value = int(age_str[1:])  # Os três últimos dígitos representam o valor
    except ValueError:
        return -2

    # Verifica se a idade está dentro do intervalo correto
    if age < 1000 or age > 4999:
        return -3

    if unit == 1:  # horas
        return value
    elif unit == 2:  # dias
        return value * 24
    elif unit == 3:  # meses (considerando uma média de 30.44 dias por mês)
        return value * 30.44 * 24
    elif unit == 4:  # anos (considerando 365.25 dias por ano)
        return value * 8766
    else:
        return -4


In [None]:

dados["NU_IDADE_N"] = dados["NU_IDADE_N"].apply(convert_to_hours)

In [None]:
dados.head()

In [None]:
import pandas as pd

# Supondo que 'dados' seja o seu DataFrame e 'coluna' seja a coluna de interesse.
coluna = 'NU_IDADE_N'  # Substitua pelo nome da sua coluna

# Cálculo do IQR (Intervalo Interquartil)
Q1 = dados[coluna].quantile(0.25)
Q3 = dados[coluna].quantile(0.75)
IQR = Q3 - Q1

# Definindo o limite superior (Q3 + 1.5 * IQR)
limite_superior = Q3 + 1.5 * IQR

# Definindo o limite inferior (Q1 - 1.5 * IQR)
limite_inferior = Q1 - 1.5 * IQR

# Contagem de registros abaixo do limite inferior
abaixo_do_limite = dados[dados[coluna] < limite_inferior].shape[0]

# Contagem de registros acima do limite superior
acima_do_limite = dados[dados[coluna] > limite_superior].shape[0]

acima_do_limite_registros = dados[dados[coluna] > limite_superior]

print(f"Número de registros abaixo do limite inferior ({limite_inferior}): {abaixo_do_limite}")
print(f"Número de registros acima do limite superior ({limite_superior}): {acima_do_limite}")

In [None]:
acima_do_limite_registros = acima_do_limite_registros.sort_values(by="NU_IDADE_N", ascending=False)


In [None]:
acima_do_limite_registros.head(24)

In [None]:
mediana = dados['NU_IDADE_N'].median()
mediana

In [None]:
contagem_coluna1 = (dados['NU_IDADE_N'] == -1).sum()
print(f"Número de -1 na NU_IDADE_N: {contagem_coluna1}")

In [None]:
contagem_coluna1 = (dados['NU_IDADE_N'] == -2).sum()
print(f"Número de -2 na NU_IDADE_N: {contagem_coluna1}")

In [None]:
contagem_coluna1 = (dados['NU_IDADE_N'] == -3).sum()
print(f"Número de -3 na NU_IDADE_N: {contagem_coluna1}")

In [None]:
contagem_coluna1 = (dados['NU_IDADE_N'] == -4).sum()
print(f"Número de -4 na NU_IDADE_N: {contagem_coluna1}")

In [None]:
contagem_coluna_abaixo_0_idade = (dados['NU_IDADE_N'] < 0).sum()
print(f"Número de -4 na NU_IDADE_N: {contagem_coluna_abaixo_0_idade}")

In [None]:
dados.loc[dados['NU_IDADE_N'] > 977409.0, 'NU_IDADE_N'] = mediana
dados.loc[dados['NU_IDADE_N'] < 0, 'NU_IDADE_N'] = mediana

In [None]:
dados["NU_IDADE_N"].min()

#### dias com sintomas

In [None]:
contagem_classes = dados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

print(dados.shape)

In [None]:
# Criando o boxplot
plt.figure(figsize=(10, 6))
plt.boxplot(dados['DIAS'])
plt.title('Boxplot da DIAS')
plt.xlabel('DIAS')
plt.ylabel('Valores')
plt.xticks([1], ['DIAS'])  # Adiciona rótulo à categoria única
plt.show()

In [None]:
import pandas as pd

# Supondo que 'dados' seja o seu DataFrame e 'coluna' seja a coluna de interesse.
coluna = 'DIAS'  # Substitua pelo nome da sua coluna

# Cálculo do IQR (Intervalo Interquartil)
Q1 = dados[coluna].quantile(0.25)
Q3 = dados[coluna].quantile(0.75)
IQR = Q3 - Q1

# Definindo o limite superior (Q3 + 1.5 * IQR)
limite_superior = Q3 + 1.5 * IQR

# Definindo o limite inferior (Q1 - 1.5 * IQR)
limite_inferior = Q1 - 1.5 * IQR

# Contagem de registros abaixo do limite inferior
abaixo_do_limite = dados[dados[coluna] < limite_inferior].shape[0]

# Contagem de registros acima do limite superior
acima_do_limite = dados[dados[coluna] > limite_superior].shape[0]

acima_do_limite_registros = dados[dados[coluna] > limite_superior]

print(f"Número de registros abaixo do limite inferior ({limite_inferior}): {abaixo_do_limite}")
print(f"Número de registros acima do limite superior ({limite_superior}): {acima_do_limite}")

In [None]:
contagem_coluna_dias_abaixo_0 = (dados['DIAS'] < 0).sum()
print(f"Número de registros abaixo de 0 na NU_IDADE_N: {contagem_coluna_dias_abaixo_0}")

In [None]:
dengue_df = dados[dados['CLASSI_FIN'] == 1.0]
chikungunya_df = dados[dados['CLASSI_FIN'] == 2.0]
outras_doencas_df = dados[dados['CLASSI_FIN'] == 0.0]

In [None]:
print("maximo dengue: ", dengue_df['DIAS'].max())
print("minimo dengue: ", dengue_df['DIAS'].min())

In [None]:
contagem_coluna1 = (dengue_df['DIAS'] < 0).sum()
print(f"Número de outliers na DIAS: {contagem_coluna1}")

In [None]:
print("maximo chikungunya: ", chikungunya_df['DIAS'].max())
print("minimo chikungunya: ", chikungunya_df['DIAS'].min())

In [None]:
contagem_coluna1 = (chikungunya_df['DIAS'] < 0).sum()
print(f"Número de outliers na DIAS: {contagem_coluna1}")

In [None]:
print("maximo outras doenças: ", outras_doencas_df['DIAS'].max())
print("minimo outras doenças: ", outras_doencas_df['DIAS'].min())

In [None]:
contagem_coluna1 = (outras_doencas_df['DIAS'] < 0).sum()
print(f"Número de outliers na DIAS: {contagem_coluna1}")

In [None]:
mediana_DIAS = dados['DIAS'].median()
mediana_DIAS

# Aplicação do Random Undersampler

In [None]:
from imblearn.under_sampling import RandomUnderSampler
import numpy as np

In [None]:
X = dados.drop('CLASSI_FIN', axis=1)  # Características
y = dados['CLASSI_FIN']  # Alvo


rus = RandomUnderSampler(sampling_strategy='not minority', random_state=1)

# Aplicar o resampling nos dados
X_res, y_res = rus.fit_resample(X, y)

# Criando um novo DataFrame a partir dos dados reamostrados
dados_balanceados = pd.DataFrame(X_res, columns=X.columns)
dados_balanceados['CLASSI_FIN'] = y_res

In [None]:
contagem_classes = dados_balanceados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

dados_balanceados.shape

# exportação todos os atributos

In [None]:
dados_balanceados.to_excel('dados_todos_atributos.xlsx', float_format='%.2f', index=False)


# exportação atributos especialista

In [None]:
# Lista de colunas que você deseja manter
colunas_desejadas = [
    'FEBRE', 'MIALGIA', 'CEFALEIA', 'EXANTEMA', 'NAUSEA',
    'DOR_COSTAS', 'CONJUNTVIT', 'ARTRITE', 'ARTRALGIA',
    'PETEQUIA_N', 'DOR_RETRO', 'DIABETES', 'HIPERTENSA',
    'DIAS', 'CLASSI_FIN'
]

# Filtrando o DataFrame para manter apenas essas colunas
dados_balanceados = dados_balanceados[colunas_desejadas]



In [None]:
contagem_classes = dados_balanceados['CLASSI_FIN'].value_counts()

# Para imprimir a contagem de cada classe
print(contagem_classes)

dados_balanceados.shape

In [None]:
dados_balanceados.to_excel('dados_especialista.xlsx', float_format='%.2f', index=False)
