In [None]:
import kagglehub

# Realiza download do dataset
path = kagglehub.dataset_download("vinodvadde/alzeimers-clinical-dataset")

print("Path to dataset files:", path)

In [None]:
# A função os.listdir() é responsável por verificar os arquivos disponíveis
# no diretório do dataset após o download

import os
os.listdir(path)

In [None]:
# Importa a biblioteca Pandas para manipulação e análise de dados
import pandas as pd

# Carrega o arquivo CSV com os dados clínicos de Alzheimer
df = pd.read_csv("../data/alzheimers_disease_data.csv")

# Exibe as primeiras linhas do dataset para visualização inicial
df.head()

In [None]:
# Exibe informações gerais sobre o dataset
df.info()

In [None]:
# Apresenta estatísticas descritivas das variáveis numéricas
df.describe()

In [None]:
# Verifica a quantidade de valores ausentes em cada coluna
df.isnull().sum()

In [24]:
# Identificação de variáveis categóricas (texto)
# Essa etapa é importante para entender quais colunas representam categorias
df.select_dtypes(include='object').columns

Index(['DoctorInCharge'], dtype='object')

In [27]:
# Análise da coluna categórica identificada
# Observa-se que a variável 'DoctorInCharge' possui um único valor,
# indicando que não há variabilidade suficiente para análises comparativas
for col in df.select_dtypes(include='object').columns:
    print(df[col].value_counts())

DoctorInCharge
XXXConfid    2149
Name: count, dtype: int64


In [None]:
# Conclusão:
# A coluna 'DoctorInCharge' não contribui para a análise exploratória,
# pois apresenta valor único e caráter administrativo.
# Portanto, pode ser removida para simplificar o dataset.

In [None]:
# Remoção da variável categórica sem relevância analítica
df.drop(columns=['DoctorInCharge'], inplace=True)

In [None]:
# Verificação das colunas após a remoção da variável categórica
df.columns

In [None]:
# Estatísticas descritivas das variáveis numéricas após limpeza do dataset
df.describe()

In [None]:
# Importa a biblioteca Matplotlib para criação e controle de gráficos
import matplotlib.pyplot as plt

# Importa a biblioteca Seaborn para visualizações estatísticas
import seaborn as sns

# Define o estilo visual dos gráficos (fundo branco com grade)
sns.set(style="whitegrid")

# Cria uma nova figura para o gráfico
plt.figure()

# Cria um histograma para analisar a distribuição da idade dos pacientes
#'bins=20' define o número de intervalos da distribuição
sns.histplot(df["Age"], bins=20)

# Define o título do gráfico
plt.title("Distribuição de Idade dos Pacientes")

# Define o rótulo do eixo X
plt.xlabel("Idade")

# Define o rótulo do eixo Y
plt.ylabel("Frequência")

# Exibe o gráfico
plt.show()

In [None]:
# Cria uma nova figura com tamanho personalizado
plt.figure(figsize=(12, 8))

# Calcula a matriz de correlação entre todas as variáveis numéricas
correlation_matrix = df.corr()

# Cria um heatmap (mapa de calor) da matriz de correlação
sns.heatmap(correlation_matrix,
            annot=True,      # Mostra os valores numéricos dentro das células
            cmap="coolwarm", # Define a paleta de cores
            fmt=".2f")       # Formata os números com duas casas decimais

# Define o título do gráfico
plt.title("Matriz de Correlação entre Variáveis Clínicas")

# Exibe o gráfico
plt.show()

In [35]:
# Remove identificadores que não agregam valor analítico
df_corr = df.drop(columns=["PatientID"])

In [None]:
# Correlação das variáveis com o diagnóstico
corr_diagnosis = df_corr.corr()[["Diagnosis"]].sort_values(by="Diagnosis", ascending=False)
corr_diagnosis

In [None]:
# O heatmap inicial com todas as variáveis apresentou baixa legibilidade
# devido à grande quantidade de colunas e correlações muito próximas de zero.
# Por isso, optou-se por uma visualização focada na variável de diagnóstico,
# facilitando a interpretação dos resultados.

# Observa-se que algumas variáveis cognitivas apresentam correlação mais
# relevante com o diagnóstico, enquanto variáveis demográficas e metabólicas
# demonstram baixa associação linear.

plt.figure(figsize=(6, 10))

sns.heatmap(
    corr_diagnosis,
    annot=True,
    cmap="coolwarm",
    fmt=".2f"
)

plt.title("Correlação das Variáveis com o Diagnóstico de Alzheimer")
plt.show()

In [None]:
# O boxplot da variável Age indica que a maior parte dos pacientes
# possui idade entre aproximadamente 68 e 82 anos, com mediana em
# torno de 75 anos. Não foram identificados outliers relevantes,
# sugerindo boa consistência dos dados de idade.

import matplotlib.pyplot as plt
import seaborn as sns

# Define o estilo visual dos gráficos
sns.set(style="whitegrid")

# Cria a figura do gráfico
plt.figure(figsize=(6, 4))

# Cria o boxplot para a variável Age
sns.boxplot(x=df["Age"])

# Define o título do gráfico
plt.title("Boxplot da Idade dos Pacientes")

# Nome do eixo X
plt.xlabel("Idade")

# Exibe o gráfico
plt.show()

In [None]:
# O boxplot das principais variáveis numéricas permite comparar
# a distribuição, mediana e dispersão de cada atributo.

# Observa-se que:
# - Age concentra-se na faixa idosa, como esperado para o estudo
# - BMI apresenta variabilidade moderada
# - MMSE possui ampla dispersão, indicando diferentes níveis
#   de comprometimento cognitivo
# - FunctionalAssessment apresenta menor variação

# As diferenças de escala indicam a necessidade de padronização
# antes da aplicação de modelos preditivos.

# Seleciona algumas variáveis numéricas importantes
variaveis = ["Age", "BMI", "MMSE", "FunctionalAssessment"]

plt.figure(figsize=(10, 6))

# Cria boxplots lado a lado
sns.boxplot(data=df[variaveis])

plt.title("Boxplot das Principais Variáveis Numéricas")
plt.ylabel("Valores")

plt.show()