Classificar pacientes ortopedicos como normal ou abnormal usando machine learning
#Há 6 atributos biomecânimos que descrevem a postura da pelve e da coluna lombar
Classificar em: Normal, hérnia de disco e espondiolistese
Classificação binaria: normal ou abnormal(hernia de disco + espondiolistese agrupadas)
Cada paciente possui 6 atributos númericos: Incidência pelvica, Angulo de lordose lombar, inclinação sacral, raio pelvico, grau de espondiolistese
#Calsse(target/label) indica se o paciente é Normal ou Adnormal
#os dados vêm do UCI Machine Learning Repository.

In [1]:
import warnings
import requests
import zipfile
import io

Ignora mensagens de avisos para não poluir a saída do programa 

In [2]:
warnings.simplefilter('ignore')

In [4]:
import pandas as pd

ModuleNotFoundError: No module named 'pandas'

importa função para ler arquivos

In [None]:
from scipy.io import arff

url do arquivo zip com o dataset "vertebral column" no repositório da UCI

In [None]:
f_zip = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00212/vertebral_column_data.zip'

Faz o download do arquivo zip a partir da url

In [None]:
r = requests.get(f_zip, stream=True)

converte o conteúdo baixado (r.content) em um arquivo de memória (bytesIO) e abre um arquivo zip para manipulação

In [None]:
Vertebral_zip = zipfile.ZipFile(io.BytesIO(r.content))

Lista os arquivos dentro do zip para verificar o nome correto

In [None]:
print("Arquivos no ZIP:", Vertebral_zip.namelist())

Extrair todos os arquivos do zip para o diretorio atual

In [None]:
Vertebral_zip.extractall()
data = arff.loadarff('column_2C.arff')

cria o dataframe tabela do pandas com dados carregados

In [None]:
df = pd.DataFrame(data[0])

mostra as 5 primeiras linhas 

In [None]:
print(df.head())

Carrega o arquivo .arff (um formato de dataset usado no Weka)
 A função retorna uma tupla: (dados, metadados)

In [None]:
data = arff.loadarff('column_2C_weka.arff')

Converte a primeira parte da tupla (os dados) em um DataFrame do Pandas
Assim, fica mais fácil manipular, analisar e visualizar os dados

In [None]:
df = pd.DataFrame(data[0])
df.head()
df['pelvic_incidence'].describe()

Importa a biblioteca para geração de gráficos

In [None]:
import matplotlib.pyplot as plt
df.describe()

In [None]:
df.plot(
        kind='density', # tipo de gráfico: densidade (Kernel Density Estimate)
        subplots=True, # cria um gráfico separado para cada coluna
        figsize=(12,12),  # define o tamanho da figura (12x12 polegadas)
        layout=(4,2), # organiza os gráficos em uma grade de 4 linhas por 2 colunas
        sharex=False  # cada gráfico terá seu próprio eixo X (independente)
)

#Exibir os gráficos que foram gerados com o .plot()
plt.show()
df['degree_spondylolisthesis'].plot.density()



In [None]:
df['degree_spondylolisthesis'].plot.hist()

In [None]:
df['degree_spondylolisthesis'].plot.box()

In [None]:
# Conta quantas vezes cada categoria aparece na coluna 'class'
# Isso mostra o balanceamento das classes no dataset
df['class'].value_counts()

Cria um dicionário para mapear as classes do dataset:
'Abnormal' será representado por 1 e 'Normal' por 0
Obs: os valores vêm como bytes (b'...') porque o arquivo ARFF armazena assim

In [None]:
class_mapper = {b'Abnormal': 1, b'Normal': 0}

Substitui os valores da coluna 'class' usando o mapeamento definido

In [None]:
df['class'] = df['class'].replace(class_mapper)

Cria um gráfico de dispersão (scatter plot)
Mostra a relação entre a variável 'degree_spondylolisthesis' (eixo Y) e a variável 'class' (eixo X, que foi convertida para 0 = Normal e 1 = Abnormal)

 
 

In [None]:
df.plot.scatter(
    y='degree_spondylolisthesis',  # variável no eixo Y
    x='class'                      # variável no eixo X
)

Cria boxplots para cada variável do DataFrame, agrupando os dados pela coluna 'class' (0 = Normal, 1 = Abnormal)

 

In [None]:
df.groupby('class').boxplot(
    fontsize=20,       # Tamanho da fonte dos rótulos
    rot=90,            # Rotaciona os nomes das variáveis em 90° (vertical) para melhor leitura
    figsize=(20,10),   # Define o tamanho da figura (20x10 polegadas)
    patch_artist=True  # Preenche as caixas dos boxplots com cor
)

Calcula a matriz de correlação entre todas as variáveis numéricas do DataFrame

In [None]:
corr_matrix = df.corr()

Seleciona a coluna 'class' da matriz de correlação e ordena os valores de forma decrescente
Assim, vemos quais variáveis estão mais correlacionadas (positiva ou negativamente) com a classe

In [None]:
corr_matrix["class"].sort_values(ascending=False)

Cria uma matriz de scatter plots (gráficos de dispersão) entre todas as variáveis do DataFrame
Cada célula da matriz mostra a relação entre duas variáveis


 

In [None]:
pd.plotting.scatter_matrix(
    df,          # DataFrame com os dados
    figsize=(12,12)  # Define o tamanho da figura
)

Exibe os gráficos

In [None]:
plt.show()

Calcula a matriz de correlação entre todas as variáveis numéricas do DataFrame

In [None]:
corr_matrix = df.corr()

Seleciona a coluna 'class' da matriz de correlação e ordena os valores de forma decrescente
Assim, vemos quais variáveis estão mais correlacionadas (positiva ou negativamente) com a classe

In [None]:
corr_matrix["class"].sort_values(ascending=False)

Cria uma matriz de scatter plots (gráficos de dispersão) entre todas as variáveis do DataFrame
Cada célula da matriz mostra a relação entre duas variáveis

In [None]:
pd.plotting.scatter_matrix(
    df,          # DataFrame com os dados
    figsize=(12,12)  # Define o tamanho da figura
)


Exibe os gráficos

In [None]:
plt.show()

Importa a biblioteca Seaborn para visualizações estatísticas avançadas

In [None]:
import seaborn as sns

Cria uma figura e eixos para o gráfico, definindo o tamanho (10x10 polegadas)

In [None]:
fig, ax = plt.subplots(figsize=(10, 10))

Define o mapa de cores para o heatmap
sns.color_palette("BrBG", 10) gera uma paleta de cores divergente com 10 tons

In [None]:
colormap = sns.color_palette("BrBG", 10)

Gera o heatmap da matriz de correlação
 - corr_matrix: matriz de correlação calculada anteriormente
 - cmap=colormap: define a paleta de cores
 - annot=True: adiciona os valores numéricos dentro de cada célula
- fmt=".2f": formata os números com duas casas decimais


In [None]:
sns.heatmap(corr_matrix, cmap=colormap, annot=True, fmt=".2f")

Exibe o gráfico

In [None]:
plt.show()