# Pipeline ETL com Python: An√°lise de Risco de Diabetes

## Descri√ß√£o do Projeto

Este notebook apresenta a constru√ß√£o de um pipeline ETL (Extract, Transform, Load) pr√°tico e voltado para a √°rea da sa√∫de.

O objetivo √© simular o processamento de dados cl√≠nicos para rastreamento e identifica√ß√£o de riscos de Diabetes Mellitus. Utilizaremos um conjunto de dados sint√©tico (fict√≠cio) que cont√©m informa√ß√µes antropom√©tricas e laboratoriais, como IMC e Hemoglobina Glicada (HbA1c).

### **üéØ Objetivos Espec√≠ficos**
- **Extra√ß√£o:** Coletar dados de um reposit√≥rio p√∫blico (CSV).

- **Transforma√ß√£o:**
  *  Limpar e preparar os dados.
  *  Aplicar crit√©rios cl√≠nicos reais (Baseados na Associa√ß√£o Americana de Diabetes) para classificar pacientes em Normal, Pr√©-Diabetes e Diabetes.
  *  Analisar quais fatores (como IMC e Idade) est√£o mais associados ao aumento da HbA1c.

- **Carga:** Salvar os dados processados e enriquecidos prontos para an√°lise ou uso em modelos preditivos.

### üõ†Ô∏è Ferramentas Utilizadas
- **Python:** Linguagem de programa√ß√£o.

- **Pandas:** Manipula√ß√£o e an√°lise de dados tabulares.

- **Scikit-Learn:** (Opcional) Para modelagem preditiva simples.

Scikit-learn foi importado para fazer a parte de ML. O Scikit-Learn √© uma biblioteca grande, ent√£o geralmente importamos apenas as partes espec√≠ficas que vamos usar (modelos, m√©tricas, fun√ß√µes de divis√£o de dados).

In [8]:
# Importanto Bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix


# Extra√ß√£o
Baixando Dataset direto da biblioteca do Kaggle


In [9]:
# 1. Instalando e importando a biblioteca do Kaggle (caso n√£o tenha)
import kagglehub
import os

# 2. Baixando o dataset automaticamente
# Isso vai baixar e salvar numa pasta tempor√°ria do Colab
path = kagglehub.dataset_download("abdelrahmanzayed2/diabetes-prediction-dataset-csv-zip")

print("üìÇ Pasta onde o arquivo foi salvo:", path)

# 3. Encontrando o arquivo CSV dentro da pasta baixada
# Como o download pode vir numa pasta com v√°rios arquivos, vamos pegar o primeiro CSV que encontrarmos
arquivos = os.listdir(path)
csv_file = [f for f in arquivos if f.endswith('.csv')][0] # Pega o primeiro arquivo que termina com .csv
caminho_completo = os.path.join(path, csv_file)

print(f"üìÑ Lendo o arquivo: {csv_file}")

# 4. Lendo com Pandas
df = pd.read_csv(caminho_completo)

# 5. Visualizando
print("‚úÖ Dados carregados com sucesso via KaggleHub!")
display(df.head())


üìÇ Pasta onde o arquivo foi salvo: /root/.cache/kagglehub/datasets/abdelrahmanzayed2/diabetes-prediction-dataset-csv-zip/versions/1
üìÑ Lendo o arquivo: diabetes_prediction_dataset.csv
‚úÖ Dados carregados com sucesso via KaggleHub!


Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,Female,80.0,0,1,never,25.19,6.6,140,0
1,Female,54.0,0,0,No Info,27.32,6.6,80,0
2,Male,28.0,0,0,never,27.32,5.7,158,0
3,Female,36.0,0,0,current,23.45,5.0,155,0
4,Male,76.0,1,1,current,20.14,4.8,155,0


# Transform (Transforma√ß√£o e Limpeza)
Agora que temos a tabela df carregada, precisamos prepar√°-la. Olhando para as colunas (gender, age, hypertension, heart_disease, bmi, HbA1c_level, blood_glucose_level, diabetes), vamos aplicar seu conhecimento cl√≠nico.

##Nossos objetivos nesta etapa:

- **Criar a Classifica√ß√£o Cl√≠nica (HbA1c):** O dataset tem o n√≠vel num√©rico da HbA1c, mas clinicamente queremos saber quem √© "Normal", "Pr√©-Diab√©tico" ou "Diab√©tico". Vamos criar essa coluna nova.

- **Transformar Textos em N√∫meros:** Modelos de IA (como a √Årvore de Decis√£o que vamos usar depois) n√£o entendem textos como "Female" ou "Male", nem "No Info". Precisamos converter isso para n√∫meros.

### Criar a Coluna de Classifica√ß√£o de Risco
Cria uma fun√ß√£o simples que aplica as regras da American Diabetes Association e classifica de acordo com o valor da HbA1c se o indiv√≠duo tem Diabetes, Pr√©-Diabetes ou Nao possui a doenca.

In [10]:
# --- ETAPA DE TRANSFORMA√á√ÉO (TRANSFORM) ---

# 1. Fun√ß√£o para classificar o risco com base na HbA1c
def classificar_risco_hba1c(hba1c):
    if hba1c >= 6.5:
        return 'Diabetes'
    elif hba1c >= 5.7:
        return 'Pre-Diabetes'
    else:
        return 'Normal'

# Aplicando a fun√ß√£o em cada linha da tabela para criar uma nova coluna
df['classificacao_risco'] = df['HbA1c_level'].apply(classificar_risco_hba1c)

# Vamos ver como ficou a distribui√ß√£o? (Quantos de cada tipo)
print("Distribui√ß√£o dos Pacientes por Categoria de Risco (Baseado na HbA1c):")
print(df['classificacao_risco'].value_counts())

# Mostrando a tabela com a nova coluna
display(df[['HbA1c_level', 'classificacao_risco']].head())


Distribui√ß√£o dos Pacientes por Categoria de Risco (Baseado na HbA1c):
classificacao_risco
Pre-Diabetes    41346
Normal          37857
Diabetes        20797
Name: count, dtype: int64


Unnamed: 0,HbA1c_level,classificacao_risco
0,6.6,Diabetes
1,6.6,Diabetes
2,5.7,Pre-Diabetes
3,5.0,Normal
4,4.8,Normal


## Transformar Vari√°veis de Texto (Categorias) em N√∫meros

A coluna gender ou smoking_history, elas t√™m texto. Para fazermos O modelo matem√°tico precisa que isso vire n√∫mero.

Exemplo: Female = 0, Male = 1

Exemplo: never = 0, current = 1, etc.

H√° uma ferramenta do Pandas chamada **factorize** ou **map** que faz isso de forma simples.

In [11]:
# 2. Convertendo vari√°veis de texto para n√∫meros (Encoding)

# G√™nero
# Verificar quais g√™neros existem primeiro
print("G√™neros encontrados:", df['gender'].unique())
# Transformando: Female=0, Male=1, Other=2 (se houver)
df['gender_code'] = df['gender'].astype('category').cat.codes

# Hist√≥rico de Fumo
print("Hist√≥rico de Fumo:", df['smoking_history'].unique())
# Transformando cada categoria de fumo em um n√∫mero sequencial
df['smoking_code'] = df['smoking_history'].astype('category').cat.codes

# C√≥digo num√©rico para o nosso ALVO (Risco)
# Normal=0, Pre-Diabetes=1, Diabetes=2
# Para garantir a ordem cl√≠nica (Normal < Pre < Diabetes), vamos usar map manual:
mapa_risco = {'Normal': 0, 'Pre-Diabetes': 1, 'Diabetes': 2}
df['risco_code'] = df['classificacao_risco'].map(mapa_risco)

print("\n Transforma√ß√£o conclu√≠da! Colunas num√©ricas criadas.")
display(df[['gender', 'gender_code', 'smoking_history', 'smoking_code', 'classificacao_risco', 'risco_code']].head())


G√™neros encontrados: ['Female' 'Male' 'Other']
Hist√≥rico de Fumo: ['never' 'No Info' 'current' 'former' 'ever' 'not current']

 Transforma√ß√£o conclu√≠da! Colunas num√©ricas criadas.


Unnamed: 0,gender,gender_code,smoking_history,smoking_code,classificacao_risco,risco_code
0,Female,0,never,4,Diabetes,2
1,Female,0,No Info,0,Diabetes,2
2,Male,1,never,4,Pre-Diabetes,1
3,Female,0,current,1,Normal,0
4,Male,1,current,1,Normal,0


## Modelagem

Transformando os dados brutos em uma predi√ß√£o (uma nova informa√ß√£o que n√£o existia antes).

Vamos usar um algoritmo chamado **√Årvore de Decis√£o (Decision Tree)**.

Uma √°rvore de decis√£o √© um modelo que toma decis√µes fazendo perguntas sequenciais sobre as vari√°veis at√© chegar a uma conclus√£o (classe) em uma "folha" da √°rvore. Ela √© muito usada em sa√∫de porque o racioc√≠nio se parece com um racioc√≠nio cl√≠nico ou um fluxograma de triagem.

**Ex:**
- "A glicemia est√° alta?" -> Se sim, vai para um lado.
- "O IMC √© maior que 30?" -> Se sim, vai para outro.

### Estrutura b√°sica

A √°rvore tem tr√™s tipos principais de elementos.

**N√≥ raiz:** √© o primeiro ponto de decis√£o, a vari√°vel mais importante (por exemplo, "HbA1c ‚â• 6,5?" ou "IMC ‚â• 30?").

**N√≥s internos:** cada n√≥ faz um teste em uma vari√°vel (por exemplo, "idade ‚â• 45?") e divide os pacientes em grupos diferentes.

**Folhas:** s√£o os n√≥s finais, onde o modelo d√° a resposta (por exemplo, "Diabetes", "Pr√©-diabetes", "Normal").

### Como a √°rvore "aprende"

No treino, o algoritmo recebe muitos exemplos com entrada (idade, IMC, hipertens√£o, etc.) e sa√≠da conhecida (risco de diabetes).  
Ele testa v√°rias formas de dividir os dados em cada n√≥ e escolhe a divis√£o que melhor separa as classes, medindo essa "qualidade" com crit√©rios como entropia, ganho de informa√ß√£o ou √≠ndice Gini.

Em cada etapa, o objetivo √© deixar os grupos o mais "puros" poss√≠vel, ou seja, com o m√°ximo de pacientes da mesma classe (por exemplo, quase s√≥ diab√©ticos em um lado e quase s√≥ n√£o diab√©ticos no outro).

Esse processo se repete recursivamente: cada novo n√≥ tenta separar ainda mais at√© chegar √†s folhas.

### Decis√£o na pr√°tica (fase de uso)

Depois de treinada, usar a √°rvore √© como seguir um fluxograma.

O paciente entra na raiz, o modelo verifica a condi√ß√£o do n√≥ (por exemplo, "IMC ‚â• 30?") e segue o ramo "sim" ou "n√£o".

Em cada passo, outra condi√ß√£o √© checada (idade, hipertens√£o, tabagismo, etc.), at√© chegar a uma folha com a classe prevista.

Essa transpar√™ncia √© uma das maiores vantagens: √© poss√≠vel justificar decis√µes ("o modelo classificou como alto risco porque IMC ‚â• X, idade ‚â• Y e hipertens√£o = sim").

### Vantagens e limita√ß√µes

**Principais vantagens:** a √°rvore √© f√°cil de entender, n√£o exige padronizar dados e lida tanto com vari√°veis num√©ricas quanto categ√≥ricas.  
**Principais limita√ß√µes:** se deixar crescer demais (muitos n√≠veis), ela pode decorar o conjunto de treino (overfitting), por isso se usa poda, profundidade m√°xima e n√∫mero m√≠nimo de exemplos por n√≥.

Neste projeto, estou usando uma √°rvore de classifica√ß√£o deste modo ela aprende a mapear caracter√≠sticas como idade, IMC, hipertens√£o, tabagismo e sexo para classes de risco (Normal, Pr√©-DM, DM) de maneira leg√≠vel e pr√≥xima do racioc√≠nio cl√≠nico.


Vamos dividir esse processo em 3 partes pequenas na mesma c√©lula:

- Separar as vari√°veis: Definir o que √© PERGUNTA (ex: idade, IMC, hist√≥rico) e o que √© RESPOSTA (o risco de diabetes).

- Dividir os dados: Separar uma parte para a IA "estudar" (Treino) e uma parte para a IA "fazer a prova" (Teste).

- Treinar: Ensinar o modelo.

In [12]:
# --- ETAPA DE MODELAGEM ---

# 1. Definindo as vari√°veis
# X = Dados que usamos para prever (Caracter√≠sticas/Features)
# ATEN√á√ÉO: Removemos 'HbA1c_level', 'blood_glucose_level' e 'diabetes' original
# Motivo: Se deixarmos a HbA1c ou Glicose, o modelo "descobre" a resposta f√°cil demais.
# Queremos ver se IDADE, IMC e HIPERTENS√ÉO conseguem prever o risco sozinhas.
colunas_preditoras = ['gender_code', 'age', 'hypertension', 'heart_disease', 'smoking_code', 'bmi']
X = df[colunas_preditoras]

# Y = A resposta que queremos alcan√ßar (Risco: 0, 1 ou 2)
y = df['risco_code']

# 2. Dividindo em Treino (70%) e Teste (30%)
# random_state=42 serve para o resultado ser sempre igual quando rodarmos de novo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"Tamanho do Treino: {X_train.shape[0]} pacientes")
print(f"Tamanho do Teste: {X_test.shape[0]} pacientes")

# 3. Treinando o Modelo (Decision Tree)
# max_depth=4 limita a √°rvore a 4 perguntas de profundidade, para ficar f√°cil de entender
modelo = DecisionTreeClassifier(max_depth=4, random_state=42)
modelo.fit(X_train, y_train)

print("\nü§ñ Modelo treinado com sucesso!")


Tamanho do Treino: 70000 pacientes
Tamanho do Teste: 30000 pacientes

ü§ñ Modelo treinado com sucesso!


### Avaliando o Modelo
Agora vamos usar os dados de teste para ver se ele consegue prever corretamente.

In [14]:
from sklearn.metrics import classification_report

# --- AVALIANDO O MODELO ---

# 1. Fazendo previs√µes nos dados de TESTE (que o modelo nunca viu)
previsoes_teste = modelo.predict(X_test)

# 2. Calculando a acur√°cia (percentual de acertos)
acuracia = accuracy_score(y_test, previsoes_teste)
print(f"üéØ **ACUR√ÅCIA DO MODELO: {acuracia:.2%}**")
print(f"Isso significa que o modelo acertou {acuracia*100:.0f}% dos casos!")

# 3. Matriz de Confus√£o (mostra onde ele errou e acertou)
print("\nüìä **MATRIZ DE CONFUS√ÉO** (Linhas=Real, Colunas=Predito):")
print("          Normal    Pr√©-DM     DM")
print(confusion_matrix(y_test, previsoes_teste))

# 4. Relat√≥rio detalhado
print("\nüìã **RELAT√ìRIO DETALHADO POR CLASSE:**")
print(classification_report(y_test, previsoes_teste,
                          target_names=['Normal', 'Pr√©-Diabetes', 'Diabetes']))

# 5. Qual vari√°vel foi mais importante? (O que a √°rvore "achou" mais relevante)
importancias = pd.DataFrame({
    'Variavel': colunas_preditoras,
    'Importancia': modelo.feature_importances_
}).sort_values('Importancia', ascending=False)

print("\nüèÜ **IMPORT√ÇNCIA DAS VARI√ÅVEIS** (O que define o risco?):")
display(importancias)

üéØ **ACUR√ÅCIA DO MODELO: 41.14%**
Isso significa que o modelo acertou 41% dos casos!

üìä **MATRIZ DE CONFUS√ÉO** (Linhas=Real, Colunas=Predito):
          Normal    Pr√©-DM     DM
[[  477 10766    53]
 [  533 11777    98]
 [  229  5978    89]]

üìã **RELAT√ìRIO DETALHADO POR CLASSE:**
              precision    recall  f1-score   support

      Normal       0.38      0.04      0.08     11296
Pr√©-Diabetes       0.41      0.95      0.58     12408
    Diabetes       0.37      0.01      0.03      6296

    accuracy                           0.41     30000
   macro avg       0.39      0.34      0.23     30000
weighted avg       0.39      0.41      0.27     30000


üèÜ **IMPORT√ÇNCIA DAS VARI√ÅVEIS** (O que define o risco?):


Unnamed: 0,Variavel,Importancia
1,age,0.480189
5,bmi,0.283742
2,hypertension,0.125474
3,heart_disease,0.101449
0,gender_code,0.009148
4,smoking_code,0.0


## An√°lise dos resultados

### **Desempenho Cl√≠nico**
A acur√°cia global de 41,14% reflete o desafio real do rastreamento glic√™mico em popula√ß√µes desbalanceadas (37,7% normais vs 21% diab√©ticos). Contudo, o **recall de 95% para Pr√©-Diabetes** demonstra excelente sensibilidade para detec√ß√£o do grupo de maior interesse cl√≠nico.


### **Fatores Preditivos**
**Idade (48%)** e **IMC (28%)** explicam 76% das decis√µes, corroborando literatura que posiciona estas vari√°veis como principais determinantes do risco glic√™mico. A baixa import√¢ncia do tabagismo (0%) sugere limita√ß√£o do dataset sint√©tico ou intera√ß√£o complexa com outras vari√°veis.

### **Limita√ß√µes**
1. Dataset sint√©tico pode n√£o capturar variabilidade real
2. Desbalanceamento de classes afeta precis√£o dos diab√©ticos
3. Aus√™ncia de medidas antropom√©tricas avan√ßadas (circunfer√™ncia abdominal, ABSI)

# Load (Salvando o resultado Final)

Vamos criar um arquivo CSV final que cont√©m:

- Dados originais

- Suas classifica√ß√µes cl√≠nicas (Normal/Pr√©-DM/DM)

- Predi√ß√µes da IA para cada paciente

- Import√¢ncia das vari√°veis (para relat√≥rio)

In [16]:
# --- ETAPA FINAL: LOAD (Carga) ---

# 1. Gerando predi√ß√µes para TODOS os pacientes (n√£o s√≥ teste)
predicoes_todos = modelo.predict(X)
df['predicao_modelo'] = predicoes_todos
df['predicao_descricao'] = df['predicao_modelo'].map({0: 'Normal', 1: 'Pre-Diabetes', 2: 'Diabetes'})

# 2. Criando tabela final com colunas selecionadas
colunas_relatorio = [
    'gender', 'age', 'bmi', 'hypertension', 'heart_disease',
    'smoking_history', 'HbA1c_level', 'classificacao_risco',
    'predicao_descricao', 'risco_code'
]

df_final = df[colunas_relatorio].copy()

# 3. Salvando o arquivo final
df_final.to_csv('pipeline_etl_diabetes_final.csv', index=False)

# 4. Resumo final do pipeline
print("üöÄ **PIPELINE ETL CONCLU√çDO COM SUCESSO!**")
print(f"üìä Pacientes processados: {len(df_final):,}")
print(f"üíæ Arquivo salvo: 'pipeline_etl_diabetes_final.csv'")
print("\nüìà **RESUMO CL√çNICO FINAL:**")
print(df_final['classificacao_risco'].value_counts())
print("\nüéØ **PREDI√á√ïES DO MODELO:**")
print(df_final['predicao_descricao'].value_counts())

# Mostrando as primeiras linhas do resultado final
display(df_final.head())

print("\n‚úÖ Baixe o arquivo na aba üìÅ √† esquerda para usar no GitHub!")

üöÄ **PIPELINE ETL CONCLU√çDO COM SUCESSO!**
üìä Pacientes processados: 100,000
üíæ Arquivo salvo: 'pipeline_etl_diabetes_final.csv'

üìà **RESUMO CL√çNICO FINAL:**
classificacao_risco
Pre-Diabetes    41346
Normal          37857
Diabetes        20797
Name: count, dtype: int64

üéØ **PREDI√á√ïES DO MODELO:**
predicao_descricao
Pre-Diabetes    95160
Normal           3974
Diabetes          866
Name: count, dtype: int64


Unnamed: 0,gender,age,bmi,hypertension,heart_disease,smoking_history,HbA1c_level,classificacao_risco,predicao_descricao,risco_code
0,Female,80.0,25.19,0,1,never,6.6,Diabetes,Pre-Diabetes,2
1,Female,54.0,27.32,0,0,No Info,6.6,Diabetes,Pre-Diabetes,2
2,Male,28.0,27.32,0,0,never,5.7,Pre-Diabetes,Normal,1
3,Female,36.0,23.45,0,0,current,5.0,Normal,Pre-Diabetes,0
4,Male,76.0,20.14,1,1,current,4.8,Normal,Pre-Diabetes,0



‚úÖ Baixe o arquivo na aba üìÅ √† esquerda para usar no GitHub!
