
<h1 style="text-align: center;">CIÊNCIA DE DADOS</h1>
<h1 style="text-align: center;">Roteiro de Atividade Prática</h1>
<br>
<br>

Nome: ______________________________________________________________________________________      

Turma: ______________


**Componente:** Aprendizagem de Máquina
<br>
**Unidade Curricular:** Preparação de Dados e Otimização
<br>
**Tema da Semana:** Pipeline
<br>


## Aula 3: Aplicações práticas de pipelines

## Tarefa
- Execute o código abaixo.

- Se as bibliotecas não tiverem instaladas, instale-as.

- Acompanhe as instruções.

- Observe a execução e discuta com seus colegas e professor.


**O que este código faz?**

✅ Carrega e prepara os dados, removendo espaços extras nos nomes das colunas.

✅ Cria um Pipeline de pré-processamento, incluindo tratamento de valores ausentes e normalização.

✅ Divide os dados entre treino e teste para evitar overfitting.

✅ Constrói um Pipeline completo (pré-processamento + modelagem com Random Forest).

✅ Treina o modelo e faz previsões nos dados de teste.

✅ Avalia o modelo com métricas de acurácia, precisão e recall.

✅ Exibe um gráfico da importância das variáveis, ajudando a interpretar quais atributos mais impactam a previsão de diabetes.

Agora, você pode rodar esse código diretamente no seu ambiente para testar o Pipeline real aplicado ao dataset de diabetes!

### Importação de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report



### Passo 1: Carregar os dados


In [None]:
file_path = "[DADOS]ANO2C1B4S26A3A4_diabet1.csv"  # Certifique-se de que o caminho está correto
df = pd.read_csv(file_path)



### Passo 2: Ajustar os nomes das colunas para evitar erros
Convertendo para letras minúsculas e removendo espaços extras



In [None]:
df.columns = df.columns.str.strip().str.lower()

### Passo 3: Definir as colunas que serão usadas
Variáveis numéricas que serão processadas

In [None]:
num_features = ["glucose", "bloodpressure", "bmi", "insulin", "age", "diabetespedigreefunction"]



### Passo 4: Criar um Pipeline para o pré-processamento


In [None]:
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="mean")),  # Substitui valores ausentes pela média da coluna
    ('scaler', StandardScaler())  # Normaliza os dados para que fiquem na mesma escala
])



### Passo 5: Criar um transformador para aplicar o pipeline nas colunas numéricas


In [None]:
preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_features)
])



### Passo 6: Divisão dos dados entre variáveis de entrada (X) e saída (y)


In [None]:
X = df.drop(columns=["outcome"])  # "Outcome" é a variável-alvo
y = df["outcome"]

# Divisão entre treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



### Passo 7: Criar um Pipeline completo (Pré-processamento + Modelo)


In [None]:
pipeline = Pipeline([
    ('preprocessor', preprocessor),  # Aplica o pré-processamento nos dados
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))  # Treina um modelo de Random Forest
])



### Passo 8: Treinar o modelo usando o Pipeline


In [None]:
pipeline.fit(X_train, y_train)


### Passo 9: Fazer previsões no conjunto de teste


In [None]:
y_pred = pipeline.predict(X_test)


### Passo 10: Avaliar o modelo


In [None]:
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Relatório de Classificação:")
print(classification_report(y_test, y_pred))



### Passo 11: Visualizar Importância das Features


In [None]:
feature_importances = pipeline.named_steps['classifier'].feature_importances_
feature_names = num_features

plt.figure(figsize=(8,5))
sns.barplot(x=feature_importances, y=feature_names)
plt.xlabel("Importância da Feature")
plt.ylabel("Variável")
plt.title("Importância das Features no Modelo Random Forest")
plt.show()
