# Pipelines

**Bibliotecas**

In [46]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
from sklearn.pipeline import Pipeline

In [50]:
import warnings
warnings.filterwarnings('ignore')

## Problema

Vamos supor que temos um conjunto de dados sobre preços de casas. Este conjunto tem características como o tamanho da casa (em $m^2$), o número de quartos e o bairro em que a casa está localizada entre outras. O conjunto de dados "Boston Housing" é um conjunto de dados amplamente usado em regressão no campo do aprendizado de máquina. Ele contém informações sobre várias casas em Boston e é frequentemente usado para prever o valor médio das casas.

In [4]:
# URL do conjunto de dados Boston Housing no repositório UCI
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"

# Nomes das colunas (características)
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

# Baixando o conjunto de dados e ler para um DataFrame do pandas
boston_df = pd.read_csv(url, delim_whitespace=True, header=None, names=column_names)

# Verificando as primeiras linhas
print(boston_df.head())

# Dividiindo o DataFrame em características (X) e alvo (y) conforme necessário:
X = boston_df.drop('MEDV', axis=1)
y = boston_df['MEDV']

      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296.0   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242.0   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242.0   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222.0   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222.0   

   PTRATIO       B  LSTAT  MEDV  
0     15.3  396.90   4.98  24.0  
1     17.8  396.90   9.14  21.6  
2     17.8  392.83   4.03  34.7  
3     18.7  394.63   2.94  33.4  
4     18.7  396.90   5.33  36.2  


| Coluna | Descrição |
|--------|-----------|
| `CRIM` | Taxa de criminalidade per capita por cidade. |
| `ZN` | Proporção de terrenos residenciais zoneados para lotes com mais de 25.000 sq.ft. |
| `INDUS` | Proporção de acres comerciais não varejistas por cidade. |
| `CHAS` | Variável fictícia Charles River (1 se o trecho limita o rio; 0 caso contrário). |
| `NOX` | Concentração de óxidos nítricos (partes por 10 milhões). |
| `RM` | Número médio de quartos por habitação. |
| `AGE` | Proporção de unidades ocupadas pelo proprietário construídas antes de 1940. |
| `DIS` | Distâncias ponderadas até cinco centros de emprego de Boston. |
| `RAD` | Índice de acessibilidade às rodovias radiais. |
| `TAX` | Taxa de imposto sobre a propriedade de valor total por $10,000. |
| `PTRATIO` | Proporção aluno-professor por cidade. |
| `B` | $1000(Bk - 0.63)^2$ onde Bk é a proporção de pessoas de descendência afro-americana por cidade. |
| `LSTAT` | % menor status da população. |
| `MEDV` | Valor mediano de casas ocupadas pelo proprietário em $1000s. |

### Desafios

1. O tamanho da casa precisa ser normalizado porque os modelos geralmente funcionam melhor com características numéricas em escalas semelhantes.

2. O bairro é uma característica categórica e precisa ser codificado para ser utilizado por algoritmos de aprendizado de máquina.

3. Podemos ter alguns valores ausentes que precisam ser tratados.

## Solução sem Pipelines

In [7]:
# Os dados foram carregados lá em cima

# Divida os dados em conjuntos de treinamento e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pré-processe os dados (normalização)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Treine o modelo de regressão linear
regressor = LinearRegression()
regressor.fit(X_train_scaled, y_train)

# Faça as previsões e avalie o modelo
y_pred = regressor.predict(X_test_scaled)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.2f}")

Raiz do Erro Quadrático Médio (RMSE): 4.93


## Solução com Pipelines

In [9]:
# Os dados foram carregados lá em cima

# Com um pipeline, você pode tratar as operações como um único bloco
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Etapa de pré-processamento
    ('regressor', LinearRegression()) # Etapa de modelagem
])

pipeline.fit(X_train, y_train)

# Fazendo predições e avaliando o desempenho
y_pred = pipeline.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.2f}")

Raiz do Erro Quadrático Médio (RMSE): 4.93


Mesmo em um caso simples, podemos notar algumas vantagens do uso de um pipeline. 

* A preocupação em padronizar o conjunto apenas depois da divisão some com o uso do pipeline. 

* Detalhes de implementação do `sklearn`, como por exemplo utilizar o `fit_transform()` a primeira vez e em seguida lembrar de usar o `fit()` também desaparece.

Vamos aprender a usar a ferramenta com alguns exemplos práticos.

## Exercícios Práticos (com respostas)

### `Pipeline`

#### Ex01: Pipeline Básico
Crie um pipeline básico que apenas padroniza os dados e aplica uma regressão linear. Use o conjunto de dados Boston Housing para treinar e testar o pipeline.

In [56]:
# Sua solução aqui

*Clique aqui para ver a resposta*
<!--

from sklearn.impute import SimpleImputer

# Adicionando SimpleImputer ao pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('regressor', LinearRegression())
])

pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.2f}")

-->

### `SimpleImputer`

O `SimpleImputer` é uma classe de pré-processamento usada para preencher valores ausentes nos dados. Dependendo do argumento `strategy` fornecido, ele pode preencher os valores ausentes com a média (para colunas numéricas), a mediana (para colunas numéricas), o valor mais frequente (para colunas categóricas) ou até mesmo um valor constante.

#### Exemplo

In [13]:
import numpy as np
import pandas as pd

data = {
    'idade': [25, 30, 35, np.nan, 50],
    'salario': [50000, 55000, np.nan, 65000, 70000],
    'departamento': ['RH', 'Engenharia', 'Engenharia', 'RH', np.nan]
}

df = pd.DataFrame(data)
print(df)

   idade  salario departamento
0   25.0  50000.0           RH
1   30.0  55000.0   Engenharia
2   35.0      NaN   Engenharia
3    NaN  65000.0           RH
4   50.0  70000.0          NaN


Este DataFrame tem valores ausentes nas colunas 'idade', 'salario' e 'departamento'.

Vamos usar o `SimpleImputer` para tratar esses valores ausentes

In [14]:
from sklearn.impute import SimpleImputer

# Preenchendo os valores ausentes na coluna 'idade' com a média
imputer_idade = SimpleImputer(strategy='mean')
df['idade'] = imputer_idade.fit_transform(df[['idade']])

# Preenchendo os valores ausentes na coluna 'salario' com a mediana
imputer_salario = SimpleImputer(strategy='median')
df['salario'] = imputer_salario.fit_transform(df[['salario']])

# Preenchendo os valores ausentes na coluna 'departamento' com o valor mais frequente
imputer_departamento = SimpleImputer(strategy='most_frequent')
df['departamento'] = imputer_departamento.fit_transform(df[['departamento']])

print(df)

   idade  salario departamento
0   25.0  50000.0           RH
1   30.0  55000.0   Engenharia
2   35.0  60000.0   Engenharia
3   35.0  65000.0           RH
4   50.0  70000.0   Engenharia


#### Ex02: Adicionando Etapas de Pré-processamento
Estenda o pipeline do Exercício 1 para lidar com dados ausentes usando o `SimpleImputer` e, em seguida, aplique a padronização.

In [59]:
# Sua solução aqui

from sklearn.impute import SimpleImputer

# Adicionando SimpleImputer ao pipeline
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('regressor', LinearRegression())
])

pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.2f}")

*Clique aqui para ver a resposta*

<!--
from sklearn.impute import SimpleImputer

# Adicionando SimpleImputer ao pipeline
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('regressor', LinearRegression())
])

pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Raiz do Erro Quadrático Médio (RMSE): {rmse:.2f}")
-->

### `ColumnTransformer`

O `ColumnTransformer` permite aplicar transformadores a colunas específicas de um DataFrame ou matriz de dados. Ele é útil quando diferentes colunas ou tipos de características requerem diferentes pré-processamentos.

Muitos conjuntos de dados contêm características que têm tipos diferentes e que exigem diferentes transformações de pré-processamento. Por exemplo, um conjunto de dados pode ter características numéricas que precisam ser padronizadas e características categóricas que precisam ser codificadas em um formato numérico (como através de codificação one-hot). O `ColumnTransformer` facilita a aplicação dessas transformações diferentes às colunas relevantes de maneira organizada e integrada.

#### Exemplo 1

In [16]:
data = {
    'idade': [25, 30, 35, 40, 50],
    'salario': [50000, 55000, 60000, 65000, 70000],
    'departamento': ['RH', 'Engenharia', 'Engenharia', 'RH', 'Contabilidade']
}

df = pd.DataFrame(data)
df.head(2)

Unnamed: 0,idade,salario,departamento
0,25,50000,RH
1,30,55000,Engenharia


Desejamos padronizar as colunas numéricas (`idade` e `salario`) e aplicar uma codificação one-hot na coluna categórica (`departamento`). Podemos fazer isso com o `ColumnTransformer`:

In [17]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Definindo as transformações
transformers = [
    ("num", StandardScaler(), ['idade', 'salario']),
    ("cat", OneHotEncoder(), ['departamento'])
]

column_trans = ColumnTransformer(transformers, remainder='passthrough')

# Aplicando as transformações
data_transformed = column_trans.fit_transform(df)

print(data_transformed)

[[-1.27872403 -1.41421356  0.          0.          1.        ]
 [-0.69748583 -0.70710678  0.          1.          0.        ]
 [-0.11624764  0.          0.          1.          0.        ]
 [ 0.46499055  0.70710678  0.          0.          1.        ]
 [ 1.62746694  1.41421356  1.          0.          0.        ]]


No código acima:

* Usamos `StandardScaler` para as colunas numéricas `idade` e `salario`.

* Usamos `OneHotEncoder` para a coluna categórica `departamento`.

* A opção `remainder='passthrough'` garante que qualquer coluna não especificada no transformador seja passada sem alterações. Se não quisermos incluir colunas não especificadas no resultado, podemos usar `remainder='drop'`.

O resultado, `data_transformed`, é uma matriz numpy com colunas padronizadas e codificadas conforme especificado. Você pode facilmente integrar este `ColumnTransformer` em um `Pipeline` do scikit-learn para combinar pré-processamento e modelagem em etapas sequenciais.

#### Exemplo 2

Exemplo de um pipeline que aplica diferentes pré-processamentos a colunas numéricas e categóricas usando `ColumnTransformer`.

In [32]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

df_titanic = sns.load_dataset('titanic')
df_titanic.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [33]:
y = df_titanic["survived"]
X = df_titanic.drop(columns=["survived"])

# Divida os dados em conjuntos de treinamento e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definindo as colunas
num_features = ['age', 'fare']
cat_features = ['sex', 'embarked']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('imputer', SimpleImputer(strategy='mean')),  # Preenche os valores faltantes com a média
            ('scaler', StandardScaler())
        ]), num_features),
        ('cat', OneHotEncoder(), cat_features)
    ])

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())
])

pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Acurácia: {accuracy:.2f}")
print(f"Precisão: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1:.2f}")

Acurácia: 0.78
Precisão: 0.74
Recall: 0.70
F1 Score: 0.72


#### Ex03: Aplicando a `ColumnTransformer`

Considere que temos um dataset que contém informações sobre carros. Os dados contêm duas características: `peso` (numérica) e `marca` (categórica). Seu objetivo é padronizar a característica `peso` e aplicar codificação one-hot na característica `marca` utilizando a `ColumnTransformer`.

In [75]:
import pandas as pd

data = {
    'peso': [1500, 1700, 1200, 2000, 1600],
    'marca': ['Toyota', 'Ford', 'Ford', 'Chevrolet', 'Toyota']
}

df = pd.DataFrame(data)
df.head(2)

Unnamed: 0,peso,marca
0,1500,Toyota
1,1700,Ford


In [76]:
# Definindo as transformações
transformers = [
    ("num", StandardScaler(), ['peso']),  # Padronizar a coluna 'peso'
    ("cat", OneHotEncoder(), ['marca'])   # Codificação one-hot para a coluna 'marca'
]

column_trans = ColumnTransformer(transformers, remainder='passthrough')

data_transformed = column_trans.fit_transform(df)

# Para obter os nomes das colunas após a codificação one-hot
columns_after_onehot = column_trans.named_transformers_['cat'].get_feature_names_out(['marca'])

# Unir colunas e converter a matriz numpy para DataFrame
df_transformed = pd.DataFrame(data_transformed, columns=['peso'] + list(columns_after_onehot))
print(df_transformed)

       peso  marca_Chevrolet  marca_Ford  marca_Toyota
0 -0.383482              0.0         0.0           1.0
1  0.383482              0.0         1.0           0.0
2 -1.533930              0.0         1.0           0.0
3  1.533930              1.0         0.0           0.0
4  0.000000              0.0         0.0           1.0


*Clique aqui para ver a resposta*

<!--
# Definindo as transformações
transformers = [
    ("num", StandardScaler(), ['peso']),  # Padronizar a coluna 'peso'
    ("cat", OneHotEncoder(), ['marca'])   # Codificação one-hot para a coluna 'marca'
]

column_trans = ColumnTransformer(transformers, remainder='passthrough')

data_transformed = column_trans.fit_transform(df)

# Para obter os nomes das colunas após a codificação one-hot
columns_after_onehot = column_trans.named_transformers_['cat'].get_feature_names_out(['marca'])

# Unir colunas e converter a matriz numpy para DataFrame
df_transformed = pd.DataFrame(data_transformed, columns=['peso'] + list(columns_after_onehot))
print(df_transformed)
-->

### `FunctionTransformer`

O `FunctionTransformer` transforma dados de entrada (como um DataFrame) aplicando uma função fornecida pelo usuário. Basicamente, ele é uma maneira de converter qualquer função em um objeto transformador compatível com o scikit-learn para que possa ser usado em um `Pipeline`.

#### Exemplo

Suponha que temos um pequeno conjunto de dados que contém informações sobre diferentes frutas: seu nome, peso e calorias por 100 gramas.

Nosso objetivo é usar o `FunctionTransformer` para adicionar uma coluna que mostra as calorias totais da fruta com base em seu peso e nas calorias por 100 gramas.

In [36]:
import pandas as pd

data = {
    'Fruta': ['Maçã', 'Banana', 'Cereja', 'Uva'],
    'Peso (g)': [150, 120, 5, 200],
    'Calorias por 100g': [52, 96, 3, 69]
}

df = pd.DataFrame(data)
df.head(2)

Unnamed: 0,Fruta,Peso (g),Calorias por 100g
0,Maçã,150,52
1,Banana,120,96


Vamos criar uma função que calcula as calorias totais de cada fruta com base em seu peso:

In [37]:
def add_total_calories(X):
    X['Calorias Totais'] = (X['Peso (g)'] * X['Calorias por 100g']) / 100
    return X

Usando a função de transformação.

In [39]:
from sklearn.preprocessing import FunctionTransformer

# Criando o transformador
total_calories_transformer = FunctionTransformer(add_total_calories)

# Criando o pipeline
pipeline = Pipeline([
    ('add_calories', total_calories_transformer)
])

# Aplicando a transformação ao DataFrame
df_transformed = pipeline.transform(df)

print(df_transformed)

    Fruta  Peso (g)  Calorias por 100g  Calorias Totais
0    Maçã       150                 52            78.00
1  Banana       120                 96           115.20
2  Cereja         5                  3             0.15
3     Uva       200                 69           138.00


#### Ex04: Aplicando a `FunctionTransformer`

Você possui um conjunto de dados sobre diferentes bebidas e a quantidade de açúcar que elas contêm por 100ml. Você quer determinar a quantidade total de açúcar em uma garrafa de bebida com base em seu volume.

In [62]:
data = {
    'Bebida': ['Coca-Cola', 'Suco de Laranja', 'Água Tônica', 'Ice Tea'],
    'Volume (ml)': [330, 250, 200, 350],
    'Açúcar por 100ml (g)': [10.6, 8.2, 7.0, 5.5]
}

df_bebidas = pd.DataFrame(data)

Crie um `Pipeline` que utiliza o `FunctionTransformer` para adicionar uma coluna ao conjunto de dados que mostra a quantidade total de açúcar em cada garrafa de bebida.

In [65]:
# Sua solução aqui

*Clique aqui para ver a resposta*

<!--
from sklearn.preprocessing import FunctionTransformer

def add_total_sugar(X):
    X['Açúcar Total (g)'] = (X['Volume (ml)'] * X['Açúcar por 100ml (g)']) / 100
    return X

# Criando o transformador
total_sugar_transformer = FunctionTransformer(add_total_sugar)

# Criando o pipeline
pipeline = Pipeline([
    ('add_sugar', total_sugar_transformer)
])

# Aplicando a transformação ao DataFrame
df_transformed = pipeline.transform(df_bebidas)

print(df_transformed)
-->

### `GridSearchCV`

O `GridSearchCV` realiza uma pesquisa exaustiva por meio de combinações de parâmetros especificadas para um estimador. Ele automatiza o processo de ajuste de parâmetros de um modelo para encontrar a combinação ótima que produz os melhores resultados de acordo com uma métrica de avaliação específica.

"GridSearch" refere-se à abordagem de experimentar todas as possíveis combinações de parâmetros em uma grade predefinida. "CV" refere-se à validação cruzada (cross-validation), o método usado para avaliar o desempenho de cada combinação de parâmetros.

#### Exemplo

In [40]:
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline

# Carregar dados
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# Criar um pipeline simples
pipe = Pipeline([('classifier', SVC())])

# Parâmetros a serem testados
param_grid = {
    'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100],
    'classifier__gamma': [0.001, 0.01, 0.1, 1, 10, 100]
}

# Executar GridSearchCV
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5)
grid.fit(X_train, y_train)

# Melhores parâmetros e score
print("Melhores parâmetros:", grid.best_params_)
print("Melhor pontuação de validação cruzada:", grid.best_score_)

Melhores parâmetros: {'classifier__C': 10, 'classifier__gamma': 0.1}
Melhor pontuação de validação cruzada: 0.9731225296442687


#### Ex05: Otimização de Hiperparâmetros

Imagine que você está trabalhando em um projeto onde precisa prever o consumo médio de energia elétrica de uma casa com base em algumas características. Você possui um conjunto de dados de casas com suas características e o respectivo consumo médio de energia elétrica.

In [41]:
import pandas as pd

data = {
    'Área (m^2)': [50, 80, 120, 150, 200, 65, 85, 110, 95, 135],
    'Número de Quartos': [1, 2, 4, 3, 4, 2, 2, 3, 2, 4],
    'Idade da Casa (anos)': [5, 12, 8, 20, 25, 10, 12, 6, 15, 18],
    'Consumo Médio de Energia (kWh/mês)': [150, 220, 370, 420, 540, 190, 230, 310, 280, 400]
}

df = pd.DataFrame(data)
df.head(2)

Unnamed: 0,Área (m^2),Número de Quartos,Idade da Casa (anos),Consumo Médio de Energia (kWh/mês)
0,50,1,5,150
1,80,2,12,220


Utilizando `Pipeline` e `GridSearchCV`, ajuste um modelo de regressão para prever o consumo médio de energia de uma casa. Teste diferentes valores de parâmetros para o regressor e escolha o que fornece o melhor desempenho.

In [None]:
# Sua solução aqui

*Clique aqui para ver a resposta*

<!--
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler

X = df.drop('Consumo Médio de Energia (kWh/mês)', axis=1)
y = df['Consumo Médio de Energia (kWh/mês)']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('regressor', Ridge())
])

param_grid = {
    'regressor__alpha': [0.001, 0.01, 0.1, 1, 10, 100],
    'regressor__fit_intercept': [True, False]
}

grid = GridSearchCV(pipe, param_grid=param_grid, cv=5, n_jobs=-1)
grid.fit(X_train, y_train)

print("Melhores parâmetros:", grid.best_params_)
-->

### `Data Leakage`

O *data leakage* (vazamento de dados) refere-se a de preparação ou modelagem de dados, em que informações do conjunto de dados de teste "vazam" para o conjunto de treinamento. Como resultado, o modelo obtém um acesso antecipado, direta ou indiretamente, a dados que não deveriam ser usados na fase de treinamento. Esse vazamento pode levar a uma avaliação superotimista do desempenho do modelo, já que o modelo pode se sair bem em dados que ele já "viu" anteriormente.

#### Exemplo

Suponha que temos um conjunto de dados com uma única característica e queremos padronizá-la. Primeiro, vamos criar um conjunto de dados.

In [69]:
# Construindo um dataset fictício
X = np.random.rand(100, 1) * 10  # 100 amostras, 1 característica
y = 2.5 * X.squeeze() + 3 + np.random.randn(100) * 2  # relação linear com algum ruído

**Abordagem errada**

In [70]:
# Padronizar todo o conjunto de dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir em treino e teste
X_train_leak, X_test_leak, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Treinar e testar
model = LinearRegression().fit(X_train_leak, y_train)
y_pred = model.predict(X_test_leak)
print("RMSE com vazamento de dados:", np.sqrt(mean_squared_error(y_test, y_pred)))


RMSE com vazamento de dados: 2.6675358621798506


**Abordagem correta (usando Pipelines)**

In [71]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Construindo o pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

# Treinar e testar usando o pipeline
pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

print("RMSE usando pipeline:", np.sqrt(mean_squared_error(y_test, y_pred)))

RMSE usando pipeline: 2.6675358621798497


#### Ex06: Evitando Vazamento de Dados com o Dataset Iris

O conjunto de dados Iris é um dos datasets mais famosos em machine learning e estatística. Consiste em 150 observações de 3 diferentes tipos de flores de íris (Setosa, Versicolour e Virginica). Cada observação possui quatro características: comprimento das sépalas, largura das sépalas, comprimento das pétalas e largura das pétalas.

Suponha que as medidas das pétalas são tomadas por uma máquina diferente das medidas das sépalas e, por alguma razão, todas as medidas das pétalas acima de 2 cm têm um erro sistemático, fazendo com que sejam relatadas como 0.5 cm menores do que a medição real.

Entretanto, você só descobriu isso após a coleta de dados. Portanto, precisa corrigir os dados de treinamento e verificar o impacto no modelo que já foi treinado.

**TAREFA:**

1. Carregue o dataset Iris.
2. Divida o dataset em conjuntos de treinamento e teste.
3. Treine um modelo de classificação (por exemplo, uma regressão logística ou SVM) usando todas as características.
4. Avalie o desempenho do modelo no conjunto de teste e anote os resultados.
5. Simule o "vazamento de dados" ajustando todas as medidas das pétalas no conjunto de treinamento que estão acima de 2 cm, diminuindo-as em 0.5 cm.
6. Treine o modelo novamente usando os dados ajustados.
7. Avalie o desempenho do modelo no conjunto de teste e compare com os resultados anteriores.
8. Agora, corrija o vazamento de dados da seguinte forma:  
   a. Aplique a correção em todo o dataset (treinamento e teste).  
   b. Treine o modelo novamente.  
   c. Avalie o desempenho e compare com os dois resultados anteriores.

**OBJETIVO**  
Este exercício visa ilustrar o impacto que o vazamento de dados pode ter no desempenho de um modelo e a importância de corrigir os dados de maneira adequada.

In [73]:
# Importando as bibliotecas necessárias
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 1. Carregando o dataset Iris
data = load_iris()
X = data.data
y = data.target

# 2. Dividindo o dataset em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Treinando um modelo de classificação
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

# 4. Avaliando o desempenho do modelo no conjunto de teste
y_pred = clf.predict(X_test)
acc_original = accuracy_score(y_test, y_pred)
print(f"Accuracy sem correção: {acc_original:.4f}")

# 5. Simulando o "vazamento de dados"
petal_length_column = 2  # Índice da coluna 'comprimento das pétalas' no dataset
X_train[:, petal_length_column] = np.where(X_train[:, petal_length_column] > 2, X_train[:, petal_length_column] - 0.5, X_train[:, petal_length_column])

# 6. Treinando o modelo novamente com os dados ajustados
clf.fit(X_train, y_train)

# 7. Avaliando o desempenho do modelo ajustado no conjunto de teste
y_pred = clf.predict(X_test)
acc_leaked = accuracy_score(y_test, y_pred)
print(f"Accuracy com vazamento de dados: {acc_leaked:.4f}")

# 8. Corrigindo o vazamento de dados
X[:, petal_length_column] = np.where(X[:, petal_length_column] > 2, X[:, petal_length_column] + 0.5, X[:, petal_length_column])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
acc_corrected = accuracy_score(y_test, y_pred)
print(f"Accuracy após correção: {acc_corrected:.4f}")

Accuracy sem correção: 1.0000
Accuracy com vazamento de dados: 0.8889
Accuracy após correção: 1.0000


*Clique aqui para ver a resposta*

<!--
# Importando as bibliotecas necessárias
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 1. Carregando o dataset Iris
data = load_iris()
X = data.data
y = data.target

# 2. Dividindo o dataset em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Treinando um modelo de classificação
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

# 4. Avaliando o desempenho do modelo no conjunto de teste
y_pred = clf.predict(X_test)
acc_original = accuracy_score(y_test, y_pred)
print(f"Accuracy sem correção: {acc_original:.4f}")

# 5. Simulando o "vazamento de dados"
petal_length_column = 2  # Índice da coluna 'comprimento das pétalas' no dataset
X_train[:, petal_length_column] = np.where(X_train[:, petal_length_column] > 2, X_train[:, petal_length_column] - 0.5, X_train[:, petal_length_column])

# 6. Treinando o modelo novamente com os dados ajustados
clf.fit(X_train, y_train)

# 7. Avaliando o desempenho do modelo ajustado no conjunto de teste
y_pred = clf.predict(X_test)
acc_leaked = accuracy_score(y_test, y_pred)
print(f"Accuracy com vazamento de dados: {acc_leaked:.4f}")

# 8. Corrigindo o vazamento de dados
X[:, petal_length_column] = np.where(X[:, petal_length_column] > 2, X[:, petal_length_column] + 0.5, X[:, petal_length_column])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
acc_corrected = accuracy_score(y_test, y_pred)
print(f"Accuracy após correção: {acc_corrected:.4f}")

-->