<a href="https://colab.research.google.com/github/armandoordonez/eda_couse/blob/main/3_10_Taller_Data_Leakage.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:

# Enfoque ingenuo para normalizar los datos antes de dividir los datos y evaluar el modelo

# importar librerias

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

from sklearn.pipeline import Pipeline

from numpy import mean
from numpy import std
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold


In [3]:
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)

# standardize the dataset
scaler = MinMaxScaler()

X = scaler.fit_transform(X)

# split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

# fit the model
model = LogisticRegression()
model.fit(X_train, y_train)

# evaluate the model
yhat = model.predict(X_test)

# evaluate predictions
accuracy = accuracy_score(y_test, yhat)
print('Accuracy: %.3f' % (accuracy*100))

Accuracy: 84.848


In [None]:
# el enfoque correcto para normalizar los datos después de dividir los datos y antes de evaluar el modelo

# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)

# split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

# define the scaler
scaler = MinMaxScaler()

# fit on the training dataset
scaler.fit(X_train)

# scale the training dataset
X_train = scaler.transform(X_train)

# scale the test dataset
X_test = scaler.transform(X_test)

# fit the model
model = LogisticRegression()
model.fit(X_train, y_train)

# evaluate the model
yhat = model.predict(X_test)
# evaluate predictions
accuracy = accuracy_score(y_test, yhat)
print('Accuracy: %.3f' % (accuracy*100))

Accuracy: 85.455


In [None]:

# naive data preparation for model evaluation with k-fold cross-validation
# enfoque ingenuo para normalizar los datos antes de dividir los datos y evaluar el modelo

# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)

# standardize the dataset
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

# define the model
model = LogisticRegression()

# define the evaluation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

# evaluate the model using cross-validation
scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

# report performance
print('Accuracy: %.3f (%.3f)' % (mean(scores)*100, std(scores)*100))

Accuracy: 85.300 (3.607)


In [8]:

# correct data preparation for model evaluation with k-fold cross-validation

# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)

# define the pipeline
steps = list()
steps.append(('scaler', MinMaxScaler()))
steps.append(('model', LogisticRegression()))
pipeline = Pipeline(steps=steps)

# define the evaluation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

# evaluate the model using cross-validation
scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

# report performance
print('Accuracy: %.3f (%.3f)' % (mean(scores)*100, std(scores)*100))

# la diferencia entre este enfoque y el anterior es que en este caso se normaliza después de dividir los datos y antes de evaluar el modelo.
# Esto es importante porque el modelo no tiene acceso a los datos de prueba durante el entrenamiento y, por lo tanto, no puede filtrar información sobre los datos de prueba en el proceso de normalización.
# Esto significa que la evaluación es más realista y menos optimista, lo que resulta en una estimación más precisa del rendimiento del modelo en datos no vistos.
# En general, es una buena práctica normalizar los datos después de dividir los datos y antes de evaluar un modelo de aprendizaje automático.
# El pipeline de scikit-learn proporciona una forma conveniente de lograr esto en una sola estructura que se puede evaluar utilizando la función cross_val_score().
# En este caso, se normaliza el conjunto de datos antes de dividirlo y se evalúa el modelo utilizando un pipeline que normaliza los datos antes de ajustar el modelo.
# Se informa la precisión media y la desviación estándar de la precisión en un conjunto de datos de prueba simulado utilizando la validación cruzada repetida estratificada.


Accuracy: 85.400 (3.489)
