## Conceitos e Técnicas

São conceitos e técnicas utilizadas para dar apoio ao aprendizado de maquina, buscando uma melhor performance, avaliar melhor os modelos, melhorar as features entre outros.

---

### Validação cruzada

Validação cruzada é uma técnica usada em aprendizado de máquina e estatística para avaliar o desempenho de um modelo de forma mais confiável. Ela funciona dividindo o conjunto de dados em várias partes e repetindo o processo de treino e teste várias vezes, de modo que o modelo seja avaliado em dados diferentes daqueles usados no treinamento.

Essa abordagem reduz o risco de overfitting, aproveita melhor conjuntos de dados pequenos e fornece uma estimativa mais estável do desempenho real do modelo.

In [2]:
""" Obtenção dos dados """

from sklearn.datasets import load_iris

# Carregar o dataset Iris
X, y = load_iris(return_X_y=True)

In [None]:
""" Treinando o modelo """

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# Criar o modelo
model = LogisticRegression(max_iter=200)

# Aplicar validação cruzada (k = 5)
scores = cross_val_score(model, X, y, cv=5)

# Resultados
print("Acurácia em cada fold:", scores)
print("Acurácia média:", scores.mean())

Acurácia em cada fold: [0.96666667 1.         0.93333333 0.96666667 1.        ]
Acurácia média: 0.9733333333333334


Com base nos dados acima, o modelo foi treinado e testado várias vezes utilizando diferentes sub-conjuntos dos dados, chamados de **folds**.

A acurácia média é calculada a partir dos resultados de todos os folds, fornecendo assim uma estimativa mais confiável da capacidade de **generalização** do modelo, ajudando a reduzir o risco de **overfitting**.

---

Outra abordagem relacionada à **Validação Cruzada** é o uso do **GridSearchCV**, que utiliza validação cruzada para avaliar o modelo enquanto testa diferentes combinações de **hiperparâmetros**, selecionando aquelas que apresentam melhor desempenho.

In [5]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

# Definir o modelo
model = LogisticRegression(max_iter=200)

# Definir a grade de hiperparâmetros
param_grid = {
    'C': [0.1, 1, 10],
    'solver': ['lbfgs'],
}

# Criar o GridSearchCV (cv = 5 folds)
grid = GridSearchCV(
    estimator=model,
    param_grid=param_grid,
    cv=5,
    scoring='accuracy'
)

# Executar a busca
grid.fit(X, y)

# Resultados
print("Melhores hiperparâmetros:", grid.best_params_)
print("Melhor acurácia média (CV):", grid.best_score_)

Melhores hiperparâmetros: {'C': 1, 'solver': 'lbfgs'}
Melhor acurácia média (CV): 0.9733333333333334


Com base no codigo acima, os melhores **hiperparâmetros** apresentam quais das alternativas apresentadas no **param_grid** retornou a melhor **acurácia**. 

### Feature scaling

Feature scaling é uma técnica de **pré-processamento** de dados usada em aprendizado de máquina para ajustar a **escala** das features, as colocando em faixas semelhantes de valores. Isso é importante porque algumas variáveis podem ter valores muito maiores que outras (por exemplo, idade vs. salário), o que pode fazer certos algoritmos darem mais importância a elas indevidamente.

As formas mais comuns de feature scaling são a normalização (escala os valores geralmente entre 0 e 1) e a padronização (transforma os dados para terem média 0 e desvio padrão 1).

Essa técnica melhora muito o desempenho de modelos de regressão linear e de classificações.

In [3]:
""" Obtendo dados, separando em teste e treino e aplicando feature scaling """

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer
import pandas as pd

# Carregar dataset
data = load_breast_cancer()
X = data.data
y = data.target
feature_names = data.feature_names

# Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Aplicando feature scaling
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

df_original = pd.DataFrame(X_train, columns=feature_names)
df_scaled = pd.DataFrame(X_train_scaled, columns=feature_names)

In [None]:
# Dados Originais
df_original.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,13.74,17.91,88.12,585.0,0.07944,0.06376,0.02881,0.01329,0.1473,0.0558,...,15.34,22.46,97.19,725.9,0.09711,0.1824,0.1564,0.06019,0.235,0.07014
1,13.37,16.39,86.1,553.5,0.07115,0.07325,0.08092,0.028,0.1422,0.05823,...,14.26,22.75,91.99,632.1,0.1025,0.2531,0.3308,0.08978,0.2048,0.07628
2,14.69,13.98,98.22,656.1,0.1031,0.1836,0.145,0.063,0.2086,0.07406,...,16.46,18.34,114.1,809.2,0.1312,0.3635,0.3219,0.1108,0.2827,0.09208
3,12.91,16.33,82.53,516.4,0.07941,0.05366,0.03873,0.02377,0.1829,0.05667,...,13.88,22.0,90.81,600.6,0.1097,0.1506,0.1764,0.08235,0.3024,0.06949
4,13.62,23.23,87.19,573.2,0.09246,0.06747,0.02974,0.02443,0.1664,0.05801,...,15.35,29.09,97.58,729.8,0.1216,0.1517,0.1049,0.07174,0.2642,0.06953


In [5]:
# Dados após feature scaling
df_scaled.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,-0.12349,-0.296801,-0.170507,-0.208616,-1.20168,-0.77317,-0.762312,-0.933241,-1.229949,-0.948166,...,-0.19762,-0.506748,-0.30791,-0.273576,-1.507424,-0.44926,-0.572239,-0.840822,-0.856362,-0.765748
1,-0.228268,-0.657951,-0.253775,-0.296503,-1.804637,-0.587616,-0.091985,-0.542684,-1.419985,-0.612491,...,-0.422917,-0.458495,-0.465287,-0.438127,-1.273017,0.027042,0.318045,-0.377067,-1.341582,-0.414807
2,0.145534,-1.230564,0.245833,-0.010242,0.519184,1.570006,0.73232,0.386583,1.054201,1.574228,...,0.036022,-1.192272,0.203869,-0.127445,-0.024877,0.770802,0.272612,-0.047627,-0.089971,0.488264
3,-0.358532,-0.672207,-0.400937,-0.400014,-1.203862,-0.97065,-0.634704,-0.654992,0.096572,-0.827986,...,-0.502189,-0.583287,-0.501,-0.493386,-0.959895,-0.663496,-0.470142,-0.493515,0.226547,-0.802899
4,-0.157472,0.967224,-0.208843,-0.241538,-0.254695,-0.70063,-0.750349,-0.637469,-0.518248,-0.642882,...,-0.195534,0.596414,-0.296107,-0.266734,-0.442374,-0.656085,-0.835138,-0.659802,-0.387208,-0.800613


Conforme a comparação dos dataframes acima, os valores foram padronizados, sendo esse valor correspondente a formula:
$$
x_{padronizado} = \frac{x - \mu}{\sigma}
$$

In [6]:
""" Treinando o modelo com e sem feature scaling """

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Regressão Logística SEM feature scaling
model_no_scaling = LogisticRegression(max_iter=10000)
model_no_scaling.fit(X_train, y_train)

y_pred_no_scaling = model_no_scaling.predict(X_test)
acc_no_scaling = accuracy_score(y_test, y_pred_no_scaling)

# Regressão Logística COM feature scaling
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model_scaling = LogisticRegression(max_iter=10000)
model_scaling.fit(X_train_scaled, y_train)

y_pred_scaling = model_scaling.predict(X_test_scaled)
acc_scaling = accuracy_score(y_test, y_pred_scaling)

# Resultados
print(f"Acurácia SEM scaling: {acc_no_scaling:.4f}")
print(f"Acurácia COM scaling: {acc_scaling:.4f}")

Acurácia SEM scaling: 0.9766
Acurácia COM scaling: 0.9825


Podemos ver acima que a acurácia houve uma melhora com scaling, e essa melhora tende a aumentar com datasets mais robustos.