## Validação Cruzada com ShuffleSplit

In [11]:
from sklearn.model_selection import ShuffleSplit
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score

# Carregar dados de exemplo
data = load_iris()
X, y = data.data, data.target

# Definir o modelo
model = RandomForestClassifier()

In [12]:
# Definir o ShuffleSplit
shuffle_split = ShuffleSplit(n_splits=4, test_size=0.2, random_state=42)

# Executar validação cruzada usando ShuffleSplit
scores = cross_val_score(model, X, y, cv=shuffle_split)

# Exibir os resultados
print("Scores de validação cruzada:", scores)
print("Média dos scores:", scores.mean())
print("Desvio padrão dos scores:", scores.std())

Scores de validação cruzada: [1.         0.96666667 0.96666667 0.93333333]
Média dos scores: 0.9666666666666668
Desvio padrão dos scores: 0.02357022603955158


In [13]:
shuffle_split

ShuffleSplit(n_splits=4, random_state=42, test_size=0.2, train_size=None)

In [14]:
# Executar validação cruzada
scores = cross_val_score(model, X, y, cv=4)  # cv=5 define 5 folds

# Exibir os resultados
print("Scores de validação cruzada:", scores)
print("Média dos scores:", scores.mean())
print("Desvio padrão dos scores:", scores.std())


Scores de validação cruzada: [0.97368421 0.94736842 0.94594595 1.        ]
Média dos scores: 0.9667496443812233
Desvio padrão dos scores: 0.02214779922867332


## Entendendo o `shuffle_split`

O `ShuffleSplit` em scikit-learn é um gerador de indices de treinamento e teste para validação cruzada. 
Ao contrário de métodos que retornam os próprios dados divididos, ShuffleSplit gera índices que podem ser usados para selecionar subconjuntos de treinamento e teste diretamente dos dados originais.


**O que ShuffleSplit Retorna**

O objeto ShuffleSplit não retorna diretamente os dados de treinamento e teste. Em vez disso, ele gera pares de índices (um para treinamento e outro para teste) que você pode usar para dividir seus dados manualmente.


**Exemplo de Uso**
Aqui está um exemplo detalhado de como usar ShuffleSplit e entender o que ele retorna:

In [23]:
import pandas as pd
from sklearn.model_selection import ShuffleSplit
import numpy as np

# Criar dados de exemplo
data = {
    'feature1': np.arange(5),
    'feature2': np.arange(5, 10),
    'label': [0, 1, 0, 1, 0]
}
df = pd.DataFrame(data)
X = df[['feature1', 'feature2']]
y = df['label']

# Configurar o ShuffleSplit
shuffle_split = ShuffleSplit(n_splits=3, test_size=0.2, random_state=42)

# Mostrar DataFrame e labels
print('DataFrame:')
print(df)
print('Labels:')
print(y.values)

# Mostrar índices gerados
for train_index, test_index in shuffle_split.split(X):
    print('################################')
    print("Índices de treino:", train_index)
    print("Índices de teste:", test_index)
    print('-----')
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    print("Dados de treino:")
    print(X_train)
    print(y_train.values)
    print("Dados de teste:")
    print(X_test)
    print(y_test.values)

    


DataFrame:
   feature1  feature2  label
0         0         5      0
1         1         6      1
2         2         7      0
3         3         8      1
4         4         9      0
Labels:
[0 1 0 1 0]
################################
Índices de treino: [4 2 0 3]
Índices de teste: [1]
-----
Dados de treino:
   feature1  feature2
4         4         9
2         2         7
0         0         5
3         3         8
[0 0 0 1]
Dados de teste:
   feature1  feature2
1         1         6
[1]
################################
Índices de treino: [1 2 0 4]
Índices de teste: [3]
-----
Dados de treino:
   feature1  feature2
1         1         6
2         2         7
0         0         5
4         4         9
[1 0 0 0]
Dados de teste:
   feature1  feature2
3         3         8
[1]
################################
Índices de treino: [0 3 4 2]
Índices de teste: [1]
-----
Dados de treino:
   feature1  feature2
0         0         5
3         3         8
4         4         9
2         2       