<a href="https://colab.research.google.com/github/IsadoraPrevitalle/Sobreamostragem-Subamostragem/blob/main/Sobreamostragem_e_Subamostragem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Implementando técnicas de Sobreamostragem e Subamostragem

Teste de Sobreamostragem sem o SMOTE em uma base de dados gerada de forma aleatória que contém: 1000 amostras, 10 features, 5 caracteristicas, 2 classes, 90% das amostras pertencem a classe 0 e 10% a classe 1

In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

#Conjunto de dados gerado de forma aleatória que contém: 1000 amostras, 10 features, 5 caracteristicas, 2 classes, 90% das amostras pertencem a classe 0 e 10% a classe 1
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5,n_classes=2, weights=[0.9, 0.1], random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando o modelo com o conjunto de dados original desbalanceado
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# Avaliando o modelo
y_pred = clf.predict(X_test)
print("Resultados sem SMOTE:")
print(classification_report(y_test, y_pred))

Resultados sem SMOTE:
              precision    recall  f1-score   support

           0       0.95      1.00      0.97       268
           1       1.00      0.53      0.69        32

    accuracy                           0.95       300
   macro avg       0.97      0.77      0.83       300
weighted avg       0.95      0.95      0.94       300



Teste de Sobreamostragem com o SMOTE em uma base de dados gerada de forma aleatória que contém: 1000 amostras, 10 features, 5 caracteristicas, 2 classes, 90% das amostras pertencem a classe 0 e 10% a classe 1

In [None]:
#Conjunto de dados gerado de forma aleatória que contém: 1000 amostras, 10 features, 5 caracteristicas, 2 classes, 90% das amostras pertencem a classe 0 e 10% a classe 1
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5,n_classes=2, weights=[0.9, 0.1], random_state=42)

# Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Aplicando SMOTE
smote = SMOTE(random_state=42)
X_smote, y_smote = smote.fit_resample(X_train, y_train)

# Treinando o modelo com dados sobreamostrados
clf_smote = RandomForestClassifier(random_state=42)
clf_smote.fit(X_smote, y_smote)

# Avaliando o modelo
y_pred_smote = clf_smote.predict(X_test)
print("Resultados com SMOTE:")
print(classification_report(y_test, y_pred_smote))

Resultados com SMOTE:
              precision    recall  f1-score   support

           0       0.97      0.99      0.98       268
           1       0.89      0.78      0.83        32

    accuracy                           0.97       300
   macro avg       0.93      0.89      0.91       300
weighted avg       0.97      0.97      0.97       300



In [None]:
from imblearn.over_sampling import ADASYN

#Conjunto de dados gerado de forma aleatória que contém: 1000 amostras, 10 features, 5 caracteristicas, 2 classes, 90% das amostras pertencem a classe 0 e 10% a classe 1
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5,n_classes=2, weights=[0.9, 0.1], random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicando ADASYN
adasyn = ADASYN(random_state=42)
X_adasyn, y_adasyn = adasyn.fit_resample(X_train, y_train)

# Treinando o modelo com dados gerados pelo ADASYN
clf_adasyn = RandomForestClassifier(random_state=42)
clf_adasyn.fit(X_adasyn, y_adasyn)

# Avaliando o modelo
y_pred_adasyn = clf_adasyn.predict(X_test)
print("Resultados com ADASYN:")
print(classification_report(y_test, y_pred_adasyn))

Resultados com ADASYN:
              precision    recall  f1-score   support

           0       0.97      0.99      0.98       179
           1       0.94      0.76      0.84        21

    accuracy                           0.97       200
   macro avg       0.96      0.88      0.91       200
weighted avg       0.97      0.97      0.97       200



In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from imblearn.under_sampling import RandomUnderSampler
from imblearn.under_sampling import ClusterCentroids

# Gerando conjunto de dados com 1000 amostras, 10 features, 5 informativas, 2 classes, e 90% da classe 0
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_classes=2, weights=[0.9, 0.1], random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Random Under-sampling
rus = RandomUnderSampler(random_state=42)
X_rus, y_rus = rus.fit_resample(X_train, y_train)

# Treinando o modelo com Random Under-sampling
clf_rus = RandomForestClassifier(random_state=42)
clf_rus.fit(X_rus, y_rus)

# Avaliando o modelo
y_pred_rus = clf_rus.predict(X_test)
print("Resultados com Random Under-sampling:")
print(classification_report(y_test, y_pred_rus))

Resultados com Random Under-sampling:
              precision    recall  f1-score   support

           0       0.99      0.92      0.95       179
           1       0.58      0.90      0.70        21

    accuracy                           0.92       200
   macro avg       0.78      0.91      0.83       200
weighted avg       0.94      0.92      0.93       200



In [None]:
# Gerando conjunto de dados com 1000 amostras, 10 features, 5 informativas, 2 classes, e 90% da classe 0
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_classes=2, weights=[0.9, 0.1], random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Cluster-based Under-sampling
cc = ClusterCentroids(random_state=42)
X_cc, y_cc = cc.fit_resample(X_train, y_train)

# Treinando o modelo com Cluster-based Under-sampling
clf_cc = RandomForestClassifier(random_state=42)
clf_cc.fit(X_cc, y_cc)

# Avaliando o modelo
y_pred_cc = clf_cc.predict(X_test)
print("Resultados com Cluster-based Under-sampling:")
print(classification_report(y_test, y_pred_cc))

  super()._check_params_vs_input(X, default_n_init=10)


Resultados com Cluster-based Under-sampling:
              precision    recall  f1-score   support

           0       0.99      0.94      0.97       179
           1       0.65      0.95      0.77        21

    accuracy                           0.94       200
   macro avg       0.82      0.95      0.87       200
weighted avg       0.96      0.94      0.94       200

