<a href="https://colab.research.google.com/github/RafaCX/portfolioML/blob/main/ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Importação e preparação dos dados**

In [9]:
# Importação do dataset
import pandas as pd

# Carregamento do dataset a partir do link fornecido
file = pd.read_csv("https://raw.githubusercontent.com/RafaCX/portfolioML/main/wine_dataset.csv")

# Importação das bibliotecas necessárias para validação cruzada e pré-processamento
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Comentário: O pré-processamento de dados é uma etapa crucial em qualquer pipeline de machine learning. Aqui, podemos utilizar diferentes técnicas, como StandardScaler ou MinMaxScaler, para garantir que os dados estejam em uma escala adequada para os algoritmos de aprendizado. Além disso, a validação cruzada, como implementada através do GridSearchCV, é essencial para ajustar os hiperparâmetros do modelo de forma robusta e evitar overfitting. Essas práticas contribuem significativamente para a eficácia e generalização dos modelos de machine learning.


In [10]:
file.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


In [11]:
file.describe()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
count,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0
mean,7.215307,0.339666,0.318633,5.443235,0.056034,30.525319,115.744574,0.994697,3.218501,0.531268,10.491801,5.818378
std,1.296434,0.164636,0.145318,4.757804,0.035034,17.7494,56.521855,0.002999,0.160787,0.148806,1.192712,0.873255
min,3.8,0.08,0.0,0.6,0.009,1.0,6.0,0.98711,2.72,0.22,8.0,3.0
25%,6.4,0.23,0.25,1.8,0.038,17.0,77.0,0.99234,3.11,0.43,9.5,5.0
50%,7.0,0.29,0.31,3.0,0.047,29.0,118.0,0.99489,3.21,0.51,10.3,6.0
75%,7.7,0.4,0.39,8.1,0.065,41.0,156.0,0.99699,3.32,0.6,11.3,6.0
max,15.9,1.58,1.66,65.8,0.611,289.0,440.0,1.03898,4.01,2.0,14.9,9.0


In [12]:
# Transformação de valores categóricos em numéricos
file['style'] = file['style'].replace('red', 0)  # Substitui o valor 'red' por 0
file['style'] = file['style'].replace('white', 1)  # Substitui o valor 'white' por 1

# Comentário: A transformação de valores categóricos em numéricos é uma etapa comum no pré-processamento de dados para modelos de machine learning. Aqui, os valores 'red' e 'white', que representam os estilos de vinho, foram substituídos por 0 e 1, respectivamente, para que possam ser interpretados adequadamente pelos algoritmos de aprendizado que exigem dados numéricos. Essa codificação permite que o modelo capture as relações entre os diferentes estilos de vinho de forma mais eficaz durante o treinamento.


In [13]:
# Separação das variáveis preditoras e da variável alvo
X = file.drop('style', axis=1)  # Variáveis preditoras (todas as colunas exceto 'style')
Y = file['style']  # Variável alvo

# Verificação do tamanho das variáveis
print("Tamanho do conjunto de características (X):", X.shape)
print("Tamanho do conjunto de rótulos (Y):", Y.shape)


Tamanho do conjunto de características (X): (6497, 12)
Tamanho do conjunto de rótulos (Y): (6497,)


**Conjuntos de treino e texto**

In [16]:
from sklearn.model_selection import train_test_split

# Dividindo os dados em conjuntos de treino e teste
# A função train_test_split é usada para dividir os dados em conjuntos de treino e teste.
# x_treino e y_treino serão usados para treinar o modelo, enquanto x_teste e y_teste serão usados para avaliar o desempenho do modelo.
# O parâmetro test_size=0.3 define que 30% dos dados serão separados para teste, deixando 70% dos dados para treino.
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size=0.3)

# Verificando o tamanho dos conjuntos de treino e teste
# Imprimindo o tamanho de cada conjunto para verificar se a divisão ocorreu conforme o esperado.
print("Tamanho do conjunto de treino (x_treino):", X_treino.shape)
print("Tamanho do conjunto de teste (x_teste):", X_teste.shape)
print("Tamanho dos rótulos de treino (y_treino):", Y_treino.shape)
print("Tamanho dos rótulos de teste (y_teste):", Y_teste.shape)


Tamanho do conjunto de treino (x_treino): (4547, 12)
Tamanho do conjunto de teste (x_teste): (1950, 12)
Tamanho dos rótulos de treino (y_treino): (4547,)
Tamanho dos rótulos de teste (y_teste): (1950,)


In [18]:
from sklearn.preprocessing import StandardScaler

# Normalização dos dados
# A normalização dos dados é uma etapa importante no pré-processamento, especialmente quando os algoritmos de machine learning são sensíveis à escala dos atributos.
# O StandardScaler é utilizado para padronizar os dados, transformando-os de forma que sua distribuição tenha média zero e desvio padrão um.
# Isso ajuda a garantir que os atributos tenham a mesma escala, o que pode melhorar o desempenho de muitos algoritmos de machine learning.
scaler = StandardScaler()

# Aplicando a normalização nos conjuntos de treino e teste
X_treino_scaled = scaler.fit_transform(X_treino)
X_teste_scaled = scaler.transform(X_teste)


**Aplicação do Modelo**

In [27]:
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score
#Criação Modelo
modelo = modelo = ExtraTreesClassifier(n_estimators=100, random_state=42)
modelo.fit(X_treino,Y_treino)

In [28]:
from sklearn.model_selection import GridSearchCV

# Parâmetros para Grid Search
param_grid = {'n_estimators': [50, 100, 200], 'max_features': ['auto', 'sqrt']}

# Grid Search para otimização de hiperparâmetros
# O GridSearchCV é uma técnica que permite encontrar os melhores hiperparâmetros para um modelo, testando todas as combinações possíveis de valores especificados no param_grid.
# O parâmetro 'estimator' recebe o modelo a ser otimizado.
# O parâmetro 'param_grid' especifica os hiperparâmetros que serão testados.
# O parâmetro 'cv' especifica a estratégia de validação cruzada a ser usada, neste caso, 5-fold cross-validation.
# O parâmetro 'scoring' especifica a métrica usada para avaliar a qualidade de cada conjunto de hiperparâmetros testado, neste caso, 'accuracy' para problemas de classificação.
grid_search = GridSearchCV(estimator=modelo, param_grid=param_grid, cv=5, scoring='accuracy')

# Ajustar o Grid Search aos dados de treino escalados
grid_search.fit(X_treino_scaled, Y_treino)


  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(


In [29]:
# Calcula a importância das características no modelo treinado
importances = modelo.feature_importances_

# Obtém os nomes das características
feature_names = X.columns

# Combina os nomes das características com suas importâncias, classificando pela importância em ordem decrescente
features_importance = sorted(zip(feature_names, importances), key=lambda x: x[1], reverse=True)

# Itera sobre as características e suas importâncias, imprimindo cada uma
for feature, importance in features_importance:
    print(f"{feature}: {importance}")


total_sulfur_dioxide: 0.26103963287893206
volatile_acidity: 0.1513624874099334
chlorides: 0.11465033799590886
density: 0.08951440471874386
fixed_acidity: 0.07843808844472819
sulphates: 0.07327054905956576
residual_sugar: 0.06423264147087064
free_sulfur_dioxide: 0.059071210250705
pH: 0.04067918668071239
citric_acid: 0.04016825812131139
alcohol: 0.01633431560705264
quality: 0.011238887361535738


In [30]:
# Seleciona características com importância igual ou superior a 0.05
selected_features = [feature for feature, importance in features_importance if importance >= 0.05]

# Filtra os conjuntos de treino e teste apenas para as características selecionadas
X_treino_selected = X_treino[selected_features]
X_teste_selected = X_teste[selected_features]

# Aplica normalização aos conjuntos de treino e teste apenas para as características selecionadas
X_treino_selected_scaled = scaler.fit_transform(X_treino_selected)
X_teste_selected_scaled = scaler.transform(X_teste_selected)


**Resultados**

In [31]:
# Ajusta o modelo aos dados de treino utilizando apenas as características selecionadas e normalizadas
modelo.fit(X_treino_selected_scaled, Y_treino)

# Realiza previsões sobre o conjunto de teste
y_pred = modelo.predict(X_teste_selected_scaled)

# Calcula a acurácia do modelo com as características selecionadas
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(Y_teste, y_pred)
print("Acurácia com características selecionadas", accuracy)


Acurácia com características selecionadas 0.9953846153846154


In [32]:
print("Melhor pontuação de acurácia: ", grid_search.best_score_)
print("Melhores parâmetros: ", grid_search.best_params_)


Melhor pontuação de acurácia:  0.9964815822241565
Melhores parâmetros:  {'max_features': 'auto', 'n_estimators': 50}


In [33]:
modelos = {
    "ExtraTreesClassifier": ExtraTreesClassifier(n_estimators=100, random_state=42),
    "RandomForestClassifier": RandomForestClassifier(n_estimators=100, random_state=42),
    "Regressão Logística": LogisticRegression(solver='liblinear', random_state=42)
}
resultados = {}
for nome, modelo in modelos.items():
    # Treinamento do modelo
    modelo.fit(X_treino_scaled, Y_treino)

    # Previsões
    y_pred = modelo.predict(X_teste_scaled)
    y_pred_proba = modelo.predict_proba(X_teste_scaled)[:, 1]

    # Métricas de avaliação
    acuracia = accuracy_score(Y_teste, y_pred)
    relatorio = classification_report(Y_teste, y_pred, output_dict=True)
    pontuacao_f1 = relatorio['weighted avg']['f1-score']
    auc_roc = roc_auc_score(Y_teste, y_pred_proba)

    # Guardar resultados
    resultados[nome] = {
        "Acurácia": acuracia,
        "Pontuação F1": pontuacao_f1,
        "AUC-ROC": auc_roc
    }

# Exibir os resultados
for nome, metricas in resultados.items():
    print(f"{nome}:")
    for metrica, valor in metricas.items():
        print(f"  {metrica}: {valor:.4f}")
    print("\n")


ExtraTreesClassifier:
  Acurácia: 0.9974
  Pontuação F1: 0.9974
  AUC-ROC: 0.9967


RandomForestClassifier:
  Acurácia: 0.9959
  Pontuação F1: 0.9959
  AUC-ROC: 0.9984


Regressão Logística:
  Acurácia: 0.9923
  Pontuação F1: 0.9923
  AUC-ROC: 0.9946


