In [48]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as datasets
import sklearn.model_selection as model_selection

In [49]:
#O algoritmo KNN (k-Nearest Neighbors) é um algoritmo de aprendizado de máquina que classifica ou faz previsões com base na proximidade dos vizinhos mais próximos. Ele armazena um conjunto de pontos de treinamento com seus rótulos correspondentes.

#Implementando o KNN usando numpy

class KNN:
    #Definindo numeros de vizinhos e elementos de treinamento
    def __init__(self, k, X_train, y_train):
        self.k = k 
        self.X_train = X_train
        self.y_train = y_train
    #Calcular a distância euclidiana
    def distancia(self, n1, n2):
        distance = np.linalg.norm(n1-n2)
        return distance
    
    #Retornar os K vizinhos mais próximos de value
    def get_neighbors(self, value):
        distances = []
        for x in self.X_train:
            distances.append(self.distancia(value,x))
        distances = np.asarray(distances)
        indices = np.argpartition(distances, self.k)
        k_first = indices[:self.k]
        return k_first
    
    #Realizando a previsão de um elemento dado o conjunto de treinamento
    def predict(self, value):
        knn_indices = self.get_neighbors(value)
        knn_labels=[]
        for i in knn_indices:
            knn_labels.append(self.y_train[i])
        occurrences = np.bincount(knn_labels)
        node=np.argmax(occurrences)
        return node
    
    #Retornar a acurácia
    def accuracy(self, y_test, predictions):
        correct = y_test == predictions
        acc = (np.sum(correct) / y_test.shape[0])*100
        return acc

In [50]:
#Testando classe acima
X,y = datasets.load_iris(return_X_y=True) #Carregando o dataset iris
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.3, random_state=13) #Dividindo o dataset em treinamento e teste
knn = KNN(10, X_train, y_train) #Instanciando o knn

preds=[] #Variável que vai armazenar o resultado da previsão

for x in X_test:
    preds.append(knn.predict(x)) # Realizando a previsão em cada elemento de X_test e guardando em preds

acc = knn.accuracy(y_test, preds) #Comparando resultados
print(f"Acuracia de {acc}% (Classe implementada por mim)")

#Comparando com o modelo do sklearn
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
knnSKL = KNeighborsClassifier(n_neighbors=10)
knnSKL.fit(X_train, y_train)
y_pred = knnSKL.predict(X_test)
acc = metrics.accuracy_score(y_test, y_pred)*100
print(f"Acuracia de {acc}% (Utilizando SKLEARN)")





Acuracia de 93.33333333333333% (Classe implementada por mim)
Acuracia de 93.33333333333333% (Utilizando SKLEARN)


In [51]:
import pandas as pd
vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo
#Normalizando os dados do ds
print(vinhos_ds.columns)
for c in vinhos_ds.columns:
    vinhos_ds[c] = (vinhos_ds [c] - min(vinhos_ds[c]))/(max(vinhos_ds[c]) -min(vinhos_ds[c]))
print(vinhos_ds.isnull().sum()) #Vendo há valores nulos
print(vinhos_ds.info()) #Vendo se todas as variáveis são numéricas

#Definindo X e Y
y = vinhos_ds['wine_is_red']
X = vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando o KNN para a classificação binária
knnSKL = KNeighborsClassifier(n_neighbors=10)
knnSKL.fit(X_train, y_train)
y_pred = knnSKL.predict(X_test)

#Vendo a acurácia do modelo
acc = metrics.accuracy_score(y_test, y_pred)*100
print(f"Acuracia de {acc}%")
from sklearn.metrics import confusion_matrix, classification_report
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))



Index(['Unnamed: 0', 'fixed acidity', 'volatile acidity', 'citric acid',
       'residual sugar', 'chlorides', 'free sulfur dioxide',
       'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol',
       'quality', 'wine_is_red'],
      dtype='object')
Unnamed: 0              0
fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
wine_is_red             0
dtype: int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            6497 non-null   float64
 1   fixed acidity         6497 non-null   float64
 2   volatile acidity      6497 non-null   float64

In [52]:
#Comparando os resultados no caso dos dados não serem normalizados
import pandas as pd
vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo

#Definindo X e Y
y = vinhos_ds['wine_is_red']
X = vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando o KNN para a classificação binária
knnSKL = KNeighborsClassifier(n_neighbors=10)
knnSKL.fit(X_train, y_train)
y_pred = knnSKL.predict(X_test)

#Vendo a acurácia do modelo
acc = metrics.accuracy_score(y_test, y_pred)*100
print(f"Acuracia de {acc}%") #Acurácia relativamente menor quando os dados não estão normalizados

print("Quando os dados foram normalizados o modelo apresentou uma acurácia entre 98-99% e quando os dados não foram normalizado a acurácia caiu para 90-93%")
from sklearn.metrics import confusion_matrix, classification_report
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Acuracia de 92.38461538461539%
Quando os dados foram normalizados o modelo apresentou uma acurácia entre 98-99% e quando os dados não foram normalizado a acurácia caiu para 90-93%
              precision    recall  f1-score   support

           0       0.93      0.97      0.95       974
           1       0.90      0.78      0.84       326

    accuracy                           0.92      1300
   macro avg       0.92      0.88      0.89      1300
weighted avg       0.92      0.92      0.92      1300

[[946  28]
 [ 71 255]]


In [53]:
#Verificando a classificação binária usando uma regressão logística
from sklearn.linear_model import LogisticRegression

vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo

#Definindo X e Y
y = vinhos_ds['wine_is_red']
X = vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando a regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#Verificando a acurácia quando se aplica a regressão logística e o dataset não está normalizado
acc = metrics.accuracy_score(y_test, y_pred)*100
print(f"Acuracia de {acc}%")


Acuracia de 94.0%


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [54]:
#Verificando a classificação binária usando uma regressão logística em um dataset normalizado
from sklearn.linear_model import LogisticRegression

vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo
for c in vinhos_ds.columns:
    vinhos_ds[c] = (vinhos_ds [c] - min(vinhos_ds[c]))/(max(vinhos_ds[c]) -min(vinhos_ds[c]))

#Definindo X e Y
y = vinhos_ds['wine_is_red']
X = vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando a regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#Verificando a acurácia quando se aplica a regressão logística e o dataset não está normalizado
acc = metrics.accuracy_score(y_test, y_pred)*100
print(f"Acuracia de {acc}%")

print("Novamente a acurácia foi maior nos modelos que recebiam os dados normalizados")
print("Utilizando a regressão logística obtive uma acurácia maior do que com o KNN")


Acuracia de 98.92307692307692%
Novamente a acurácia foi maior nos modelos que recebiam os dados normalizados
Utilizando a regressão logística obtive uma acurácia maior do que com o KNN


In [55]:
vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo
print(f"Vinhos tintos = {vinhos_ds['wine_is_red'].sum()} / Vinhos brancos = {len(vinhos_ds['wine_is_red']) - vinhos_ds['wine_is_red'].sum()}")
#Dataset desbalanceado
#Aplicando oversample
white = vinhos_ds[vinhos_ds['wine_is_red'] == 0 ]
red = vinhos_ds[vinhos_ds['wine_is_red'] == 1 ]
print(white.shape)
print(red.shape)
df_red_over = red.sample(4898, replace=True) #Duplicando dados
print(df_red_over.shape)
new_vinhos_ds = pd.concat([white, df_red_over], axis=0)
#Verificando o novo dataframe
print(f"Vinhos tintos = {new_vinhos_ds['wine_is_red'].sum()} / Vinhos brancos = {len(new_vinhos_ds['wine_is_red']) - new_vinhos_ds['wine_is_red'].sum()}")
#Aplicando a regressão logística no novo data frame
for c in new_vinhos_ds.columns:
    new_vinhos_ds[c] = (new_vinhos_ds [c] - min(new_vinhos_ds[c]))/(max(new_vinhos_ds[c]) -min(new_vinhos_ds[c]))

#Definindo X e Y
y = new_vinhos_ds['wine_is_red']
X = new_vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando a regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#Verificando resultados do modelo
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))


Vinhos tintos = 1599 / Vinhos brancos = 4898
(4898, 14)
(1599, 14)
(4898, 14)
Vinhos tintos = 4898 / Vinhos brancos = 4898
              precision    recall  f1-score   support

         0.0       0.99      0.98      0.99       969
         1.0       0.98      0.99      0.99       991

    accuracy                           0.99      1960
   macro avg       0.99      0.99      0.99      1960
weighted avg       0.99      0.99      0.99      1960

[[952  17]
 [ 11 980]]


In [58]:
vinhos_ds  = pd.read_csv("./winequality.csv") #Lendo o arquivo
white = vinhos_ds[vinhos_ds['wine_is_red'] == 0 ]
red = vinhos_ds[vinhos_ds['wine_is_red'] == 1 ]
df_white_under = white.sample(1599, replace=True) #Duplicando dados
print(df_white_under.shape)
new_vinhos_ds = pd.concat([red, df_white_under], axis=0)
#Verificando o novo dataframe
print(f"Vinhos tintos = {new_vinhos_ds['wine_is_red'].sum()} / Vinhos brancos = {len(new_vinhos_ds['wine_is_red']) - new_vinhos_ds['wine_is_red'].sum()}")
#Aplicando a regressão logística no novo data frame
for c in new_vinhos_ds.columns:
    new_vinhos_ds[c] = (new_vinhos_ds [c] - min(new_vinhos_ds[c]))/(max(new_vinhos_ds[c]) -min(new_vinhos_ds[c]))

#Definindo X e Y
y = new_vinhos_ds['wine_is_red']
X = new_vinhos_ds.drop('wine_is_red', axis=1)

#Separando em treinamento e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(X,y,test_size=0.2, random_state=13)

#Aplicando a regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#Verificando resultados do modelo
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

(1599, 14)
Vinhos tintos = 1599 / Vinhos brancos = 1599
              precision    recall  f1-score   support

         0.0       0.98      1.00      0.99       312
         1.0       1.00      0.98      0.99       328

    accuracy                           0.99       640
   macro avg       0.99      0.99      0.99       640
weighted avg       0.99      0.99      0.99       640

[[312   0]
 [  5 323]]
