In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

df_treinamento = pd.read_csv('../arquivos_csv/treinamento4.csv', low_memory=False)
df_teste = pd.read_csv('../arquivos_csv/treinamento4.csv', low_memory=False)


#### Distância Euclidiana

In [None]:
X_treino = df_treinamento.drop(columns=['Credit_Score'])
y_treino = df_treinamento['Credit_Score']
X_teste = df_teste.drop(columns=['Credit_Score'])
y_teste = df_teste['Credit_Score']

# Transformação do alvo para valores numéricos
label_encoder = LabelEncoder()
y_treino = label_encoder.fit_transform(y_treino)
y_teste = label_encoder.transform(y_teste)

# Normalização dos atributos
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.transform(X_teste)

# Lista para armazenar os resultados
results = []

for k in range(1, 3, 3):
    knn = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    knn.fit(X_treino, y_treino)
    y_pred = knn.predict(X_teste)
    accuracy = accuracy_score(y_teste, y_pred)
    conf_matrix = confusion_matrix(y_teste, y_pred)

    # Armazenar resultados
    results.append({
        'k': k,
        'Acurácia': accuracy,
        'Matriz de Confusão': conf_matrix
    })

results_df = pd.DataFrame(results)

melhor_k_index = results_df['Acurácia'].idxmax()
melhor_k = results_df.loc[melhor_k_index, 'k']
melhor_acuracia = results_df.loc[melhor_k_index, 'Acurácia']
melhor_matriz_confusao = results_df.loc[melhor_k_index, 'Matriz de Confusão']

print(f"Melhor valor de k: {melhor_k}")
print(f"Acurácia com k = {melhor_k}: {melhor_acuracia:.4f}")
print("Matriz de Confusão para o melhor k:")
classes = ['Good', 'Standard', 'Poor']
conf_matrix_df = pd.DataFrame(melhor_matriz_confusao, index=classes, columns=classes)
print(conf_matrix_df)

taxa_acerto = {}
for i, classe in enumerate(classes):
    taxa_acerto[classe] = melhor_matriz_confusao[i, i] / melhor_matriz_confusao[i].sum()
    print(f"Taxa de acerto para {classe}: {taxa_acerto[classe]:.4f}")


# Gráfico de Acurácia
plt.figure(figsize=(6, 4))
plt.bar([melhor_k], [melhor_acuracia], color='skyblue')
plt.xlabel('Melhor Número de Vizinhos (k)')
plt.ylabel('Acurácia')
plt.title(f'Acurácia para o Melhor k ({melhor_k})')
plt.ylim(0, 1)
plt.show()

# Heatmap da Matriz de Confusão
plt.figure(figsize=(8, 6))
sns.heatmap(melhor_matriz_confusao, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title(f'Matriz de Confusão para o Melhor k ({melhor_k})')
plt.show()

#### Distância Manhattan

In [None]:
X_treino = df_treinamento.drop(columns=['Credit_Score'])
y_treino = df_treinamento['Credit_Score']
X_teste = df_teste.drop(columns=['Credit_Score'])
y_teste = df_teste['Credit_Score']

# Transformação do alvo para valores numéricos
label_encoder = LabelEncoder()
y_treino = label_encoder.fit_transform(y_treino)
y_teste = label_encoder.transform(y_teste)

# Normalização dos atributos
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.transform(X_teste)

# Lista para armazenar os resultados
results = []

for k in range(1, 100, 10):
    knn = KNeighborsClassifier(n_neighbors=k, metric='manhattan')
    knn.fit(X_treino, y_treino)
    y_pred = knn.predict(X_teste)
    accuracy = accuracy_score(y_teste, y_pred)
    conf_matrix = confusion_matrix(y_teste, y_pred)

    # Armazenar resultados
    results.append({
        'k': k,
        'Acurácia': accuracy,
        'Matriz de Confusão': conf_matrix
    })

results_df = pd.DataFrame(results)

melhor_k_index = results_df['Acurácia'].idxmax()
melhor_k = results_df.loc[melhor_k_index, 'k']
melhor_acuracia = results_df.loc[melhor_k_index, 'Acurácia']
melhor_matriz_confusao = results_df.loc[melhor_k_index, 'Matriz de Confusão']

print(f"Melhor valor de k: {melhor_k}")
print(f"Acurácia com k = {melhor_k}: {melhor_acuracia:.4f}")
print("Matriz de Confusão para o melhor k:")
classes = ['Good', 'Standard', 'Poor']
conf_matrix_df = pd.DataFrame(melhor_matriz_confusao, index=classes, columns=classes)
print(conf_matrix_df)

taxa_acerto = {}
for i, classe in enumerate(classes):
    taxa_acerto[classe] = melhor_matriz_confusao[i, i] / melhor_matriz_confusao[i].sum()
    print(f"Taxa de acerto para {classe}: {taxa_acerto[classe]:.4f}")


# Gráfico de Acurácia
plt.figure(figsize=(6, 4))
plt.bar([melhor_k], [melhor_acuracia], color='skyblue')
plt.xlabel('Melhor Número de Vizinhos (k)')
plt.ylabel('Acurácia')
plt.title(f'Acurácia para o Melhor k ({melhor_k})')
plt.ylim(0, 1)
plt.show()

# Heatmap da Matriz de Confusão
plt.figure(figsize=(8, 6))
sns.heatmap(melhor_matriz_confusao, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title(f'Matriz de Confusão para o Melhor k ({melhor_k})')
plt.show()

#### Distância Minkowski

In [None]:
X_treino = df_treinamento.drop(columns=['Credit_Score'])
y_treino = df_treinamento['Credit_Score']
X_teste = df_teste.drop(columns=['Credit_Score'])
y_teste = df_teste['Credit_Score']

# Transformação do alvo para valores numéricos
label_encoder = LabelEncoder()
y_treino = label_encoder.fit_transform(y_treino)
y_teste = label_encoder.transform(y_teste)

# Normalização dos atributos
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.transform(X_teste)

# Lista para armazenar os resultados
results = []

for k in range(1, 100, 10):
    knn = KNeighborsClassifier(n_neighbors=k, metric='minkowski')
    knn.fit(X_treino, y_treino)
    y_pred = knn.predict(X_teste)
    accuracy = accuracy_score(y_teste, y_pred)
    conf_matrix = confusion_matrix(y_teste, y_pred)

    # Armazenar resultados
    results.append({
        'k': k,
        'Acurácia': accuracy,
        'Matriz de Confusão': conf_matrix
    })

results_df = pd.DataFrame(results)

melhor_k_index = results_df['Acurácia'].idxmax()
melhor_k = results_df.loc[melhor_k_index, 'k']
melhor_acuracia = results_df.loc[melhor_k_index, 'Acurácia']
melhor_matriz_confusao = results_df.loc[melhor_k_index, 'Matriz de Confusão']

print(f"Melhor valor de k: {melhor_k}")
print(f"Acurácia com k = {melhor_k}: {melhor_acuracia:.4f}")
print("Matriz de Confusão para o melhor k:")
classes = ['Good', 'Standard', 'Poor']
conf_matrix_df = pd.DataFrame(melhor_matriz_confusao, index=classes, columns=classes)
print(conf_matrix_df)

taxa_acerto = {}
for i, classe in enumerate(classes):
    taxa_acerto[classe] = melhor_matriz_confusao[i, i] / melhor_matriz_confusao[i].sum()
    print(f"Taxa de acerto para {classe}: {taxa_acerto[classe]:.4f}")


# Gráfico de Acurácia
plt.figure(figsize=(6, 4))
plt.bar([melhor_k], [melhor_acuracia], color='skyblue')
plt.xlabel('Melhor Número de Vizinhos (k)')
plt.ylabel('Acurácia')
plt.title(f'Acurácia para o Melhor k ({melhor_k})')
plt.ylim(0, 1)
plt.show()

# Heatmap da Matriz de Confusão
plt.figure(figsize=(8, 6))
sns.heatmap(melhor_matriz_confusao, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title(f'Matriz de Confusão para o Melhor k ({melhor_k})')
plt.show()

#### Distância Chebyshev

In [None]:
X_treino = df_treinamento.drop(columns=['Credit_Score'])
y_treino = df_treinamento['Credit_Score']
X_teste = df_teste.drop(columns=['Credit_Score'])
y_teste = df_teste['Credit_Score']

# Transformação do alvo para valores numéricos
label_encoder = LabelEncoder()
y_treino = label_encoder.fit_transform(y_treino)
y_teste = label_encoder.transform(y_teste)

# Normalização dos atributos
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.transform(X_teste)

# Lista para armazenar os resultados
results = []

for k in range(1, 100, 10):
    knn = KNeighborsClassifier(n_neighbors=k, metric='chebyshev')
    knn.fit(X_treino, y_treino)
    y_pred = knn.predict(X_teste)
    accuracy = accuracy_score(y_teste, y_pred)
    conf_matrix = confusion_matrix(y_teste, y_pred)

    # Armazenar resultados
    results.append({
        'k': k,
        'Acurácia': accuracy,
        'Matriz de Confusão': conf_matrix
    })

results_df = pd.DataFrame(results)

melhor_k_index = results_df['Acurácia'].idxmax()
melhor_k = results_df.loc[melhor_k_index, 'k']
melhor_acuracia = results_df.loc[melhor_k_index, 'Acurácia']
melhor_matriz_confusao = results_df.loc[melhor_k_index, 'Matriz de Confusão']

print(f"Melhor valor de k: {melhor_k}")
print(f"Acurácia com k = {melhor_k}: {melhor_acuracia:.4f}")
print("Matriz de Confusão para o melhor k:")
classes = ['Good', 'Standard', 'Poor']
conf_matrix_df = pd.DataFrame(melhor_matriz_confusao, index=classes, columns=classes)
print(conf_matrix_df)

taxa_acerto = {}
for i, classe in enumerate(classes):
    taxa_acerto[classe] = melhor_matriz_confusao[i, i] / melhor_matriz_confusao[i].sum()
    print(f"Taxa de acerto para {classe}: {taxa_acerto[classe]:.4f}")


# Gráfico de Acurácia
plt.figure(figsize=(6, 4))
plt.bar([melhor_k], [melhor_acuracia], color='skyblue')
plt.xlabel('Melhor Número de Vizinhos (k)')
plt.ylabel('Acurácia')
plt.title(f'Acurácia para o Melhor k ({melhor_k})')
plt.ylim(0, 1)
plt.show()

# Heatmap da Matriz de Confusão
plt.figure(figsize=(8, 6))
sns.heatmap(melhor_matriz_confusao, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title(f'Matriz de Confusão para o Melhor k ({melhor_k})')
plt.show()

### Distância Coseno

In [None]:
X_treino = df_treinamento.drop(columns=['Credit_Score'])
y_treino = df_treinamento['Credit_Score']
X_teste = df_teste.drop(columns=['Credit_Score'])
y_teste = df_teste['Credit_Score']

# Transformação do alvo para valores numéricos
label_encoder = LabelEncoder()
y_treino = label_encoder.fit_transform(y_treino)
y_teste = label_encoder.transform(y_teste)

# Normalização dos atributos
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.transform(X_teste)

# Lista para armazenar os resultados
results = []

for k in range(1, 100, 10):
    knn = KNeighborsClassifier(n_neighbors=k, metric='cosine')
    knn.fit(X_treino, y_treino)
    y_pred = knn.predict(X_teste)
    accuracy = accuracy_score(y_teste, y_pred)
    conf_matrix = confusion_matrix(y_teste, y_pred)

    # Armazenar resultados
    results.append({
        'k': k,
        'Acurácia': accuracy,
        'Matriz de Confusão': conf_matrix
    })

results_df = pd.DataFrame(results)

melhor_k_index = results_df['Acurácia'].idxmax()
melhor_k = results_df.loc[melhor_k_index, 'k']
melhor_acuracia = results_df.loc[melhor_k_index, 'Acurácia']
melhor_matriz_confusao = results_df.loc[melhor_k_index, 'Matriz de Confusão']

print(f"Melhor valor de k: {melhor_k}")
print(f"Acurácia com k = {melhor_k}: {melhor_acuracia:.4f}")
print("Matriz de Confusão para o melhor k:")
classes = ['Good', 'Standard', 'Poor']
conf_matrix_df = pd.DataFrame(melhor_matriz_confusao, index=classes, columns=classes)
print(conf_matrix_df)

taxa_acerto = {}
for i, classe in enumerate(classes):
    taxa_acerto[classe] = melhor_matriz_confusao[i, i] / melhor_matriz_confusao[i].sum()
    print(f"Taxa de acerto para {classe}: {taxa_acerto[classe]:.4f}")


# Gráfico de Acurácia
plt.figure(figsize=(6, 4))
plt.bar([melhor_k], [melhor_acuracia], color='skyblue')
plt.xlabel('Melhor Número de Vizinhos (k)')
plt.ylabel('Acurácia')
plt.title(f'Acurácia para o Melhor k ({melhor_k})')
plt.ylim(0, 1)
plt.show()

# Heatmap da Matriz de Confusão
plt.figure(figsize=(8, 6))
sns.heatmap(melhor_matriz_confusao, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title(f'Matriz de Confusão para o Melhor k ({melhor_k})')
plt.show()