In [None]:
from sklearn.linear_model import Perceptron
from sklearn import metrics
from random import shuffle
import numpy as np
import pandas as pd


In [40]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

def data_set( fname ):
    result = {}
    result['nome-arquivo'] = fname
    
    # Definir os nomes corretos das colunas do dataset adult
    column_names = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 
                   'marital-status', 'occupation', 'relationship', 'race', 'sex',
                   'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'class']
    
    # Ler os dados sem cabeçalho e atribuir os nomes corretos
    data = pd.read_csv(fname, skipinitialspace=True, skip_blank_lines=True, 
                       header=None, names=column_names)
    
    print("Dataset carregado:")
    print("Dimensões:", data.shape)
    print("Colunas:", list(data.columns))
    
    # Colunas categóricas para processar
    categorical_cols = ['workclass', 'education', 'marital-status', 'occupation', 
                       'relationship', 'race', 'sex', 'native-country', 'class']
    
    # Criar uma cópia para processar
    processed_data = data.copy()
    
    # Processar cada coluna categórica
    label_encoders = {}
    for col in categorical_cols:
        if col in processed_data.columns:
            le = LabelEncoder()
            # Remover espaços em branco e tratar valores ausentes
            processed_data[col] = processed_data[col].astype(str).str.strip()
            processed_data[col] = le.fit_transform(processed_data[col])
            label_encoders[col] = le
            print(f"Coluna '{col}' processada: {len(le.classes_)} classes únicas")
    
    # Separar dados e classes 
    classes = processed_data['class'].values
    dados = processed_data.drop(columns=['class'])
    
    print(f"\nDados finais:")
    print(f"Features shape: {dados.shape}")
    print(f"Classes shape: {classes.shape}")
    print(f"Tipos de dados das features:")
    print(dados.dtypes)
    print(f"Todas as colunas são numéricas: {dados.select_dtypes(include=['number']).shape[1] == dados.shape[1]}")
    
    result['dados'] = dados.values  # Converter para numpy array
    result['classes'] = classes
    result['label_encoders'] = label_encoders
    
    return result

In [41]:
data = data_set('adult.csv')
xdata = data['dados']
ytarg = data['classes']

xdata = np.array( xdata ) # np.array -> para embaralhar dados
print(xdata.shape)
ytarg = np.array( ytarg )

Dataset carregado:
Dimensões: (32561, 15)
Colunas: ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'class']
Coluna 'workclass' processada: 9 classes únicas
Coluna 'education' processada: 16 classes únicas
Coluna 'marital-status' processada: 7 classes únicas
Coluna 'occupation' processada: 15 classes únicas
Coluna 'relationship' processada: 6 classes únicas
Coluna 'race' processada: 5 classes únicas
Coluna 'sex' processada: 2 classes únicas
Coluna 'native-country' processada: 42 classes únicas
Coluna 'class' processada: 2 classes únicas

Dados finais:
Features shape: (32561, 14)
Classes shape: (32561,)
Tipos de dados das features:
age               int64
workclass         int64
fnlwgt            int64
education         int64
education-num     int64
marital-status    int64
occupation        int64
relationship      int64
race              int64
se

In [37]:
# Inspecionando os dados processados
print("Tipos de dados em xdata:")
print(type(xdata))
print("Shape de xdata:", xdata.shape)
print("\nPrimeiras 5 linhas de xdata:")
print(xdata[:5])
print("\nTipos de dados nas colunas:")
if hasattr(data['dados'], 'dtypes'):
    print(data['dados'].dtypes)
else:
    print("dados não é um DataFrame")

# Verificar se há valores não numéricos
print("\nVerificando primeiras linhas dos dados originais:")
print(data['dados'].head())

Tipos de dados em xdata:
<class 'numpy.ndarray'>
Shape de xdata: (32560, 14)

Primeiras 5 linhas de xdata:
[[50 'Self-emp-not-inc' 83311 'Bachelors' 13 'Married-civ-spouse'
  'Exec-managerial' 'Husband' 'White' 'Male' 0 0 13 'United-States']
 [38 'Private' 215646 'HS-grad' 9 'Divorced' 'Handlers-cleaners'
  'Not-in-family' 'White' 'Male' 0 0 40 'United-States']
 [53 'Private' 234721 '11th' 7 'Married-civ-spouse' 'Handlers-cleaners'
  'Husband' 'Black' 'Male' 0 0 40 'United-States']
 [28 'Private' 338409 'Bachelors' 13 'Married-civ-spouse'
  'Prof-specialty' 'Wife' 'Black' 'Female' 0 0 40 'Cuba']
 [37 'Private' 284582 'Masters' 14 'Married-civ-spouse' 'Exec-managerial'
  'Wife' 'White' 'Female' 0 0 40 'United-States']]

Tipos de dados nas colunas:
39                int64
State-gov        object
77516             int64
Bachelors        object
13                int64
Never-married    object
Adm-clerical     object
Not-in-family    object
White            object
Male             object
217

In [26]:
# embaralhar os dados
nums = list(range(len(ytarg)))
print(nums)
shuffle(nums)
print(nums)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221,

In [27]:
xdata = xdata[ nums ]
ytarg = ytarg[ nums ]

In [28]:
size = len(ytarg)
particao = int(size*0.6) # treino -> 60%

In [29]:
xtreino = xdata[ : particao ]
ytreino = ytarg[ : particao ]
xteste = xdata[ particao : ]
yteste = ytarg[ particao : ]

In [30]:
print(xtreino)
print(ytreino)


[[31 'Self-emp-not-inc' 119411 ... 0 50 'United-States']
 [35 'Private' 283305 ... 0 40 'United-States']
 [43 'Federal-gov' 347720 ... 0 50 'United-States']
 ...
 [56 'Private' 235826 ... 0 40 'United-States']
 [46 'Private' 270693 ... 0 30 'United-States']
 [47 'Self-emp-inc' 206947 ... 0 67 'United-States']]
['<=50K' '<=50K' '<=50K' ... '<=50K' '<=50K' '<=50K']


In [31]:
print(xteste)
print(yteste)

[[59 'Private' 304779 ... 0 40 'United-States']
 [18 'Private' 110142 ... 0 30 'United-States']
 [36 'Private' 130926 ... 0 40 'United-States']
 ...
 [47 'Private' 97842 ... 0 40 'United-States']
 [24 'Private' 228613 ... 0 40 'United-States']
 [60 'Self-emp-inc' 210827 ... 0 40 'United-States']]
['<=50K' '<=50K' '<=50K' ... '<=50K' '<=50K' '>50K']


In [42]:
# Loop para rodar Perceptron 20 vezes
accuracies = []
confusion_matrices = []

print("Executando Perceptron 20 vezes...")
print("-" * 50)

for i in range(20):
    # Embaralhar os dados para cada execução
    nums = list(range(len(ytarg)))
    shuffle(nums)
    
    # Aplicar o embaralhamento
    xdata_shuffled = xdata[nums]
    ytarg_shuffled = ytarg[nums]
    
    # Dividir em treino e teste (60% - 40%)
    size = len(ytarg_shuffled)
    particao = int(size * 0.6)
    
    xtreino = xdata_shuffled[:particao]
    ytreino = ytarg_shuffled[:particao]
    xteste = xdata_shuffled[particao:]
    yteste = ytarg_shuffled[particao:]
    
    # Treinar o Perceptron
    perceptron = Perceptron(max_iter=1000, random_state=None)  # random_state=None para variação
    perceptron.fit(xtreino, ytreino)
    
    # Fazer predições
    yhat = perceptron.predict(xteste)
    
    # Calcular acurácia
    score = metrics.accuracy_score(yteste, yhat)
    accuracies.append(score)
    
    # Calcular matriz de confusão
    matrix = metrics.confusion_matrix(yteste, yhat)
    confusion_matrices.append(matrix)
    
    print(f"Execução {i+1:2d}: Acurácia = {score:.4f}")

print("-" * 50)
print(f"Acurácia média das 20 execuções: {np.mean(accuracies):.4f}")
print(f"Desvio padrão: {np.std(accuracies):.4f}")
print(f"Acurácia mínima: {np.min(accuracies):.4f}")
print(f"Acurácia máxima: {np.max(accuracies):.4f}")

# Mostrar a última matriz de confusão como exemplo
print("\nÚltima matriz de confusão:")
print(confusion_matrices[-1])

Executando Perceptron 20 vezes...
--------------------------------------------------
Execução  1: Acurácia = 0.7787
Execução  2: Acurácia = 0.2438
Execução  3: Acurácia = 0.7721
Execução  4: Acurácia = 0.7853
Execução  2: Acurácia = 0.2438
Execução  3: Acurácia = 0.7721
Execução  4: Acurácia = 0.7853
Execução  5: Acurácia = 0.7910
Execução  6: Acurácia = 0.2406
Execução  7: Acurácia = 0.7783
Execução  5: Acurácia = 0.7910
Execução  6: Acurácia = 0.2406
Execução  7: Acurácia = 0.7783
Execução  8: Acurácia = 0.2458
Execução  9: Acurácia = 0.7755
Execução 10: Acurácia = 0.7866
Execução  8: Acurácia = 0.2458
Execução  9: Acurácia = 0.7755
Execução 10: Acurácia = 0.7866
Execução 11: Acurácia = 0.7888
Execução 12: Acurácia = 0.7905
Execução 13: Acurácia = 0.7645
Execução 14: Acurácia = 0.2405
Execução 11: Acurácia = 0.7888
Execução 12: Acurácia = 0.7905
Execução 13: Acurácia = 0.7645
Execução 14: Acurácia = 0.2405
Execução 15: Acurácia = 0.7934
Execução 16: Acurácia = 0.2435
Execução 17: Acu

In [None]:
# Implementação do exercício: SVM (Support Vector Machine)
from sklearn.svm import SVC

# Loop para rodar SVM 20 vezes
svm_accuracies = []
svm_confusion_matrices = []

print("\n" + "="*60)
print("Executando SVM 20 vezes...")
print("="*60)

for i in range(20):
    # Embaralhar os dados para cada execução
    nums = list(range(len(ytarg)))
    shuffle(nums)
    
    # Aplicar o embaralhamento
    xdata_shuffled = xdata[nums]
    ytarg_shuffled = ytarg[nums]
    
    # Dividir em treino e teste (60% - 40%)
    size = len(ytarg_shuffled)
    particao = int(size * 0.6)
    
    xtreino = xdata_shuffled[:particao]
    ytreino = ytarg_shuffled[:particao]
    xteste = xdata_shuffled[particao:]
    yteste = ytarg_shuffled[particao:]
    
    # Treinar o SVM
    svm = SVC(kernel='linear', random_state=None)  # kernel linear para este dataset
    svm.fit(xtreino, ytreino)
    
    # Fazer predições
    yhat_svm = svm.predict(xteste)
    
    # Calcular acurácia
    score_svm = metrics.accuracy_score(yteste, yhat_svm)
    svm_accuracies.append(score_svm)
    
    # Calcular matriz de confusão
    matrix_svm = metrics.confusion_matrix(yteste, yhat_svm)
    svm_confusion_matrices.append(matrix_svm)
    
    print(f"Execução {i+1:2d}: Acurácia = {score_svm:.4f}")

print("-" * 60)
print(f"SVM - Acurácia média das 20 execuções: {np.mean(svm_accuracies):.4f}")
print(f"SVM - Desvio padrão: {np.std(svm_accuracies):.4f}")
print(f"SVM - Acurácia mínima: {np.min(svm_accuracies):.4f}")
print(f"SVM - Acurácia máxima: {np.max(svm_accuracies):.4f}")

print("\nÚltima matriz de confusão (SVM):")
print(svm_confusion_matrices[-1])

print("\n" + "="*60)
print("COMPARAÇÃO FINAL: PERCEPTRON vs SVM")
print("="*60)
print(f"Perceptron - Acurácia média: {np.mean(accuracies):.4f} ± {np.std(accuracies):.4f}")
print(f"SVM        - Acurácia média: {np.mean(svm_accuracies):.4f} ± {np.std(svm_accuracies):.4f}")

if np.mean(svm_accuracies) > np.mean(accuracies):
    print("🏆 SVM teve melhor performance!")
else:
    print("🏆 Perceptron teve melhor performance!")


Executando SVM 20 vezes...
