## APRENDIZADO DE MÁQUINA NÃO SUPERVISIONADO:

## Redução de dimensionalidade utilizando o algoritmo PCA (Principal Componentes Analysis)

O PCA é um dos principais algoritmos de aprendizagem de máquina não supervisionada.

Ele identifica a correlação entre variáveis e, caso haja forte correlação entre elas, decide que é possível reduzir a dimensionalidade dos dados.

Supondo um número m de variáveis, o PCA extrai um novo número p <= m que explica a melhor variação na base de dados, excluindo a variável dependente y. Tal número m é escolhido pelo projetista.


# Parte 1: Importação de bibliotecas

In [None]:
import pandas as pd

# Conversão de dados categóricos em numéricos:
from sklearn.preprocessing import LabelEncoder
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
# Sugestão de leitura: Como fazer LabelEncoder em um DataFrame — Python/SKLearn
# https://gianmedeirao.medium.com/como-fazer-labelencoder-em-um-dataframe-python-sklearn-655ba2c6ae7e

# Normalização dos dados
from sklearn.preprocessing import StandardScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
# Sugestão de leitura: How to Use StandardScaler and MinMaxScaler Transforms in Python:
# https://machinelearningmastery.com/standardscaler-and-minmaxscaler-transforms-in-python/
# https://www.hashtagtreinamentos.com/padronizacao-e-normalizacao-em-ciencia-de-dados

from sklearn.model_selection import train_test_split
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
# Sugestão de leitura:
# https://www.geeksforgeeks.org/how-to-do-train-test-split-using-sklearn-in-python/

from sklearn.decomposition import PCA
# https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

# Classificador Random Forest
from sklearn.ensemble import RandomForestClassifier
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

# Pacote para cálculo da acurácia do modelo de classificação:
from sklearn.metrics import accuracy_score
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html

# Parte 2: Preparação dos dados

O conjunto de dados modificado "census.csv" consiste em aproximadamente 32.000 registros de dados, com cada registro de dados tendo 13 características.

https://archive.ics.uci.edu/dataset/20/census+income

Este conjunto de dados é uma versão modificada do conjunto de dados publicado no artigo "*Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid*", de Ron Kohavi.

Artigo:

https://aaai.org/papers/033-scaling-up-the-accuracy-of-naive-bayes-classifiers-a-decision-tree-hybrid/


In [None]:
# Criando um dataframe a partir do dados do arquivo
df = pd.read_csv('/content/Mall_Customers.csv')
df.head()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


In [None]:
# Seleção de atributos (Dados de entrada)
# Com o método .iloc selecionamos (por índice) todas as linhas,
# e as colunas de 1 a 13 (o segundo parâmetro é excludente)
X = df.iloc[:, 0:14].values

In [None]:
X

array([[1, 'Male', 19, 15, 39],
       [2, 'Male', 21, 15, 81],
       [3, 'Female', 20, 16, 6],
       [4, 'Female', 23, 16, 77],
       [5, 'Female', 31, 17, 40],
       [6, 'Female', 22, 17, 76],
       [7, 'Female', 35, 18, 6],
       [8, 'Female', 23, 18, 94],
       [9, 'Male', 64, 19, 3],
       [10, 'Female', 30, 19, 72],
       [11, 'Male', 67, 19, 14],
       [12, 'Female', 35, 19, 99],
       [13, 'Female', 58, 20, 15],
       [14, 'Female', 24, 20, 77],
       [15, 'Male', 37, 20, 13],
       [16, 'Male', 22, 20, 79],
       [17, 'Female', 35, 21, 35],
       [18, 'Male', 20, 21, 66],
       [19, 'Male', 52, 23, 29],
       [20, 'Female', 35, 23, 98],
       [21, 'Male', 35, 24, 35],
       [22, 'Male', 25, 24, 73],
       [23, 'Female', 46, 25, 5],
       [24, 'Male', 31, 25, 73],
       [25, 'Female', 54, 28, 14],
       [26, 'Male', 29, 28, 82],
       [27, 'Female', 45, 28, 32],
       [28, 'Male', 35, 28, 61],
       [29, 'Female', 40, 29, 31],
       [30, 'Female', 23

In [None]:
# Seleção do target (Dados de saída)
# Com o método .iloc selecionamos (por índice) todas as linhas, apenas a coluna 14 (income)
y = df.iloc[:, 3].values

In [None]:
# Em Machine Learning, o "Label Encoding" é o processo de conversão
# de variáveis categóricas em variáveis numéricas (inteiros).

# Em nosso dataframe, as colunas com variáveis categóricas (e seus índices) são:
# workclass (1), education (3), marital (5), occupation (6), relationship (7), race (8), sex (9) e country (13)

# Criaremos variáveis com o nome das colunas e aplicaremos a transformação para cada uma deles com o LabelEncoder():
le_workclass = LabelEncoder()
le_education = LabelEncoder()
le_marital = LabelEncoder()
le_occupation = LabelEncoder()
le_relationship = LabelEncoder()
le_race = LabelEncoder()
le_sex = LabelEncoder()
le_country = LabelEncoder()

In [None]:
# Usando o método .fit_transform aplicamos os novos valores transformados às colunas:
X[:,1] = le_workclass.fit_transform(X[:,1])
X[:,3] = le_education.fit_transform(X[:,3])


In [None]:
X

array([[1, 1, 19, 0, 39],
       [2, 1, 21, 0, 81],
       [3, 0, 20, 1, 6],
       [4, 0, 23, 1, 77],
       [5, 0, 31, 2, 40],
       [6, 0, 22, 2, 76],
       [7, 0, 35, 3, 6],
       [8, 0, 23, 3, 94],
       [9, 1, 64, 4, 3],
       [10, 0, 30, 4, 72],
       [11, 1, 67, 4, 14],
       [12, 0, 35, 4, 99],
       [13, 0, 58, 5, 15],
       [14, 0, 24, 5, 77],
       [15, 1, 37, 5, 13],
       [16, 1, 22, 5, 79],
       [17, 0, 35, 6, 35],
       [18, 1, 20, 6, 66],
       [19, 1, 52, 7, 29],
       [20, 0, 35, 7, 98],
       [21, 1, 35, 8, 35],
       [22, 1, 25, 8, 73],
       [23, 0, 46, 9, 5],
       [24, 1, 31, 9, 73],
       [25, 0, 54, 10, 14],
       [26, 1, 29, 10, 82],
       [27, 0, 45, 10, 32],
       [28, 1, 35, 10, 61],
       [29, 0, 40, 11, 31],
       [30, 0, 23, 11, 87],
       [31, 1, 60, 12, 4],
       [32, 0, 21, 12, 73],
       [33, 1, 53, 13, 4],
       [34, 1, 18, 13, 92],
       [35, 0, 49, 13, 14],
       [36, 0, 21, 13, 81],
       [37, 0, 42, 14, 17],
   

In [None]:
# Padronização
# É o redimensionamento dos recursos para criar um “padrão” garantindo
# que os novos dados tenham média zero e desvio padrão igual a 1
scaler = StandardScaler()

# Salvando os novos dados já padronizados:
X = scaler.fit_transform(X)

In [None]:
X

array([[-1.7234121 ,  1.12815215, -1.42456879, -1.88641296, -0.43480148],
       [-1.70609137,  1.12815215, -1.28103541, -1.88641296,  1.19570407],
       [-1.68877065, -0.88640526, -1.3528021 , -1.82738877, -1.71591298],
       [-1.67144992, -0.88640526, -1.13750203, -1.82738877,  1.04041783],
       [-1.6541292 , -0.88640526, -0.56336851, -1.76836459, -0.39597992],
       [-1.63680847, -0.88640526, -1.20926872, -1.76836459,  1.00159627],
       [-1.61948775, -0.88640526, -0.27630176, -1.7093404 , -1.71591298],
       [-1.60216702, -0.88640526, -1.13750203, -1.7093404 ,  1.70038436],
       [-1.5848463 ,  1.12815215,  1.80493225, -1.65031622, -1.83237767],
       [-1.56752558, -0.88640526, -0.6351352 , -1.65031622,  0.84631002],
       [-1.55020485,  1.12815215,  2.02023231, -1.65031622, -1.4053405 ],
       [-1.53288413, -0.88640526, -0.27630176, -1.65031622,  1.89449216],
       [-1.5155634 , -0.88640526,  1.37433211, -1.59129203, -1.36651894],
       [-1.49824268, -0.88640526, -1.0

In [None]:
# Com o método train_test_split separamos os dados em treino e teste:
# X_treino e y_treino: dados para treinamento dos modelos (80% dos dados iniciais)
# X_teste e y_teste: dados para teste e avaliação dos modelos (20% dos dados iniciais)

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.20)

In [None]:
X_treino.shape, X_teste.shape

((160, 5), (40, 5))

## Parte 3: Aplicação do algoritmo PCA (Principal component analysis)

In [None]:
# Criamos a variável pca e aplicamos o algoritmo PCA para a redução do número original de colunas para
# um número definido "p"
# O hiperparâmetro "n_components" recebe o valor definido de novas colunas (p)
p = 3
pca = PCA(n_components=p)

In [None]:
# Definimos novas variáveis de treino e testes (agora com um menor números de colunas)
X_treino_pca = pca.fit_transform(X_treino)
X_teste_pca = pca.transform(X_teste)

In [None]:
X_treino_pca.shape, X_teste_pca.shape

((160, 3), (40, 3))

In [None]:
# O método "explained_variance_ratio" permite calcular a
# porcentagem de variância dos dados que consegue ser explicada por cada um dos componentes selecionados

# Relembrando! :-)
# A variância, assim como o desvio padrão, é uma das medidas de dispersão de dados
# que mostra o comportamento dos dados de uma amostra em relação a uma medida central (por exemplo, a média)

pca.explained_variance_ratio_

array([0.40259196, 0.26922933, 0.19365315])

In [None]:
# Somando os percentuais conseguimos ver o quanto nosso
# modelo PCA conseguiu explicar dos dados de entrada
total_variancia = pca.explained_variance_ratio_.sum()
print(f'O modelo PCA com {p} variáveis explica{100*(total_variancia): .2f} % dos dados de entrada')

O modelo PCA com 3 variáveis explica 86.55 % dos dados de entrada


# Parte 4: Aplicando os novos dados gerados em um modelo de classificação.

Utilizaremos o algoritmo de classificação Random Forest com base nos novos dados, após a aplicação da técnica de redução de dimensionalidade.

In [None]:
# Instanciando o objeto do classificador
modelo_rf = RandomForestClassifier(n_estimators=40, random_state=0)

In [None]:
# Usando o método .fit para treinar o modelo

# Com base nos dados de treino iniciais:
modelo_rf.fit(X_treino, y_treino)

# Com base nos dados de treino gerados após a aplicação do algoritmo PCA:
# modelo_rf.fit(X_treino_pca, y_treino)

In [None]:
# Usando o método .predict para estimar os resultados

# Realizando as previsões com base nos dados de teste iniciais
previsoes = modelo_rf.predict(X_teste)

# Realizando as previsões com base nos dados de teste após a aplicação do algoritmo PCA
# previsoes = modelo_rf.predict(X_teste_pca)


In [None]:
previsoes

array([ 54,  17,  46,  20,  62,  87,  37,  76,  67,  60,  63,  34,  78,
        46,  71,  39,  20,  97,  62,  72,  63,  43,  88,  88,  20,  19,
        62,  67,  98,  65,  88,  28, 120,  29,  50,  73,  54,  28,  54,
        48])

In [None]:
y_teste

array([ 54,  18,  44,  23,  62,  87,  33,  76,  69,  60,  64,  37,  78,
        47,  71,  39,  21,  93,  62,  72,  63,  43,  88,  93,  21,  19,
        61,  67,  99,  65,  88,  24, 126,  30,  50,  73,  54,  25,  54,
        48])

In [None]:
# Calculando a acurácia do modelo de classificação:
acuracia = accuracy_score(y_teste, previsoes)
print(f'A acurácia do modelo Random Forest é de:{(100*acuracia): .2f} %')

# Sugestão de leitura:
# Métricas de avaliação de modelos de aprendizado de máquina:
# https://mariofilho.com/as-metricas-mais-populares-para-avaliar-modelos-de-machine-learning/

A acurácia do modelo Random Forest é de: 55.00 %
