<a href="https://colab.research.google.com/github/atritiack/exemplo/blob/main/AC3_Final_Software_Product.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## APRENDIZADO DE MÁQUINA NÃO SUPERVISIONADO:

## Redução de dimensionalidade utilizando o algoritmo PCA (Principal Componentes Analysis)

O PCA é um dos principais algoritmos de aprendizagem de máquina não supervisionada.

Ele identifica a correlação entre variáveis e, caso haja forte correlação entre elas, decide que é possível reduzir a dimensionalidade dos dados.

Supondo um número m de variáveis, o PCA extrai um novo número p <= m que explica a melhor variação na base de dados, excluindo a variável dependente y. Tal número m é escolhido pelo projetista.


# Parte 1: Importação de bibliotecas

In [1]:
import pandas as pd

# Conversão de dados categóricos em numéricos:
from sklearn.preprocessing import LabelEncoder
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
# Sugestão de leitura: Como fazer LabelEncoder em um DataFrame — Python/SKLearn
# https://gianmedeirao.medium.com/como-fazer-labelencoder-em-um-dataframe-python-sklearn-655ba2c6ae7e

# Normalização dos dados
from sklearn.preprocessing import StandardScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
# Sugestão de leitura: How to Use StandardScaler and MinMaxScaler Transforms in Python:
# https://machinelearningmastery.com/standardscaler-and-minmaxscaler-transforms-in-python/
# https://www.hashtagtreinamentos.com/padronizacao-e-normalizacao-em-ciencia-de-dados

from sklearn.model_selection import train_test_split
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
# Sugestão de leitura:
# https://www.geeksforgeeks.org/how-to-do-train-test-split-using-sklearn-in-python/

from sklearn.decomposition import PCA
# https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

# Classificador Random Forest
from sklearn.ensemble import RandomForestClassifier
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

# Pacote para cálculo da acurácia do modelo de classificação:
from sklearn.metrics import accuracy_score
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html

# Parte 2: Preparação dos dados

O conjunto de dados modificado "census.csv" consiste em aproximadamente 32.000 registros de dados, com cada registro de dados tendo 13 características.

https://archive.ics.uci.edu/dataset/20/census+income

Este conjunto de dados é uma versão modificada do conjunto de dados publicado no artigo "*Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid*", de Ron Kohavi.

Artigo:

https://aaai.org/papers/033-scaling-up-the-accuracy-of-naive-bayes-classifiers-a-decision-tree-hybrid/


In [2]:
# Criando um dataframe a partir do dados do arquivo
df = pd.read_csv('/content/census.csv')
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [3]:
# Seleção de atributos (Dados de entrada)
# Com o método .iloc selecionamos (por índice) todas as linhas,
# e as colunas de 1 a 13 (o segundo parâmetro é excludente)
X = df.iloc[:, 0:14].values

In [None]:
X

In [4]:
# Seleção do target (Dados de saída)
# Com o método .iloc selecionamos (por índice) todas as linhas, apenas a coluna 14 (income)
y = df.iloc[:, 14].values

In [5]:
# Em Machine Learning, o "Label Encoding" é o processo de conversão
# de variáveis categóricas em variáveis numéricas (inteiros).

# Em nosso dataframe, as colunas com variáveis categóricas (e seus índices) são:
# workclass (1), education (3), marital (5), occupation (6), relationship (7), race (8), sex (9) e country (13)

# Criaremos variáveis com o nome das colunas e aplicaremos a transformação para cada uma deles com o LabelEncoder():
le_workclass = LabelEncoder()
le_education = LabelEncoder()
le_marital = LabelEncoder()
le_occupation = LabelEncoder()
le_relationship = LabelEncoder()
le_race = LabelEncoder()
le_sex = LabelEncoder()
le_country = LabelEncoder()

In [6]:
# Usando o método .fit_transform aplicamos os novos valores transformados às colunas:
X[:,1] = le_workclass.fit_transform(X[:,1])
X[:,3] = le_education.fit_transform(X[:,3])
X[:,5] = le_marital.fit_transform(X[:,5])
X[:,6] = le_occupation.fit_transform(X[:,6])
X[:,7] = le_relationship.fit_transform(X[:,7])
X[:,8] = le_race.fit_transform(X[:,8])
X[:,9] = le_sex.fit_transform(X[:,9])
X[:,13] = le_country.fit_transform(X[:,13])

In [None]:
X.shape

In [7]:
# Padronização
# É o redimensionamento dos recursos para criar um “padrão” garantindo
# que os novos dados tenham média zero e desvio padrão igual a 1
scaler = StandardScaler()

# Salvando os novos dados já padronizados:
X = scaler.fit_transform(X)

In [None]:
X

In [8]:
# Com o método train_test_split separamos os dados em treino e teste:
# X_treino e y_treino: dados para treinamento dos modelos (80% dos dados iniciais)
# X_teste e y_teste: dados para teste e avaliação dos modelos (20% dos dados iniciais)

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.20)

In [None]:
X_treino.shape, X_teste.shape

## Parte 3: Aplicação do algoritmo PCA (Principal component analysis)

In [9]:
# Criamos a variável pca e aplicamos o algoritmo PCA para a redução do número original de colunas para
# um número definido "p"
# O hiperparâmetro "n_components" recebe o valor definido de novas colunas (p)
# p = 10
p = 8
# pca = PCA(n_components=None)
pca = PCA(n_components=p)

In [10]:
# Definimos novas variáveis de treino e teste (agora com um menor número de colunas)
X_treino_pca = pca.fit_transform(X_treino)
X_teste_pca = pca.fit_transform(X_teste)

In [11]:
X_treino_pca.shape, X_teste_pca.shape

((26048, 8), (6513, 8))

In [12]:
# O método "explained_variance_ratio" permite calcular a
# porcentagem de variância dos dados que consegue ser explicada por cada um dos componentes selecionados

# Relembrando! :-)
# A variância, assim como o desvio padrão, é uma das medidas de dispersão de dados
# que mostra o comportamento dos dados de uma amostra em relação a uma medida central (por exemplo, a média)

pca.explained_variance_ratio_

array([0.15038222, 0.10173574, 0.08943721, 0.08261594, 0.07777425,
       0.07371301, 0.06618205, 0.06443934])

In [13]:
# Somando os percentuais conseguimos ver o quanto nosso
# modelo PCA conseguiu explicar dos dados de entrada
total_variancia = pca.explained_variance_ratio_.sum()
print(f'O modelo PCA com {p} variáveis explica{100*(total_variancia): .2f} % dos dados de entrada')

O modelo PCA com 8 variáveis explica 70.63 % dos dados de entrada


# Parte 4: Aplicando os novos dados gerados em um modelo de classificação.

Utilizaremos o algoritmo de classificação Random Forest com base nos novos dados, após a aplicação da técnica de redução de dimensionalidade.

In [14]:
# Instanciando o objeto do classificador
modelo_rf = RandomForestClassifier(n_estimators=40, random_state=0)

In [None]:
y_treino.shape

In [15]:
# Usando o método .fit para treinar o modelo

# Com base nos dados de treino iniciais:
# modelo_rf.fit(X_treino, y_treino)

# Com base nos dados de treino gerados após a aplicação do algoritmo PCA:
modelo_rf.fit(X_treino_pca, y_treino)

In [16]:
# Usando o método .predict para estimar os resultados

# Realizando as previsões com base nos dados de teste iniciais
# previsoes = modelo_rf.predict(X_teste)

# Realizando as previsões com base nos dados de teste após a aplicação do algoritmo PCA
previsoes = modelo_rf.predict(X_teste_pca)


In [17]:
previsoes

array([' <=50K', ' >50K', ' <=50K', ..., ' <=50K', ' <=50K', ' <=50K'],
      dtype=object)

In [18]:
y_teste

array([' <=50K', ' >50K', ' >50K', ..., ' <=50K', ' <=50K', ' <=50K'],
      dtype=object)

In [19]:
# Calculando a acurácia do modelo de classificação:
acuracia = accuracy_score(y_teste, previsoes)
print(f'A acurácia do modelo Random Forest é de:{(100*acuracia): .2f} %')

# Sugestão de leitura:
# Métricas de avaliação de modelos de aprendizado de máquina:
# https://mariofilho.com/as-metricas-mais-populares-para-avaliar-modelos-de-machine-learning/

A acurácia do modelo Random Forest é de: 72.41 %
