<a href="https://colab.research.google.com/github/leaop/Graduation/blob/main/Supervisionado_e_n%C3%A3o_supervisionado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmo Supervisionado
Algoritmo supervisionado é o algoritmo que possui uma classe alvo, ou seja, sabemos o que o modelo deseja prever.

Na área, é muito comum chamar a classe alvo de target (alvo em inglês)

No treinamento do modelo, é fornecido, ao algoritmo
de ML, um conjunto de exemplos de treinamento com
cada exemplo (registro) sendo formado por um vetor de
atributos (variáveis independentes) e o rótulo da classe
associada (variável dependente).

![Treinamento.png](attachment:Treinamento.png)

Exemplo de código para classificação supervisionada (Árvore de Decisão):

In [None]:
# Importa a biblioteca pandas com o apelido pd
import pandas as pd

In [None]:
# Realiza a leitura dos dados
df = pd.read_csv('iris.csv')

## Exploração da base de dados

In [None]:
df.head()

Estamos trabalhando com um dataset com informações de pétalas e sépalas de 3 tipos de flores.

Para quem não sabe a diferença entre pétalas e sépalas:
![sepala.jpg](attachment:sepala.jpg)

In [None]:
# Verificar quantos registros de cada alvo (flor)
df.flor.value_counts()

Repare que a cima podemos identificar que nossa base de dados está perfeitamente balanceada, tendo exatamente a mesma quantidade de registros de cada classe.

Uma base balanceada faz com que os modelos de machine learning "considerem" todas as classes com igual importância. Já uma base muito desbalanceada, pode fazer com que os modelos acertem mais as categorias com mais registros e errem mais as categorias com menos registros.

Ainda analisando os tipos de flores, segue uma imagem com exemplo de cada flor que temos na base de dados:
![Iris-Dataset-Classification.png](attachment:Iris-Dataset-Classification.png)

In [None]:
# Verificar quantidade de valores núlos por coluna
df.isna().sum()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.describe(include='O')

## Treinamento do modelo

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
# Separar entre x (atributos) e y (alvo)
X = df[['comprimento sepala', 'largura sepala', 'comprimento petala', 'largura petala']].values
y = df[['flor']].values

In [None]:
X

In [None]:
y

In [None]:
# Dividir o conjunto de dados em treino e teste com 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Define qual o modelo
clf = DecisionTreeClassifier()

# Treina o modelo de Árvore de Decisão
clf.fit(X_train, y_train)

## Testar modelo supervisionado

In [None]:
# Faz previsões no conjunto de teste
y_predict = clf.predict(X_test)
y_predict

In [None]:
# Calculando a acurácia do modelo
acc = accuracy_score(y_test, y_predict)
print("Acurácia: {:.2f}%".format(acc * 100))

In [None]:
# Exibe as classes que o modelo foi treinado para identificar
clf.classes_

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

ConfusionMatrixDisplay(confusion_matrix=confusion_matrix(y_test, y_predict), display_labels=clf.classes_).plot()

# Algoritmo não supervisionado

Algoritmo não supervisionado é o algoritmo que não possui uma classe alvo, ou seja, não sabemos o que o modelo deseja prever.

Geralmente os algoritmos não supervisionados geram clusters (grupos de registros semelhantes) que após gerados, ainda é necessário analisar o que o cluster representa.

O modelo identifica os registros com características semelhantes e os agrupa em clusters.

![n%C3%A3o%20super.png](attachment:n%C3%A3o%20super.png)

Exemplo de código para classificação não-supervisionada (K-means):

In [None]:
from sklearn.cluster import KMeans
#from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt

# Realiza a leitura dos dados
df = pd.read_csv('iris.csv')

# Separa apenas os atributos para o treinamento (atributos são as "colunas" previsoras)
X = df[['comprimento sepala', 'largura sepala', 'comprimento petala', 'largura petala']].values

In [None]:
X.max()

In [None]:
X.min()

Repare que os valores máximos e mínimos não são tão discrepantes. Então neste caso, não irei normalizar os dados.

## Como calcular a quantidade de clusters?
Neste caso já sabemos que a quantidade de clusters é 3, mas caso não soubéssemos, usaríamos o método do cotovelo, conforme vems abaixo

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from IPython.display import clear_output 

# Defina o intervalo de valores k
k_range = range(1, 10)

# Execute o algoritmo de clustering para cada valor k e armazene a soma dos erros quadráticos em uma lista
sse = []
for k in k_range:
    km = KMeans(n_clusters=k)
    km.fit(X)
    sse.append(km.inertia_)
    # Limpa as mensagens de saída
    clear_output(wait=True)

# Trace a curva de cotovelo
plt.plot(k_range, sse)
plt.xlabel('Número de Clusters (k)')
plt.ylabel('soma dos erros quadráticos ')
plt.title('Método do Cotovelo')
plt.show()

## Treinar / exibir clusters

In [None]:
# Treinando o modelo de K-means com 3 clusters
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

In [None]:
# Visualizando os clusters criados
plt.scatter(X[:, 2], X[:, 3], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 2], kmeans.cluster_centers_[:, 3], marker='x', s=200, linewidths=3, color='r')
plt.xlabel("Comprimento Pétala")
plt.ylabel("Largura Pétala")
plt.title('Largura x Comprimento Pétala')
plt.show()

# Visualizando os clusters criados
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', s=200, linewidths=3, color='r')
plt.xlabel("Comprimento Sépala")
plt.ylabel("Largura Sépala")
plt.title('Largura x Comprimento Sépala')
plt.show()

# Algoritmos Híbridos

São algoritmos que usam mais de um tipo de classificadores, podendo ser, por exemplo, a mistura de algoritmos supervisionados ou não supervisionados.

No geral, são menos utilizados pois geralmente possuem um nivel de complexidade muito elevado e nem sempre este nível de complexidade significa melhores reultados.

Com o algorítmo de Floresta aleatória (Random Forest Classifier), são reunídos vários tipos de árvores de decisão em uma floresta aleatória, que explora a diversidade das árvores para aprimorar o modelo resultante, que combina a saída de várias árvores de decisão para chegar a um único resultado. Sua facilidade de uso e flexibilidade alimentaram sua adoção, pois lida com problemas de classificação e regressão.


Exemplo de código para algoritmo híbrido (Floresta Aleatória):

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

df = pd.read_csv('iris.csv')
# Dividir o conjunto de dados em treino e teste com 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Treinando o modelo de Floresta Aleatória
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)

In [None]:
# Fazendo previsões no conjunto de teste
y_predict = clf.predict(X_test)

# Calculando a acurácia do modelo
acc = accuracy_score(y_test, y_predict)
print("Acurácia: {:.2f}%".format(acc * 100))
ConfusionMatrixDisplay(confusion_matrix=confusion_matrix(y_test, y_predict), display_labels=clf.classes_).plot()

# Exercício

* Realize a leitura da base de dados vinho.csv (a coluna nota representa a nota que o vinho possui, podemos levar ela em considereção para ser nossa classe alvo);

* Faça uma análise da base de dados;

* trate os valores núlos, se houver;

* Separe os dados em X e y (normalize os dados de X se achar necessário);

* Separe os dados em treinamento e teste com 20% para teste;

* Escolha algum algoritmo para treinar com os dados de treinamento;

* Exiba a acurária e a matriz de confusão nos dados de teste.
