<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_APRENDIZAGEM_SUPERVISIONADA_E_NAO_SUPERVISIONADA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MACHINE LEARNING | APRENDIZAGEM SUPERVISIONADA VS APRENDIZAGEM NÃO-SUPERVISIONADA

A aprendizagem de máquina (Machine Learning) é um ramo da inteligência artificial que se concentra no desenvolvimento de algoritmos que permitem que os computadores aprendam a partir de dados e façam previsões ou decisões sem serem explicitamente programados para cada tarefa. Existem dois principais tipos de aprendizagem em Machine Learning:

- **Aprendizagem Supervisionada**
- **Aprendizagem Não-Supervisionada**

![MachineLearning](https://github.com/MathMachado/Materials/blob/master/MachineLearningTechniques.jpg?raw=true)

Source: [Machine Learning for Everyone](https://vas3k.com/blog/machine_learning/?source=post_page-----885aa35db58b----------------------)




Neste notebook, vamos explorar cada um desses dois tipos e fornecer três exemplos práticos de cada técnica de treinamento de modelos.


# Aprendizagem Supervisionada

Na **aprendizagem supervisionada**, o modelo é treinado usando um conjunto de dados rotulados. Isso significa que para cada entrada, sabemos qual é a saída esperada. O objetivo é aprender uma função que mapeie entradas para saídas corretas, permitindo que o modelo faça previsões sobre dados novos e não vistos.

## Exemplo 1: Regressão Linear para Previsão de Preços de Casas

Neste exemplo, utilizaremos a regressão linear para prever o preço de casas com base em características como área, número de quartos e idade.

```python
# Importar bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# Carregar o conjunto de dados
data = pd.read_csv('precos_casas.csv')

# Visualizar as primeiras linhas do conjunto de dados
data.head()
```

```python
# Selecionar características e variável alvo
X = data[['area', 'quartos', 'idade']]
y = data['preco']

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Criar e treinar o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = modelo.predict(X_test)

# Avaliar o modelo
erro = mean_absolute_error(y_test, y_pred)
print(f'Erro Médio Absoluto: {erro}')
```

## Exemplo 2: Classificação com K-Nearest Neighbors no Conjunto de Dados Iris

Usaremos o algoritmo KNN para classificar espécies de flores com base em medidas de suas pétalas e sépalas.

```python
# Importar bibliotecas necessárias
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Carregar o conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Criar e treinar o modelo
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = knn.predict(X_test)

# Avaliar o modelo
acuracia = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {acuracia}')
```

## Exemplo 3: Regressão Logística para Detecção de Diabetes

Aplicaremos regressão logística para prever se um paciente tem diabetes com base em características médicas.

```python
# Importar bibliotecas necessárias
data = pd.read_csv('diabetes.csv')

# Visualizar as primeiras linhas do conjunto de dados
data.head()
```

```python
# Selecionar características e variável alvo
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Criar e treinar o modelo
from sklearn.linear_model import LogisticRegression
modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = modelo.predict(X_test)

# Avaliar o modelo
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))
```

# Aprendizagem Não-Supervisionada

Na **aprendizagem não-supervisionada**, o modelo é treinado usando dados não rotulados. O objetivo é descobrir padrões ou estruturas ocultas nos dados sem orientação explícita sobre o que procurar.

## Exemplo 1: Clusterização K-Means em Dados de Clientes

Usaremos o algoritmo K-Means para segmentar clientes em grupos com comportamentos similares.

```python
# Importar bibliotecas necessárias
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Carregar o conjunto de dados
clientes = pd.read_csv('clientes.csv')

# Selecionar características para clusterização
X = clientes[['idade', 'renda_anual', 'score_gastos']]

# Determinar o número ideal de clusters (Elbow Method)
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# Plotar o gráfico do Elbow Method
plt.plot(range(1, 11), wcss)
plt.title('Elbow Method')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.show()
```

```python
# Aplicar K-Means com o número de clusters escolhido
kmeans = KMeans(n_clusters=3, random_state=0)
clientes['Cluster'] = kmeans.fit_predict(X)

# Visualizar os clusters
plt.scatter(clientes['renda_anual'], clientes['score_gastos'], c=clientes['Cluster'])
plt.xlabel('Renda Anual')
plt.ylabel('Score de Gastos')
plt.title('Clusterização de Clientes')
plt.show()
```

## Exemplo 2: Análise de Componentes Principais (PCA) para Redução de Dimensionalidade

Usaremos PCA para reduzir a dimensionalidade de um conjunto de dados de alta dimensão.

```python
# Importar bibliotecas necessárias
from sklearn.decomposition import PCA

# Carregar o conjunto de dados
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data

# Aplicar PCA para reduzir para 2 dimensões
pca = PCA(n_components=2)
X_reduzido = pca.fit_transform(X)

# Visualizar os dados reduzidos
plt.scatter(X_reduzido[:, 0], X_reduzido[:, 1], c=wine.target)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('PCA no Conjunto de Dados Wine')
plt.show()
```

## Exemplo 3: Agrupamento Hierárquico em Dados de Países

Aplicaremos agrupamento hierárquico para agrupar países com base em indicadores socioeconômicos.

```python
# Importar bibliotecas necessárias
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering

# Carregar o conjunto de dados
paises = pd.read_csv('paises.csv')
X = paises[['PIB', 'Expectativa_de_Vida', 'Alfabetizacao']]

# Criar dendrograma
dendrogram = sch.dendrogram(sch.linkage(X, method='ward'))
plt.title('Dendrograma')
plt.xlabel('Países')
plt.ylabel('Distância Euclidiana')
plt.show()
```

```python
# Ajustar o agrupamento hierárquico aos dados
hc = AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward')
paises['Cluster'] = hc.fit_predict(X)

# Visualizar os clusters
plt.scatter(paises['PIB'], paises['Expectativa_de_Vida'], c=paises['Cluster'])
plt.xlabel('PIB')
plt.ylabel('Expectativa de Vida')
plt.title('Agrupamento Hierárquico de Países')
plt.show()
```

# Conclusão

Neste notebook, exploramos os conceitos de aprendizagem supervisionada e não-supervisionada, juntamente com três exemplos práticos de cada técnica. A aprendizagem supervisionada é ideal quando temos dados rotulados e queremos prever resultados futuros. Já a aprendizagem não-supervisionada é útil para descobrir padrões ocultos em dados não rotulados, auxiliando na segmentação e compreensão dos dados.