# Tipos de algoritmos de Aprendizado de Maquina

## Aprendizado supervisionado

### Clasificação

. Detecção de Fraudes
. Classificação de Imagens
. Retenção de Clientes
. Diagnósticos

### Regressão

. Previsões
. Predições
. Otimização de Processos
. Precificação

## Aprendizado não supervisionado

### Redução Dimensional

. Elicitação de Recursos
. Descoberta de Estruturas
. Compreensão significativa
. Visualização de Big Data

### Clusterização

. Sistemas de Recomendação
. Alvo do Marketing
. Segmentação de Clientes

## Aprendizado por Reforço

. Decisão em Tempo Real
. Navegação de Robôs
. IA em jogos
. Aprendizado de Tarefas
. Aquisição de Habilidades

<br>

## Identificação

Algoritmos que **fazem uso** da informação fornecida pelas **classes associadas às instâncias** de dados são geralmente chamados de algoritmos **Supervisionados**.

Algoritmos que **não utilizam a informação da classe** ou, que foram **propostos com o intuito de apenas serem agrupadores de subconjuntos de instâncias** do conjunto original de instâncias fornecidos, são caracterizados como algoritmos **Não-supervisionados**.

Existem também os algoritmos conhecidos como **Semissupervisionados** que, alternativamente, utilizam técnicas de aprendizado supervisionado e não supervisionado para conduzirem o processo de aprendizado.

O **Aprendizado por reforço** se concentra em **ensinar uma gente a tomar ações apropriadas** em um ambiente para maximizar uma recompensa acumulada. É baseado em conceitos de recompensa e punição, onde o **agente aprende a tomar ações ótimas ao longo do tempo através da experimentação** e do recebimento de recompensas. Este tipo de aprendizado é **amplamente utilizado em problemas de controle de sistemas, jogos, robótica e outras áreas**.

<br>

## Regressão

Técnica de aprendizado de máquina que visa prever o valor de uma variável dependente (também chamada de variável de saída ou resposta) com base em uma ou mias variáveis independentes (também chamadas de variáveis de entrada ou explicativas)

Alguns dos principais algoritmos incluem:

### Regressão linear:
É o algoritmo mais simples e procura encontrar a reta de melhor ajuste que minimiza a soma dos quadrados dos erros entre os valores previstos e os valores reais.

### Regressão logística:
É usada para problemas de classificação binária e estima a probabilidade de pertencimento a uma classe.

### Regressão polinomial:
É uma extensão da regressão linear que permite modelar relações não lineares entre as variáveis independetes e dependentes.

### Árvores de decisão:
É uma técnica de aprendizado supervisionado que pode ser usada tanto para classificação quanto para regressão.

### Random Forest:
É uma técnica de aprendizado por ensemble que combina várias árvores de decisão para melhoras a precisão das previsões.

### SVM (Support Vector Machine):
É uma técnica de aprendizado supervisionado que procura encontrar a melhor separação entre as classes de dados. Pode ser usada tanto para classificação quanto para regressão.

## Classificação

O algoritmo de classificação é uma técnica de aprendizado supervisionado que visa prever a categoria a que uma determinada amostra pertence (classificação) com base em características ou recursos de entrada.

Alguns dos principais algoritmos incluem:

### K-Nearest Neighbors (KNN):
É um algoritmo baseado em instâncias que classifica novos exemplos com base na similaridade com os exemplos presentes no conjunto de treinamento.

### Naive Bayes:
É um algoritmo probalístico que supõe independência entre as variáveis de entrada e calcula a probabilidade de cada classe dado as características de entrada.

### Árvore de Decisão:
É uma técnica de aprendizado supervisionado que constrói uma árvore de decisão para modelar a relação entre as variáveis de entrada e a variável de saída categórica.

### Random Forest:
É uma técnica de aprendizado por ensemble que combina várias árvores de decisão para melhorar a precisão das previsões.

### SVM (Support Vector Machine):
É uma técnica de aprendizado supervisionado que procura encontrar a melhor separação entre as classes de dados.

### Rede Neural Artificial (RNA):
É uma técnica de aprendizado de máquina que simula o funcionamento do cérebro humano e é amplamente utilizada para tarefas de classificação.

## Algoritmos Não-supervisionados

Algoritmos não-supervisionados são técnicas de aprendizado de máquina que não têm uma variável dependente ou rótulo para guiar o processo de treinamento. Em vez disso, esses algoritmos procuram descobrir padrões ou estruturas nos dados sem orientação externa.

Alguns dos principais algoritmos incluem:

### Clustering:
É o processo de agrupamento de dados em grupos (clusters) com base em sua similaridade. Alguns exemplos incluem K-Means, Hierarchical Clustering e DBSCAN.

### Redução de dimensionalidade:
É o processo de transformação de dados de alta dimensão em dados de baixa dimensão, mantendo a informação importante. Alguns exemplos incluem PCA (Análise de Componentes Principais) e t-SNE.

### Aprendizado de Representação:
É o processo de aprendizado de uma representação compacta e informativa dos dados, com o objetivos de facilitar tarefas de análise ou classificação futuras. Alguns exemplos incluem Autoencoders e Word Embeddings.

### Análise de Componentes Independetes (ICA):
É uma técnica que procura descobrir componentes não correlacionadas nos dados.

### Associação de Regras de Atributos (Apriori):
É uma técnica de mineração de dados que busca encontrar regras de associação entre itens em grandes conjuntos de dados.

## Clustering

Clustering é um tipo de algoritmo de aprendizado não supervisionado que tem como objetivo agrupar dados semelhantes em "clusters" ou grupos. O algoritmo procura encontrar estruturas ou padrões nos dados sem uma orientação externa, e os dados são classificados em diferentes grupos com base em sua similaridade.

Alguns dos principais algoritmos de clustering incluem:

### K-Means:
É um algoritmo iterativo procura dividir os dados em k grupos fixos, minimizando a soma das distâncias dos pontos aos centróides dos respectivos grupos.

### Hierarchical clustering:
É um algoritmo que constrói uma árvore de agrupamentos (ou dendograma) a partir dos dados, onde cada nó representa um cluster.

### DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
É um algoritmo baseado em densidade que procura encontrar agrupamentos densos de dados, sem especificar o número de clusters.

### Gaussian Mixture Model (GMM):
É uma técnica de modelagem probabilística que supõe que os dados são gerados por uma mistura de distribuições normais.

### Affinity Propagation:
É um algoritmo que utiliza uma mensagem-passing iterativo para encontrar agrupamentos, sem especificar o número de clusters.

In [None]:
from sklearn.datasets import load_iris
import time

data = load_iris() # Podemos usar load_iris(as_frame = True) para retornar os dados como dataframe 
data, target = load_iris(return_X_y = True, as_frame = True) # Retorna a data e as classificações de forma separada

data.data # traz somente os dados
data.target # traz somente a classificação dos dados
data.DESCR # traz a descrição de cada um dos atributos do dataset
data.feature_names # traz o nome de cada um dos atributos do dataset
data.data['petal width (cm)'] # traz somente o atributo petal width Obs. é necessário usar o as_frame = True para retornar os dados como dataframe