Dados precisam ser lapidados para que sirvam de algum usufruto.

A área de BI, por exemplo, realiza **modelos descritivos** dos dados, analisando-se o passado. <br>
Com o machine learning, tentamos realizar predições para o futuro, encontrando a função matemática aproximada que pode realizar essa predição.<br>
Em um modelo de regressão linear por exemplo (Y = a+bx), encontra-se os valores de 'a' e 'b' que se adequem aos dados.

Vale lembrar que para os métodos preditivos, existem os métodos baseados em **instância**, **probabilísticos**, baseados em **procura**, baseados em **otimização** etc. Essa escolha pode afetar o tempo de treinamento, métricas de avaliação, complexidade do modelo etc.

Além de escolhermos o melhor algoritmo e método, devemos nos atentar também a escolha das variáveis utilizadas (**feature selection**, redução de dimensionalidade etc).

Lembre-se sempre que ***o negócio é mais importante que a tecnologia empregada***. Identifique sempre as melhores e mais precisas perguntas a se fazer para que se obtenha as respostas adequadas.

No exemplo do dataset 'Iris', os dados sobre as pétalas representam as variáveis preditoras, e a espécie representa a variável target (ou alvo ou label). Ou seja, neste 'negócio', buscamos desvendar a espécie de uma planta dadas algumas características dela.

---

<h3>Métodos</h3>

Baseado em **Instância**: <br>
Armazena os exemplos de treinamento e generaliza quando uma nova instância for classificada, calculando a distância entre o novo ponto de dado e os exemplos armazenados, retornando aquele que tem a menor distância.
A função que determina a similaridade entre 2 pontos de dados é a distância Euclidiana ou distância Manhattan para atributos contínuos e [0 ou 1] para atributos categóricos.
* OBS: tem-se que realizar a normalização dos dados para o intervalo [0,1] em atributos contínuos.
* Outras medidas de distância são a Correlação de Pearson, Similaridade de Cosseno (usado em classificação de textos e dados de alta dimensão) e Distância de Edição (ex. distância entre strings em classificação de textos).

Ex.
Podemos tentar prever o valor de uma casa dado o número de janelas nela. <br>
O algoritmo irá calcular a distância entre a nova casa e as antigas armazenadas, retornando o valor mais próximo encontrado.

- Uma vantagem deste método é de se não ser paramétrico (podem ser usadas distribuições arbitrárias sem o conhecimento da densidade).
- Uma desvantagem deste método é o custo de classificação, já que **todo o processamento ocorre no momento de classificação** (ao se comparar o novo dado com os antigos), ou seja, não é construído um modelo de classificação explícito.
- O treinamento é fácil, já que se trata de uma "memorização" de exemplos.
- A etapa de teste exige um alto custo, já que também compara os novos valores com todos os exemplos de treino.

Ex. de algoritmo desta abordagem:
- KNN (K-Nearest Neighbours)
 - Atribui um rótulo representado mais frequentemente entre os exemplos de amostras (K) mais próximas.<br>
<img src="http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1531424125/KNN_final_a1mrv9.png">

---

Métodos **Probabilísticos**: <br>
Os métodos probabilísticos Bayesianos nos dizem que a probabilidade de A ocorrer, dado um evento B, não depende apenas da relação de A e B, mas também da probilidade de A ocorrer independentemente de B.<br>
<img src="https://miro.medium.com/max/1000/0*6Cp7n-J0DVRPFqAz.jpg"><br>
Neste caso, também se trata de um algoritmo matemático.

Ex de algoritmos
 - Naive Bayes
 - Redes Bayesianas

Cada exemplo de treino pode incrementar ou decrementar a probabilidade de uma hipótese estar correta. Por exemplo, um dado cliente de banco tem uma chance de x% de ser um bom pagador.

Ex.<br>
P(Bom pagador = presente) = 0.85<br>
P(Bom pagador = ausente) = 0.15<br>
P(Casado = positivo | Bom pagador = presente) = 85%<br>
P(Casado = falso | Bom pagador = ausente) = 20%

No caso do Naive Bayes:<br>
Posterior = ( prior x likelihood ) / evidence<br>
ou<br>
P(A|B) = ( P(B|A) * P(A) ) / P(B) <br>
Ou seja, os valores dos atributos são condicionalmente independentes dado o valor alvo.

---

Aprendizagem baseada em **Procura**: <br>
Um exemplo desta aprendizagem é a árvore de decisão  (decisão para classificação e árvore de regressão para regressão), muito útil em mineração de dados, laudos médicos etc (ex. akinator com if's e else's). <br>
É um bom modelo para dados com ruídos.<br>
É também uma boa estrutura para compreensão do modelo.<br>
Outros exemplos famosos são o ID3 (testa-se a capacidade dos atributos de se tornarem o nó raíz, através da medida de entropia [medindo a certeza sobre um evento] e a medida de ganho de informação [o quanto uma variável é boa para explicar os dados por si só]) e C4.5.<br>
<img src="https://didatica.tech/wp-content/uploads/2020/07/image-5.png">

Logo, o método de procura pode ser utilizado também para se procurar as melhores features de um conjunto de dado.

---

Aprendizagem baseada em **Otimização**: <br>

Entre os exemplos mais famosos da aprendizagem por otimização são as redes neurais artificiais e o Support Vector Machines (SVM) (separa objetos através de uma função de otimização quadrática), que envolvem uma regra de otimizar uma função que corrige erros.

Em redes neurais, trabalhamos com entradas que são multiplicadas por alguns pesos(w), somadas e enviadas para uma função de ativação para gerar um output. <br>
É possível que entre o input (neurônios de entrada) e o input (neurônios de saída), haja diversas camadas múltiplas com neurônios escondidos. <br>
Outros exemplos são as Redes Neurais Convulocionais (CNN), redes neurais recorrentes (RNN), rede de Kohonen e rede de Hopfield.<br>
<img src="https://www.trabalhosescolares.net/wp-content/uploads/2007/05/redes_neurais_3_trabalhos_escolares.png">

EM SVMs, buscamos separar elementos (por ex. elementos azuis de vermelhos) através de uma função matemática que busca separar linearmente os dados (mudando a dimensão dos dados de 2d para 3d e buscando um plano que os separe, por exemplo). Sua diferença para as redes neurais se da na forma de como o hiperplano é calculado (distância entre os vetores de suporte e o hiperplano separador).<br>
Ela pode ser usada para problemas de regressão e classificação.<br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/7/72/SVM_margin.png/300px-SVM_margin.png">

---

Aprendizagem não supervisionada - **Clusterização**: <br>
Usada quando os dados de saída não estão disponíveis, e um exemplo bem comum de uso, é o de traçar perfis (com características semelhantes) de clientes em uma dada loja (agrupamento). Isso se dá através de medidas como a euclidiana ou de Manhatan até o centróide.

É importante para esta aprendizagem, a normalização dos dados (colocar na mesma escala). Para isso, pode-se usar os métodos min-max, z-score, desvio absoluto médio etc.

Podemos calcular em qual grupo o novo ponto estará (hard clustering) ou a probabilidade dele pertencer à um grupo (soft clustering).

Exemplos de algoritmos são o K-Means e Hierarchical Clustering.

---

Um grupo de algoritmos de machine learning aplicados a um conjunto de dados recebe o nome de **Ensemble**
<img src="https://www.jcchouinard.com/wp-content/uploads/2021/11/image-10.png">

Como este é um método custoso, podemos enviar amostras aleatórias do conjunto de dados para cada modelo.

Ao final do processo, combina-se os múltiplos modelos.

Quando utilizamos modelos que seguem o mesmo princípio (ex. todos árvores de decisão), chamamos a técnicas de Bootstrap Aggregation ou Bagging. O algoritmo Random Forest, por exemplo, é um conjunto de árvores, ou método ensemble.

Quando utilizamos modelos que seguem o mesmo princípio, mas que tentam corrigir os erros do modelo anterior, temos a técnica de Boosting (ex. Stochastic Gradient Boosting).

---

**Redução de Dimensionalidade**:<br>

Apesar da parte boa do BIG DATA, ele retorna para nós o problema da alta dimensionalidade (muitos atributos na base de dados).

Podemos contornar esse problema com técnicas de redução de dimensionalidade. <br>
 - Através da extração de atributos, retiramos atributos da base de dados. Nesta técnica, podemos utilizar por exemplo, Principal Component Analysis (PCA), Multidimensional Scaling, FastMap etc.
 - Através da seleção de atributos, selecionando quais atributos devem permanecer. Nesta técnica, podemos utilizar por exemplo, algoritmos de Ap. Máq. (como árvores de decisão), cálculo de dimensão fractal, wrapper etc.
  - Também podemos mesclar atributos, como no caso em que Cidade e Estado se tornam 'Cidade - Estado' (ex. Poços, MG se torna Poços - MG)

Outras técnicas para a redução da dimensionalidade são:
- **Low Variance Filter** (filtro de baixa variância)
  - Calcula-se a variância dos dados, caso ela seja muito baixa, pode-se eliminar a feature.
- **High Correlation Filter**
  - Filtrar as variáveis com alta correlação (problema da multicolinearidade  -> ex. 2 features representando a mesma informação, como idade e ano de nascimento).
- **Random Forests / Ensemble Trees**
  - Utiliza-se as árvores de decisão que criam um modelo que entrega uma lista das variáveis mais relevantes ao modelo.
- **Missing Values Ratio** (taxa de valores missing)
  - Calcula-se a taxa de valores nulos em uma feature, para talvez eliminá-la caso haja muitos valores missing.
- **Forward Feature Construction**
  - Começa-se com 1 atributo e testa-se a acurácia de acordo com a adição de atributos e combinações.
- **Backward Feature Elimination**
  - Semelhante ao Forward Feature Construction, mas elimina as variáveis em cada etapa e testa a nova acurácia.

**PCA**<br>
Se trata de um algortimo de aprendizagem não supervisionada, que encontra os componentes que representam a informação nas variáveis, podendo ser utilizada para gerar índices e agrupamentos de indivíduos, por exemplo.

<img src="https://ashutoshtripathicom.files.wordpress.com/2019/07/pca_title-1.jpg">

Neste exemplo, transformamos 3 variáveis em 2 componentes (que contém informações presentes nas 3 variáveis). Cada componente resultante é uma combinação de N atributos presentes no conjunto de dados, reduzindo-se a dimensionalidade, ou seja, diminuindo a quantidade de dados enquanto se reduz a perda de informação.

* Obs: O PCA necessita de dados normalizados

<h2> Features Engineering com Variáveis Categóricas </h2>

---

Precisamos de alternativas para representar as variáveis categóricas de uma forma numérica, sem mudar a informação contida

Ex. utilizando R

Lendo o arquivo em um dataset:
```r
dataset_bank <- read.table("bank/bank-full-csv", sep = ";", header = True)
View(dataset_bank)
```

Criando uma nova coluna através da coluna 'marital' (tipo de união conjugal):
1. Lendo a coluna 'marital' da tabela dataset_bank
```r
table(dataset_bank$marital)
```
2. Instalando os pacotes dplyr e ggplot2 para plot dos gráficos
```r
library(dplyr)
library(ggplot2)
dataset_bank %>%
    group_by(marital)%>%
    summarise(n = n())%>%
    ggplot(aes(x = job, y = n))+
    geom_bar(stat = "identity")+
    theme(axis.text.x = element_text(angle = 90, hjust= 1))
```

3. Adicionando uma nova coluna traduzindo as uniões conjugais para português
```r
dataset_bank <- dataset_bank %>%
    mutate(marital_pt_br =
        case_when(marital = "divorced" ~ "divorciado",
                  marital = "married" ~ "casado",
                  (...)
        )
View(data_set_bank)
```
Obs: caso deixe algum valor sem correspondente, será inserido um valor 'n/a' no lugar.

4. Agrupando as pessoas por tipo de união e arredondano a porcentagem em 2 casas
```r
round(prop.table(table(dataset_bank$marital_pt_br)),2)
```

--- 

Transformando uma variável categórica em um valor (variáveis Dummies).<br>

5. Ex. Colocar 1 para pessoas casadas e 0 para as outras uniões criando uma nova coluna
```r
dataset_bank <- dataset_bank %>%
    mutate(is_married = ifelse(marital = "married", 1, 0))
```

6. Podemos utilizar também a técnica de one-hot encoding (criamos colunas com os valores dos atributos, colocamos 1 para quando a variável apresenta essa característica e 0 quando para as outras). Por exemplo, caso haja 3 tipos de união conjugal, criaremos 3 colunas "married", "divorced" e "single", e caso a pessoa do registro seja casada, a coluna "married" recebe 1 e as outras duas colunas recebem 0.<br>
Criando um novo dataframe com as variáveis categóricas em formato de one-hot encoding:
```r
library(caret)
var_dummies <- dummyVars("~ .", data = dataset_bank)
bank.dummies <- data.frame(predict, var_dummies, newdata =  dataset_bank))
View(bank.dummies)
```

Extra.<br>
Agrupando dados em R (agrupando número de pessoas por tipo de união e grau de educação) 
```r
dataset_bank %>%
    group_by(marital, education) %>%
    summarise(n = n())
```

Extra2. <br>
Criando variáveis dummy que representam a junção (agrupamento) de educação e união conjugal
```r
var_dummies <- dummyvars( ~ marital:education, data = dataset_bank)
bank.cross <- predict(var_dummies, newdata = dataset_bank)
View(bank.cross_mar_and_edu)
```
