João Otávio C. Dias

Anotações/observações acerca dos estudos e práticas realizadas nos tipos de modelos citados abaixo:

## SUPERVISIONADOS ##

### CLASSIFICAÇÃO

#### Comparações dos modelos ####

1. **KNN - Vizinho mais próximo (classificação)**
    - KNN suporta 'non-linear solutions'.
    - KNN é 'non-parametric'.
    - Calcular a distância no caso de dataset com multivariáveis:
        - Dis(x1,x2) = Math.sqrt( (x1i - x2i)² )  Obs.: x1, x2, x3.. var independentes.
    - Normalizar os dados: como o algoritmo tem que realizar os cálculos de distância, normalizar melhora este esforço de cálculo.  
    
    
2. **Decision Trees**
    - Decision tree suporta 'non-linear solutions'.
    - Decision tree é 'non-parametric'.
    - Trees: calcular a entropia (quanto menor melhor).. medida de aleatoridade ou incerteza. Ou seja, quanto menos incerteza num nodo (esta mais para uma medida), fácil decidir.
    - Information gain: cálcula o nível de certeza após split dos nodos. Comparar qual split é melhor para a árvore.
    - Comparando árvores:
        - Decision tree: single (única árvore de decisão)
        - Random forest: bagging (várias árvores pequenas para ver a melhor decisão)
        - XGBoosting: boosting (pega o retorno do que não deu e verifica na próxima arvore)
        

3. **Logistic Regression**
    - Somente 'linear solutions'
    - Aplicações:
        + Prever a probabilidade de uma pessoa ter ataque de coração.
        + Prever a mortalidade de pacientes doentes.
        + Prever a propensão de um cliente comprar um produto ou interromper uma assinatura.
        + Prever a probabilidade de falha de um determinado processo ou produto.
        + Prever a probabilidade de um proprietário deixar de pagar uma hipoteca.
        
    
4. **Support Vector Machine**
    - SVM suporta 'non-linear solutions'.
    - SVM é melhor para detectar outliers do que KNN.
    - Aplicações:
        + Classificação de imagens
        + Reconhecimento de escrita a mão
        + Tarefas de mineração de textos
        + Detecção de spam
        + Análise de sentimentos
        + Classificação de genes (por causa da precisão com 'high dimensional spaces')
    - Vantagens:
        + Precisão para 'high-dimensional spaces'
        + Eficiente uso de memória
    - Desvantagens:
        + Propenso a overfitting se o número de variáveis dependentes for maior que número de amostras.
        + Não estima probabilidade. É concebido para classificação.
        + Não é bom para datasets grandes.

#### Métricas: ####
- _Jaccard index_: 'metrics.accuracy_score' ou 'jaccard_similarity_score' (iguais)
- Baseados na matriz de confusão:

|   | Positivo(1)  | Negativo(0) |
|---|---        |---          |
|   | TP        |  FN         |
|   | FP        |  TN         |

- Precision = TP / (TP + FP)
    + Otimizar o 'precision' é o mesmo que otimizar o 'falso positivo' para ser menor.
- Recall = TP / (TP + FN):
    + Otimizar o 'recall' é o mesmo que otimizar o 'falso negativo' para ser menor. 
- F1-score = 2x (prc x rec) / (prc + rec)
    + UTILIZAR: classification_report(y_test, yhat)
    + Erro tipo 1 = FP
    + Erro tipo 2 = FN
- _Log loss_: usar método 'log_loss(y_test, yhat_prob)'




* * *
## NÃO SUPERVISIONADOS ##

### Clusterização

#### Cluster baseado em partições ####

1. **K-means**
    - Utiliza a distância entre as amostras para modelar os clusters.
    - Tenta minimizar a distância "intra-cluster" (dentro de um cluster) e maximizar a distância "inter-cluster" (entre os clusters). 
    - Para médio ou grande datasets (mais eficiente do que o hierarquico).

#### Cluster hierárquico ####

1. **Cluster Aglomerativo**
    - Para pequenos datasets (vantagem do gráfico dendogram em relação ao cluster de partição).
    - Aproximação "BOTTOM -> UP"
    - Pares de cluster são aglorerados em direção do topo. Aglomerações: acumular. 
    - Para aglomerar, calcula-se iniciando pela menor distância entre as variáveis, e vai recalculando a matriz de proximidade e repetindo o processo.
    - Tipos de cálculo de distância entre clusters:
        + Single-linkage: distância minima entre os clusters.
        + Complete-linkage: distância máxima entre os clusters (pontos mais distantes).
        + Average-linkage: distância média entre os clusters.
        + Centroid-linkage: distância entre os pontos-médio dos clusters.
    

2. **Cluster Divisivo**
    - Para pequenos datasets (vantagem do gráfico dendogram em relação ao cluster de partição).
    - Divisão "TOP -> DOWN"
    - Começa com um grande cluster e quebra em peças menores. Ex.: estudo genético de raças de cães.

#### Cluster baseado em densidade ####

1. **DBSCAN**
    - Algoritmo de clusterização assim como o K-means, porém com um funcionamento diferente para segmentar pontos.
    - O DBSCAN possui dois parâmetros importantes para agrupar pontos: epsilon (Eps) e Qtd Mínima de pontos (MinPts) dentro de epsilon.
    - Muito bom para ser utilizado para detecção de OUTLIERS, pois além de dectar os clusters, identifica aqueles que não estão dentro de um cluster, ou seja, outliers.
    - Para isto, pode-se utilizar **PCA** para reduzir dimensões, ou seja, quando se tem muitas variáveis no dataset, o algoritmo de clusterização terá uma mapa de pontos muito dispersado e, com isto, leva-se muito tempo para calcular as distâncias entre os pontos e também pode gerar muito outlier. 
    - PCA: reduz as dimensões. Por exemplo, de 6 variáveis pode reduzir para 2. No caso se perde alguns dados, mas é aqueles com baixa correlação, ou seja, que menos influenciam.
    
* * *
## SISTEMAS DE RECOMENDAÇÃO ##

- Para implementar sistemas de recomendação existem duas formas:
    + ***Memory-based:*** usa todo o conjunto de dados do usuário para gerar uma recomendação. Baseado em técnicas estátisticas para aproximar usuários ou items: "Pearson Correlation"; "Cosine Similarity"; "Euclidian Distance";
    + ***Model-based:*** desenvolver modelos para tentar aprender as preferênicas do usuário. Utiliza regressão, classificação,  clusterização, etc.

**TIPOS DE RECOMENDAÇÃO**

1. **Content-based (Baseado em conteúdo)**
    - Baseia-se na frase: "Mostre-me mais do que gostei antes.".
    - Tenta descobrir quais são os aspectos favoritos de um usuário e fazer recomendações sobre itens que compartilham esses aspectos.
    - Como funciona:
        + Criar um "vector profile" do usuário: preencher com as avaliações do usuário (input user rating);
        + Criar uma matriz "one hot enconder" com os genêros sendo as features/colunas. Exemplo: em caso de filmes, cada filme avalido pelo usuário seria uma linha e as colunas os genêros dos filmes marcados com "1" o genêro de cada;
        + Então multiplica o primeiro vetor com as avaliações pela matriz das features. Ou seja, cria a matriz "weighted feature". Com isto gerou-se uma nova matriz: "Weighted Matrix";
        + Então a partir da matriz anterior, cria-se a matriz do perfil do usuário (cada coluna é o genero com os valores somados). Só normalizar para ficar a matriz "user profile";
        + Agora, basta usar esta matriz do perfil do usuário para multiplicar por qualquer matriz das opções disponíveis para o usuário. Por exemplo, em caso de filmes multiplica por uma matriz de filmes sendo que as colunas são os generos dos filmes. Após multiplicado, soma os valores por filme e ordena para achar as maiores preferências.
    - Qual o problema desta técnica:
        + no caso de filmes por exemplo, se você quer recomendar outr genero que ele nunca tenha assistido, não tem como fazer, pois só recomenda baseado naquilo que ele avaliou (user rating).
        

2. **Collaborative Filtering**
    - Baseia-se na frase: "Diga-me o que é popular entre os meus vizinhos, porque talvez eu também goste.".
    - Tenta encontrar grupos de usuários similares, e fornece recomendações baseadas nos gostos simlares deste grupo.
    - TIPOS:
        + **User-based:**
            + baseado na similaridade dos usuários ou vizinhos.
            + Primeiro calcula a similaridade com outros usuários (matriz de similaridade) baseados em itens em comuns que eles avaliaram (rating).
            + Para calcular esta similaridade, usar "Pearson Correlation"; "Cosine Similarity"; "Euclidian Distance".
            + Multiplica esta matriz de similaridade com as avaliações comuns dos outros usuários. Cria-se a matriz de pesos: weighted ratings.
            + Agora tem que agregar (somar) a matriz de weighted ratings pelos itens (no caso de filmes, somar por filme). E normaliza os resultados: fazemos isso dividindo pela soma da matriz de similaridade de cada usuário.

        + **Item-based:**
            + baseado na similaridade dos itens.
      
     - Desafios de "Collaborative Filtering":
         + Escassez de dados: quando usuários não fazem avaliações dos itens.
         + "Cold start" ou partida a frio: quando é um novo usuário, não tem como recomendar.
         + Escalabilidade: quando aumenta muito o número de usuários, o algoritmo perde performance para fazer as similaridades. Para isto, tem que usar outras técnicas.
