<h1 style='font-size:40px'> Unsupervised Learning Techniques</h1>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            A tarefa do ML Não-Supervisionado é o de distinguir instâncias do dataset conforme as suas características, sem precisar de um valor-alvo.
        </li>
        <li> 
            Sua necessidade surge em casos em que não sabemos quantos ou quais tipos de instâncias existem; ou quando o volume de dados é tão grande que seria impossível humanos manualmente os rotularem. 
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Tipos de Unsupervised Learning</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            <em> Clustering:</em> Busca agrupar as instâncias conforme suas características.
        </li>
        <li> 
            <em> Anomaly Detection:</em> Útil para limpeza de datasets. Também é usado como detector de defeitos em linhas de produção e de novas tendências em séries temporais.
        </li>
        <li> 
            <em> Density Estimation:</em> Calcula a Probability Density Function (PDF) do processo aleatório que gerou o dataset. É comumente usado em deteção de anomalias.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Clustering</h2>
<h3 style='font-size:30px;font-style:italic'> Aplicações</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            <em>Análise de Dados:</em> Os algoritmos de clustering podem encontrar agrupamentos entre as instâncias do dataset, permitindo a nós analisá-los separadamente.
        </li>
        <li> 
            <em>Redução de Dimensionalidade:</em> As instâncias do dataset podem ter o seu grau de afinidade com os clusters medido. Dessa forma, o vetor de features é substituído por um vetor com os graus de afinidade. 
        </li>
        <li> 
            <em>Detecção de Anomalia:</em> Instâncias com baixa compatibilidade com os agrupamentos gerados podem ser rotuladas como exceções. 
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> K-Means</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O K-Means é um algoritmo de clustering muito conhecido. Devemos informar quantos agrupamentos pretendemos identificar ao utilizá-lo.
        </li>
        <li> 
            Ele, primeiramente, insere k centróides no plano aleatoriamente. As instâncias de treino são designadas ao núcleo mais próximo, tendo este a sua posição atualizada com a média das coordenadas dos pontos sob seu pertence. Após isso, uma nova fase de designação ocorre com os mesmos procedimentos. Esse processo se repete até que os centróides tenham as suas posições estabilizadas.
        </li>
    </ul>
</div>

In [6]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
X,y = make_blobs(n_samples=100, centers=4)

# Fazendo o K-Means identificar as 4 aglomerações criadas.
kmeans = KMeans(n_clusters=4, random_state=42).fit(X)

# Mostrando as previsões do K-Means.
kmeans.predict(X)

array([1, 0, 0, 3, 2, 3, 1, 2, 1, 1, 1, 3, 3, 2, 2, 1, 0, 0, 1, 0, 1, 2,
       3, 2, 3, 2, 3, 0, 3, 0, 2, 2, 3, 2, 3, 3, 2, 1, 3, 1, 0, 1, 3, 0,
       2, 1, 2, 0, 0, 3, 2, 0, 3, 2, 0, 0, 2, 3, 2, 3, 1, 0, 3, 3, 0, 0,
       1, 2, 2, 2, 2, 1, 0, 0, 1, 0, 1, 0, 3, 1, 1, 0, 0, 3, 2, 3, 3, 1,
       3, 1, 3, 3, 0, 2, 1, 1, 2, 1, 1, 2], dtype=int32)

In [9]:
# As previsões feitas sobre o dataset de treino podem ser visualizadas com o atributo 'labels_'.
kmeans.labels_

array([1, 0, 0, 3, 2, 3, 1, 2, 1, 1, 1, 3, 3, 2, 2, 1, 0, 0, 1, 0, 1, 2,
       3, 2, 3, 2, 3, 0, 3, 0, 2, 2, 3, 2, 3, 3, 2, 1, 3, 1, 0, 1, 3, 0,
       2, 1, 2, 0, 0, 3, 2, 0, 3, 2, 0, 0, 2, 3, 2, 3, 1, 0, 3, 3, 0, 0,
       1, 2, 2, 2, 2, 1, 0, 0, 1, 0, 1, 0, 3, 1, 1, 0, 0, 3, 2, 3, 3, 1,
       3, 1, 3, 3, 0, 2, 1, 1, 2, 1, 1, 2], dtype=int32)

In [10]:
# 'cluster_centers_' revela as coordenadas dos centróides.
kmeans.cluster_centers_

array([[ 4.05955887, -1.11838989],
       [-5.16779115, -8.87428925],
       [-2.45843286,  6.14138294],
       [ 1.76016733,  2.15369352]])

In [12]:
# O método 'transform' nos revela a distância entre as instâncias e os centróides.

# O seu output pode ser usado como substituto das features, configurando uma redução de dimensionalidade.
kmeans.transform(X)[:5]

array([[12.42919372,  0.59193303, 15.8375878 , 13.51875337],
       [ 1.14903207, 12.86673056, 10.64732843,  4.84303955],
       [ 0.7859479 , 12.3152267 , 10.51491467,  4.73439033],
       [ 3.43722127, 12.434918  ,  6.31925756,  0.70846129],
       [10.10814833, 15.65516195,  0.41846547,  6.13946365]])

<p style='color:red'> Centroid Initialization Methods