# Machine Learning
## KMeans - Agrupamento de Dados

## Importando bibliotecas ##

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans

## Carregando a base de dados iris

In [None]:
iris = pd.read_csv("iris.csv")

In [None]:
iris.head()

In [None]:
from IPython.display import Image
Image(filename ="iris-data-set.png", width=500, height=500)

## Separando os valores de dados e classes

In [None]:
X = iris.drop('Species',axis=1)
X[:10]

In [None]:
y = iris.Species
y.unique()


## Convertendo valores categórios de classe em numéricos

In [None]:
def converte_classe(l):
    if l == 'Iris-virginica':
        return 0
    elif l == 'Iris-setosa':
        return 1
    elif l == 'Iris-versicolor':
        return 2

In [None]:
y = y.apply(converte_classe)
y.value_counts()

## Instânciando o Algoritmo K-means com 3 clusters ##

In [None]:
kmeans = KMeans(n_clusters=3, init='random')

In [None]:
kmeans.fit(X)

## Centroids ##

In [None]:
kmeans.cluster_centers_

In [None]:
kmeans.cluster_centers_[:, 1]

## Tabela de distância ##

In [None]:
distance = kmeans.fit_transform(X)
distance # onde obtiver a menor distancia entre 0,1,2 foi onde ocorreu a escolha da classe.

In [None]:
distance[0]

## Visualizando valores de distância para cada cluster ##

In [None]:
%matplotlib notebook
x = ['Cluster 0','Cluster 1','Cluster 2']
plt.barh(x,distance[10])
plt.xlabel('Distância')
plt.title('Distância por Clusters ')
plt.show()

## Imprimindo Rótulos ##

In [None]:
labels = kmeans.labels_
labels

## Visualizando os Centroids ##

In [None]:
%matplotlib notebook
plt.figure(figsize=(8,6))
plt.scatter(X['SepalLength'], X['SepalWidth'], s = 100, c = kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 300, c = 'red',label = 'Centroids')
plt.title('Dataset Iris e Centroids')
plt.xlabel('SepalLength')
plt.ylabel('SepalWidth')
plt.show()


## Agrupando novos dados ##

In [None]:
data = [
        [ 4.12, 3.4, 1.6, 0.7],
        [ 5.2, 5.8, 5.2, 6.7],
        [ 3.1, 3.5, 3.3, 3.0]
    ]
kmeans.predict(data)

## Visualizando os resultados ##

In [None]:
%matplotlib notebook
f,(ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(8,6))
ax1.set_title('Original')
ax1.scatter(X['SepalLength'], X['SepalWidth'],s=150,c=sorted(y))
ax2.set_title('KMeans')
ax2.scatter(X['SepalLength'], X['SepalWidth'],s=150,c=sorted(kmeans.labels_))

## Estimando o valor do parametro K - Método Elbow

In [None]:
%matplotlib notebook
wcss = []

for i in range(1, 11):
    kmeans2 = KMeans(n_clusters = i, init = 'random')
    kmeans2.fit(X)
    print (i,kmeans2.inertia_)#inertia=som. dos erros quadráticos.
    wcss.append(kmeans2.inertia_)
    
plt.plot(range(1, 11), wcss)
plt.title('O Metodo Elbow')
plt.xlabel('Numero de Clusters')
plt.ylabel('WSS') #within cluster sum of squares
plt.show()

#por meio do gráfico é possivel dizer 
#que a partir da iteração 3 as distancias dos erros quadraticos não mais tão relevantes, portanto o valor seria k=3.

## Técnicas de Validação

### Matriz de Confusão

In [None]:
print (pd.crosstab(y,kmeans.labels_, rownames=['Real'], colnames=['Predito'], margins=True))

### Metricas de classificação

In [None]:
from sklearn import metrics
clusters = ['Cluster 2','Cluster 1','Cluster 0']
print(metrics.classification_report(y,kmeans.labels_,target_names=clusters))