# Dia 4
Como lidar com problemas não supervisionados e análise de dados

## K-Means

Para que server algoritmos não-supervisionados? E como posso medir seu desempenho?

Exemplo do algoritmo K-means:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.DataFrame({
    'x': [12, 20, 28, 18, 29, 33, 24, 45, 45, 52, 51, 52, 55, 53, 55, 61, 64, 69, 72],
    'y': [39, 36, 30, 52, 54, 46, 55, 59, 63, 70, 66, 63, 58, 23, 14, 8, 19, 7, 24]
})
plt.scatter(df['x'], df['y'], color='k')
plt.show()

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=0)
kmeans.fit(df)
labels = kmeans.labels_
print(labels)
colormap = {1: 'r', 2: 'g', 3: 'b'}
plt.scatter(df['x'], df['y'],  c=labels.astype(np.float))


Utilização interessante para o K-means, vamos realizar um Vector Quantization de uma imagem do summer palace, reduzindo o número de cores unicas de 96,615 para 64, tentando preservar a aparencia e qualidade da imagem.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin
from sklearn.datasets import load_sample_image
from sklearn.utils import shuffle

# Carregando e mostrando a imagem original

china = load_sample_image("china.jpg")


#  Conversão para float em vez dos 8-bit int, dividindo por 255, 
#é importante a conversão para float para a impressão correta da imagem 
# transformando a imagem em um np.array de 2 dimensões
china = np.array(china, dtype=np.float64) / 255

#print(china.shape)

plt.figure(1)
plt.clf()
ax = plt.axes([0, 0, 1, 1])
plt.axis('off')
plt.title('Original image (96,615 colors)')
plt.imshow(china)


In [None]:
#quantidade de cores e clusters
k_colors = 64

w, h, d = original_shape = tuple(china.shape)
assert d == 3
image_array = np.reshape(china, (w * h, d))

image_array_sample = shuffle(image_array, random_state=0)[:1000]

Bem, agora que configuramos a imagem e escolhemos aleatoriamente um conjunto menor de dados, treine o kmeans criando um objeto com o nome "kmeans" e teste com a imagem completa em modo de np.array "image_array"

In [None]:
#Acrescente o código aqui 

In [None]:
codebook_random = shuffle(image_array, random_state=0)[:k_colors + 1]
print("Predicting color indices on the full image (random)")
labels_random = pairwise_distances_argmin(codebook_random,
                                          image_array,
                                          axis=0)


def recreate_image(codebook, labels, w, h):
    """Recreate the (compressed) image from the code book & labels"""
    d = codebook.shape[1]
    image = np.zeros((w, h, d))
    label_idx = 0
    for i in range(w):
        for j in range(h):
            image[i][j] = codebook[labels[label_idx]]
            label_idx += 1
    return image


plt.figure(2)
plt.clf()
ax = plt.axes([0, 0, 1, 1])
plt.axis('off')
plt.title('Quantized image (64 colors, K-Means)')
plt.imshow(recreate_image(kmeans.cluster_centers_, labels, w, h))

plt.figure(3)
plt.clf()
ax = plt.axes([0, 0, 1, 1])
plt.axis('off')
plt.title('Quantized image (64 colors, Random)')
plt.imshow(recreate_image(codebook_random, labels_random, w, h))
plt.show()

Agora, iremos testar o k-means com uma base de dados já conhecida, a base de plantas iris, vamos tentar agrupar os dados já conhecidos. Crie um dicionário com 3 estimadores, variando o número de grupos e um com um início diferente para os centroides.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


from sklearn.cluster import KMeans
from sklearn import datasets

np.random.seed(5)

centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()

In [None]:
# coloque o dicionário aqui

Atenção, substitua o comentário pelo treino do estimador e a variável "labels" pelos grupos criados por cada estimador. (Apenas para melhor visualização de dados) 

In [None]:

fignum = 1
for name, est in estimators.items():
    fig = plt.figure(fignum, figsize=(4, 3))
    plt.clf()
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

    plt.cla()
    
    
    #substitua aqui

    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))

    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    ax.set_xlabel('Petal width')
    ax.set_ylabel('Sepal length')
    ax.set_zlabel('Petal length')
    fignum = fignum + 1

# Plot the ground truth
fig = plt.figure(fignum, figsize=(4, 3))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

plt.cla()

for name, label in [('Setosa', 0),
                    ('Versicolour', 1),
                    ('Virginica', 2)]:
    ax.text3D(X[y == label, 3].mean(),
              X[y == label, 0].mean() + 1.5,
              X[y == label, 2].mean(), name,
              horizontalalignment='center',
              bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
plt.show()

## Hierarchical clustering

Hierarchical clustering é uma familia de algoritmos de clustering que gera clusters interligados juntando ou separando sucessivamente os dados. O Hierachical algoritm é representado como uma árvore. A raiz é o unico cluster que junta todos os samples e as folhas são clusters de apenas um sample.

In [None]:
import matplotlib.pyplot as plt
from scipy import misc
from sklearn.feature_extraction.image import grid_to_graph
from sklearn.cluster import AgglomerativeClustering
from sklearn.utils.testing import SkipTest
from sklearn.utils.fixes import sp_version

face = misc.face(gray=True)

# Redução da imagem para 10% visando diminuir o processamento
face = misc.imresize(face, 0.10) / 255.

X = np.reshape(face, (-1, 1))
#tipo de conectividade entre clusters
connectivity = grid_to_graph(*face.shape)


In [None]:
#crescente o código aqui

In [None]:
label = np.reshape(ward.labels_, face.shape)

plt.figure(figsize=(5, 5))
plt.imshow(face, cmap=plt.cm.gray)
for l in range(n_clusters):
    plt.contour(label == l, contours=1,
                colors=[plt.cm.spectral(l / float(n_clusters)), ])
plt.xticks(())
plt.yticks(())
plt.show()

Nesse Notebook, iremos discutir algumas abordagens e utilizações de uma rede Neural para realizar uma análise de sentimento de reviews de filmes, de modo automático, em outras palavras iremos "ensinar" uma máquina a automaticamente identificar se uma review é positiva ou negativa de um filme. Para isso utilizaremos um dataset preparadado pela [Udacity](https://br.udacity.com/). O dataset está dividido em dois arquivos reviews.txt e reviews_labels.txt, onde respectivamente são as reviews e as classificações de cada um em "positive" e "negative".

Vamos dar uma olhada no dataset e dividí-lo adequadamente.

In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer #pre-processamento dos dados
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import pandas as pd

In [None]:
g = open('dados/reviews.txt', 'r') #Abrindo o documento
reviews = list(map(lambda x:x[:-1],g.readlines()))
g.close()

In [None]:
len(reviews)

In [None]:
sz = 0
for i in reviews:
    sz += len(i)
print(sz/len(reviews))

In [None]:
g = open('dados/reviews_labels.txt', 'r') #Abrindo o documento
labels = list(map(lambda x:x[:-1],g.readlines()))
g.close()

In [None]:
labels[4]

Como podemos ver, nossa database possui 25 mil instâncias com reviews de em média 1300 palavras, tornando-o suficientemente grande para demorar muito tempo, por tanto vamos trabalhar com um número menor de instâncias:

In [None]:
train_vectors = reviews[:2000]
train_labels = labels[:2000]
test_vectors = reviews[2000:3000]
test_labels = labels[2000:3000]

Bem, nossos dados ainda precisam de algum pré-processamento para utilizarmos em nossos algoritmos, utilizaremos o método estatístico [TF-idf](https://en.wikipedia.org/wiki/Tf%E2%80%93idf) para darmos pesos para as palavras 

In [None]:
print(train_vectors[1])

Agora, utilizando os algoritmos aprensentados até agora, tente classificar as reviews em positivas e negativas, qual algoritmo se apresenta melhor?

In [None]:
#Acrescente seu código aqui

# Titanic

O afundamento do RMS Titanic é um dos mais infames naufrágios da história. Em 15 de Abril de 1912, durante sua viagem de estreia, o Titanic naufragou ao colidir com um iceberg, matando 1502 de 2224 passageiros e tribupação.

Nesse desafio, pedimos um modelo capaz de analizar que tipos de pessoas tinham mais condições de sobreviver.
Tradução livre do Kaggle: https://www.kaggle.com/c/titanic

In [None]:
vectorizer = TfidfVectorizer(min_df=5,
                             max_df = 0.8,
                             sublinear_tf=True,
                             use_idf=True)

train_vectors = vectorizer.fit_transform(train_vectors)
test_vectors = vectorizer.transform(test_vectors)

In [None]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd
import matplotlib.pyplot as plt
%matplotlib inline

Vamos analizar nossos dados, utilizando a biblioteca Pandas para tirarmos algumas conclusões sobre.

In [None]:
train = pd.read_csv('dados/train.csv')
test = pd.read_csv('dados/test.csv')
combine_data = [train, test]

In [None]:
print(train.columns.values)


Com os nomes dos descritores de nossa base de dados, precisamos saber o que cada um representa:

Survival	Sobrevivência(Target do problema)	0 = Não, 1 = Sim

pclass	Classe do Ticket (Algo como classes de viagens de avião)	1 = 1ª 2 = 2ª, 3 = 3ª

Sex	Gênero sexual	

Age	Idade em anos	

Sibsp	(Siblins) Irmãos ou conjuges

Parch	Parentes e filhos	

Ticket	Número do Ticket	

Fare	Tarifa da passagem	

Cabin	Número da cabine	

Embarked	Porto de embarcação	C = Cherbourg, Q = Queenstown, S = Southampton

In [None]:
# preview the data
train.head()

In [None]:
train.describe()

In [None]:
train.describe(include=['O']) # Descrição de atributos categóricos

Utilizando o que foi aprendido durante o minicurso, tente resolver esse problema com a melhor acurácia possível, perceba que não é necessário fazer o cross_validation, visto que os conjuntos de treinot e teste já estão dividídos

In [None]:
#Acrescente o código aqui