# Aprendizado de Máquina - Projeto 1
### Guilherme Pereira Corrêa 198397
### Bruno Moreira...

## Parte 1 - Métodos de clusterização

## Coleta e tratamento dos dados

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits import mplot3d
from sklearn.preprocessing import normalize
from sklearn.preprocessing import StandardScaler
import nltk
from nltk.corpus import twitter_samples, stopwords
from nltk.tokenize import TweetTokenizer
from nltk.stem.porter import *
import string
from gensim.models import Word2Vec
from gensim.models import KeyedVectors
import gensim.downloader
import random
from scipy.spatial import distance
from scipy import stats
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from time import perf_counter
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from collections import Counter


### Tarefa 2D padrão:

Vamos primeiro visualizar os dados da tarefa 2D padrão e entender como os mesmos estão distribuídos.

In [None]:
def scatter_data_2D(data):
    plt.scatter(data[:,0],data[:,1])
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()
def scatter_data_3D(data):
    fig = plt.figure()
    ax = plt.axes(projection='3d')
    ax.set_xlabel('Feature 1')
    ax.set_ylabel('Feature 2')
    ax.set_zlabel('Feature 3')
    ax.scatter3D(data[:,0],data[:,1],data[:,2])

data = pd.read_csv('cluster.dat', delimiter=' ')
np_data = data.to_numpy()
print(np_data)
scatter_data_2D(np_data)

Percebe-se, então, que a feature 1 deste conjunto de dados tem uma escala muito maior que a feature 2 e, portanto, pode afetar os resultados por ter um peso maior indesejado nos cálculos de distância que serão realizados. Escalar estes dados pode resolver isso. Além disso, os dados estão distruidos crescentemente e, portanto, devem ser embaralhados na separação entre train set e test set para evitar bias.

In [None]:
#normalizado com StandardScaler()
data_scaled = StandardScaler().fit_transform(np_data)
#normalizado com normalize
data_normalized = normalize(np_data,axis=0)
scatter_data_2D(data_scaled)

Agora vamos definir uma função para separar o dataset em training set e test set.

In [None]:
def split_dataset(data,train_proportion,test_proportion):
    set_size = data.shape[0]
    train_size = int(set_size*train_proportion)
    train_set = data[:train_size]
    test_set = data[train_size:]
    return train_set,test_set

In [None]:
#Dados sem pré processamento
np.random.shuffle(np_data)
train_set,test_set = split_dataset(np_data,0.9,0.1)

#Dados normalizados com StandardScaler
np.random.shuffle(data_scaled)
train_set_scaled,test_set_scaled = split_dataset(data_scaled,0.9,0.1)

#Dados normalizados com normalize
np.random.shuffle(data_normalized)
train_set_normalized,test_set_normalized = split_dataset(data_normalized,0.9,0.1)

### 2º conjunto de dados: tweets.
Foram escolhidos tweets para serem estudados como eles se comportam ao aplicar um algoritmo de clusterização. Porém, por se tratarem de textos, a forma como os mesmos são transformados em vetores de números (embedding) é crucial para o resultado. Neste projeto, esse processo foi dividido em três passos, onde existem diversas maneiras diferentes de se fazer cada um:

1 - Coleta e pré processamento dos tweets.

2 - Word embedding

3 - Document embedding

**1 - Coleta e pré processamento dos tweets**

O download dos tweets foi feito utilizando a biblioteca nltk, contendo 10000 tweets e uma anotação sobre o sentimento de cada um. Essa anotação é feita ao separar os mesmos em dois conjuntos, um para os tweets positivos e o outro para os tweets negativos, ou seja, como essa anotação não será utilizada neste trabalho, então esses dois conjuntos foram simplesmente concatenados um ao outro e então essa lista foi embaralhada a fim de evitar bias no momento de separar entre train set e test set.

O pré processamento de cada tweet foi feito ao remover stopwords, pontuação, links e hashtags, além de tokenização. Não foi feito stemming pois o modelo de embeddings utilizado considera as palavras completas e não suas raizes.

In [None]:
def process_tweet(tweet):
    stemmer = PorterStemmer()
    stopwords_english = stopwords.words('english')
    tweet = re.sub(r'\$\w*', '', tweet)
    # remove retweet text "RT"
    tweet = re.sub(r'^RT[\s]+', '', tweet)
    # remove hyperlinks
    tweet = re.sub(r'https?:\/\/.*[\r\n]*', '', tweet)
    # remove hashtags
    tweet = re.sub(r'#', '', tweet)
    # tokenize tweets
    tokenizer = TweetTokenizer(preserve_case=False, strip_handles=True,
                               reduce_len=True)
    tweet_tokens = tokenizer.tokenize(tweet)

    tweets_clean = []
    for word in tweet_tokens:
        if (word not in stopwords_english and  # remove stopwords
                word not in string.punctuation):
            # remove punctuation
             tweets_clean.append(word)
            #stem_word = stemmer.stem(word)  # stemming word
            #tweets_clean.append(stem_word)
    return tweets_clean

def process_tweet_stem(tweet):
    stemmer = PorterStemmer()
    stopwords_english = stopwords.words('english')
    tweet = re.sub(r'\$\w*', '', tweet)
    # remove retweet text "RT"
    tweet = re.sub(r'^RT[\s]+', '', tweet)
    # remove hyperlinks
    tweet = re.sub(r'https?:\/\/.*[\r\n]*', '', tweet)
    # remove hashtags
    tweet = re.sub(r'#', '', tweet)
    # tokenize tweets
    tokenizer = TweetTokenizer(preserve_case=False, strip_handles=True,
                               reduce_len=True)
    tweet_tokens = tokenizer.tokenize(tweet)

    tweets_clean = []
    for word in tweet_tokens:
        if (word not in stopwords_english and  # remove stopwords
                word not in string.punctuation):
            # remove punctuation
             #tweets_clean.append(word)
             stem_word = stemmer.stem(word)  # stemming word
             tweets_clean.append(stem_word)
    return tweets_clean

In [None]:
nltk.download('twitter_samples')
nltk.download('stopwords')
all_positive_tweets = twitter_samples.strings('positive_tweets.json')
all_negative_tweets = twitter_samples.strings('negative_tweets.json')
all_tweets = all_positive_tweets + all_negative_tweets
#Shuffle para não ter bias na hora de separar entre train_set e test_set
np.random.shuffle(all_tweets)
#Cria um dicionário que mapeia cada index à um tweet para consulta futura
index2tweet_list = []
for i,tweet in enumerate(all_tweets):
    index2tweet_list.append(tweet)

**2 - Word embedding**

Utilizando a biblioteca gensim, foi feito o download do modelo GloVe de 200 dimensões pré treinado no Twitter, essa escolha foi feita pois esse modelo é um dos que apresentam melhores resultados atualmente e, principalmente, porque ele foi treinado no Twitter, e o contexto de treino é muito importante neste tipo de tarefa.

In [None]:
#Treina um modelo de embedding baseado no corpus existente, mas achamos mais conveniente usar um modelo pronto
#embedding_model = Word2Vec(tweets_processed,vector_size=300,min_count=1)

In [None]:
#Embedding GloVe que será utilizado
glove_vectors = gensim.downloader.load('glove-twitter-200')

**3 - Document embedding**

Há diversas maneiras de representar um tweet numericamente, mas muitas são custosas e, por conta disso, utilizamos uma ténica chamada Bag-of-words (BOW), onde a representação de um documento é dada pela soma das representações de cada palavra que o compõe.

In [None]:
def get_tweet_embedding(tweet, embedding_model,dimension):
    tweet_embedding = np.zeros(dimension)
    processed_tweet = process_tweet_stem(tweet)
    print(processed_tweet)
    for word in processed_tweet:
        if embedding_model.get_index(word,False):
            tweet_embedding += embedding_model.get_vector(word,norm=0)
    return tweet_embedding


In [None]:
tweets_embedded = [get_tweet_embedding(tweet,glove_vectors,200) for tweet in all_tweets]

Resta, então, separar entre conjunto de treino e teste.

In [None]:
#Transforma para numpy array
tweets_embedded_np = np.array(tweets_embedded)
#Dados sem nenhuma normalização ou pré processamento desse tipo
tweets_train_set,tweets_test_set = split_dataset(tweets_embedded_np,0.9,0.1)

In [None]:
#Dados normalizados com StandardScaler()
tweets_embedded_np_scaled = StandardScaler().fit_transform(tweets_embedded_np)
tweets_train_set_scaled,tweets_test_set_scaled = split_dataset(tweets_embedded_np_scaled,0.9,0.1)

In [None]:
#Dados normalizados com normalize
tweets_embedded_np_normalized = normalize(tweets_embedded_np, axis = 0)
tweets_train_set_normalized,tweets_test_set_normalized = split_dataset(tweets_embedded_np_normalized,0.9,0.1)

### k-means

Classes e funções implementadas para aplicar o k-means:

In [None]:
class Point:
    def __init__(self, dimensions, point_index, cluster_index):
        self.dimensions = dimensions
        self.point_index = point_index
        self.cluster_index = cluster_index
        self.distance_to_center = -1

class Cluster:
    def __init__(self, dimensions):
        self.dimensions = dimensions
        self.points = []

def k_means(data, k):
    clusters = forgy_cluster_initialization(k, data)
    redefined = 1
    interac = 0
    while redefined == 1:
        if (interac%500 == 0):
            print("interaction number ", interac)
        for point in data:
            for i in range(len(clusters)):
                if (point.cluster_index == -1):
                    point.cluster_index = i
                cluster_from_current_point = clusters[point.cluster_index]
                if (distance.euclidean(point.dimensions, clusters[i].dimensions) < distance.euclidean(point.dimensions, cluster_from_current_point.dimensions)):
                    point.cluster_index = i
                    point.distance_to_center = distance.euclidean(point.dimensions, clusters[i].dimensions)
            clusters[point.cluster_index].points.append(point)
        redefined = redefine_clusters_center(clusters)
        interac += 1
    return clusters
    
def random_initialization(k, data):
    data_points = []
    for point in data:
        data_points.append(point.dimensions)

    max_value = np.max(np.array(data_points)[:,0])
    d = len(point.dimensions)
    clusters = []
    for _ in range(k):
        clusters.append(Cluster([random.uniform(0, max_value)] * d))
    return clusters

def forgy_cluster_initialization(k, data):
    clusters = []
    for _ in range(k):
        random_index = random.randint(0, len(data))
        clusters.append(Cluster(data[random_index].dimensions))
    return clusters

def redefine_clusters_center(clusters):
    redefined = 0
    for cluster in clusters:
        if (len(cluster.points) == 0):
            continue

        d = len(cluster.dimensions)
        sums = [0] * d

        for point in cluster.points:
            for i in range(d):
                sums[i] += point.dimensions[i]

        means = [0] * d
        n = len(cluster.points)
        for i in range(d):
            means[i] = round(sums[i]/n, 300)
            if (means[i] - cluster.dimensions[i] > 0.000001):
                cluster.dimensions[i] = means[i]
                redefined = 1
        if (redefined == 1):
            cluster.points.clear()
    return redefined

def plot_2d_data(clusters):
    colors = ["green","blue","yellow","pink","orange","purple","beige","brown","gray","cyan","magenta", "black"]
    for cluster in clusters:
        plt.plot(cluster.dimensions[0], cluster.dimensions[1], color = 'red', marker = 'o')
        for point in cluster.points:
            plt.scatter(point.dimensions[0], point.dimensions[1], color = colors[point.cluster_index], alpha = 0.5)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()

def elbow_method(min_k, max_k, data):
    costs = []
    for i in range(min_k, (max_k + 1)):
        clusters = k_means(data, i)
        costs.append(cost_evaluation(clusters))
    plt.plot(range(1, max_k + 1), costs, color = 'blue', marker = 'o', alpha = 0.5)
    plt.xlabel('No. clusters')
    plt.ylabel('Cost')
    plt.show()
    return

def silhouette_analysis():
    return

def cost_evaluation(clusters):
    j = 0
    for cluster in clusters:
        for point in cluster.points:
            j += pow(point.distance_to_center, 2)
    return j
def print_tweets_clusters(clusters, all_tweets_table):
    for i in range(len(clusters)):
        print('Cluster número ', i)
        for j in range(10):
            #Imprime 10 tweets aleatorios que pertencem ao cluster i
            print(all_tweets_table[clusters[i].points[random.randrange(0,len(clusters[i].points))].point_index])
        print('--------próximo cluster----------')
    
def print_word_cloud(clusters,all_tweets_table):
    tweets_processed = []
    for i in range(len(all_tweets_table)):
        tweets_processed.append(process_tweet_stem(all_tweets_table[i]))
    for i in range(len(clusters)):
        unique_strings = ''
        print('Cluster número ', i, ' tamanho:', len(clusters[i].points))
        for j in range(len(clusters[i].points)):
            unique_strings += ' '+(' ').join(tweets_processed[clusters[i].points[j].point_index])
        wordcloud = WordCloud(width = 1000, height = 500).generate(unique_strings)
        plt.figure(figsize=(15,8))
        plt.imshow(wordcloud)
        plt.axis("off")
        plt.show()
        plt.close()
        print('--------próximo cluster----------')

**Tarefa 2D padrão:**

Será feito o teste com os dados normalizados com a função normalize do sklearn, StandardScaler e sem realizar nenhum ajuste.

In [None]:
#Aplicar nos sets de treino
#Dados sem pré processamento:
tic = perf_counter()
points = []
for i in range(len(train_set)):
    points.append(Point(train_set[i], i, -1))
numero_de_clusters = 3
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
plot_2d_data(clusters)

In [None]:
#Dados normalizados com StandardScaler
tic = perf_counter()
points = []
for i in range(len(train_set_scaled)):
    points.append(Point(train_set_scaled[i],i, -1))
numero_de_clusters = 3
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
plot_2d_data(clusters)

In [None]:
#Dados normalizador com normalize
tic = perf_counter()
points = []
for i in range(len(train_set_normalized)):
    points.append(Point(train_set_normalized[i],i, -1))
numero_de_clusters = 3
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
plot_2d_data(clusters)

In [None]:
#Dados

Percebe-se então que os dois métodos de normalização fizeram com que o resultado fosse o esperado, enquanto que a técnica aplicada nos dados sem processamento gerou clusters longe do esperado e um custo muito alto. Além disso, percebe-se também que o custo utilizando a função normalize foi menor. Esse resultado faz sentido pois a normalização apresenta melhores resultados quando comparada ao StandardScaler quando os dados do problema não seguem uma distruibuição Gaussiana.

**2º conjunto de dados: tweets.**

Será feito o teste com os dados normalizados com a função normalize do sklearn, StandardScaler e sem realizar nenhum ajuste.

In [None]:
#Dados sem pré processamento:
tic = perf_counter()
points = []
for i in range(len(tweets_train_set)):
    points.append(Point(tweets_train_set_scaled[i],i, -1))
numero_de_clusters = 2
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
print_tweets_clusters(clusters, all_tweets)

In [None]:
#Usando StandardScaler:
tic = perf_counter()
points = []
for i in range(len(tweets_train_set_scaled)):
    points.append(Point(tweets_train_set_scaled[i],i, -1))
numero_de_clusters = 2
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
print_tweets_clusters(clusters, all_tweets)

In [None]:
#Usando normalize:
tic = perf_counter()
points = []
for i in range(len(tweets_train_set_normalized)):
    points.append(Point(tweets_train_set_normalized[i],i, -1))
numero_de_clusters = 2
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
print_tweets_clusters(clusters, all_tweets)

Por conta da representação dos tweets ser um dos possíveis motivos da clusterização não ter tido um resultado muito bom, será testada a representação Doc2Vec, que considera o tweet como um todo na representação e não faz somente uma média da representação de cada palavra do mesmo.

In [None]:
documents = [TaggedDocument(process_tweet_stem(doc), [i]) for i, doc in enumerate(all_tweets)]
model = Doc2Vec(documents, vector_size=100, window=2, min_count=1, workers=4)

In [None]:
document_model_data = [model.dv[i] for i in range(len(all_tweets))]
document_model_data_normalized = normalize(np.array(document_model_data),axis=0)

In [None]:
#Usando normalize:
tic = perf_counter()
points = []
for i in range(len(document_model_data_normalized)):
    points.append(Point(document_model_data_normalized[i],i, -1))
numero_de_clusters = 3
clusters = k_means(points, numero_de_clusters)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
cost = cost_evaluation(clusters)
print(cost)
for i,cluster in enumerate(clusters):
    print('Tamanho do cluster ', i, 'é: ',len(cluster.points))
print_word_cloud(clusters,all_tweets)

In [None]:
print_word_cloud(clusters,all_tweets)

In [None]:
points = []
for i in range(len(document_model_data_normalized)):
    points.append(Point(document_model_data_normalized[i],i, -1))
elbow_method(1,10,points)

In [None]:
documents = [TaggedDocument(process_tweet_stem(doc), [i]) for i, doc in enumerate(all_tweets)]
model_300 = Doc2Vec(documents, vector_size=300, window=2, min_count=1, workers=4)

In [None]:
document_model_data_300 = [model_300.dv[i] for i in range(len(all_tweets))]
document_model_data_normalized_300 = normalize(np.array(document_model_data_300),axis=0)

In [None]:
print(document_model_data_normalized_300)

### Outro método: DBSCAN


O método DBSCAN foi escolhido para ser implementado, já que o mesmo lida bem com outliers e o dataset dos tweets possui alguns, o que pode ter influenciado nos resultados. As classes e funções implementadas foram as seguintes:

In [88]:
class DBSCANpoint:
    def __init__(self,dimensions,index):
        self.dimensions = dimensions
        self.point_index = index
        self.cluster = None
        self.category = 'NONE'
        self.neighbours = []
        self.n_neighbours = 0
        self.there_is_core_in_neighbourhood = False

    def add_neighbour(self,DBSCANpoint):
        self.neighbours.append(DBSCANpoint)
        self.n_neighbours += 1

class DBSCANCluster:
    def __init__(self):
        self.points = []

def dbscan(data,epsilon,M):
    #data is a np.array
    all_points,core_points,outliers = define_type(data,epsilon,M)
    clusters = []
    #form clusters
    for core_point in core_points:
        #Connect all core_points
        for neighbour in core_point.neighbours:
            if neighbour.category == 'CORE':
                if neighbour.cluster == None:
                    #neighbour core point still dont have a cluster_index
                    if (core_point.cluster == None):
                        #both of them dont have a cluster index, so assign them a new one
                        core_point.cluster = DBSCANCluster()
                        neighbour.cluster = core_point.cluster
                        clusters.append(core_point.cluster)
                        core_point.cluster.points.append(core_point)
                        core_point.cluster.points.append(neighbour)
                    else:
                        #core_point already has a cluster    
                        neighbour.cluster = core_point.cluster
                        core_point.cluster.points.append(neighbour)
                else:
                    #neighbour already has a cluster
                    if (neighbour.cluster != core_point.cluster):
                        #print('vizinho já tem cluster e é diferente do outro')
                        #if (neighbour.cluster in clusters):
                        #    print('E ta na lista!')
                        merge_clusters(clusters,core_point.cluster,neighbour.cluster)
                        

    for core_point in core_points:
        #Assign clusters to the border points
        for neighbour in core_point.neighbours:
            if neighbour.category == 'CORE':
                continue
            neighbour.cluster = core_point.cluster
            core_point.cluster.points.append(neighbour)
    return clusters,outliers

def define_type(data,epsilon,M):
    points = []
    core_points = []
    outliers = []
    for i in range(0,len(data)):
        points.append(DBSCANpoint(data[i],i))
    
    for point in points:
        search_neighbours(point,points,epsilon)
        if point.n_neighbours >= M:
            point.category = 'CORE'
            core_points.append(point)
        elif point.there_is_core_in_neighbourhood:
            point.category = 'BORDER'
        else:
            point.category = 'OUTLIER'
            outliers.append(point)
    
    return points,core_points,outliers

def search_neighbours(DBSCANpoint, all_points,epsilon):
    for point in all_points:
        if (distance.euclidean(DBSCANpoint.dimensions,point.dimensions) <= epsilon):
            DBSCANpoint.add_neighbour(point)
            if point.category == 'CORE':
                DBSCANpoint.there_is_core_in_neighbourhood = True

def merge_clusters(clusters_list,cluster_1,cluster_2):
    #all points of cluster 2 are gonna become part of cluster 1
    for point in cluster_2.points:
        point.cluster = cluster_1
        cluster_1.points.append(point)
        cluster_2.points.remove(point)
        #print("ponto removido, agora o tamanho dos pontos do cluster 2 é ", len(cluster_2.points))
    if (cluster_2 in clusters_list):
         clusters_list.remove(cluster_2)
   

def dbscan_plot_2d_data(clusters):
    colors = ["green","blue","yellow","pink","orange","purple","beige","brown","gray","cyan","magenta", "black"]
    for cluster in clusters:
        for point in cluster.points:
            plt.scatter(point.dimensions[0], point.dimensions[1], color = colors[clusters.index(point.cluster)], alpha = 0.5)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()

In [None]:
tic = perf_counter()
M = 5
epsilon = 0.005
clusters_dbscan_2d,_ = dbscan(train_set_normalized, epsilon, M)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")
for i,cluster in enumerate(clusters):
    print('Tamanho do cluster ', i, 'é: ',len(cluster.points))
dbscan_plot_2d_data(clusters_dbscan_2d)

In [89]:
tic = perf_counter()
M = 20
epsilon = 0.2
clusters_dbscan_normalized, outliers_normalized= dbscan(document_model_data_normalized, epsilon, M)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")


KeyboardInterrupt: 

In [None]:
for i,cluster in enumerate(clusters_dbscan_normalized):
    print('Tamanho do cluster ', i, 'é: ',len(cluster.points))
print_word_cloud(clusters_dbscan_normalized,all_tweets)
print('Outliers len: ',len(outliers_normalized))

In [None]:
document_model_data_standard = StandardScaler().fit_transform(np.array(document_model_data))
tic = perf_counter() 
M = 20
epsilon = 0.05
clusters_dbscan_scaled,outliers_scaled = dbscan(document_model_data_standard, epsilon, M)
toc = perf_counter()
total_time = (toc-tic)*1000
print (f"It took {total_time:.2f}ms to run the algorithm.")


In [None]:
for i,cluster in enumerate(clusters_dbscan_scaled):
    print('Tamanho do cluster ', i, 'é: ',len(cluster.points))
print_word_cloud(clusters_dbscan_scaled,all_tweets)
print('Outliers len: ',len(outliers_scaled))

## Parte 2 - Redução de dimensionalidade

A biblioteca scikit lean foi utilizada para aplicar PCA aos dados.

In [None]:
from sklearn.decomposition import PCA
def red_dim(data,n_comp):
    pca = PCA(n_components=n_comp)
    pca.fit(data)
    new_data = pca.transform(data)
    print("Dimensionalidade reduzida, proporção de variância em cada componente é:")
    print(pca.explained_variance_ratio_)
    return new_data

#
tweets_new_2D = red_dim(tweets_embedded_np_normalized_2,2)
scatter_data_2D(tweets_new_2D)
tweets_new_3D = red_dim(tweets_embedded_np_normalized_2,3)
scatter_data_3D(tweets_new_3D)

In [None]:
# k means nos tweets em 2D


Percebe-se então