# > Brazilian poem similarity < 
___

In [1]:
## importing

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.manifold import TSNE
from sklearn.metrics.pairwise import cosine_distances, euclidean_distances 

import pandas as pd
import numpy as np
import plotly.express as px
import string

In [48]:
## loading the dataset

df = pd.read_csv('data/portuguese-poems.csv')
df.head()

Unnamed: 0,Author,Title,Content,Views
0,Cecília Meireles,Retrato,"Eu não tinha este rosto de hoje,\r\nAssim calm...",1018431
1,Fernando Pessoa,"Para ser grande, sê inteiro: nada","Para ser grande, sê inteiro: nada\r\nTeu exage...",1979413
2,Marina Colasanti,"Eu sei, mas não devia",Eu sei que a gente se acostuma. Mas não devia....,301509
3,Carlos Drummond de Andrade,Quadrilha,João amava Teresa que amava Raimundo\r\nque am...,1421206
4,Eugénio de Andrade,É urgente o amor,É urgente o amor.\r\nÉ urgente um barco no mar...,621197


In [49]:
## Selecting the text

title_df = df.loc[:,'Content']
print(title_df[0])

Eu não tinha este rosto de hoje,
Assim calmo, assim triste, assim magro,
Nem estes olhos tão vazios,
Nem o lábio amargo.

Eu não tinha estas mãos sem força,
Tão paradas e frias e mortas;
Eu não tinha este coração
Que nem se mostra.

Eu não dei por esta mudança,
Tão simples, tão certa, tão fácil:
- Em que espelho ficou perdida
A minha face?


In [51]:
## removing punctuation and lowering the words

special_punct = ['\r\n','\r','\n']

for punctuation in special_punct:
    title_df = title_df.str.replace(str(punctuation),' ')
    
for punctuation in string.punctuation:
    title_df = title_df.str.replace(str(punctuation),' ').str.lower()

In [55]:
## dropping two datapoints that are for some reason null

title_df.dropna(inplace=True)

In [56]:
## vectorizing using default tfidf

tf_transf = TfidfVectorizer()
x = tf_transf.fit_transform(title_df)

In [58]:
## inspecting our dataset

x

<15541x118177 sparse matrix of type '<class 'numpy.float64'>'
	with 1298630 stored elements in Compressed Sparse Row format>

In [None]:
## WOW 118177 columns? a lot of different words!! Let's reduce it!

tsne_reduct = TSNE(n_components=3,perplexity=50)
x3d = tsne_reduct.fit_transform(x.toarray())

In [None]:
fig = px.scatter_3d(df, x='sepal_length', y='sepal_width', z='petal_width',color='species')
fig.show()