# Detector de plágio em composição musical

### Referências

https://www.kaggle.com/code/eslamreda0101/plagirism-checker-using-scikit-learn-ml

https://www.kaggle.com/code/fanbyprinciple/detecting-plagiarism-in-text

In [23]:
import os
import glob
from numpy import vectorize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

## Leitura das letras musicais

In [14]:
dir_raiz = "musicas"

In [24]:
bandas = os.listdir(dir_raiz)
bandas

['wesley-safadao', 'rita-lee', 'pitty', 'mano-walter']

In [60]:
sample_files = glob.glob(dir_raiz + "/*/*.txt")
sample_contents = [open(File).read() for File in sample_files]

In [61]:
%%script true
qtd_limite = 10
sample_files = sample_files[:qtd_limite]
len(sample_files)

In [62]:
sample_files[:10]

['musicas/wesley-safadao/989577.txt',
 'musicas/wesley-safadao/depende-part-dj-guga-e-ze-felipe.txt',
 'musicas/wesley-safadao/parado-no-bailao.txt',
 'musicas/wesley-safadao/vou-dar-virote.txt',
 'musicas/wesley-safadao/saudade-nivel-hard.txt',
 'musicas/wesley-safadao/vamos-falar-de-amor-part-mara-pavanelly.txt',
 'musicas/wesley-safadao/vai-la.txt',
 'musicas/wesley-safadao/1837730.txt',
 'musicas/wesley-safadao/o-cara-errado.txt',
 'musicas/wesley-safadao/veja-so-no-que-deu.txt']

## Vetorização dos textos

In [63]:
vectorize = lambda text: TfidfVectorizer().fit_transform(text).toarray()

In [64]:
similarity = lambda doc1, doc2: cosine_similarity([doc1, doc2])

In [65]:
vectors = vectorize(sample_contents)

In [66]:
s_vectors = list(zip(sample_files, vectors))

In [67]:
s_vectors[:2]

[('musicas/wesley-safadao/989577.txt', array([0., 0., 0., ..., 0., 0., 0.])),
 ('musicas/wesley-safadao/depende-part-dj-guga-e-ze-felipe.txt',
  array([0.        , 0.        , 0.        , ..., 0.        , 0.        ,
         0.13566726]))]

## Comparações entre as letras

In [70]:
%%time
results = set()
for sample_a, text_vector_a in s_vectors:
    for sample_b, text_vector_b in s_vectors:
        if sample_a == sample_b:
            continue
        sim_score = similarity(text_vector_a, text_vector_b)[0][1]
        sample_pair = sorted((sample_a, sample_b))
        score = sample_pair[0], sample_pair[1], sim_score
        results.add(score)

CPU times: user 28min 15s, sys: 11.5 s, total: 28min 27s
Wall time: 7min 6s


In [173]:
import pandas as pd
#pd.set_option('display.width', 0)
pd.set_option('max_colwidth', None)

In [174]:
df = pd.DataFrame(results, columns=["Música 1", "Música 2", "Similaridade"]).round(3)
df.sort_values("Similaridade", ascending=False)

Unnamed: 0,Música 1,Música 2,Similaridade
490847,musicas/mano-walter/nao-deixo-nao.txt,musicas/wesley-safadao/nao-deixo-nao.txt,1.000
300294,musicas/wesley-safadao/2003669.txt,musicas/wesley-safadao/ei-olha-o-som-empinadinha.txt,0.999
545155,musicas/pitty/de-um-role-ao-vivo.txt,musicas/pitty/de-um-role.txt,0.998
421143,musicas/mano-walter/eu-quero-correr-boi.txt,musicas/wesley-safadao/to-nem-ai-eu-quero-correr-boi.txt,0.997
695070,musicas/mano-walter/1892407.txt,musicas/wesley-safadao/1710268.txt,0.996
...,...,...,...
211376,musicas/pitty/1144082.txt,musicas/wesley-safadao/eu-tambem-sei-machucar.txt,0.000
652399,musicas/pitty/la-javanaise.txt,musicas/wesley-safadao/1826413.txt,0.000
652390,musicas/rita-lee/1629282.txt,musicas/wesley-safadao/dez-anos-no-seu-coracao.txt,0.000
211382,musicas/rita-lee/197337.txt,musicas/wesley-safadao/1517252.txt,0.000


In [186]:
df[(df['Similaridade'] < 0.95) & (df['Similaridade'] > 0.7)].sort_values("Similaridade", ascending=False)

Unnamed: 0,Música 1,Música 2,Similaridade
417005,musicas/pitty/1690404.txt,musicas/rita-lee/94.txt,0.949
833982,musicas/wesley-safadao/1106034.txt,musicas/wesley-safadao/beber-e-paquerar-part-rai-saia-rodada.txt,0.947
488103,musicas/wesley-safadao/despedida-part-ze-neto-e-cristiano.txt,musicas/wesley-safadao/despedida.txt,0.937
1011840,musicas/mano-walter/1265791.txt,musicas/wesley-safadao/1369879.txt,0.927
65078,musicas/mano-walter/agora-vai-ser-pra-valer.txt,musicas/wesley-safadao/agora-e-pra-valer.txt,0.923
106431,musicas/pitty/1201441.txt,musicas/pitty/250101.txt,0.923
1133036,musicas/pitty/redimir.txt,musicas/pitty/redmir.txt,0.916
113178,musicas/mano-walter/1892399.txt,musicas/wesley-safadao/1765429.txt,0.915
416275,musicas/wesley-safadao/1616936.txt,musicas/wesley-safadao/920111.txt,0.913
951235,musicas/pitty/1690403.txt,musicas/rita-lee/48515.txt,0.906


## Avaliação de exemplos

In [258]:
idpar = 417005 # lança perfume
idpar = 65078  # agora é pra valer
idpar = 674960 # agora só falta você

In [259]:
par = df.loc[idpar]
musica1 = par[0]
musica2 = par[1]
par

Música 1         musicas/pitty/1219207.txt
Música 2        musicas/rita-lee/48495.txt
Similaridade                         0.712
Name: 674960, dtype: object

In [260]:
letra1 = sample_contents[sample_files.index(musica1)]
letra2 = sample_contents[sample_files.index(musica2)]

In [261]:
letra1

'Agora Só Falta Você\n\nUm belo dia resolvi mudar E fazer tudo o que eu queria fazer Me libertei daquela vida vulgar Que eu levava estando junto a você\nE em tudo que eu faço Existe um porquê Eu sei que eu nasci Sei que eu nasci pra saber\nE fui andando sem pensar em voltar E sem ligar pro que me aconteceu Um belo dia vou lhe telefonar Pra lhe dizer que aquele sonho cresceu\nNo ar que eu respiro Eu sinto prazer De ser quem eu sou De estar onde estou\nAgora só falta você, iê, iê Agora só falta você Agora só falta você, iê, iê Agora só falta você!\n\n'

In [262]:
letra2

'Agora Só Falta Você\n\nUm belo dia resolvi mudar E fazer tudo o que eu queria fazer Me libertei daquela vida vulgar Que eu levava estando junto a você\nE em tudo que eu faço Existe um porquê Eu sei que eu nasci Sei que eu nasci pra saber\nE fui andando sem pensar em voltar E sem ligar pro que me aconteceu Um belo dia vou lhe telefonar Pra lhe dizer que aquele sonho cresceu\nNo ar que eu respiro Eu sinto prazer De ser quem eu sou, de estar onde estou Agora só falta você, yeah, yeah Agora só falta você Agora só falta você, yeah, yeah Agora só falta você\nE fui andando sem pensar em voltar E sem ligar pro que me aconteceu Um belo dia vou lhe telefonar Pra lhe dizer que aquele sonho cresceu\nNo ar que eu respiro Eu sinto prazer De ser quem eu sou, de estar onde estou Agora só falta você, yeah, yeah Agora só falta você Agora só falta você, yeah, yeah Agora só falta você\nAgora só falta você Agora só falta você Agora só falta você Agora só falta você\nÉ você, é você, é você É você, é você, 

## ...

In [263]:
#!pip install -U nltk

In [264]:
import nltk
#nltk.download('punkt')

In [265]:
import re
from nltk.util import ngrams, pad_sequence, everygrams
from nltk.tokenize import word_tokenize
from nltk.lm import MLE, WittenBellInterpolated
import numpy as np
import plotly.graph_objects as go
from scipy.ndimage import gaussian_filter

In [266]:
stopwords = nltk.corpus.stopwords.words('portuguese')
stopwords[:10]

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as']

In [267]:
# Training data file
train_data_file = musica1 #"train.txt"

# read training dataz
with open(train_data_file) as f:
    train_text = f.read().lower()

# apply preprocessing (remove text inside square and curly brackets and rem punc)
train_text = re.sub(r"\[.*\]|\{.*\}", "", train_text)
train_text = re.sub(r'[^\w\s]', "", train_text)
train_text = re.sub(r'[\n]', " ", train_text)

In [268]:
train_text

'agora só falta você  um belo dia resolvi mudar e fazer tudo o que eu queria fazer me libertei daquela vida vulgar que eu levava estando junto a você e em tudo que eu faço existe um porquê eu sei que eu nasci sei que eu nasci pra saber e fui andando sem pensar em voltar e sem ligar pro que me aconteceu um belo dia vou lhe telefonar pra lhe dizer que aquele sonho cresceu no ar que eu respiro eu sinto prazer de ser quem eu sou de estar onde estou agora só falta você iê iê agora só falta você agora só falta você iê iê agora só falta você  '

In [269]:
# set ngram number
n = 4

# pad the text and tokenize
training_data = list(pad_sequence(word_tokenize(train_text, language="portuguese"), n, 
                                  pad_left=True, 
                                  left_pad_symbol="<s>"))

# generate ngrams
ngrams = list(everygrams(training_data, max_len=n))
print("Number of ngrams:", len(ngrams))

# build ngram language models
model = WittenBellInterpolated(n)
model.fit([ngrams], vocabulary_text=training_data)
print(model.vocab)

Number of ngrams: 458
<Vocabulary with cutoff=1 unk_label='<UNK>' and 63 items>


In [270]:
# testing data file
test_data_file = musica2 #"test.txt"

# Read testing data
with open(test_data_file) as f:
    test_text = f.read().lower()
    
test_text = re.sub(r'[^\w\s]', "", test_text)
test_text = re.sub(r'[\n]', " ", test_text)

In [271]:
test_text

'agora só falta você  um belo dia resolvi mudar e fazer tudo o que eu queria fazer me libertei daquela vida vulgar que eu levava estando junto a você e em tudo que eu faço existe um porquê eu sei que eu nasci sei que eu nasci pra saber e fui andando sem pensar em voltar e sem ligar pro que me aconteceu um belo dia vou lhe telefonar pra lhe dizer que aquele sonho cresceu no ar que eu respiro eu sinto prazer de ser quem eu sou de estar onde estou agora só falta você yeah yeah agora só falta você agora só falta você yeah yeah agora só falta você e fui andando sem pensar em voltar e sem ligar pro que me aconteceu um belo dia vou lhe telefonar pra lhe dizer que aquele sonho cresceu no ar que eu respiro eu sinto prazer de ser quem eu sou de estar onde estou agora só falta você yeah yeah agora só falta você agora só falta você yeah yeah agora só falta você agora só falta você agora só falta você agora só falta você agora só falta você é você é você é você é você é você é você agora só falta v

In [272]:
# Tokenize and pad the text
testing_data = list(pad_sequence(word_tokenize(test_text, language="portuguese"), n, 
                                 pad_left=True,
                                 left_pad_symbol="<s>"))
print("Length of test data:", len(testing_data))

Length of test data: 228


In [273]:
# assign scores
scores = []
for i, item in enumerate(testing_data[n-1:]):
    s = model.score(item, testing_data[i:i+n-1])
    scores.append(s)

scores_np = np.array(scores)

In [274]:
# set width and height
width = 8
height = np.ceil(len(testing_data)/width).astype("int32")
print("Width, Height:", width, ",", height)

# copy scores to rectangular blank array
a = np.zeros(width*height)
a[:len(scores_np)] = scores_np
diff = len(a) - len(scores_np)

# apply gaussian smoothing for aesthetics
a = gaussian_filter(a, sigma=1.0)

# reshape to fit rectangle
a = a.reshape(-1, width)

# format labels
labels = [" ".join(testing_data[i:i+width]) for i in range(n-1, len(testing_data), width)]
labels_individual = [x.split() for x in labels]
labels_individual[-1] += [""]*diff
labels = [f"{x:60.60}" for x in labels]

Width, Height: 8 , 29


In [275]:
# create heatmap
fig = go.Figure(data=go.Heatmap(
                z=a, x0=0, dx=1,
                y=labels, zmin=0, zmax=1,
                customdata=labels_individual,
                hovertemplate='%{customdata} <br><b>Score:%{z:.3f}<extra></extra>',
                colorscale="burg"))
fig.update_layout({"height":height*28, "width":1000, "font":{"family":"Courier New"}})
fig['layout']['yaxis']['autorange'] = "reversed"
fig.show()