### Similitud de textos usando distribuciones de probabilidad

In [95]:
import markovify
import re
import math

#### Obtener y generar los textos

In [122]:
# Read the original text 

with open("./sol_1.txt", 'r', encoding='utf-8') as f:
    original_text = f.read()


In [97]:
# Generate a markovified version of the original text

model = markovify.Text(original_text)

markovified_text = ''

for i in range(20):
    sentence = model.make_sentence()
    
    if sentence is None:
        continue

    markovified_text += str(sentence)

# Save generated text
with open("./markovified_text.txt", 'w', encoding='utf-8') as f:
    f.write(markovified_text)

markovified_text

'Por lo cual su casa está inclinada a la sabiduría; Si inclinares tu corazón a la inteligencia, Y a la prudencia dieres tu voz; Si como a tesoros, Entonces entenderás el temor de Jehová, Y hallarás el conocimiento y la inteligencia.Por lo cual su casa está inclinada a la prudencia dieres tu voz; Si como a tesoros, Entonces entenderás justicia, juicio Y equidad, y todo buen camino.Así andarás por el camino de sus santos.Es el que guarda las veredas de los buenos, Y seguirás las veredas de los buenos, Y seguirás las veredas de los buenos, Y seguirás las veredas del juicio, Y preserva el camino de los justos; Porque los rectos habitarán la tierra, Y los prevaricadores serán de ella desarraigados.Por lo cual su casa está inclinada a la prudencia, Si clamares a la muerte, Y sus veredas hacia los muertos; Todos los que caminan rectamente.Él provee de sana sabiduría a los que caminan rectamente.Cuando la sabiduría entrare en tu corazón, Y la escudriñares como a la prudencia dieres tu voz; Si 

In [124]:
# Run to exchange the markovified text with the extra_text
with open("./sol_2.txt", 'r', encoding='utf-8') as f:
    markovified_text = f.read()

#### Preprocesar los textos

In [125]:
# Separar por palabras ambos textos

original_text = original_text.lower()
markovified_text = markovified_text.lower()

original_words = re.findall(r'\w+', original_text)
markovified_words = re.findall(r'\w+', markovified_text)

print(len(original_words))
print(original_words)
print(len(markovified_words))
print(markovified_words)

32
['for', '_', 'in', 'range', 'int', 'input', 's', 'input', 'c', 'codeforces', 'if', 's', 'c', 'print', '0', 'else', 'indexes', '0', 'for', 'i', 'in', 'range', '10', 'if', 's', 'i', 'c', 'i', 'indexes', '1', 'print', 'indexes']
30
['t', 'input', 'al', '0', 'orgstr', 'codeforces', 'for', 'x', 'in', 'range', 'int', 't', 'al', '0', 'string', 'input', 'for', 'y', 'in', 'range', '10', 'if', 'string', 'y', 'orgstr', 'y', 'al', '1', 'print', 'al']


In [126]:
# Calcular las repeticiones de todas las palabras combinadas en cada diccionario

combined_text = original_words + markovified_words

original_dict = {}
markovified_dict = {}

for word in combined_text:
    in_original = (original_dict.get(word) is not None)
    in_markovified = (markovified_dict.get(word) is not None)

    if in_original == False:
        original_dict[word] = 0
    if in_markovified == False:
        markovified_dict[word] = 0

for word in original_words:
    original_dict[word] += 1

for word in markovified_words:
    markovified_dict[word] += 1


print(original_dict)
print(markovified_dict)

{'for': 2, '_': 1, 'in': 2, 'range': 2, 'int': 1, 'input': 2, 's': 3, 'c': 3, 'codeforces': 1, 'if': 2, 'print': 2, '0': 2, 'else': 1, 'indexes': 3, 'i': 3, '10': 1, '1': 1, 't': 0, 'al': 0, 'orgstr': 0, 'x': 0, 'string': 0, 'y': 0}
{'for': 2, '_': 0, 'in': 2, 'range': 2, 'int': 1, 'input': 2, 's': 0, 'c': 0, 'codeforces': 1, 'if': 1, 'print': 1, '0': 2, 'else': 0, 'indexes': 0, 'i': 0, '10': 1, '1': 1, 't': 2, 'al': 4, 'orgstr': 2, 'x': 1, 'string': 2, 'y': 3}


#### Vectorizar los textos 

In [127]:
# Generate TF of original and markovified
total_original_words = 0
total_markovified_words = 0

for word in original_dict:
    total_original_words += original_dict[word]

for word in markovified_dict:
    total_markovified_words += markovified_dict[word]

original_tf = {}
markovified_tf = {}

for word in original_dict:
    original_tf[word] = original_dict[word] / total_original_words

for word in markovified_dict:
    if markovified_dict[word] == 0:
        markovified_tf[word] = 0
    else:
        markovified_tf[word] = markovified_dict[word] / total_markovified_words

print(original_tf)
print(markovified_tf)

{'for': 0.0625, '_': 0.03125, 'in': 0.0625, 'range': 0.0625, 'int': 0.03125, 'input': 0.0625, 's': 0.09375, 'c': 0.09375, 'codeforces': 0.03125, 'if': 0.0625, 'print': 0.0625, '0': 0.0625, 'else': 0.03125, 'indexes': 0.09375, 'i': 0.09375, '10': 0.03125, '1': 0.03125, 't': 0.0, 'al': 0.0, 'orgstr': 0.0, 'x': 0.0, 'string': 0.0, 'y': 0.0}
{'for': 0.06666666666666667, '_': 0, 'in': 0.06666666666666667, 'range': 0.06666666666666667, 'int': 0.03333333333333333, 'input': 0.06666666666666667, 's': 0, 'c': 0, 'codeforces': 0.03333333333333333, 'if': 0.03333333333333333, 'print': 0.03333333333333333, '0': 0.06666666666666667, 'else': 0, 'indexes': 0, 'i': 0, '10': 0.03333333333333333, '1': 0.03333333333333333, 't': 0.06666666666666667, 'al': 0.13333333333333333, 'orgstr': 0.06666666666666667, 'x': 0.03333333333333333, 'string': 0.06666666666666667, 'y': 0.1}


In [128]:
# Generar IDF
# IDF = ln(NoDocs / (NoDocs containing word + 1)) + 1

idf = {}

for word in original_dict:
    no_docs = 2
    no_docs_with_word = 0

    if original_dict[word] > 0:
        no_docs_with_word += 1
    if markovified_dict[word] > 0:
        no_docs_with_word += 1

    idf[word] = math.log(no_docs / (no_docs_with_word + 1)) + 1

print(idf)

{'for': 0.5945348918918356, '_': 1.0, 'in': 0.5945348918918356, 'range': 0.5945348918918356, 'int': 0.5945348918918356, 'input': 0.5945348918918356, 's': 1.0, 'c': 1.0, 'codeforces': 0.5945348918918356, 'if': 0.5945348918918356, 'print': 0.5945348918918356, '0': 0.5945348918918356, 'else': 1.0, 'indexes': 1.0, 'i': 1.0, '10': 0.5945348918918356, '1': 0.5945348918918356, 't': 1.0, 'al': 1.0, 'orgstr': 1.0, 'x': 1.0, 'string': 1.0, 'y': 1.0}


In [129]:
# Generar tf_idf_original y tf_idf_markovified

tf_idf_original = {}
tf_idf_markovified = {}

for word in idf:
    tf_idf_original[word] = idf[word] * original_tf[word]
    tf_idf_markovified[word] = idf[word] * markovified_tf[word]

print(tf_idf_original)
print(tf_idf_markovified)

{'for': 0.037158430743239726, '_': 0.03125, 'in': 0.037158430743239726, 'range': 0.037158430743239726, 'int': 0.018579215371619863, 'input': 0.037158430743239726, 's': 0.09375, 'c': 0.09375, 'codeforces': 0.018579215371619863, 'if': 0.037158430743239726, 'print': 0.037158430743239726, '0': 0.037158430743239726, 'else': 0.03125, 'indexes': 0.09375, 'i': 0.09375, '10': 0.018579215371619863, '1': 0.018579215371619863, 't': 0.0, 'al': 0.0, 'orgstr': 0.0, 'x': 0.0, 'string': 0.0, 'y': 0.0}
{'for': 0.039635659459455706, '_': 0.0, 'in': 0.039635659459455706, 'range': 0.039635659459455706, 'int': 0.019817829729727853, 'input': 0.039635659459455706, 's': 0.0, 'c': 0.0, 'codeforces': 0.019817829729727853, 'if': 0.019817829729727853, 'print': 0.019817829729727853, '0': 0.039635659459455706, 'else': 0.0, 'indexes': 0.0, 'i': 0.0, '10': 0.019817829729727853, '1': 0.019817829729727853, 't': 0.06666666666666667, 'al': 0.13333333333333333, 'orgstr': 0.06666666666666667, 'x': 0.03333333333333333, 'stri

#### Calcular la distancia coseno

In [130]:
# Calcular distancia del coseno
uv = 0
_u = 0
_v = 0
_u_v = 0
cos_distance = 0

for word in original_dict:
    uv += (original_dict[word] * markovified_dict[word])

for word in original_dict:
    _u += math.pow(original_dict[word], 2)

for word in markovified_dict:
    _v += math.pow(markovified_dict[word], 2)

_u = math.sqrt(_u)
_v = math.sqrt(_v)

_u_v = _u*_v

if _u_v == 0:
    cos_distance = 0
else:
    cos_distance = uv / _u_v

print(cos_distance)

0.4183300132670378


In [131]:
# Print results
print('The markovified/extra text is ' + str(round(cos_distance, 3) * 100) + '% similar to the original text, calculated with the cosine distance.')
print('The markovified/extra text is ' + str(round((total_markovified_words / total_original_words), 3)) + ' times bigger than the original text.')

The markovified/extra text is 41.8% similar to the original text, calculated with the cosine distance.
The markovified/extra text is 0.938 times bigger than the original text.


#### Reflexiones

6. Reflexiona: ¿Como varía la medida de similitud en función del texto que quieres comparar? ¿Si la métrica nos indica que son muy similares eso es garantía de que fueron realizados por el mismo autor?

La medida de similitud varía según la frecuencia con la que aparezca una palabra en ambos textos. ???? CAMBIAR

No es una garantía que haya mucha similitud en los textos si nos basamos en la métrica de la distancia del coseno. Esto se debe a que esta es calculada a partir de las frecuencias de cada palabra en ambos textos. Si dos textos tuvieran las mismas palabras, pero ordenadas de diferente manera, y suponiendo que esto genera significados completamente distintos, aún así se obtendría un 100% de similitud entre los dos.

7. Adecua tu programa para encontrar similitud entre dos códigos hechos en Python. ¿Qué preprocesamiento tendrías que hacer con los códigos antes de compararlos?

El programa está adecuado para encontrar similitud entre dos códigos de Python ?? pero no tiene ) o así... solo checarlo... chance checar los simbolos y así....

8. Realiza distintas pruebas con distintos códigos hechos en Python. ¿Crees que esta técnica es adecuada para encontrar la similitud entre códigos?