In [97]:
from googletrans import Translator
from io import BytesIO
import requests
import PyPDF2
from nltk.corpus import stopwords
from nltk.stem.porter import *
from IPython.display import display, Markdown

### Funciones básicas para limpieza y para calcular la similitud entre documentos

In [98]:
#Se definen stemmer y stopwords
stemmer = PorterStemmer()
stopw = stopwords.words("spanish")


puntuacion = ";:,.\\-\"'/"
simbolos = "%^$#+[]¿?¡!{}~<>|*;:,.\\-\"'''/[]{}~<>|«»–-—’\t\n\r“”"
quitar = set(puntuacion + simbolos + '\t\n\r ')
def normaliza_texto(doc):
    #Texto en minúsculas
    doc = doc.lower()
    #Split por espacios 
    doc = " ".join([doc for doc in doc.split() if doc not in stopw]).split()
    output = []
    #Aplicar stemmer
    for words in doc:
        output.append(stemmer.stem(words))
        for caracter in quitar:
            output = [word.replace(caracter, '') for word in output]
    output=set(output)
    return output

In [99]:
def Jaccard(doc1, doc2): 
    
    # Aplicar normalización de texto
    words_doc1 = normaliza_texto(doc1) 
    words_doc2 = normaliza_texto(doc2)
    
    # Intersección de palabras de ambos documentos
    intersection = words_doc1.intersection(words_doc2)

    # Unión de ambos documentos
    union = words_doc1.union(words_doc2)
        
    #Calcular medida de similitud Jaccard
    return float(len(intersection))  / len(union)

### Texto original de Amartya Sen

In [100]:
url="https://raw.githubusercontent.com/claudiodanielpc/dataviz_varios/main/plagio/segundo/amartya_sen.txt"
response=requests.get(url)
amartya=response.text
amartya

'Second, people can, of course, change their nationalities, and there is clearly a huge role of choice there. Third, a person may be contented enough with his or her nationality, and yet may choose to work for the cause of national Independence of another country, or for the dignity and well-being of a foreign nation. It is important to see that the positive role of nationalism need not influence only those who happen to be, themselves, victims of foreign domination and of related indignites imposed on a subdued nation. Indeed, the fight against national subjugation need not be restricted only to persons who are born in the supressed nation. The search for justice against captivity can inspire others who come form elsewhere but who choose to join that struggle, moved by the cause of Independence and of regeneration o fan overpowered nation, and who come to develop a close bond with that underdog society.'

Se traduce el texto original al español usando la librería googletrans

In [101]:
#Traducir texto al español
translator = Translator()
amartya_esp=translator.translate(amartya,dest="es").text
amartya_esp

'En segundo lugar, las personas pueden, por supuesto, cambiar sus nacionalidades, y claramente hay un gran papel de elección allí. En tercer lugar, una persona puede estar lo suficientemente contenta con su nacionalidad y, sin embargo, puede optar por trabajar por la causa de la independencia nacional de otro país o por la dignidad y el bienestar de una nación extranjera. Es importante ver que el papel positivo del nacionalismo no tiene por qué influir sólo en aquellos que resultan ser, ellos mismos, víctimas de la dominación extranjera y de indignidades relacionadas impuestas a una nación sometida. De hecho, la lucha contra la subyugación nacional no tiene por qué limitarse únicamente a las personas nacidas en la nación oprimida. La búsqueda de justicia contra el cautiverio puede inspirar a otros que vienen de otros lugares pero que optan por sumarse a esa lucha, movidos por la causa de la Independencia y de la regeneración de una nación vencida, y que llegan a desarrollar un estrecho

### Texto Romero-Tellaeche

In [102]:
# Crear el objeto PDF 
url="https://github.com/claudiodanielpc/dataviz_varios/raw/main/plagio/segundo/romero_herencia_neoliberal.pdf"
response=requests.get(url)
pdf_file=response.content

with BytesIO(pdf_file) as data:
    pdf_reader = PyPDF2.PdfFileReader(data)
    print("Número de páginas del PDF: ",pdf_reader.numPages)
    #Página de interés del PDF
    romero = pdf_reader.getPage(10)
    romero= romero.extractText().split("\n")

Número de páginas del PDF:  37


In [103]:
#Establecer elementos a extraer
romero=romero[16:23]
romero="\n".join(romero).replace("\n","")

#Cambiar caracteres por texto específico
añadir={"˜":"fi",
"-ra": "que influir sólo en quienes resultan ser víctimas de la dominación extranjera"
}
for key,value in añadir.items():
    romero=romero.replace(key,value)

#Quitar oraciones que no sean relevantes
remover=["de cada uno de nosotros. ",
"7 Subhas Chandra Bose fue un nacionalista indio cuyo desafiante patriotismo lo convirtió en un héroe en su país, pero al intentar liberar a la India del dominio británico se alió con la Alemania nazi y el Japón imperial, lo que le dejó una reputación cuestionable.  "]
for oracion in remover:
    romero=romero.replace(oracion,"")
#Mostrar texto
romero

'Las personas pueden, por supuesto, cambiar sus nacionalidades, y claramente hay un gran papel de elección allí. Una persona  también puede estar suficientemente satisfecha con su nacionalidad y, sin  embargo, puede optar por trabajar por la causa de la independencia nacional de otro país, o por la dignidad y el bienestar de una nación extranjera.Es importante resaltar que el papel positivo del nacionalismo no tiene que influir sólo en quienes resultan ser víctimas de la dominación extranjera y de las indignidades relacionadas impuestas a una nación sometida. De hecho, la lucha contra la subyugación nacional no necesita limitarse sólo a las personas que nacen en la nación reprimida. La búsqueda de justicia contra el cautiverio puede inspirar a otros provenientes de lugares distintos, pero que eligen unirse a esa lucha, movidos por la causa de la independencia y la regeneración de una nación dominada, y con el interés de desarrollar un vínculo estrecho con esa sociedad desvalida. '

### Presentación de párrafos

In [104]:
#Presentación de párrafos
display(Markdown("####  Párrafos"))
display(Markdown("#####  Romero Tallaeche"))
print(romero)
display(Markdown("#### ---------------------------------------------------------------------------------------"))
display(Markdown("#####  Amartya Sen"))
print(amartya_esp)


####  Párrafos

#####  Romero Tallaeche

Las personas pueden, por supuesto, cambiar sus nacionalidades, y claramente hay un gran papel de elección allí. Una persona  también puede estar suficientemente satisfecha con su nacionalidad y, sin  embargo, puede optar por trabajar por la causa de la independencia nacional de otro país, o por la dignidad y el bienestar de una nación extranjera.Es importante resaltar que el papel positivo del nacionalismo no tiene que influir sólo en quienes resultan ser víctimas de la dominación extranjera y de las indignidades relacionadas impuestas a una nación sometida. De hecho, la lucha contra la subyugación nacional no necesita limitarse sólo a las personas que nacen en la nación reprimida. La búsqueda de justicia contra el cautiverio puede inspirar a otros provenientes de lugares distintos, pero que eligen unirse a esa lucha, movidos por la causa de la independencia y la regeneración de una nación dominada, y con el interés de desarrollar un vínculo estrecho con esa sociedad desvalida. 


#### ---------------------------------------------------------------------------------------

#####  Amartya Sen

En segundo lugar, las personas pueden, por supuesto, cambiar sus nacionalidades, y claramente hay un gran papel de elección allí. En tercer lugar, una persona puede estar lo suficientemente contenta con su nacionalidad y, sin embargo, puede optar por trabajar por la causa de la independencia nacional de otro país o por la dignidad y el bienestar de una nación extranjera. Es importante ver que el papel positivo del nacionalismo no tiene por qué influir sólo en aquellos que resultan ser, ellos mismos, víctimas de la dominación extranjera y de indignidades relacionadas impuestas a una nación sometida. De hecho, la lucha contra la subyugación nacional no tiene por qué limitarse únicamente a las personas nacidas en la nación oprimida. La búsqueda de justicia contra el cautiverio puede inspirar a otros que vienen de otros lugares pero que optan por sumarse a esa lucha, movidos por la causa de la Independencia y de la regeneración de una nación vencida, y que llegan a desarrollar un estrecho 

### Cálculo de Similitud

In [105]:
#Resultados de la comparación
display(Markdown("#### Similitud de Jaccard: {}".format(Jaccard(romero,amartya_esp))))

#### Similitud de Jaccard: 0.6625