<a href="https://colab.research.google.com/github/carmenscar/Jogo_do_nim/blob/master/COH_PIAH.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Similaridade entre textos

Exercício de conclusão de curso - introdução a ciência da computação com Python - parte 1

## Introdução

Manuel Estandarte é monitor na disciplina Introdução à Produção Textual I na Universidade de Pasárgada (UPA). Durante o período letivo, Manuel descobriu que uma epidemia de COH-PIAH estava se espalhando pela UPA. Essa doença rara e altamente contagiosa faz com que indivíduos contaminados produzam, involuntariamente, textos muito semelhantes aos de outras pessoas. Após a entrega da primeira redação, Manuel desconfiou que alguns alunos estavam sofrendo de COH-PIAH. Manuel, preocupado com a saúde da turma, resolveu buscar um método para identificar os casos de COH-PIAH. Para isso, ele necessita da sua ajuda para desenvolver um programa que o auxilie a identificar os alunos contaminados.

## Detecção de autoria
Diferentes pessoas possuem diferentes estilos de escrita; por exemplo, algumas pessoas preferem sentenças mais curtas, outras preferem sentenças mais longas. Utilizando diversas estatísticas do texto, é possível identificar aspectos que funcionam como uma “assinatura” do seu autor e, portanto, é possível detectar se dois textos dados foram escritos por uma mesma pessoa. Ou seja, essa “assinatura” pode ser utilizada para detecção de plágio, evidência forense ou, neste caso, para diagnosticar a grave doença COH-PIAH.

## Traços linguísticos
Neste exercício utilizaremos as seguintes estatísticas para detectar a doença:

Tamanho médio de palavra: Média simples do número de caracteres por palavra.
Relação Type-Token: Número de palavras diferentes utilizadas em um texto divididas pelo total de palavras.
Razão Hapax Legomana: Número de palavras utilizadas uma única vez dividido pelo número total de palavras.
Tamanho médio de sentença: Média simples do número de caracteres por sentença.
Complexidade de sentença: Média simples do número de frases por sentença.
Tamanho médio de frase: Média simples do número de caracteres por frase.
## Funcionamento do programa
A partir da assinatura conhecida de um portador de COH-PIAH, seu programa deverá receber diversos textos e calcular os valores dos diferentes traços linguísticos desses textos para compará-los com a assinatura dada. Os traços linguísticos que seu programa deve utilizar são calculados da seguinte forma:

**Tamanho médio de palavra** é a soma dos tamanhos das palavras dividida pelo número total de palavras.

**Relação Type-Token** é o número de palavras diferentes dividido pelo número total de palavras. 

**Razão Hapax Legomana** é o número de palavras que aparecem uma única vez dividido pelo total de palavras. 

**Tamanho médio de sentença** é a soma dos números de caracteres em todas as sentenças dividida pelo número de sentenças (os caracteres que separam uma sentença da outra não devem ser contabilizados como parte da sentença).

**Complexidade de sentença** é o número total de frases divido pelo número de sentenças.

**Tamanho médio de frase** é a soma do número de caracteres em cada frase dividida pelo número de frases no texto  (os caracteres que separam uma frase da outra não devem ser contabilizados como parte da frase).


Após calcular esses valores para cada texto, você deve compará-los com a assinatura fornecida para os infectados por COH-PIAH. O grau de similaridade entre dois textos



In [None]:
import re

def le_assinatura():

    print("Bem-vindo ao detector automático de COH-PIAH.")
    print("Informe a assinatura típica de um aluno infectado:")

    wal = float(input("Entre o tamanho médio de palavra:"))
    ttr = float(input("Entre a relação Type-Token:"))
    hlr = float(input("Entre a Razão Hapax Legomana:"))
    sal = float(input("Entre o tamanho médio de sentença:"))
    sac = float(input("Entre a complexidade média da sentença:"))
    pal = float(input("Entre o tamanho medio de frase:"))

    return [wal, ttr, hlr, sal, sac, pal]

def le_textos():

    i = 1
    textos = []
    texto = input("Digite o texto " + str(i) +" (aperte enter para sair):")
    while texto:
        textos.append(texto)
        i += 1
        texto = input("Digite o texto " + str(i) +" (aperte enter para sair):")

    return textos

def separa_sentencas(texto):

    sentencas = re.split(r'[.!?]+', texto)
    if sentencas[-1] == '':
        del sentencas[-1]
    return sentencas

def separa_frases(sentenca):

    return re.split(r'[,:;]+', sentenca)

def separa_palavras(frase):

    return frase.split()

def n_palavras_unicas(nova_lista_palavras):

    freq = dict()
    unicas = 0
    for palavra in nova_lista_palavras:
        p = palavra.lower()
        if p in freq:
            if freq[p] == 1:
                unicas -= 1
            freq[p] += 1
        else:
            freq[p] = 1
            unicas += 1

    return unicas

def n_palavras_diferentes(nova_lista_palavras):

    freq = dict()
    for palavra in nova_lista_palavras:
        p = palavra.lower()
        if p in freq:
            freq[p] += 1
        else:
            freq[p] = 1

    return len(freq)

def compara_assinatura(as_a, as_b):

    S = 0
    for i in range (0, 6): #i vai de 0 a 5 = 6 traços linguísticos
        S = S+ (abs(as_a[i] - as_b[i]))
    grau = S/6
    if grau < 0:
        grau = grau * (-1)
    return grau
    pass


def calcula_assinatura(texto):

    lista_de_palavras = separa_palavras(texto)
    nova_lista_palavras = []
    for x in lista_de_palavras:
        item = x
        for y in ['.', ',', ':',';']:
            item = item.replace(y, "")
        nova_lista_palavras.append(item)

    n_total_palavras = len(nova_lista_palavras)

    tamanho_palavras = 0
    for i in range (n_total_palavras):
        tamanho_palavras = tamanho_palavras + len(nova_lista_palavras[i])
        
    tamanho_medio_palavra = tamanho_palavras/n_total_palavras
    type_token = n_palavras_diferentes(nova_lista_palavras)/n_total_palavras
    hapax_legomana = n_palavras_unicas(nova_lista_palavras)/n_total_palavras

    tamanho_sentenca = separa_sentencas(texto)
    tamanho_caracter_sentenca = 0
    for i in range(len(tamanho_sentenca)):
        tamanho_caracter_sentenca = tamanho_caracter_sentenca + len(tamanho_sentenca[i])

    n_total_sentencas = len(separa_sentencas(texto))

    i = 0
    frases = []
    sentencas = separa_sentencas(texto)
    while i < len(sentencas):
        frases = frases + separa_frases(sentencas[i])
        i += 1
    
    n_total_frases = len(frases)

    tamanho_frase = frases
    tamanho_caracter_frase = 0
    for i in range(len(tamanho_frase)):
        tamanho_caracter_frase = tamanho_caracter_frase + len(tamanho_frase[i])    
    
    tamanho_medio_sentenca = tamanho_caracter_sentenca/n_total_sentencas
    complexidade_sentenca = n_total_frases/n_total_sentencas
    tamanho_medio_frase = tamanho_caracter_frase/n_total_frases
    assinatura = [tamanho_medio_palavra, type_token, hapax_legomana, tamanho_medio_sentenca, complexidade_sentenca, tamanho_medio_frase]

    return assinatura
    pass

def avalia_textos(textos,ass_cp):
    
    valor = ass_cp[0]
    for x in range(len(ass_cp)):
        if ass_cp[x] < valor:
            valor = ass_cp[x]
            indice = x
    return indice

def main():
    assinatura_principal = le_assinatura()
    textos = le_textos()
    assinaturas = []
    for texto in textos:
        assinaturas.append(calcula_assinatura(texto))

    assinaturas_comparadas = []
    for assinatura in assinaturas:
        assinaturas_comparadas.append(compara_assinatura(assinatura_principal, assinatura))

    infectado = avalia_textos(textos, assinaturas_comparadas)
    print("O autor do texto", infectado, "está infectado com COH-PIAH.")

main()