### Support Functions -> disponibilizadas previamente

In [60]:
import re

def le_assinatura():
    '''A funcao le os valores dos tracos linguisticos do modelo e devolve uma assinatura a ser comparada com os textos fornecidos'''
    print("Bem-vindo ao detector automático de COH-PIAH.")
    print("Informe a assinatura típica de um aluno infectado:")

    wal = float(input("Entre o tamanho médio de palavra:"))
    ttr = float(input("Entre a relação Type-Token:"))
    hlr = float(input("Entre a Razão Hapax Legomana:"))
    sal = float(input("Entre o tamanho médio de sentença:"))
    sac = float(input("Entre a complexidade média da sentença:"))
    pal = float(input("Entre o tamanho medio de frase:"))

    return [wal, ttr, hlr, sal, sac, pal]

def le_textos():
    '''A funcao le todos os textos a serem comparados e devolve uma lista contendo cada texto como um elemento'''
    i = 1
    textos = []
    texto = input("Digite o texto " + str(i) +" (aperte enter para sair):")
    while texto:
        textos.append(texto)
        i += 1
        texto = input("Digite o texto " + str(i) +" (aperte enter para sair):")

    return textos

def separa_sentencas(texto):
    '''A funcao recebe um texto e devolve uma lista das sentencas dentro do texto'''
    sentencas = re.split(r'[.!?]+', texto)
    if sentencas[-1] == '':
        del sentencas[-1]
    return sentencas

def separa_frases(sentenca):
    '''A funcao recebe uma sentenca e devolve uma lista das frases dentro da sentenca'''
    return re.split(r'[,:;]+', sentenca)

def separa_palavras(frase):
    '''A funcao recebe uma frase e devolve uma lista das palavras dentro da frase'''
    return frase.split()

def n_palavras_unicas(lista_palavras):
    '''Essa funcao recebe uma lista de palavras e devolve o numero de palavras que aparecem uma unica vez'''
    freq = dict()
    unicas = 0
    for palavra in lista_palavras:
        p = palavra.lower()
        if p in freq:
            if freq[p] == 1:
                unicas -= 1
            freq[p] += 1
        else:
            freq[p] = 1
            unicas += 1

    return unicas

def n_palavras_diferentes(lista_palavras):
    '''Essa funcao recebe uma lista de palavras e devolve o numero de palavras diferentes utilizadas'''
    freq = dict()
    for palavra in lista_palavras:
        p = palavra.lower()
        if p in freq:
            freq[p] += 1
        else:
            freq[p] = 1

    return len(freq)

### Main Functions -> elaboradas por mim

In [61]:
def calcula_assinatura(texto):
    '''IMPLEMENTAR. Essa funcao recebe um texto e deve devolver a assinatura do texto.'''

    # defining variables

    sentenças_texto = separa_sentencas(texto)

    frases_texto = []
    frases_texto_ARR = list(map(separa_frases, sentenças_texto))
    for arr in frases_texto_ARR:
        for frase in arr:
            frases_texto.append(frase)

    palavras_texto = []
    palavras_texto_ARR = list(map(separa_palavras, frases_texto))
    for arr in palavras_texto_ARR:
        for palavra in arr:
            palavras_texto.append(palavra)
    
    # defining traços linguísticos

    ## tam médio das palavras
    wal = len("".join(palavras_texto)) / len(palavras_texto)

    ## relação type-token
    ttr = n_palavras_diferentes(palavras_texto) / len(palavras_texto)
    
    ## razão hapax legomana
    hlr = n_palavras_unicas(palavras_texto) / len(palavras_texto)
    
    ## tam médio das sentenças
    sal = len("".join(sentenças_texto)) / len(sentenças_texto)

    ## complex sentenças
    sac = len(frases_texto) / len(sentenças_texto)

    ## tam médio das frases
    pal = len("".join(frases_texto)) / len(frases_texto)

    return [wal, ttr, hlr, sal, sac, pal]

In [62]:
from functools import reduce

def compara_assinatura(as_a, as_b):
    '''IMPLEMENTAR. Essa funcao recebe duas assinaturas de texto e deve devolver o grau de similaridade nas assinaturas.'''
    
    lista_diferenças = list(map(lambda a, b: abs(a - b), as_a, as_b))
    reduced_lista_diferenças = reduce(lambda x, y: x + y, lista_diferenças)
    similarity  = reduced_lista_diferenças / 6

    return similarity

In [63]:
def avalia_textos(textos, ass_cp):
    '''IMPLEMENTAR. Essa funcao recebe uma lista de textos e uma assinatura ass_cp e deve devolver o numero (1 a n) do texto com maior probabilidade de ter sido infectado por COH-PIAH.'''

    assinaturas_textos = list(map(calcula_assinatura, textos))
    comparacoes = [compara_assinatura(x, ass_cp) for x in assinaturas_textos]
    texto_mais_provavel = comparacoes.index(min(comparacoes)) + 1

    return texto_mais_provavel

### Executing Stage

In [64]:
assinatura_aluno_infectado = le_assinatura()
textos_alunos = le_textos()

n_texto_infectado = avalia_textos(textos_alunos, assinatura_aluno_infectado)

print(f'O autor do texto {n_texto_infectado} está infectado com COH-PIAH')

Bem-vindo ao detector automático de COH-PIAH.
Informe a assinatura típica de um aluno infectado:
O autor do texto 2 está infectado com COH-PIAH
