# Avaliando redações disponibilizadas pela UOL

Scripts e códigos utilizados para avaliar as redações disponibilizadas pela empresa UOL.
As instruções para instalar e utilizar as redações estão disponíveis [aqui](https://github.com/gpassero/uol-redacoes-xml)

In [1]:
# imports
import numpy as np
import uol_redacoes_xml as uol

## Carregando redações

In [14]:
essays = uol.load()
print("Número de redações: ",len(essays),"\n")
print("Objeto que contém as redações:", type(essays[0]),"\n")

print("Atributo do objeto:")

print([param for param in essays[0].__dir__() if not param.startswith("__")])

print("Features grais:",essays[0].get_features())


Número de redações:  2164 

Objeto que contém as redações: <class 'uol_redacoes_xml.reader.essays.Essay'> 

Atributo do objeto:
['title', 'text', 'criteria_scores', 'final_score', 'prompt', 'url', 'fixed_text', 'errors', 'comments', '_extract_features', 'get_features']
[1243, 225, 4, 310.75, 139, 161.8705035971223, 5.524444444444445]


As features indicadas em "Features gerais", segundo o que consta no repositório [uol](https://github.com/gpassero/uol-redacoes-xml/blob/master/README.md) são as seguintes:

- Número de caracteres
- Número de palavras
- Número de parágrafos
- Tamanho médio dos parágrafos
- Número de palavrás únicas (vocabulário)
- Repetição de palavras (total / vocabulário)
- Tamanho médio das palavras


In [19]:
print("\t\t Exemplo de redação: \n\n")
index = 1
print(essays[index].title,"\n\n")
print(essays[index].text)

		 Exemplo de redação: 


Entre direitos individuais e escândalos políticos 


Os direitos fundamentais contidos na Constituição Federal não são absolutos, salvo algumas exceções conflitantes entre especialistas, o que abre margem para discussões em casos em que há convergência de direitos. Esse é o caso da decisão judiciária aplicada aos jornais para a remoção das publicações que fizeram sobre o caso de Marcela Temer e do hacker, cuja repercussão se estabeleceu no impasse sobre quais direitos teriam prioridade: liberdade de expressão ou inviolabilidade da intimidade.
Em uma primeira análise a inviolabilidade da intimidade teria prioridade sobre a liberdade de expressão, pois as formas midiáticas, a atividade artística, a música, etc. não necessitam de autorização para exercerem suas atividades, desde que não interfiram nos direitos de terceiros. Entretanto, quem é contra a decisão judiciária afirma que a ordem se trata de uma forma de censura, pois as imagens divulgadas do caso foram 

## Ferramenta CoGroo
Utilizando a biblioteca CoGroo para python. CoGroo trata-se de um corretor morfológico para a língua portuguesa cuja utilização foi aconcelhada pelo professor Rafael para o projeto da disciplina de mineração de texto. 
As instruções sobre como utilizar a ferramente se encontram [aqui](https://github.com/gpassero/cogroo4py).
Antes de rodar o módulo, será necesário instalar a biblioteca py4j, já que a biblioteca disponibilisada usa uma interface java para comunicar-se com pyhton.
A mesma pode ser instalada via pip, utilizando o comando

```
    pip install py4j
```

### Separando parágrafos

In [37]:
from cogroo_interface import Cogroo

cogroo = Cogroo.Instance()

texto = essays[index].text

# Analizando texto
doc = cogroo.analyze(texto)
print("Objeto retornado ao ser feita as análises",type(doc),"\n")

print("Parâmetros do objeto")
print([param for param in doc.__dir__() if not param.startswith("__")])
# Contando parágrafos
for i, p in enumerate(doc.paragraphs):
    print("Paragrafo "+str(i)+":\n",p,"\n")


Objeto retornado ao ser feita as análises <class 'cogroo_interface.Document'> 

Parâmetros do objeto
['text', 'sentences', 'paragraphs']
Paragrafo 0:
 [Os direitos fundamentais contidos na Constituição Federal não são absolutos, salvo algumas exceções conflitantes entre especialistas, o que abre margem para discussões em casos em que há convergência de direitos., Esse é o caso da decisão judiciária aplicada aos jornais para a remoção das publicações que fizeram sobre o caso de Marcela Temer e do hacker, cuja repercussão se estabeleceu no impasse sobre quais direitos teriam prioridade:, liberdade de expressão ou inviolabilidade da intimidade.] 

Paragrafo 1:
 [Em uma primeira análise a inviolabilidade da intimidade teria prioridade sobre a liberdade de expressão, pois as formas midiáticas, a atividade artística, a música, etc. não necessitam de autorização para exercerem suas atividades, desde que não interfiram nos direitos de terceiros., Entretanto, quem é contra a decisão judiciária 

### Separando por sentenças

In [41]:
sentences = doc.sentences
for i , s in enumerate(sentences):
    print("Sentença "+str(i)+":\n",s,"\n")

Sentença 0:
 Os direitos fundamentais contidos na Constituição Federal não são absolutos, salvo algumas exceções conflitantes entre especialistas, o que abre margem para discussões em casos em que há convergência de direitos. 

Sentença 1:
 Esse é o caso da decisão judiciária aplicada aos jornais para a remoção das publicações que fizeram sobre o caso de Marcela Temer e do hacker, cuja repercussão se estabeleceu no impasse sobre quais direitos teriam prioridade: 

Sentença 2:
 liberdade de expressão ou inviolabilidade da intimidade. 

Sentença 3:
 Em uma primeira análise a inviolabilidade da intimidade teria prioridade sobre a liberdade de expressão, pois as formas midiáticas, a atividade artística, a música, etc. não necessitam de autorização para exercerem suas atividades, desde que não interfiram nos direitos de terceiros. 

Sentença 4:
 Entretanto, quem é contra a decisão judiciária afirma que a ordem se trata de uma forma de censura, pois as imagens divulgadas do caso foram retira

### Análise gramatical

In [68]:

doc = cogroo.grammar_check(essays[index].text)
print("Número de erros detectados: ",len(doc.mistakes))

Número de erros detectados:  3


In [74]:
mistake = doc.mistakes[2]
print("Objeto retornado:",type(mistake),"\n")
print("Parâmetros do objeto retornado:")

print([param for param in mistake.__dir__() if not param.startswith("__")])

Objeto retornado: <class 'cogroo_interface.Mistake'> 

Parâmetros do objeto retornado:
['rule_id', 'short_msg', 'long_msg', 'full_msg', 'suggestions', 'start', 'end', 'context', 'rule_priority']


In [78]:
print(mistake.rule_id,"\n")
print(mistake.short_msg,"\n")
print(mistake.long_msg,"\n")
print(mistake.full_msg,"\n")
print("Prioridade da regra: ",mistake.rule_priority,"\n")
print("Começo do erro: ",mistake.start)
print("Fim do erro: ",mistake.end)

xml:1 

Não ocorre crase antes de palavras masculinas. 

O sinal indicativo de crase indica que temos "a" + "a" expressos em um só "à". Somente ocorre crase quando há encontro de preposição "a" com artigo ou pronome demonstrativo "a"/"as". Portanto, não ocorre crase antes de palavras masculinas. 

O sinal indicativo de crase indica que temos "a" + "a" expressos em um só "à". Somente ocorre crase quando há encontro de preposição "a" com artigo ou pronome demonstrativo "a"/"as". Portanto, não ocorre crase antes de palavras masculinas.
Exemplos:
  Incorreto: 	Refiro-me à trabalho remunerado.
  Correto:   	Refiro-me ao trabalho remunerado. Refiro-me a trabalho remunerado.
 

Prioridade da regra:  999 

Começo do erro:  2135
Fim do erro:  2136


In [76]:
## Verificando começo e fim do erro no texto
erro = essays[index].text[mistake.start:mistake.end]
print(erro)

à
