# Avaliando redações disponibilizadas pela UOL

Scripts e códigos utilizados para avaliar as redações disponibilizadas pela empresa UOL.
As instruções para instalar e utilizar as redações estão disponíveis [aqui](https://github.com/gpassero/uol-redacoes-xml)

In [1]:
# imports
import numpy as np
import uol_redacoes_xml as uol

## Carregando redações

In [2]:
essays = uol.load()
print("Número de redações: ",len(essays),"\n")
print("Objeto que contém as redações:", type(essays[0]),"\n")

print("Atributo do objeto:")

print([param for param in essays[0].__dir__() if not param.startswith("__")])
index = 2000
print("Features grais:",essays[0].get_features())
print(essays[index].criteria_scores)

Número de redações:  2164 

Objeto que contém as redações: <class 'uol_redacoes_xml.reader.essays.Essay'> 

Atributo do objeto:
['title', 'text', 'criteria_scores', 'final_score', 'prompt', 'url', 'fixed_text', 'errors', 'comments', '_extract_features', 'get_features']
Features grais: [1243, 225, 4, 310.75, 139, 161.8705035971223, 5.524444444444445]
{'Competência 1': 0.5, 'Competência 2': 0.5, 'Competência 3': 0.5, 'Competência 4': 0.5, 'Competência 5': 0.5}


As features indicadas em "Features gerais", segundo o que consta no repositório [uol](https://github.com/gpassero/uol-redacoes-xml/blob/master/README.md) são as seguintes:

- Número de caracteres
- Número de palavras
- Número de parágrafos
- Tamanho médio dos parágrafos
- Número de palavrás únicas (vocabulário)
- Repetição de palavras (total / vocabulário)
- Tamanho médio das palavras


In [5]:
print("\t\t Exemplo de redação: \n\n")
print(essays[index].title,"\n\n")
print(essays[index].text)

		 Exemplo de redação: 


De geração em geração os conflitos vão aumentado 


Antigamente, o modo de vida das pessoas era bem diferente, onde os costumes, as tradições, a honra, a obediência e o respeito, daquelas famílias eram bem sucedidos e se não obedecesse com esses costumes eram expulsa de sua família.
No tempo de hoje as coisas estão bem diferentes, vemos minhares de pessoas vivendo numa era que preocupa a nossa geração, onde vai parar? Até que ponde vai chagar. O que os nossos filhos vão presenciar, nessa geração que a cada dia avança junto com a tecnologia.
Com as mudanças de estilos, muitas famílias não sabem mais como criar os seus filhos, tudo está se transformando, os costumes estão sendo deixados para trás, pois não existem hoje, aquelas famílias tradicionais, como existiam antigamente.
Os filhos de hoje não estão obedecendo mais os pais, só querem fazer o que quer, os relacionamentos entres as famílias estão a cada dia complicado, os filhos não respeitam os país, nem os 

## Ferramenta CoGroo
Utilizando a biblioteca CoGroo para python. CoGroo trata-se de um corretor morfológico para a língua portuguesa cuja utilização foi aconcelhada pelo professor Rafael para o projeto da disciplina de mineração de texto. 
As instruções sobre como utilizar a ferramente se encontram [aqui](https://github.com/gpassero/cogroo4py).
Antes de rodar o módulo, será necesário instalar a biblioteca py4j, já que a biblioteca disponibilisada usa uma interface java para comunicar-se com pyhton.
A mesma pode ser instalada via pip, utilizando o comando

```
    pip install py4j
```

### Separando parágrafos

In [6]:
from cogroo_interface import Cogroo

cogroo = Cogroo.Instance()

texto = essays[index].text

# Analizando texto
doc = cogroo.analyze(texto)
print("Objeto retornado ao ser feita as análises",type(doc),"\n")

print("Parâmetros do objeto")
print([param for param in doc.__dir__() if not param.startswith("__")])
# Contando parágrafos
for i, p in enumerate(doc.paragraphs):
    print("Paragrafo "+str(i)+":\n",p,"\n")


Objeto retornado ao ser feita as análises <class 'cogroo_interface.Document'> 

Parâmetros do objeto
['text', 'sentences', 'paragraphs']
Paragrafo 0:
 [Antigamente, o modo de vida das pessoas era bem diferente, onde os costumes, as tradições, a honra, a obediência e o respeito, daquelas famílias eram bem sucedidos e se não obedecesse com esses costumes eram expulsa de sua família.] 

Paragrafo 1:
 [No tempo de hoje as coisas estão bem diferentes, vemos minhares de pessoas vivendo numa era que preocupa a nossa geração, onde vai parar?, Até que ponde vai chagar., O que os nossos filhos vão presenciar, nessa geração que a cada dia avança junto com a tecnologia.] 

Paragrafo 2:
 [Com as mudanças de estilos, muitas famílias não sabem mais como criar os seus filhos, tudo está se transformando, os costumes estão sendo deixados para trás, pois não existem hoje, aquelas famílias tradicionais, como existiam antigamente.] 

Paragrafo 3:
 [Os filhos de hoje não estão obedecendo mais os pais, só qu

### Separando por sentenças

In [7]:
sentences = doc.sentences
for i , s in enumerate(sentences):
    print("Sentença "+str(i)+":\n",s,"\n")

Sentença 0:
 Antigamente, o modo de vida das pessoas era bem diferente, onde os costumes, as tradições, a honra, a obediência e o respeito, daquelas famílias eram bem sucedidos e se não obedecesse com esses costumes eram expulsa de sua família. 

Sentença 1:
 No tempo de hoje as coisas estão bem diferentes, vemos minhares de pessoas vivendo numa era que preocupa a nossa geração, onde vai parar? 

Sentença 2:
 Até que ponde vai chagar. 

Sentença 3:
 O que os nossos filhos vão presenciar, nessa geração que a cada dia avança junto com a tecnologia. 

Sentença 4:
 Com as mudanças de estilos, muitas famílias não sabem mais como criar os seus filhos, tudo está se transformando, os costumes estão sendo deixados para trás, pois não existem hoje, aquelas famílias tradicionais, como existiam antigamente. 

Sentença 5:
 Os filhos de hoje não estão obedecendo mais os pais, só querem fazer o que quer, os relacionamentos entres as famílias estão a cada dia complicado, os filhos não respeitam os paí

### Análise gramatical

In [8]:

doc = cogroo.grammar_check(essays[index].text)
print("Número de erros detectados: ",len(doc.mistakes))

Número de erros detectados:  2


In [11]:
mistake = doc.mistakes[1]
print("Objeto retornado:",type(mistake),"\n")
print("Parâmetros do objeto retornado:")

print([param for param in mistake.__dir__() if not param.startswith("__")])

Objeto retornado: <class 'cogroo_interface.Mistake'> 

Parâmetros do objeto retornado:
['rule_id', 'short_msg', 'long_msg', 'full_msg', 'suggestions', 'start', 'end', 'context', 'rule_priority']


In [12]:
print(mistake.rule_id,"\n")
print(mistake.short_msg,"\n")
print(mistake.long_msg,"\n")
print(mistake.full_msg,"\n")
print("Prioridade da regra: ",mistake.rule_priority,"\n")
print("Começo do erro: ",mistake.start)
print("Fim do erro: ",mistake.end)

xml:129 

Verificou-se erro de concordância entre o sujeito e o verbo. 

Verificou-se erro de concordância entre o sujeito e o verbo. 

Verificou-se erro de concordância entre o sujeito e o verbo.
Exemplos:
  Incorreto: 	Nós foi
  Correto:   	Nós fomos
  Incorreto: 	Nós não foi.
  Correto:   	Nós não fomos.
 

Prioridade da regra:  871 

Começo do erro:  1157
Fim do erro:  1169


In [13]:
## Verificando começo e fim do erro no texto
erro = essays[index].text[mistake.start:mistake.end]
print(erro)

vamos chegar
