In [None]:
import uol_redacoes_xml
essays = uol_redacoes_xml.load()

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from bs4 import BeautifulSoup
import numpy as np
import requests
import re
import nltk
from nltk.corpus import wordnet as wn
from nltk.tokenize import sent_tokenize

nltk.download('punkt')
nltk.download('wordnet')

# Função para limpar e normalizar o texto
def clean_and_normalize_text(text):
    # Remover tags HTML
    text = BeautifulSoup(text, 'html.parser').get_text()
    
    # Converter para minúsculas
    text = text.lower()
    
    # Remover caracteres especiais, pontuações e números
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    
    return text

# Função para extrair o texto corrigido de uma redação como um vetor de contagem de palavras
def extract_corrected_text_vector(essay):
    corrected_text = ""
    soup = BeautifulSoup(essay.text, 'html.parser')
    spans = soup.find_all('span', class_='text-corrigido')
    for span in spans:
        # Verifica se a próxima tag é uma palavra corrigida
        next_tag = span.find_next_sibling()
        if next_tag and next_tag.name == 'span':
            corrected_word = next_tag.text.strip()
            corrected_text += corrected_word + " "
    return clean_and_normalize_text(corrected_text.strip())

# Função para calcular o número de palavras únicas em uma redação
def unique_words_count(essay):
    cleaned_text = clean_and_normalize_text(essay.text)
    return len(set(cleaned_text.split()))

# Função para calcular a repetição de palavras em relação ao vocabulário em uma redação
def word_repetition_ratio(essay):
    cleaned_text = clean_and_normalize_text(essay.text)
    words = cleaned_text.split()
    total_words = len(words)
    unique_words = len(set(words))
    return total_words / unique_words if unique_words != 0 else 0  # Evita divisão por zero
    
# Função para calcular o número de parágrafos em uma redação
def paragraph_count(essay):
    return essay.text.count('\n\n') + 1

# Função para calcular o tamanho médio dos parágrafos em uma redação
def average_paragraph_length(essay):
    cleaned_text = clean_and_normalize_text(essay.text)
    paragraphs = cleaned_text.split('\n\n')
    total_length = sum(len(paragraph.split()) for paragraph in paragraphs)
    return total_length / len(paragraphs) if len(paragraphs) != 0 else 0  # Evita divisão por zero

# Função para calcular o tamanho médio das palavras em uma redação
def average_word_length(essay):
    cleaned_text = clean_and_normalize_text(essay.text)
    words = cleaned_text.split()
    total_length = sum(len(word) for word in words)
    return total_length / len(words) if len(words) != 0 else 0  # Evita divisão por zero
    
# Função para verificar se o tema da redação está sendo abordado
def is_topic_covered(text, texts):
    cleaned_essay_text = clean_and_normalize_text(text)
    essay_words = set(cleaned_essay_text.lower().split())
    text_base_keywords = set(texts.split())
    return 1 if text_base_keywords.intersection(essay_words) else 0
    
def get_texts_base(essay):
    prompt_url = str(essay.prompt).split('\n')[1]

    # Realiza a requisição HTTP para obter o conteúdo da página
    response = requests.get(prompt_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    texts = []
    
    # Encontra a div com a classe 'text'
    text_div = soup.find('div', class_='text')
    if text_div is not None:
        texts.extend(clean_and_normalize_text(text_div.get_text().strip()).split())
        
        # Encontra todas as listas ul dentro da div
        ul_lists = text_div.find_all('ul', class_='article-wording-item')
        for ul_list in ul_lists[:-1]:  # Exclui o último item da lista
            for item in ul_list.find_all('li'):
                # text_base_articles.append(item.get_text().strip())
                texts.extend(clean_and_normalize_text(item.get_text().strip()).split())
        
        # Adiciona o texto base e os artigos a uma lista para usar no vetorizador
    return ' '.join(texts)

    
# Função para verificar palavras difíceis
def difficult_words_count(essay):
    difficult_words = set(wn.words())
    essay_words = set(clean_and_normalize_text(essay.text.lower()).split())
    return len(difficult_words.intersection(essay_words))

# Função para calcular complexidade sintática
def syntactic_complexity(essay):
    sentences = sent_tokenize(essay.text)
    avg_words_per_sentence = sum(len(sent.split()) for sent in sentences) / len(sentences)
    return avg_words_per_sentence

# Função para verificar conectores lógicos
def logical_connectives_count(essay):
    logical_connectives = [
    'portanto', 'assim', 'logo', 'então', 'por conseguinte', 'logo que', 
    'desta forma', 'dessa maneira', 'com isso', 'dessa forma', 'por isso', 
    'consequentemente', 'assim sendo', 'em suma', 'isto é', 'ou seja']
    essay_text = clean_and_normalize_text(essay.text.lower())
    count = sum(1 for connective in logical_connectives if connective in essay_text)
    return count



# # Criando um vocabulário baseado nos textos originais
# original_texts = [essay.text for essay in essays]
# vectorizer = CountVectorizer()
# vectorizer.fit(original_texts)

# # Utilizando o vocabulário criado com base nos textos originais
# corrected_texts = [extract_corrected_text_vector(essay) for essay in essays]
# X_corrected = vectorizer.transform(corrected_texts)
for essay in essays:
    text_base = get_texts_base(essay)
    X = [len(essay.text), len(essay.text.split()), unique_words_count(essay), word_repetition_ratio(essay),
      paragraph_count(essay), average_paragraph_length(essay), average_word_length(essay), 
      is_topic_covered(essay.text,text_base), difficult_words_count(essay), syntactic_complexity(essay), 
      logical_connectives_count(essay)]
    
# X = np.hstack((X, X_corrected.toarray()))

y = [essay.final_score for essay in essays]


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
pearson = np.corrcoef(y_test, y_pred)[0, 1]
print(f"RMSE: {rmse}, Pearson: {pearson}")

In [None]:
import matplotlib.pyplot as plt

# Supondo que y_test são as notas reais e y_pred são as notas previstas pelo modelo
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, color='blue', alpha=0.5)
plt.xlabel('Nota Real')
plt.ylabel('Nota Prevista')
plt.title('Comparação entre Notas Reais e Previstas')
plt.show()


In [None]:
import numpy as np

# Convertendo y em uma matriz NumPy bidimensional
y = np.array(y)

# Utilizando o modelo LinearRegression
from sklearn.linear_model import LinearRegression
model = LinearRegression()

# Supondo que X são os dados de entrada
rmse_scores, pearson_scores = kfold_cross_validation(model, X, y, n_splits=5)

# Calculando a média dos scores de RMSE e Pearson
mean_rmse = np.mean(rmse_scores)
mean_pearson = np.mean(pearson_scores)

print(f"Mean RMSE: {mean_rmse}, Mean Pearson: {mean_pearson}")


In [None]:
import requests
from bs4 import BeautifulSoup
for essay in essays:
    prompt_url = str(essay.prompt).split('\n')[1]

    # Realiza a requisição HTTP para obter o conteúdo da página
    response = requests.get(prompt_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Encontra a div com a classe 'text'
    text_div = soup.find('div', class_='text')
    
    # Extrai o texto base
    text_base = text_element.get_text()
    
    # Encontra todas as listas ul dentro da div
    ul_lists = text_div.find_all('ul', class_='article-wording-item')
    
    # Extrai os textos base dentro das listas ul
    text_base_articles = []
    for ul_list in ul_lists[:-1]:  # Exclui o último item da lista
        for item in ul_list.find_all('li'):
            text_base_articles.append(item.get_text().strip())

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import requests
from bs4 import BeautifulSoup
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt
import uol_redacoes_xml
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Carrega as redações
essays = uol_redacoes_xml.load()

# Lista para armazenar a similaridade de cosseno entre a redação e os textos base
similarities = []

# Função para calcular a similaridade de cosseno entre a redação e os textos base
def calculate_similarity(essay, text_base):
    # Inicializa o vetorizador TF-IDF
    tfidf_vectorizer = TfidfVectorizer(stop_words='english')
    
    # Calcula a matriz TF-IDF
    tfidf_matrix = tfidf_vectorizer.fit_transform([essay, text_base])
    
    # Calcula a similaridade de cosseno entre o texto da redação e o texto base
    cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:])[0][0]
    
    return cosine_sim

for essay in essays:
    prompt_url = str(essay.prompt).split('\n')[1]

    # Realiza a requisição HTTP para obter o conteúdo da página
    response = requests.get(prompt_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Encontra a div com a classe 'text'
    text_div = soup.find('div', class_='text')
    if text_div is not None:
        text_base = text_div.get_text()
        # Continue o processamento aqui
        # Encontra todas as listas ul dentro da div
        ul_lists = text_div.find_all('ul', class_='article-wording-item')
        
        # Extrai os textos base dentro das listas ul
        text_base_articles = []
        for ul_list in ul_lists[:-1]:  # Exclui o último item da lista
            for item in ul_list.find_all('li'):
                text_base_articles.append(item.get_text().strip())
        
        # Adiciona o texto base e os artigos a uma lista para usar no vetorizador
        text_base = ' '.join(text_base_articles)
        
        # Calcula a similaridade entre a redação e os textos base
        similarity = calculate_similarity(essay.text, text_base)
        
        # Adiciona a similaridade à lista de similaridades
        similarities.append(similarity)
# Função para extrair o texto corrigido de uma redação como um vetor de contagem de palavras
def extract_corrected_text_vector(essay):
    corrected_text = ""
    soup = BeautifulSoup(essay.text, 'html.parser')
    spans = soup.find_all('span', class_='text-corrigido')
    for span in spans:
        # Verifica se a próxima tag é uma palavra corrigida
        next_tag = span.find_next_sibling()
        if next_tag and next_tag.name == 'span':
            corrected_word = next_tag.text.strip()
            corrected_text += corrected_word + " "
    return corrected_text.strip()

# Função para calcular o número de palavras únicas em uma redação
def unique_words_count(essay):
    return len(set(essay.text.split()))

# Função para calcular a repetição de palavras em relação ao vocabulário em uma redação
def word_repetition_ratio(essay):
    words = essay.text.split()
    total_words = len(words)
    unique_words = len(set(words))
    return total_words / unique_words if unique_words != 0 else 0  # Evita divisão por zero
    
# Função para calcular o número de parágrafos em uma redação
def paragraph_count(essay):
    return essay.text.count('\n\n') + 1


# Função para calcular o tamanho médio das palavras em uma redação
def average_word_length(essay):
    words = essay.text.split()
    total_length = sum(len(word) for word in words)
    return total_length / len(words) if len(words) != 0 else 0  # Evita divisão por zero

# Lista de stopwords em português, que inclui muitos conectivos
stop_words = set(stopwords.words('portuguese'))

# Função para calcular o uso de conectivos em um texto
def connective_usage_ratio(essay):
    words = word_tokenize(essay.text.lower(), language='portuguese')
    total_words = len(words)
    connectives_count = len([word for word in words if word in stop_words])
    return connectives_count / total_words if total_words != 0 else 0  # Evita divisão por zero

# Criando um vocabulário baseado nos textos originais
original_texts = [essay.text for essay in essays]
vectorizer = CountVectorizer()
vectorizer.fit(original_texts)

# Utilizando o vocabulário criado com base nos textos originais
corrected_texts = [extract_corrected_text_vector(essay) for essay in essays]
X_corrected = vectorizer.transform(corrected_texts)

# Adiciona as similaridades como uma nova feature nas redações
X = [[len(essay.text), len(essay.text.split()), unique_words_count(essay), word_repetition_ratio(essay),
      paragraph_count(essay), average_word_length(essay), connective_usage_ratio(essay), similarity] 
     for essay, similarity in zip(essays, similarities)]

X = np.array(X)

y = [essay.final_score for essay in essays]

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predição
y_pred = model.predict(X_test)

# Métricas
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
pearson = np.corrcoef(y_test, y_pred)[0, 1]

print(f"RMSE: {rmse}, Pearson: {pearson}")

# Plotagem do gráfico
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, color='blue', alpha=0.5)
plt.xlabel('Nota Real')
plt.ylabel('Nota Prevista')
plt.title('Comparação entre Notas Reais e Previstas')
plt.show()


In [None]:
from sklearn.model_selection import cross_val_score

# Avalie o modelo usando a validação cruzada
scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
rmse_scores = np.sqrt(-scores)  # Converta os scores de MSE negativos para RMSE

# Exiba os resultados da validação cruzada
print("RMSE Médio:", rmse_scores.mean())
