In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import joblib # Para salvar nosso modelo
import os # Para criar pastas

print("Bibliotecas importadas com sucesso!")


Bibliotecas importadas com sucesso!


In [2]:
# Este caminho busca o arquivo na pasta 'dados'
caminho_dados = '../dados/extended_essay-br.csv'
df = pd.read_csv(caminho_dados)

# Vamos usar apenas as colunas de redação (essay) e da nota de coesão (c4)
df_modelo = df[['essay', 'c4']].copy()
df_modelo.dropna(inplace=True) # Limpa linhas que estejam vazias

print(f"Dados carregados. Temos {len(df_modelo)} redações para o estudo.")
df_modelo.head() # Mostra as 5 primeiras linhas para conferir

Dados carregados. Temos 6577 redações para o estudo.


Unnamed: 0,essay,c4
0,['Comenta-se que o ex presidente Lula ex-presi...,0
1,"['Amazonas, sem ela ele os dias do brasil Bras...",0
2,['Eu acredito que os dois são muito importante...,0
3,['Assunto que repercute de forma constante nos...,0
4,['O supremo tribunal federal Supremo Tribunal ...,0


In [3]:
# X é o texto da redação (a pergunta), y é a nota (a resposta certa)
X = df_modelo['essay']
y = df_modelo['c4']

# Divide os dados: 80% para treinar (estudar) e 20% para testar (a prova)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# O "tradutor" que converte texto em vetores numéricos
vectorizer = TfidfVectorizer(max_features=5000, stop_words=['de', 'a', 'o', 'que', 'e', 'do'])

# Aplica o tradutor nos textos de treino e de teste
X_train_vect = vectorizer.fit_transform(X_train)
X_test_vect = vectorizer.transform(X_test)

print("Textos de treino e teste foram transformados em vetores numéricos.")

Textos de treino e teste foram transformados em vetores numéricos.


In [4]:
# Cria uma instância do modelo de Regressão Linear
model = LinearRegression()

# O comando .fit() é o momento do APRENDIZADO.
# Ele encontra os padrões entre os textos em números (X_train_vect) e as notas corretas (y_train).
model.fit(X_train_vect, y_train)

print("Modelo treinado com sucesso!")

Modelo treinado com sucesso!


In [5]:
# Agora, usamos o modelo treinado para prever as notas do conjunto de teste (a prova)
y_pred = model.predict(X_test_vect)

# Avalia o quão bem o modelo se saiu
mse = mean_squared_error(y_test, y_pred)
print(f"O Erro Quadrático Médio do modelo foi: {mse:.2f}")

# --- SALVANDO OS ARQUIVOS ---
# Primeiro, define o caminho e cria a pasta 'backend' se ela não existir
caminho_backend = '../backend/'
if not os.path.exists(caminho_backend):
    os.makedirs(caminho_backend)
    print(f"Pasta '{caminho_backend}' criada com sucesso.")

# Salva o modelo treinado e o vetorizador (nosso "tradutor") dentro da pasta backend
joblib.dump(model, os.path.join(caminho_backend, 'modelo_coesao.pkl'))
joblib.dump(vectorizer, os.path.join(caminho_backend, 'vetorizador.pkl'))

print(f"Modelo e vetorizador foram salvos com sucesso na pasta '{caminho_backend}'!")

O Erro Quadrático Médio do modelo foi: 20922.65
Modelo e vetorizador foram salvos com sucesso na pasta '../backend/'!
