In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# 1. Carregar e Pré-processar o Dataset "AI_human.csv"
df = pd.read_csv('data/AI_Human.csv')

# Verificar as primeiras linhas para entender a estrutura dos dados
print(df.head())

# Separar os dados em X (texto) e y (rótulos)
X = df['text']  # Coluna com os textos
y = df['generated'].apply(lambda x: 1 if x == 1 else 0)  # 'AI' = 1, 'Human' = 0

# 2. Tokenização e vetorização dos dados utilizando CountVectorizer
vectorizer = CountVectorizer(stop_words='english', max_features=1000)
X_vect = vectorizer.fit_transform(X).toarray()

# 3. Dividir os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X_vect, y, test_size=0.2, random_state=42)

# 4. Funções para a Regressão Logística
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def logistic_regression(X, y, learning_rate=0.01, epochs=100):
    m, n = X.shape
    W = np.zeros(n)
    b = 0

    # Descida do gradiente
    for epoch in range(epochs):
        model = np.dot(X, W) + b
        predictions = sigmoid(model)

        dw = (1/m) * np.dot(X.T, (predictions - y))
        db = (1/m) * np.sum(predictions - y)

        # Atualização dos parâmetros
        W -= learning_rate * dw
        b -= learning_rate * db

    return W, b

def predict(X, W, b):
    model = np.dot(X, W) + b
    predictions = sigmoid(model)
    return [1 if p >= 0.5 else 0 for p in predictions]

# 5. Treinar o modelo de Regressão Logística no dataset "AI_human.csv"
W, b = logistic_regression(X_train, y_train, learning_rate=0.01, epochs=1000)

# 6. Avaliar o modelo no conjunto de teste (usado para validação)
predictions_test = predict(X_test, W, b)

# 7. Carregar o dataset2_inputs.csv e pré-processar
dataset2_inputs = pd.read_csv('data/dataset2_inputs.csv', sep='\t')

# Verificar a estrutura do dataset2_inputs e adaptar o pré-processamento
X_input = dataset2_inputs['Text']
X_input_vect = vectorizer.transform(X_input).toarray()  # Transformar o texto de dataset2_inputs

# 8. Fazer previsões usando o modelo treinado no dataset2_inputs
predictions = predict(X_input_vect, W, b)

# 9. Mapear as previsões para os rótulos ('AI' ou 'Human')
predicted_labels = ['AI' if p == 1 else 'Human' for p in predictions]

# 10. Criar o DataFrame de saída com ID e as previsões
output_df = pd.DataFrame({
    'ID': dataset2_inputs['ID'],  # Usando os IDs de dataset2_inputs
    'Predicted_Label': predicted_labels
})

# 11. Salvar as previsões em um arquivo CSV
output_df.to_csv('data/AI_HUMAN_dataset2_predictions_logistic.csv', index=False)

print("Previsões geradas e salvas em 'data/AI_HUMAN_dataset2_predictions_logistic.csv'")


                                                text  generated
0  Cars. Cars have been around since they became ...        0.0
1  Transportation is a large necessity in most co...        0.0
2  "America's love affair with it's vehicles seem...        0.0
3  How often do you ride in a car? Do you drive a...        0.0
4  Cars are a wonderful thing. They are perhaps o...        0.0


KeyboardInterrupt: 