In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, accuracy_score

In [9]:
# Caminhos para os arquivos de dados
train_data_path = 'ReutersGrain-train.csv'
test_data_path = 'ReutersGrain-test.csv'

In [12]:
# Lendo os arquivos CSV com uma abordagem para lidar com formatos irregulares

# Aumentando o número de colunas e tentando detectar automaticamente o delimitador
column_names_extended = ['col' + str(i) for i in range(100)]  # Criando 100 nomes de colunas

try:
    # Lendo os arquivos CSV com as novas configurações
    train_data = pd.read_csv(train_data_path, names=column_names_extended, delimiter=None, engine='python', error_bad_lines=False)
    test_data = pd.read_csv(test_data_path, names=column_names_extended, delimiter=None, engine='python', error_bad_lines=False)

    # Combinando todas as colunas de texto em uma e usando a última coluna como rótulo
    train_data['Text'] = train_data[column_names_extended[:-1]].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
    train_data['class-att'] = pd.to_numeric(train_data[column_names_extended[-1]], errors='coerce')
    test_data['Text'] = test_data[column_names_extended[:-1]].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
    test_data['class-att'] = pd.to_numeric(test_data[column_names_extended[-1]], errors='coerce')

    # Limpando os dados
    train_data.drop(columns=column_names_extended, inplace=True)
    test_data.drop(columns=column_names_extended, inplace=True)
    train_data.dropna(inplace=True)
    test_data.dropna(inplace=True)
except Exception as e:
    extended_read_error = str(e)

# Verificando se a leitura foi bem-sucedida ou retornando a mensagem de erro
train_data.head() if 'train_data' in locals() else extended_read_error, test_data.head() if 'test_data' in locals() else extended_read_error



("read_csv() got an unexpected keyword argument 'error_bad_lines'",
 "read_csv() got an unexpected keyword argument 'error_bad_lines'")

In [13]:
# Combinando todas as colunas de texto em uma e usando a última coluna como rótulo
train_data['Text'] = train_data[column_names[:-1]].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
train_data['class-att'] = pd.to_numeric(train_data[column_names[-1]], errors='coerce')
test_data['Text'] = test_data[column_names[:-1]].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
test_data['class-att'] = pd.to_numeric(test_data[column_names[-1]], errors='coerce')


NameError: name 'train_data' is not defined

In [None]:
# Limpando os dados
train_data.drop(columns=column_names, inplace=True)
test_data.drop(columns=column_names, inplace=True)
train_data.dropna(inplace=True)
test_data.dropna(inplace=True)

In [None]:
# Preparando o modelo de classificação
vectorizer = TfidfVectorizer(stop_words='english')
model = make_pipeline(vectorizer, MultinomialNB())

In [None]:
# Treinamento do modelo
model.fit(train_data['Text'], train_data['class-att'])

In [None]:
# Predição e avaliação
y_pred = model.predict(test_data['Text'])
accuracy = accuracy_score(test_data['class-att'], y_pred)
report = classification_report(test_data['class-att'], y_pred)]

In [None]:
# Exibindo os resultados
print(f"Accuracy: {accuracy}")
print(report)