In [1]:
import pandas as pd
import re
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_validate
import time

In [2]:
# Função para carregar o dicionário personalizado
def carregar_dicionario_personalizado(dic_path):
    categorias = {}
    lexicon = {}
    dentro_das_categorias = False

    with open(dic_path, 'r', encoding='utf-8') as file:
        for linha in file:
            linha = linha.strip()
            
            # Detecta a seção de categorias delimitada por '%'
            if linha == '%':
                dentro_das_categorias = not dentro_das_categorias
                continue
            
            # Lê as categorias personalizadas
            if dentro_das_categorias:
                codigo, categoria = linha.split()
                categorias[codigo] = categoria
            else:
                # Lê as palavras e suas categorias
                partes = linha.split("\t")
                palavra = partes[0]
                categoria_ids = partes[1:]
                lexicon[palavra] = [categorias[codigo] for codigo in categoria_ids if codigo in categorias]
    
    return lexicon, list(categorias.values())

# Tokenização simples
def tokenize(text):
    tokens = []
    for match in re.finditer(r"\w+", text, re.UNICODE):
        tokens.append(match.group(0).lower())
    return tokens

# Função para incluir palavras do dicionário como colunas
def adicionar_palavras_como_features(df, lexicon):
    # Criar colunas para cada palavra do dicionário
    palavras = list(lexicon.keys())
    for palavra in palavras:
        df[palavra] = 0
    
    # Contar ocorrências de cada palavra no texto
    for i, texto in df['text_content_anonymous'].items():
        tokens = tokenize(texto)
        for token in tokens:
            if token in lexicon:
                df.at[i, token] += 1
    
    return df

# Caminhos para o dataset e dicionário
dataset_path = "Correto_whatsapp_rotulado_revisado.csv"
dic_path = "v2_SocialLIWC_formatado_ordenado.dic"

# Carregar o dataset
df = pd.read_csv(dataset_path)
df['text_content_anonymous'] = df['text_content_anonymous'].astype(str)

# Carregar o dicionário
lexicon, category_names = carregar_dicionario_personalizado(dic_path)

# Adicionar palavras como features
df = adicionar_palavras_como_features(df, lexicon)

# Definir as colunas de entrada (todas as palavras do dicionário) e o rótulo
X = df[list(lexicon.keys())]
y = df['preconceito']

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Definir os modelos a serem usados
models = [
    LogisticRegression(), BernoulliNB(), MultinomialNB(), LinearSVC(dual=False),
    KNeighborsClassifier(), RandomForestClassifier(),
    GradientBoostingClassifier(n_estimators=200), MLPClassifier(batch_size=64, max_iter=50, early_stopping=True)
]

# Avaliação de modelos
resultados = []

for model in models:
    start_time = time.time()
    metodos_scoring = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']
    cv_results = cross_validate(model, X_train, y_train, cv=5, scoring=metodos_scoring, return_train_score=True)
    end_time = time.time()
    
    resultado = {
        'model': model.__class__.__name__,
        'execution_time': end_time - start_time
    }
    for scoring in metodos_scoring:
        resultado[f'{scoring}_avg'] = cv_results[f'test_{scoring}'].mean()
        resultado[f'{scoring}_std'] = cv_results[f'test_{scoring}'].std()
    
    resultados.append(resultado)

# Exibir os resultados
df_resultados = pd.DataFrame(resultados)
print(df_resultados)

# Salvar as métricas no CSV
metrics_output_path = "model_performance_metrics.csv"
df_resultados.to_csv(metrics_output_path, index=False)
print(f"Métricas salvas em: {metrics_output_path}")

# Salvar o dataset processado
df.to_csv("wpp_processado.csv", index=False)


  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palavra] = 0
  df[palav

                        model  execution_time  accuracy_avg  accuracy_std  \
0          LogisticRegression        1.655477      0.828333      0.019570   
1                 BernoulliNB        1.718691      0.826250      0.019437   
2               MultinomialNB        1.507853      0.826667      0.018699   
3                   LinearSVC        1.498582      0.832500      0.025536   
4        KNeighborsClassifier        3.731642      0.770417      0.028608   
5      RandomForestClassifier        3.917490      0.822500      0.022799   
6  GradientBoostingClassifier        7.141371      0.825000      0.024791   
7               MLPClassifier       11.124124      0.829167      0.021409   

   precision_avg  precision_std  recall_avg  recall_std    f1_avg    f1_std  \
0       0.929644       0.008555    0.710833    0.046963  0.804611  0.027960   
1       0.891606       0.006841    0.742500    0.037025  0.809890  0.024899   
2       0.883595       0.007822    0.752500    0.041717  0.812180  0.

In [3]:
  # Definir os modelos
        models = [
 In[2]: Função para criar features baseadas em palavras do dicionário

IndentationError: unexpected indent (4012827328.py, line 2)

In [None]:
# Função para criar features baseadas em palavras do dicionário
def adicionar_palavras_como_features(df, lexicon):
    # Criar um DataFrame auxiliar para armazenar as contagens
    palavras = list(lexicon.keys())
    word_counts = pd.DataFrame(0, index=df.index, columns=palavras)
    
    # Contar ocorrências de cada palavra no texto
    for i, texto in df['text_content_anonymous'].items():
        tokens = tokenize(texto)
        for token in tokens:
            if token in lexicon:
                word_counts.at[i, token] += 1
    
    # Concatenar as contagens ao DataFrame original
    df = pd.concat([df, word_counts], axis=1)
    return df

# Preprocessamento: Tokenizar e processar textos
def preprocess_data(df, lexicon):
    print("Pré-processando os textos e criando features do dicionário.")
    return adicionar_palavras_como_features(df, lexicon)

# Função para salvar um CSV com as features e suas quantidades
def salvar_features_csv(df, lexicon, output_path="features_quantidades.csv"):
    # Contar a frequência de cada feature no DataFrame
    feature_counts = df[list(lexicon.keys())].sum().sort_values(ascending=False)
    feature_counts.to_csv(output_path, header=["count"])
    print(f"Features e suas quantidades salvas em: {output_path}")
    return feature_counts

# Função para gerar um gráfico das features mais frequentes
def plotar_features_mais_frequentes(feature_counts, top_n=20):
    plt.figure(figsize=(10, 6))
    sns.barplot(x=feature_counts.head(top_n).values, y=feature_counts.head(top_n).index)
    plt.title(f"Top {top_n} Features Mais Frequentes")
    plt.xlabel("Frequência")
    plt.ylabel("Features")
    plt.tight_layout()
    plt.show()

# Função para visualizar frases e suas features mais representativas
def plotar_frases_e_features(df, lexicon, n_frases=5):
    print("\nExemplos de frases e suas features representativas:\n")
    for i, row in df.head(n_frases).iterrows():
        frase = row['text_content_anonymous']
        features_ativas = [feature for feature in lexicon.keys() if row[feature] > 0]
        print(f"Frase {i+1}: {frase}")
        print(f"Features Ativas: {features_ativas}\n")

# Rodar os experimentos
for experiment in ["ml-dic"]:
    start_time = time.time()

    try:
        print(f"Rodando experimento: {experiment}")

        # Remover duplicatas e lidar com valores ausentes
        df = df.drop_duplicates(subset=['text_content_anonymous'])
        df['text_content_anonymous'] = df['text_content_anonymous'].fillna("")
        df['text_content_anonymous'] = df['text_content_anonymous'].astype(str)

        # Criar features do dicionário
        df = preprocess_data(df, lexicon)

        # Definir dados de entrada (X) e rótulos (y)
        X = df[list(lexicon.keys())]  # Features baseadas no dicionário
        y = df['preconceito']

        # Dividir os dados em treino e teste
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=0.2, stratify=y, random_state=42
        )

        # Definir os modelos
        models = [
            LogisticRegression(penalty='l2', C=1.0, solver='saga', max_iter=200, random_state=42),
            BernoulliNB(binarize=0.0),
            MultinomialNB(alpha=0.5),
            LinearSVC(C=0.5, class_weight='balanced', dual=False, max_iter=1000, random_state=42),
            KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2),
            RandomForestClassifier(n_estimators=300, max_depth=20, min_samples_split=5, min_samples_leaf=2, class_weight='balanced', random_state=42),
            GradientBoostingClassifier(n_estimators=300, learning_rate=0.05, max_depth=5, min_samples_split=10, min_samples_leaf=2, random_state=42),
            MLPClassifier(hidden_layer_sizes=(128, 64, 32), activation='relu', solver='adam', learning_rate_init=0.001, batch_size=32, max_iter=200, early_stopping=True, random_state=42, verbose=False)
        ]

        # Avaliar os modelos
        resultados = []
        for model in models:
            resultado_linha = dict()
            resultado_linha['model'] = model.__class__.__name__

            # Avaliar com validação cruzada
            model_start_time = time.time()
            metodos_scoring = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']
            cv_results = cross_validate(model, X_train, y_train, cv=5, scoring=metodos_scoring, return_train_score=True)
            model_end_time = time.time()
            resultado_linha['execution_time'] = model_end_time - model_start_time

            # Salvar métricas
            for scoring in metodos_scoring:
                scores = cv_results[f'test_{scoring}']
                resultado_linha[f'{scoring}_avg'] = scores.mean()
                resultado_linha[f'{scoring}_std'] = scores.std()

            resultados.append(resultado_linha)
            print(f"Modelo: {model.__class__.__name__} finalizado.")

        # Tempo total do experimento
        experiment_time = time.time() - start_time
        print(f"Tempo total do experimento '{experiment}': {experiment_time:.2f} segundos")

        # Salvar os resultados no CSV
        df_resultados = pd.DataFrame(resultados)
        path_to_save = f"N_abordagem/resultados_{experiment}.csv"
        df_resultados.to_csv(path_to_save, index=False)
        print(f"Resultados salvos em: {path_to_save}")

    except Exception as e:
        print(f"Erro ao executar o experimento '{experiment}': {e}")

# Configurar as grades de hiperparâmetros para todos os modelos
param_grids = {
    'LogisticRegression': {
        'penalty': ['l1', 'l2'],  # Regularização L1 ou L2
        'C': [0.01, 0.1, 1, 10],  # Ajuste do parâmetro de regularização
        'solver': ['liblinear', 'saga'],  # Solvers
    },
    'BernoulliNB': {
        'binarize': [0.0, 0.5, 1.0]  # Testar diferentes limiares de binarização
    },
    'MultinomialNB': {
        'alpha': [0.1, 0.5, 1.0]  # Suavização de Laplace
    },
    'LinearSVC': {
        'C': [0.1, 1, 10],  # Regularização
        'class_weight': ['balanced', None]
    },
    'KNeighborsClassifier': {
        'n_neighbors': [3, 5, 7, 10],  # Número de vizinhos
        'metric': ['minkowski', 'manhattan']  # Métricas de distância
    },
    'RandomForestClassifier': {
        'n_estimators': [100, 200, 500],  # Número de estimadores
        'max_depth': [10, 20, None],  # Profundidade máxima
        'min_samples_split': [2, 5, 10]  # Divisões mínimas
    },
    'GradientBoostingClassifier': {
        'n_estimators': [100, 200, 500],  # Número de árvores
        'learning_rate': [0.01, 0.05, 0.1],  # Taxa de aprendizado
        'max_depth': [3, 5, 7]  # Profundidade das árvores
    },
    'MLPClassifier': {
        'hidden_layer_sizes': [(128, 64, 32), (64, 32), (128, 64)],  # Arquitetura
        'learning_rate_init': [0.001, 0.0001],  # Taxa de aprendizado
        'alpha': [0.0001, 0.001]  # Regularização L2
    }
}

# Criar instâncias dos modelos
models = {
    'LogisticRegression': LogisticRegression(max_iter=200, random_state=42),
    'BernoulliNB': BernoulliNB(),
    'MultinomialNB': MultinomialNB(),
    'LinearSVC': LinearSVC(dual=False, random_state=42),
    'KNeighborsClassifier': KNeighborsClassifier(),
    'RandomForestClassifier': RandomForestClassifier(random_state=42),
    'GradientBoostingClassifier': GradientBoostingClassifier(random_state=42),
    'MLPClassifier': MLPClassifier(max_iter=200, early_stopping=True, random_state=42)
}

# Loop para rodar o GridSearchCV em todos os modelos
resultados = []
for model_name, model in models.items():
    print(f"Executando GridSearchCV para {model_name}...")
    param_grid = param_grids.get(model_name)
    grid_search = GridSearchCV(model, param_grid, scoring='f1', cv=5, verbose=1)
    grid_search.fit(X_train, y_train)
    
    # Salvar os melhores parâmetros e o melhor desempenho
    resultado = {
        'model': model_name,
        'best_params': grid_search.best_params_,
        'best_f1_score': grid_search.best_score_
    }
    resultados.append(resultado)

# Criar DataFrame com os resultados
df_resultados = pd.DataFrame(resultados)
print(df_resultados)

# Salvar os resultados em um CSV
df_resultados.to_csv("grid_search_results.csv", index=False)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns  # Se ainda não importou

# Agora execute a função
plotar_features_mais_frequentes(feature_counts, top_n=20)
