# **Biblioteca**

In [None]:
!pip install emoji



In [None]:
# Manipulação de dados

import numpy as np  # Operações numéricas e matrizes
import pandas as pd  # Manipulação de dataframes

# Visualização de dados

import matplotlib.pyplot as plt  # Criação de gráficos e visualizações
import seaborn as sns  # Visualização de dados baseada em matplotlib
import matplotlib.image as mpimg  # Manipulação de imagens

# Processamento de texto

import re  # Expressões regulares para processamento de texto
import nltk  # Natural Language Toolkit, ferramentas para processamento de texto
from nltk.corpus import stopwords  # Conjunto de palavras comuns a serem ignoradas
from nltk.stem import WordNetLemmatizer  # Lematização de palavras (redução a forma base)
from nltk.tokenize import word_tokenize  # Tokenização de texto (divisão em palavras)
import emoji  # Manipulação de emojis

# Modelagem e machine learning

from sklearn.feature_extraction.text import TfidfVectorizer  # Transformação de texto em vetores TF-IDF
from sklearn.model_selection import train_test_split  # Divisão de dados em treino e teste
from sklearn.svm import SVC  # Máquina de vetores de suporte
from sklearn.linear_model import LogisticRegression  # Regressão logística
from sklearn import metrics  # Métricas de avaliação de modelos
from sklearn import preprocessing   # Pré-processamento de dados
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score  # Relatórios e métricas
from sklearn.metrics import precision_score, recall_score, f1_score  # Métricas de avaliação adicionais
from sklearn.preprocessing import StandardScaler  # Padronização de dados

# Outras utilidades

import joblib  # Serialização de objetos Python
import statsmodels.api as sm  # Modelagem estatística
from IPython.display import Image  # Exibição de imagens no Jupyter Notebook
from scipy.sparse import hstack  # Manipulação de matrizes esparsas
import itertools  # Ferramentas para iterações
import warnings  # Gerenciamento de warnings

# Configuração de warnings
warnings.filterwarnings("ignore")


In [None]:
# Downloads necessários para NLTK
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')

warnings.filterwarnings("ignore")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
texto = pd.read_csv('toxic_language_novos_features.csv')
texto_test = pd.read_csv('toxic_language_test.csv')

# Remover a coluna "id"
texto_test = texto_test.drop(columns=['id'])

In [None]:
def pre_filtro(texto):

  #remove emojis
  texto = emoji.replace_emoji(texto, replace='')

  #remove pontuação
  texto = re.sub(r'@\w+', '', texto)

  #remove links
  texto = re.sub(r'http\S+', '', texto)

  #remove menções
  texto = re.sub(r'\b(rt|user|https|!)\b', '', texto, flags=re.IGNORECASE)

  return texto.strip()

texto_test['text'] = texto_test['text'].apply(pre_filtro)

texto_test[['text']].head()

Unnamed: 0,text
0,nossa mano te odeio na moral kkkkkkkkkkkkkkkkkkk
1,a edição ficou muito boa! kkkkkkkkkkk\n\nmas f...
2,"largada vá, visto que a vaca anda à solta"
3,"poxa, eu queria ganhar um boné. alguém me da u..."
4,"amiga, tudo bem, não precisa se desculpar com ..."


In [None]:
# PRÉ PROCESSAMENTO - REMOVER EMOJIS, MEÇÕES A USUÁRIOS, LINKS, RISADAS, CARACTERES INDESEJADOS, ESPAÇOS EXTRAS, PALAVRAS ESPECÍFICAS
texto['text'] = texto['text'].fillna('')
texto_test['text'] = texto_test['text'].apply(pre_filtro)

In [None]:
#separando de tóxico para não tóxico

lista_toxica = set(''.join(texto[texto['label'] == 1]['text']).split())
lista_n_toxica = set(''.join(texto[texto['label'] == 0]['text']).split())
lista_neutro = set.intersection(lista_toxica, lista_n_toxica)


In [None]:
stopwords = set(stopwords.words('portuguese'))
lemmatizer = WordNetLemmatizer()

In [None]:
#verificar se é tóxico

def e_toxico(text):
  for i in text.split():
    if i in lista_toxica:
      return 1
  return 0

#vereficar se n é tóxico

def n_e_toxico(text):
  for i in text.split():
    if i in lista_n_toxica:
      return 1
  return 0

#palavra neutra

def neutro_texto(text):
   palavra = text.split()
   for i in palavra:
      if i in lista_neutro:
        return 1
   return 0

#quantidade de palavras tóxicas

def count_toxic(text):
  count = 0
  for i in text.split():
    if i in lista_toxica:
      count += 1
  return count

#quantidade de palavras não tóxicas

def count_n_toxic(text):
  count = 0
  for i in text.split():
    if i in lista_n_toxica:
      count += 1
  return count


#contagem palavras neutras

def count_neutro(text):
  count = 0
  for i in text.split():
    if i in lista_neutro:
      count += 1
  return count

#removendo storpwords

def remove_stopwords(text):
  tokens = text.split()
  filtered_tokens = [word for word in tokens if word.lower() not in stopwords]
  return ' '.join(filtered_tokens)

#lematizando o texto

def lemmatize_text(text):
    tokens = text.split()
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(lemmatized_tokens)



In [None]:
#Aplicando remove_stopwords e lemmatização

texto_test['text'] = texto_test['text'].apply(remove_stopwords)
texto_test['text'] = texto_test['text'].apply(lemmatize_text)

In [None]:
#Aplicando a funções
texto_test['palavras tóxicas'] = texto_test['text'].apply(e_toxico)

texto_test['palavras não tóxicas'] = texto_test['text'].apply(n_e_toxico)

texto_test['palavras neutras'] = texto_test['text'].apply(neutro_texto)

texto_test['contagem tóxica'] = texto_test['text'].apply(count_toxic)

texto_test['contagem não tóxica'] = texto_test['text'].apply(count_n_toxic)

texto_test['contagem neutras'] = texto_test['text'].apply(count_neutro)

texto_test['contagem de palavras'] = texto_test['text'].apply(lambda x: len(x.split()))

texto_test['contagem de letras'] = texto_test['text'].apply(lambda x: len(x))


In [None]:
# Contar valores nulos por coluna
nulos_por_coluna = texto_test.isnull().sum()

# Exibir os valores nulos por coluna
print(nulos_por_coluna)

text                    0
palavras tóxicas        0
palavras não tóxicas    0
palavras neutras        0
contagem tóxica         0
contagem não tóxica     0
contagem neutras        0
contagem de palavras    0
contagem de letras      0
dtype: int64


In [None]:
#PREDIÇÃO UTILIZANDO OS MODELOS EXPORTADOS

# Carregar o vetorizador TF-IDF treinado
tfidf_vectorizer_1 = joblib.load('tfidf_vectorizer.pkl')

# Carregar o modelo  treinado
lg_model_1 = joblib.load('lg_model.pkl')

# Extrair os dados textuais de teste
X_text_test = texto_test['text']

# Vetorizar os dados textuais de teste
X_t = tfidf_vectorizer_1.transform(X_text_test)
X_others = texto_test[['palavras tóxicas','palavras não tóxicas','palavras neutras','contagem tóxica','contagem não tóxica','contagem neutras','contagem de palavras','contagem de letras']]

X = hstack([X_t, X_others])

# Fazer previsões no conjunto de teste
y_pred_test_1 = lg_model_1.predict(X)

# Adicionar as previsões ao DataFrame
texto_test['predicted_label'] = y_pred_test_1

# Salvar o DataFrame com as previsões em um novo arquivo CSV
texto_test.to_csv('toxic_language_test_predictions.csv', index=False)


In [None]:
# Carregar o arquivo CSV (baixado do kaggle)
final_df = pd.read_csv('sample_submission.csv')

In [None]:
# Adicionar a coluna prediction_label de df_test ao final_df
final_df['predicted_label'] = texto_test['predicted_label']

# Remover a coluna label de final_df
final_df = final_df.drop(columns=['label'])

# Renomear a coluna prediction_label para label em final_df
final_df = final_df.rename(columns={'predicted_label': 'label'})

# Exibir o DataFrame final_df atualizado
print(final_df)

# Salvar o DataFrame com as previsões em um novo arquivo CSV
final_df.to_csv('sample_submission_final.csv', index=False)


        id  label
0        0      0
1        1      0
2        2      0
3        3      0
4        4      1
...    ...    ...
4195  4195      0
4196  4196      1
4197  4197      0
4198  4198      0
4199  4199      0

[4200 rows x 2 columns]


In [None]:
# Carregar o arquivo CSV
final = pd.read_csv('sample_submission_final.csv')

In [None]:
final.head()

Unnamed: 0,id,label
0,0,0
1,1,0
2,2,0
3,3,0
4,4,1
