Proyecto: Deteccón de lenguaje ofensivo

Autores de la práctica: Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es

### Prueba de nltk y algoritmo de prueba de vectorizadores y modelos



In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
import pandas as pd
from itertools import product
from google.colab import drive

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from xgboost import XGBClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer
from gensim.models import Word2Vec


# Montar Google Drive
drive.mount('/content/drive')

# Descargar stopwords en español
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

# Ruta de los archivos en Google Drive
train_path = '/content/drive/MyDrive/PLN/Proyecto/train.tsv'
dev_path = '/content/drive/MyDrive/PLN/Proyecto/dev.tsv'

# Cargar los datos de entrenamiento desde el archivo train.tsv
train_data = pd.read_csv(train_path, sep='\t', encoding='latin1')

# Obtener los comentarios y las etiquetas de entrenamiento
train_comments = train_data['comment'].tolist()
train_labels = train_data['label'].tolist()

# Preprocesar los comentarios de entrenamiento
def preprocess_text(comment):
    tokens = word_tokenize(comment.lower())
    filtered_tokens = [token for token in tokens if token.isalpha() and token not in stop_words]
    preprocessed_text = ' '.join(filtered_tokens)
    return preprocessed_text

preprocessed_train_comments = [preprocess_text(comment) for comment in train_comments]

print("\nPRIMER COMENTARIO PROCESADO: ", preprocessed_train_comments[0],"\n")
print("\nPRIMERA ETIQUETA: ", train_labels[0],"\n")

# Cargar los datos de prueba desde el archivo dev.tsv
dev_data = pd.read_csv(dev_path, sep='\t')

# Obtener los comentarios y las etiquetas de prueba
dev_comments = dev_data['comment'].tolist()
dev_labels = dev_data['feature'].tolist()

# Preprocesar los comentarios de prueba
preprocessed_dev_comments = [preprocess_text(comment) for comment in dev_comments]

print("\nPRIMER COMENTARIO DEV: ", preprocessed_dev_comments[0],"\n")
print("\nPRIMERA ETIQUETA DEV: ", dev_labels[0],"\n")

# Definir los métodos y vectorizadores a probar
methods = {
    'Logistic Regression': LogisticRegression(max_iter=1000),
    'SVM': SVC(),
    'K-Nearest Neighbors': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(random_state=62),
    'Naive Bayes': GaussianNB(),
    # Agrega más métodos aquí
}

vectorizers = {
    'CountVectorizer': CountVectorizer(),
    'TfidfVectorizer': TfidfVectorizer(),
    # Agrega más vectorizadores aquí
}

# Entrenar y evaluar los modelos para cada combinación de método y vectorizador
resultados = []
for (method_name, method_model), (vectorizer_name, vectorizer_model) in product(methods.items(), vectorizers.items()):
    # Crear el vectorizador y transformar los comentarios de entrenamiento
    X_train = vectorizer_model.fit_transform(preprocessed_train_comments)

    # Entrenar el modelo con los datos de entrenamiento
    method_model.fit(X_train, train_labels)

    # Transformar los comentarios de prueba utilizando el vectorizador
    X_dev = vectorizer_model.transform(preprocessed_dev_comments)

    # Predecir las etiquetas de prueba utilizando el modelo entrenado
    y_pred = method_model.predict(X_dev)

    # Obtener el informe de clasificación para evaluar el modelo
    report = classification_report(dev_labels, y_pred, output_dict=True)
    resultados.append((method_name, vectorizer_name, report))
    print("Método: ", method_name, " Vectorizador: ", vectorizer_name, " === ", report)

'# Montar Google Drive\ndrive.mount(\'/content/drive\')\n\n# Descargar stopwords en español\nnltk.download(\'stopwords\')\nstop_words = set(stopwords.words(\'spanish\'))\n\n# Ruta de los archivos en Google Drive\ntrain_path = \'/content/drive/MyDrive/PLN/Proyecto/train.tsv\'\ndev_path = \'/content/drive/MyDrive/PLN/Proyecto/dev.tsv\'\n\n# Cargar los datos de entrenamiento desde el archivo train.tsv\ntrain_data = pd.read_csv(train_path, sep=\'\t\', encoding=\'latin1\')\n\n# Obtener los comentarios y las etiquetas de entrenamiento\ntrain_comments = train_data[\'comment\'].tolist()\ntrain_labels = train_data[\'label\'].tolist()\n\n# Preprocesar los comentarios de entrenamiento\ndef preprocess_text(comment):\n    tokens = word_tokenize(comment.lower())\n    filtered_tokens = [token for token in tokens if token.isalpha() and token not in stop_words]\n    preprocessed_text = \' \'.join(filtered_tokens)\n    return preprocessed_text\n\npreprocessed_train_comments = [preprocess_text(comment) f

### Resolución del problema

In [None]:
import spacy.cli
spacy.cli.download("es_core_news_sm")

In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()

In [None]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

In [None]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/Proyecto")
os.getcwd()

In [None]:
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

In [None]:
def getCodificacion(texto): #Función para calcular el encoding con la libreria chardet
  import chardet

  with open(texto, 'rb') as f:
    resultado = chardet.detect(f.read())

  return resultado['encoding']

In [None]:
#Cargando lexicon
def tokenizar(texto):  
    texto=nlp(texto)
    tokens=[]
    textoProcesado=""
    for token in texto:
        if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
            tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
    textoProcesado=" ".join(tokens)
    #print(texto,"-",textoProcesado,end="\n")
    return textoProcesado

elementosLexicon=[]
etiquetasLexicon=[]
with open('Lexicón.txt', 'r') as archivo:
    for linea in archivo.readlines():
      etiquetasLexicon.append("OFF")
      elementosLexicon.append(tokenizar(linea))
      #elementosLexicon.append(linea)



### Procesado quitando palabras ofensivas de textos no ofensivos

In [None]:
'''def preprocesarLista(lista): #Función para quitar comillas y corchetes
    listaAux=[]
    for elemento in lista:
        listaAux.append(elemento.replace("'","").replace("]","").replace("[",""))
    return listaAux

def tokenizarTexto(lista,filename):
   
    print(filename)
    texto=nlp(lista[1])
    tokens=[]
    textoProcesado=""
    for token in texto:
        if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
          
          #############################QUITAMOS DE textos NON los insultos############################

            if lista[2]=="NON" and filename=="train.tsv":
              if token.lemma_.lower() not in elementosLexicon:
                tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
              else:
                print("------Quitada de texto NON:",token.lemma_.lower(),filename)
            else:
              tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula

          #############################QUITAMOS DE textos NON los insultos############################

    textoProcesado=" ".join(tokens)
    return textoProcesado

########################CARGA DE DATOS##########################
import re
import os 
import glob   #Lectura y procesado de los archivos
import chardet
import openpyxl
import csv
import pandas as pd
path = os.chdir("/content/drive/MyDrive/PLN/Proyecto")
os.getcwd()

mapaLineas={}
comentarios_training = []
comentarios_dev = []
for filename in glob.glob('*.tsv'):  #Lectura de todos los archivos xlsx
    print(filename)
    if filename!="test.tsv":
      with open(filename,encoding='utf-8',errors='ignore') as file:
        tsv_file = csv.reader(file, delimiter="\t", quotechar='"')
        with open(filename+".txt", 'w') as f:
            totales=0
            for line in tsv_file:
                listaProcesada=line
                print("Procesando ",filename," id ",listaProcesada[0],"Totales:",totales)
                totales=totales+1

                if len(listaProcesada) == 5 and (listaProcesada[2] == 'OFF' or listaProcesada[2] == 'NON'):
                    listaProcesada[1]=tokenizarTexto(listaProcesada,filename)
                    mapaLineas[filename]=listaProcesada
                    comentario = {
                        'id': listaProcesada[0],
                        'texto': listaProcesada[1],
                        'ofensividad': listaProcesada[2],
                        'genero': listaProcesada[3],
                        'plataforma': listaProcesada[4]
                    }

                    if(filename=="train.tsv"):
                      comentarios_training.append(comentario)
                    else:
                      comentarios_dev.append(comentario)
                    f.write(listaProcesada[0])
                    f.write("\n")
                    f.write(listaProcesada[1])
                    f.write("\n")
                    f.write(listaProcesada[2])
                    f.write("\n")
                    f.write(listaProcesada[3])
                    f.write("\n")
                    f.write(listaProcesada[4])
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                else:
                    print("Error: La línea no tiene la longitud esperada.")'''

### Procesado con emojis

In [None]:
'''!pip install emoji
import emoji
def preprocesarLista(lista): #Función para quitar comillas y corchetes
    listaAux=[]
    for elemento in lista:
        listaAux.append(elemento.replace("'","").replace("]","").replace("[",""))
    return listaAux

def tokenizarTexto(lista):
     ####################################Emojis##################
  
    emojis=[]
    for palabra in lista[1]:
      if emoji.is_emoji(palabra):
        emojis.append(emoji.demojize(palabra)) #lo pasamos a texto para que lo lea el modelo
        #print(emoji.demojize(palabra))
     ####################################Emojis##################

    texto=nlp(lista[1])
    tokens=[]
    textoProcesado=""
    for token in texto:
        if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
            tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
     
    ####################################Emojis##################
    for emo in emojis:
      #print(emoji)
      tokens.append(emo)
    ####################################Emojis##################

    textoProcesado=" ".join(tokens)
    print(textoProcesado)
    return textoProcesado

########################CARGA DE DATOS##########################
import re
import os 
import glob   #Lectura y procesado de los archivos
import chardet
import openpyxl
import csv
import pandas as pd
path = os.chdir("/content/drive/MyDrive/PLN/Proyecto")
os.getcwd()

mapaLineas={}
comentarios_training = []
comentarios_dev = []
for filename in glob.glob('*.tsv'):  #Lectura de todos los archivos xlsx
    print(filename)
    if filename!="test.tsv":
      with open(filename,encoding='utf-8',errors='ignore') as file:
        tsv_file = csv.reader(file, delimiter="\t", quotechar='"')
        with open(filename+".txt", 'w') as f:
            totales=0
            for line in tsv_file:
                listaProcesada=line
                print("Procesando ",filename," id ",listaProcesada[0],"Totales:",totales)
                totales=totales+1

                if len(listaProcesada) == 5 and (listaProcesada[2] == 'OFF' or listaProcesada[2] == 'NON'):
                    listaProcesada[1]=tokenizarTexto(listaProcesada)
                    mapaLineas[filename]=listaProcesada
                    comentario = {
                        'id': listaProcesada[0],
                        'texto': listaProcesada[1],
                        'ofensividad': listaProcesada[2],
                        'genero': listaProcesada[3],
                        'plataforma': listaProcesada[4]
                    }

                    if(filename=="train.tsv"):
                      comentarios_training.append(comentario)
                    else:
                      comentarios_dev.append(comentario)
                    f.write(listaProcesada[0])
                    f.write("\n")
                    f.write(listaProcesada[1])
                    f.write("\n")
                    f.write(listaProcesada[2])
                    f.write("\n")
                    f.write(listaProcesada[3])
                    f.write("\n")
                    f.write(listaProcesada[4])
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                else:
                    print("Error: La línea no tiene la longitud esperada.")'''

### Carga de test.tsv

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

In [None]:
import csv

In [None]:
def tokenizarTexto(lista):
    texto=nlp(lista[1])
    tokens=[]
    textoProcesado=""
    for token in texto:
        if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
            #tokens.append(token.text.lower()) #la pasamos a minúscula
            tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
    textoProcesado=" ".join(tokens)
    return textoProcesado

comentarios_test=[]
filename="test.tsv"
with open(filename,encoding='utf-8',errors='ignore') as file:
        tsv_file = csv.reader(file, delimiter="\t", quotechar='"')
        totales=0
        with open(filename+".txt", 'w') as f:
            for line in tsv_file:
                listaProcesada=line
                totales=totales+1
                listaProcesada[1]=tokenizarTexto(listaProcesada)
                comentario = {
                        'id': listaProcesada[0],
                        'texto': listaProcesada[1],
                        'ofensividad': "",
                        'genero': listaProcesada[2],
                        'plataforma': listaProcesada[3]
                    }
                #print(comentario)
                #print(listaProcesada[0])
                comentarios_test.append(comentario)
                f.write(listaProcesada[0])
                f.write("\n")
                f.write(listaProcesada[1])
                f.write("\n")
                f.write(listaProcesada[2])
                f.write("\n")
                f.write(listaProcesada[3])
                f.write("\n")
                f.write("-----------------------")
                f.write("\n")
                f.write("-----------------------")
                f.write("\n")
            f.close()

In [None]:
comentarios_test.pop(0)
print("Mostrando el primer comentario:", comentarios_test[0]["texto"])


### Procesado normal

In [None]:
def preprocesarLista(lista): #Función para quitar comillas y corchetes
    listaAux=[]
    for elemento in lista:
        listaAux.append(elemento.replace("'","").replace("]","").replace("[",""))
    return listaAux

def tokenizarTexto(lista):
    texto=nlp(lista[1])
    tokens=[]
    textoProcesado=""
    for token in texto:
        if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
            tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
    textoProcesado=" ".join(tokens)
    return textoProcesado

########################CARGA DE DATOS##########################
import os 
import glob   #Lectura y procesado de los archivos
import chardet
import openpyxl
import csv
import pandas as pd
path = os.chdir("/content/drive/MyDrive/PLN/Proyecto")
os.getcwd()

mapaLineas={}
comentarios_training = []
comentarios_dev = []
for filename in glob.glob('*.tsv'):  #Lectura de todos los archivos xlsx
    print(filename)
    if filename!="test.tsv":
      with open(filename,encoding='utf-8',errors='ignore') as file:
        tsv_file = csv.reader(file, delimiter="\t", quotechar='"')
        with open(filename+".txt", 'w') as f:
            totales=0
            for line in tsv_file:
                listaProcesada=line
                totales=totales+1

                if len(listaProcesada) == 5 and (listaProcesada[2] == 'OFF' or listaProcesada[2] == 'NON'):
                    listaProcesada[1]=tokenizarTexto(listaProcesada)
                    mapaLineas[filename]=listaProcesada
                    comentario = {
                        'id': listaProcesada[0],
                        'texto': listaProcesada[1],
                        'ofensividad': listaProcesada[2],
                        'genero': listaProcesada[3],
                        'plataforma': listaProcesada[4]
                    }

                    if(filename=="train.tsv"):
                      comentarios_training.append(comentario)
                    else:
                      comentarios_dev.append(comentario)
                    f.write(listaProcesada[0])
                    f.write("\n")
                    f.write(listaProcesada[1])
                    f.write("\n")
                    f.write(listaProcesada[2])
                    f.write("\n")
                    f.write(listaProcesada[3])
                    f.write("\n")
                    f.write(listaProcesada[4])
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                    f.write("-----------------------")
                    f.write("\n")
                else:
                    print("Error: La línea no tiene la longitud esperada.")

train.tsv
Error: La línea no tiene la longitud esperada.
dev.tsv
Error: La línea no tiene la longitud esperada.
test.tsv


### Comprobación del corpus

In [None]:
contador_NON = 0
contador_OFF = 0

# Recorrer los comentarios y contar
for comentario in comentarios_training:
    if comentario['ofensividad'] == 'NON':
        contador_NON += 1
    elif comentario['ofensividad'] == 'OFF':
        contador_OFF += 1

# Imprimir los resultados
print(f"Comentarios no ofensivos (NON): {contador_NON}")
print(f"Comentarios ofensivos (OFF): {contador_OFF}")

Comentarios no ofensivos (NON): 14447
Comentarios ofensivos (OFF): 2263


In [None]:
texto_comentarios_training = []
ofensividad_comentarios_training = []

# Recorrer los comentarios y guardar la información en las listas
for comentario in comentarios_training:
    texto_comentarios_training.append(comentario['texto'])
    ofensividad_comentarios_training.append(comentario['ofensividad'])
    print("Ofensividad: ", comentario["ofensividad"])

# Comprobar que las listas tienen el mismo tamaño
assert len(texto_comentarios_training) == len(ofensividad_comentarios_training), "Las listas tienen diferente tamaño"


[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON
Ofensividad:  NON

In [None]:
texto_comentarios_test = []

# Recorrer los comentarios y guardar la información en las listas
for comentario in comentarios_test:
    texto_comentarios_test.append(comentario['texto'])

# Imprimir los comentarios training
for i in range(len(texto_comentarios_training)):
    print(f"Comentario {i + 1}:")
    print(f"Texto: {texto_comentarios_training[i]}")
    print(f"Ofensividad: {ofensividad_comentarios_training[i]}")
    print("---------------------------")

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Comentario 15461:
Texto: perro llegar pudretir cárcel cabron
Ofensividad: OFF
---------------------------
Comentario 15462:
Texto: pringada psicologo underground
Ofensividad: OFF
---------------------------
Comentario 15463:
Texto: náusea eruptos fingido volver comida poder next bañar plz
Ofensividad: OFF
---------------------------
Comentario 15464:
Texto: gata cara malo persona
Ofensividad: OFF
---------------------------
Comentario 15465:
Texto: sos mierda
Ofensividad: OFF
---------------------------
Comentario 15466:
Texto: pelotudo
Ofensividad: OFF
---------------------------
Comentario 15467:
Texto: maldita acosadora
Ofensividad: OFF
---------------------------
Comentario 15468:
Texto: game over ridicula
Ofensividad: OFF
---------------------------
Comentario 15469:
Texto: idiotir chico próximo ver
Ofensividad: OFF
---------------------------
Comentario 15470:
Texto: edita tía ir grabar sitio grar sitio querer postu

In [None]:
from sklearn.metrics import f1_score, recall_score

In [None]:
from sklearn import svm

In [None]:
texto_comentarios_dev = []
ofensividad_comentarios_dev = []

# Recorrer los comentarios y guardar la información en las listas
for comentario in comentarios_dev:
    texto_comentarios_dev.append(comentario['texto'])
    ofensividad_comentarios_dev.append(comentario['ofensividad'])

# Comprobar que las listas tienen el mismo tamaño
assert len(texto_comentarios_dev) == len(ofensividad_comentarios_dev), "Las listas tienen diferente tamaño"

# Imprimir un ejemplo
for i in range(len(texto_comentarios_dev)):
    print(f"Comentario {i + 1}:")
    print(f"Texto: {texto_comentarios_dev[i]}")
    print(f"Ofensividad: {ofensividad_comentarios_dev[i]}")
    print("---------------------------")

Comentario 1:
Texto: encantar videooo porciento aidii subir video poder ver él porfiii costar editar él esperar gustar ojala veas tequieroooo
Ofensividad: NON
---------------------------
Comentario 2:
Texto: ropa dulceida shop zara forma ésto lookbook hacertir idea estilo adaptar él único caro bolso prada comprar mango apaño crítica crítica sobrar
Ofensividad: NON
---------------------------
Comentario 3:
Texto: perra seguia v
Ofensividad: OFF
---------------------------
Comentario 4:
Texto: malditas droga
Ofensividad: NON
---------------------------
Comentario 5:
Texto: perdonar spam tratar poner yo contacto youtuber tratar hacer yo escuchar idiota encantariar hablar vos forma pacifico gustario aconsejarte gustariar decirtir mejorar imagen deberia diferencia d elo dema argumento
Ofensividad: NON
---------------------------
Comentario 6:
Texto: encantar vídeo sigue ver feliz relajado abierto punto encantar ola
Ofensividad: NON
---------------------------
Comentario 7:
Texto: estar subi

### No supervisado (K means)

In [None]:
from sklearn.cluster import KMeans

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

In [None]:
k = 2
model = KMeans(n_clusters=k)
model.fit(X) # entrenamiento



In [None]:
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names_out()
for i in range(k):
  print("\nCluster:", i)
  for ind in order_centroids[i, :50]:
    print(' \t', terms[ind])

Top terms per cluster:

Cluster: 0
 	 video
 	 ver
 	 él
 	 vídeo
 	 dalas
 	 gente
 	 persona
 	 gustar
 	 querer
 	 xd
 	 decir
 	 encantar
 	 cosa
 	 pasar
 	 puto
 	 año
 	 tener
 	 windy
 	 haber
 	 canal
 	 vida
 	 pensar
 	 seguir
 	 esperar
 	 dejar
 	 dar
 	 quedar
 	 foto
 	 hacer
 	 hablar
 	 malo
 	 salir
 	 gracias
 	 poner
 	 alguien
 	 saludo
 	 puta
 	 youtube
 	 poder
 	 subir
 	 comentario
 	 mundo
 	 estar
 	 dala
 	 entender
 	 amar
 	 javi
 	 tiempo
 	 sentir
 	 chica

Cluster: 1
 	 mierda
 	 video
 	 cacho
 	 canal
 	 él
 	 gente
 	 vida
 	 vídeo
 	 subir
 	 dalas
 	 persona
 	 dejar
 	 mundo
 	 ver
 	 querer
 	 puta
 	 ir
 	 puto
 	 gustar
 	 tirar
 	 tener
 	 encantar
 	 importar
 	 haber
 	 fan
 	 sos
 	 miare
 	 cosa
 	 hola
 	 peli
 	 gracias
 	 caer
 	 youtuber
 	 youtube
 	 xd
 	 amar
 	 cara
 	 extrañar
 	 entender
 	 dar
 	 pensar
 	 real
 	 decir
 	 contenido
 	 asco
 	 sentir
 	 gana
 	 da
 	 sacar
 	 tanto


In [None]:
##############################EVALUACIÓN DE ENTRENAMIENTO NO SUPERVISADO##############################
# Asumiendo que 'texto_comentarios_dev' y 'ofensividad_comentario_dev' son los datos de desarrollo

# Inicializar contador de aciertos
aciertos = 0

# Recorrer los datos de desarrollo y realizar las predicciones
for i, comentario in enumerate(texto_comentarios_dev):
    Y = vectorizer.transform([comentario])
    prediction = model.predict(Y)
    
    # Comparar la predicción con la etiqueta real de ofensividad
    cluster=0
    if ofensividad_comentarios_dev[i]=="OFF":
      cluster=1
    if prediction[0] == cluster:
        aciertos += 1
    
    # Imprimir el comentario, la predicción y la etiqueta real de ofensividad
    #print(f"Comentario: {comentario}")
    #print(f"Predicción: {prediction[0]}")
    #print(f"Etiqueta real: {ofensividad_comentarios_dev[i]}")
    #print("---------------------------")

# Calcular la precisión
precision = aciertos / len(texto_comentarios_dev)

# Imprimir la precisión
print(f"Precisión: {precision}")

Precisión: 0.72


# Nueva sección

### Función Para Medir Precisión de los supervisados

In [None]:
from sklearn.metrics import classification_report

def calculaPrecision(vectorizer,modelo):
  # Asumiendo que 'texto_comentarios_dev' y 'ofensividad_comentario_dev' son los datos de desarrollo

  # Inicializar contador de aciertos
  aciertos = 0

  predictions = []

  # Recorrer los datos de desarrollo y realizar las predicciones
  for i, comentario in enumerate(texto_comentarios_dev):
    Y = vectorizer.transform([comentario])
    prediction = modelo.predict(Y)
    predictions.append(prediction[0])
    
    # Comparar la predicción con la etiqueta real de ofensividad
    if prediction[0] == ofensividad_comentarios_dev[i]:
        aciertos += 1
    
    # Imprimir el comentario, la predicción y la etiqueta real de ofensividad
    #print(f"Comentario: {comentario}")
    #print(f"Predicción: {prediction[0]}")
    #print(f"Etiqueta real: {ofensividad_comentarios_dev[i]}")
    #print("---------------------------")

  # Calcular la precisión
  precision = aciertos / len(texto_comentarios_dev)

  # Imprimir la precisión
  print(f"Precisión: {precision}")
  print(f"Macro-f1", f1_score(ofensividad_comentarios_dev, predictions, average='macro'))
  print(f"Recall", recall_score(ofensividad_comentarios_dev, predictions, average='macro'))
  report = classification_report(ofensividad_comentarios_dev, predictions)
  print(report)
   


SVM

In [None]:
print("Muestro comentario trainig: ", texto_comentarios_training[0], " y su etiqueta: ", ofensividad_comentarios_training[0])
print("Muestro comentario dev: ", texto_comentarios_dev[0], " y su etiqueta: ", ofensividad_comentarios_dev[0])
print("Muestro comentario test: ", comentarios_test[0]["texto"])

Muestro comentario trainig:  magia melena magia nariz xd  y su etiqueta:  NON
Muestro comentario dev:  encantar videooo porciento aidii subir video poder ver él porfiii costar editar él esperar gustar ojala veas tequieroooo  y su etiqueta:  NON
Muestro comentario test:  lacasito moreno


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

In [None]:
model = svm.SVC()
model.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.79
Macro-f1 0.5991601450658524
Recall 0.5961538461538461
              precision    recall  f1-score   support

         NON       0.78      1.00      0.88        74
         OFF       1.00      0.19      0.32        26

    accuracy                           0.79       100
   macro avg       0.89      0.60      0.60       100
weighted avg       0.84      0.79      0.73       100



### Supervisado ( Naive Bayes )

In [None]:
#SUPERVISADO CON NAIVE BAYES
from sklearn.naive_bayes import MultinomialNB
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)
clf = MultinomialNB(alpha=0)
clf.fit(X, ofensividad_comentarios_training)
#model = svm.SVC()
#model.fit(X, ofensividad_comentarios_training)



In [None]:
calculaPrecision(vectorizer,clf)

Precisión: 0.78
Macro-f1 0.627371273712737
Recall 0.6143451143451143
              precision    recall  f1-score   support

         NON       0.79      0.96      0.87        74
         OFF       0.70      0.27      0.39        26

    accuracy                           0.78       100
   macro avg       0.74      0.61      0.63       100
weighted avg       0.77      0.78      0.74       100



### Supervisado ( SVM con lexicon)

Enlace Lexicón: https://sinai.ujaen.es/index.php/investigacion/recursos/share-lexicon-de-expresiones-ofensivas-de-la-poblacion-espanola

In [None]:
from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training + elementosLexicon)

model = svm.SVC()
model.fit(X, ofensividad_comentarios_training+etiquetasLexicon)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.78
Macro-f1 0.627371273712737
Recall 0.6143451143451143
              precision    recall  f1-score   support

         NON       0.79      0.96      0.87        74
         OFF       0.70      0.27      0.39        26

    accuracy                           0.78       100
   macro avg       0.74      0.61      0.63       100
weighted avg       0.77      0.78      0.74       100



### Supervisado (Arboles decision )

In [None]:
#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.79
Macro-f1 0.6778647031753336
Recall 0.6585239085239085
              precision    recall  f1-score   support

         NON       0.81      0.93      0.87        74
         OFF       0.67      0.38      0.49        26

    accuracy                           0.79       100
   macro avg       0.74      0.66      0.68       100
weighted avg       0.77      0.79      0.77       100



### Probando vectorizer CountVectorizer

Primer mejor

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.84
Macro-f1 0.7588908981314044
Recall 0.7297297297297297
              precision    recall  f1-score   support

         NON       0.85      0.96      0.90        74
         OFF       0.81      0.50      0.62        26

    accuracy                           0.84       100
   macro avg       0.83      0.73      0.76       100
weighted avg       0.84      0.84      0.83       100



Primer mejor con lexicon

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training+elementosLexicon)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training+etiquetasLexicon)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.72
Macro-f1 0.5257452574525745
Recall 0.5363825363825364
              precision    recall  f1-score   support

         NON       0.76      0.92      0.83        74
         OFF       0.40      0.15      0.22        26

    accuracy                           0.72       100
   macro avg       0.58      0.54      0.53       100
weighted avg       0.66      0.72      0.67       100



### Probando vectorizer HashingVectorizer

Tercer mejor

In [None]:
from sklearn.feature_extraction.text import HashingVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer3 = HashingVectorizer()
X = vectorizer3.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
modelDTHV = DecisionTreeClassifier(random_state=42)
modelDTHV.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer3,modelDTHV)

Precisión: 0.77
Macro-f1 0.647185151096794
Recall 0.6325363825363826
              precision    recall  f1-score   support

         NON       0.80      0.92      0.86        74
         OFF       0.60      0.35      0.44        26

    accuracy                           0.77       100
   macro avg       0.70      0.63      0.65       100
weighted avg       0.75      0.77      0.75       100



In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Utilizar Regresión Logística en lugar de MultinomialNB
clf = LogisticRegression(max_iter=1000)

clf.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer,clf)

Precisión: 0.78
Macro-f1 0.5686274509803921
Recall 0.5769230769230769
              precision    recall  f1-score   support

         NON       0.77      1.00      0.87        74
         OFF       1.00      0.15      0.27        26

    accuracy                           0.78       100
   macro avg       0.89      0.58      0.57       100
weighted avg       0.83      0.78      0.71       100



Segundo mejor

In [None]:
from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
import csv

# Crear el vectorizador
vectorizer2 = TfidfVectorizer()
X_train_vectorized = vectorizer2.fit_transform(texto_comentarios_training)
X_dev_vectorized = vectorizer2.transform(texto_comentarios_dev)

# Entrenar el modelo SVM
modelSVMTfidf = svm.SVC(C=1, kernel='linear', gamma='scale')
modelSVMTfidf.fit(X_train_vectorized, ofensividad_comentarios_training)

# Realizar las predicciones en el conjunto de desarrollo
y_pred = modelSVMTfidf.predict(X_dev_vectorized)



In [None]:
calculaPrecision(vectorizer2,modelSVMTfidf)

Precisión: 0.81
Macro-f1 0.6552349845763019
Recall 0.6346153846153846
              precision    recall  f1-score   support

         NON       0.80      1.00      0.89        74
         OFF       1.00      0.27      0.42        26

    accuracy                           0.81       100
   macro avg       0.90      0.63      0.66       100
weighted avg       0.85      0.81      0.77       100



Pruebas con test

Primer mejor

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training)

### Juntar a los tres mejores

In [None]:
def juntaPredicciones(modelo1,vectorizer1,modelo2,vectorizer2,modelo3,vectorizer3):
    predictions=[]
    aciertos=[]
    for i, comentario in enumerate(texto_comentarios_dev):
      Y = vectorizer1.transform([comentario])
      prediction1 = modelo1.predict(Y)
      Y = vectorizer2.transform([comentario])
      prediction2 = modelo2.predict(Y)
      Y = vectorizer3.transform([comentario])
      prediction3 = modelo3.predict(Y)
      #print(prediction3[0])
      votaciones = [prediction1[0], prediction2[0], prediction3[0]] #elegimos la mas votada
      #votaciones = [prediction1[0], prediction1[0],prediction2[0], prediction3[0]] # le damos mas peso al mejor
      #votaciones = [prediction1[0],prediction2[0]] # los dos mejores
      prediction = max(set(votaciones), key=votaciones.count)
      #print(prediction)
      predictions.append(prediction)

       # Comparar la predicción con la etiqueta real de ofensividad
      #if prediction == ofensividad_comentarios_dev[i]:
        #aciertos += 1
    
      # Imprimir el comentario, la predicción y la etiqueta real de ofensividad
      #print(f"Comentario: {comentario}")
      #print(f"Predicción: {prediction[0]}")
      #print(f"Etiqueta real: {ofensividad_comentarios_dev[i]}")
      #print("---------------------------")

    # Calcular la precisión
    #precision = aciertos / len(texto_comentarios_dev)

    # Imprimir la precisión
    #print(f"Precisión: {precision}")
    print(f"Macro-f1", f1_score(ofensividad_comentarios_dev, predictions, average='macro'))
    print(f"Recall", recall_score(ofensividad_comentarios_dev, predictions, average='macro'))
    report = classification_report(ofensividad_comentarios_dev, predictions)
    print(report)

    

juntaPredicciones(model,vectorizer,modelSVMTfidf,vectorizer2,modelDTHV,vectorizer3)

Macro-f1 0.6849610346542863
Recall 0.6595634095634095
              precision    recall  f1-score   support

         NON       0.81      0.97      0.88        74
         OFF       0.82      0.35      0.49        26

    accuracy                           0.81       100
   macro avg       0.81      0.66      0.68       100
weighted avg       0.81      0.81      0.78       100



### Probando red neuronal (tarda 25 minutos) la de 100 y 1000 obtenia mejores resultados

---






In [None]:
#from sklearn.neural_network import MLPClassifier
#from sklearn.feature_extraction.text import CountVectorizer

#vectorizer = CountVectorizer()
#X_train = vectorizer.fit_transform(texto_comentarios_training)
#X_test = vectorizer.transform(texto_comentarios_dev)

#model = MLPClassifier(hidden_layer_sizes=(300,), max_iter=3000, random_state=42)
#model.fit(X_train, ofensividad_comentarios_training)

In [None]:
#calculaPrecision(vectorizer,model)

### Probando ajustar peso de las etiqueta segun numero de instancias en el mejor(class weight balanced)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42,class_weight='balanced')
#model = DecisionTreeClassifier(random_state=42,class_weight={"NON": 1, "OFF": 100}) 
model.fit(X, ofensividad_comentarios_training)

In [None]:
calculaPrecision(vectorizer,model)

Precisión: 0.75
Macro-f1 0.6415770609318996
Recall 0.6314968814968815
              precision    recall  f1-score   support

         NON       0.80      0.88      0.84        74
         OFF       0.53      0.38      0.44        26

    accuracy                           0.75       100
   macro avg       0.66      0.63      0.64       100
weighted avg       0.73      0.75      0.74       100



In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

**Creando ficheros**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Probando arbol de decision
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto_comentarios_training)

# Crear un modelo de árbol de decisión y ajustarlo a los datos de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X, ofensividad_comentarios_training)

In [None]:
with open("resultado_count_vectorizer_y_decision_tree_classifier.csv", mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['id', 'tclase'])
    
    off = 0
    non = 0
    for i, comentario in enumerate(comentarios_test):
        Y = vectorizer.transform([comentario["texto"]])
        prediction = model.predict(Y)
        if(prediction == 'OFF'):
            off = off+1
        else:
            non = non+1

        writer.writerow([comentario["id"], prediction[0]])

    print("Los resultados finales son: ",off, " comentarios ofensivos y ",non, " comentarios no ofensivos")

Los resultados finales son:  2151  comentarios ofensivos y  11434  comentarios no ofensivos


In [None]:
from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
import csv

# Crear el vectorizador
vectorizer2 = TfidfVectorizer()
X_train_vectorized = vectorizer2.fit_transform(texto_comentarios_training)
X_dev_vectorized = vectorizer2.transform(texto_comentarios_dev)

# Entrenar el modelo SVM
modelSVMTfidf = svm.SVC(C=1, kernel='linear', gamma='scale')
modelSVMTfidf.fit(X_train_vectorized, ofensividad_comentarios_training)

# Realizar las predicciones en el conjunto de desarrollo
y_pred = modelSVMTfidf.predict(X_dev_vectorized)

In [None]:
with open("resultado_tfid_vectorizer_y_modelSVMTfidf.csv", mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['id', 'tclase'])
    
    off = 0
    non = 0
    for i, comentario in enumerate(comentarios_test):
        Y = vectorizer2.transform([comentario["texto"]])
        prediction = modelSVMTfidf.predict(Y)
        if(prediction == 'OFF'):
            off = off+1
        else:
            non = non+1

        writer.writerow([comentario["id"], prediction[0]])

    print("Los resultados finales son: ",off, " comentarios ofensivos y ",non, " comentarios no ofensivos")

Los resultados finales son:  1201  comentarios ofensivos y  12384  comentarios no ofensivos


In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(texto_comentarios_training)
X_test = vectorizer.transform(texto_comentarios_dev)

model = MLPClassifier(hidden_layer_sizes=(100,), max_iter=1000, random_state=42)
model.fit(X_train, ofensividad_comentarios_training)

In [None]:
with open("resultado_red_neuronal.csv", mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['id', 'tclase'])
    
    off = 0
    non = 0
    for i, comentario in enumerate(comentarios_test):
        Y = vectorizer.transform([comentario["texto"]])
        prediction = model.predict(Y)
        if(prediction == 'OFF'):
            off = off+1
        else:
            non = non+1

        writer.writerow([comentario["id"], prediction[0]])

    print("Los resultados finales son: ",off, " comentarios ofensivos y ",non, " comentarios no ofensivos")

Los resultados finales son:  1944  comentarios ofensivos y  11641  comentarios no ofensivos
