# Instrucciones

Construir una representaci√≥n basada en Bag of Words. Se deber√° leer el archivo de texto (ver adjunto) que contiene m√∫ltiples entradas de texto y dos clases distintas. El vector de caracter√≠sticas final debe tener como √∫ltima columna el atributo de clase.
Saludos,

# Instalaci√≥n necesaria

In [1]:
#%pip install spacy
#%pip install nltk
#%pip install sklearn
#%python -m spacy download es_core_news_sm
#%spacy download es_core_news_sm

#Si usas anaconda abre la terminal de tu Environments y ejecuta las lineas
#python -m spacy download es_core_news_sm
#spacy download es_core_news_sm
#Reiniciar terminal y continuar (ejecutando todo de nuevo)

# Importaci√≥n de bibliotecas

In [2]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

# cargar modelo de spaCy para espa√±ol necesario para la lematizacion
nlp = spc.load("es_core_news_sm")

In [3]:
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Jesus\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Jesus\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Jesus\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [4]:
# Inicializar stopwords
spanish_stopwords = stopwords.words('spanish')

# Datos de entrada

In [5]:
# Cargar el archivo CSV
file_path = 'df_mini_HS.csv'
df = pd.read_csv(file_path)
print(df)

    label                                               text
0       1  ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...
1       1  28: te amodio, odio a la perra de tu amiga ‚ò∫Ô∏è‚ò∫...
2       1  @LaDivinaDiva Callate maldita perra. O seguro ...
3       1  @MarysabelPuerto Mejor callate cara de puta o ...
4       1  @xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...
5       1              @CocotePR @ashleyhonohan callate puta
6       1  Y el inmigrante recibe ayuda del rico Estado l...
7       1  De los moros no se puede esperar nada bueno, y...
8       1  ¬øPor que si a una mujer le pegan un tiro en la...
9       1  Analicemos esto: ¬øSi te pones unos shorts as√≠,...
10      0  "See... Tal vez les recordo como Peron protegi...
11      0  PIETRAPIERCE STORY: PURS SANGS ARABES STARS DE...
12      0  ¬øQu√© dice este de frivolizar el acoso escolar?...
13      0  #Suiza üá®üá≠ retira el permiso a 189 refugiados q...
14      0  Hoy quiero denunciaaaaaaar A LA GENTE PUTO GUA...
15     

# Funci√≥n de limpieza de oraciono

In [6]:
def limpiar_oraciono(oracion):
    emoji_pattern = re.compile("["
                                u"\U0001F600-\U0001F64F"  # Emoticonos
                                u"\U0001F300-\U0001F5FF"  # S√≠mbolos y pictogramas
                                u"\U0001F680-\U0001F6FF"  # Transporte y s√≠mbolos
                                u"\U0001F700-\U0001F77F"  # S√≠mbolos adicionales
                                u"\U0001F780-\U0001F7FF"  # Geometr√≠a adicional
                                u"\U0001F800-\U0001F8FF"  # Suplemento de pictogramas
                                u"\U0001F900-\U0001F9FF"  # Pictogramas adicionales
                                u"\U0001FA00-\U0001FA6F"  # S√≠mbolos adicionales
                                u"\U00002702-\U000027B0"  # Otros s√≠mbolos (corazones, flechas)
                                u"\U000024C2-\U0001F251"  # Otros s√≠mbolos adicionales
                                "]+", flags=re.UNICODE)
    oracion = emoji_pattern.sub(r'', oracion)  # Eliminar emojis
    oracion = oracion.lower()
    oracion = re.sub(r"@\S+", "", oracion)  # Eliminar menciones a usuarios
    oracion = re.sub(r"http[s]?\://\S+", "", oracion)  # Eliminar enlaces 
    oracion = re.sub(r"#\S+", "", oracion)  # Eliminar hashtags
    oracion = re.sub(r"[0-9]", "", oracion)  # Eliminar n√∫meros
    oracion = re.sub(r"(\(.*\))|(\[.*\])", "", oracion)  # Eliminar par√©ntesis y corchetes
    oracion = re.sub(r"\n", "", oracion)  # Eliminar caracteres de nueva l√≠nea
    oracion = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion)  # Eliminar varios patrones
    oracion = re.sub(r"(\.)|(,)", "", oracion)  # Eliminar puntos y comas
    oracion = re.sub(r"[¬°!]", "", oracion)  # Eliminar signos de admiraci√≥n 
    oracion = re.sub(r"[¬ø?]", "", oracion)  # Eliminar signos de exclamaci√≥n
    oracion = re.sub(r"[-\:\/\"\'\*\`\s]+", " ", oracion).strip() #Eliminar varios caracteres

    return oracion

# Funci√≥n para tokenizar, remover stopwords y lematizar con spaCy

In [7]:
def procesamiento_oracion(oracion):
    oracion = limpiar_oraciono(oracion)
    tokens = word_tokenize(oracion)
    palabras_filtradas = [palabra for palabra in tokens if palabra not in spanish_stopwords]
    lema = nlp(" ".join(palabras_filtradas))
    oracion_procesada = " ".join([token.lemma_ for token in lema])

    return oracion_procesada

# Bag of Words

In [8]:
# Aplica la funci√≥n de procesamiento a cada oraci√≥n del archivo y crea una nueva columna "oracion_procesada"
df['oracion_procesada'] = df['text'].apply(procesamiento_oracion)

vectorizer = CountVectorizer()
vectores = vectorizer.fit_transform(df['oracion_procesada'])
vocabulario = vectorizer.get_feature_names_out()
print(f"Vocabulario:", vocabulario)

Vocabulario: ['acoso' 'agar' 'agresi√≥n' 'amigo' 'amodio' 'analicer' 'aprieto' 'arab'
 'arar' 'as√≠' 'ayuda' 'bala' 'bastar' 'bueno' 'bus' 'cabeza' 'cadete'
 'callate' 'calle' 'camello' 'cara' 'categoria' 'cerebro' 'chavista'
 'chiste' 'chorizo' 'ciento' 'ciudadano' 'colaborador' 'colau' 'conto'
 'cortad' 'cosa' 'creer' 'cuatro' 'cu√°nto' 'c√°llate' 'decir' 'dejar'
 'denunciaaaaaaar' 'des' 'detras' 'dia' 'donbenitensar' 'durar' 'eichmann'
 'elite' 'emirato' 'encontrar' 'equipo' 'escolar' 'espa√±a' 'esperar'
 'esperas' 'expulsar' 'falta' 'favor' 'femenino' 'festivit' 'frivolizar'
 'fuenlabrado' 'futbol' 'garcho' 'gente' 'guarra' 'hacer' 'hijo' 'hoy'
 'humillaci√≥n' 'ilegal' 'inmigracion' 'inmigrante' 'inscrito'
 'josewifakers' 'juventud' 'kiev' 'ko' 'ladr√≥n' 'llamado' 'luchado'
 'lugar' 'madre' 'maldito' 'mantener' 'mantero' 'marico' 'mata' 'medio'
 'mejor' 'metete' 'mientras' 'minato' 'morir' 'moro' 'mujer' 'mundo'
 'nacional' 'nazi' 'negrata' 'nota' 'odio' 'offshore' 'oler' 'olvidar'

In [9]:
# itaracion para todas las oraciones para imprimir resultados
for i, row in df.iterrows():
    oracion = row['text']
    oracion_lematizada = row['oracion_procesada']
    
    print(f"Oraci√≥n de entrada [{i+1}]:", oracion)
    print(f"Oraci√≥n lematizada [{i+1}]:", oracion_lematizada)
    print(f"Vectores Bag of Words [{i+1}]:", vectores[i].toarray())
    

Oraci√≥n de entrada [1]: ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A LA INMIGRACION ILEGAL EN ESPA√ëA Y NO EXPULSARLOS ¬øNO? - La agresi√≥n de los manteros a un turista pone a Colau en un aprieto https://t.co/C7mZWXAl9P v√≠a @Elperiodico
Oraci√≥n lematizada [1]: cosa poder pasar mantener inmigracion ilegal espa√±a expulsar √©l agresi√≥n mantero turista poner colau aprieto v√≠a
Vectores Bag of Words [1]: [[0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0
  0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1]]
Oraci√≥n de entrada [2]: 28: te amodio, odio a la perra de tu amiga ‚ò∫Ô∏è‚ò∫Ô∏èpero t√∫ eres mi vida *tijerazo*
Oraci√≥n lematizada [2]: amodio odio perra amigo vida tijerazo
Vectores Bag of Words [2]: [[0 0 0 1 1 0 0 0 0 0 0 0 0

In [10]:
# Convertir la matriz BoW a un DataFrame y agregar la clase como √∫ltima columna
df_bw = pd.DataFrame.sparse.from_spmatrix(vectores,columns = vocabulario)
df_bw['class'] = df['label'].values
df_bw.head()


Unnamed: 0,acoso,agar,agresi√≥n,amigo,amodio,analicer,aprieto,arab,arar,as√≠,...,vez,vida,viola,voolka,v√≠a,yogur√≠n,you,√°rabe,√©l,class
0,0,0,1,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,0,1,1
1,0,0,0,1,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


# Conclusiones

Si bien realizar una bolsa de palabras (Bag of Words) es relativamente sencillo, la complejidad aumenta cuando los datos de entrada se vuelven menos comprensibles.

En esta tarea, por ejemplo, un filtro complejo y necesario ser√≠a eliminar todas las palabras que no pertenecen al idioma espa√±ol. Sin embargo, si se hace utilizando un diccionario, esto podr√≠a eliminar palabras como "amodio", que aunque poco comunes, son correctas. Otro problema es el uso del espa√±ol antiguo, el cual tendr√≠a que ser normalizado; por ejemplo, "cortad" deber√≠a transformarse en "cortar". Adem√°s, existen palabras sin sentido aparente que, en realidad, podr√≠an ser simplemente errores tipogr√°ficos, y eliminarlas podr√≠a hacernos perder informaci√≥n valiosa. Esto nos llevar√≠a a realizar una tarea similar a la de los correctores ortogr√°ficos como el de Google, donde corregir√≠amos errores y sugerir√≠amos alternativas con algo como "quiz√°s quiso decir".

Ser√≠a bueno aclarar el prop√≥sito del Bag of Words y qu√© nivel de eliminaci√≥n de palabras es adecuado para realizar una limpieza adecuada. Tambi√©n, ser√≠a √∫til conocer el objetivo de la tarea, de modo que el estudiante pueda decidir hasta qu√© punto llevar la limpieza 

## Algunas preguntas interesantes que se pueden investigar a futuro son:

1. ¬øRealmente es necesario borrar los emojis, considerando que al final la Bag of Words no los toma en cuenta?
2. Otros caracteres que no se consideran en el proceso son: `-`, `/`, `:`, ``, `''`, `"`, `*`. ¬øEs necesario filtrarlos?
3. ¬øPor qu√© a veces la lematizaci√≥n cambia el g√©nero de las palabras, como en el caso de "puta" a "puto", mientras que en otras ocasiones s√≠ respeta el g√©nero, dejando "puta"?