# Practica 2 - Bag of Words
## Introducci√≥n a la Ciencia de datos

# Francisco Regalado

22 de septiembre del 2024

### Instrucciones

- Construir una representaci√≥n basada en Bag of Words. Se deber√° leer el archivo de texto (ver adjunto) que contiene m√∫ltiples entradas de texto y dos clases distintas. El vector de caracter√≠sticas final debe tener como √∫ltima columna el atributo de clase.

Importar librerias necesarias


In [1]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

### Datos de Entrada

In [4]:
df = pd.read_csv('df_mini_HS.csv')
df

Unnamed: 0,label,text
0,1,ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...
1,1,"28: te amodio, odio a la perra de tu amiga ‚ò∫Ô∏è‚ò∫..."
2,1,@LaDivinaDiva Callate maldita perra. O seguro ...
3,1,@MarysabelPuerto Mejor callate cara de puta o ...
4,1,@xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...
5,1,@CocotePR @ashleyhonohan callate puta
6,1,Y el inmigrante recibe ayuda del rico Estado l...
7,1,"De los moros no se puede esperar nada bueno, y..."
8,1,¬øPor que si a una mujer le pegan un tiro en la...
9,1,"Analicemos esto: ¬øSi te pones unos shorts as√≠,..."


## Procesamiento



### Limpieza de Datos

Definimos una funci√≥n para la limpieza de las oraciones contenidas en DF

In [9]:
def limpiar_txt(oracion):
    oracion = oracion.lower()  # Convertir a min√∫sculas
    oracion = re.sub(r"@\S+", "", oracion)  # Eliminar menciones a usuarios
    oracion = re.sub(r"http[s]?\://\S+", "", oracion)  # Eliminar enlaces
    oracion = re.sub(r"#\S+", "", oracion)  # Eliminar hashtags
    oracion = re.sub(r"[0-9]", "", oracion)  # Eliminar n√∫meros
    oracion = re.sub(r"(\(.*\))|(\[.*\])", "", oracion)  # Eliminar par√©ntesis y corchetes
    oracion = re.sub(r"\n", "", oracion)  # Eliminar saltos de l√≠nea
    oracion = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion)  # Eliminar varios patrones
    oracion = re.sub(r"[*]", "", oracion)  # Eliminar asteriscos
    oracion = re.sub(r"(\.)|(,)|(:)", "", oracion)  # Eliminar puntos y comas
    oracion = re.sub(r"[¬°!]", "", oracion)  # Eliminar signos de admiraci√≥n
    oracion = re.sub(r"[¬ø?]", "", oracion)  # Eliminar signos de interrogaci√≥n
    oracion = re.sub(r"[\"']", "", oracion)  # Eliminar comillas dobles y simples
    oracion = re.sub(r"(.)\1{2,}", r"\1", oracion)  # Reducir letras repetidas a una sola
    return oracion
    
def eliminar_emojis(oracion):
    # Expresi√≥n regular para emojis (rango Unicode para s√≠mbolos y emojis)
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F"  # Emoticons
        u"\U0001F300-\U0001F5FF"  # S√≠mbolos y pictogramas
        u"\U0001F680-\U0001F6FF"  # Transportes y s√≠mbolos adicionales
        u"\U0001F1E0-\U0001F1FF"  # Banderas (ISO country codes)
        u"\U00002702-\U000027B0"  # Otros s√≠mbolos y pictogramas
        u"\U000024C2-\U0001F251"
        "]+", flags=re.UNICODE
    )
    
    return emoji_pattern.sub(r'', oracion)  # Reemplaza emojis por una cadena vac√≠a

In [11]:
# Aplicar la limpieza a la columna "texto"
df['text'] = df['text'].apply(limpiar_txt)
df['text'] = df['text'].apply(eliminar_emojis)

# Mostrar el DataFrame despu√©s de la limpieza
df

Unnamed: 0,label,text
0,1,esas cosas y otras pueden pasar por mantener a...
1,1,te amodio odio a la perra de tu amiga pero t√∫...
2,1,callate maldita perra o seguro eres un pobre ...
3,1,mejor callate cara de puta o reputa como tu m...
4,1,c√°llate puta
5,1,callate puta
6,1,y el inmigrante recibe ayuda del rico estado l...
7,1,de los moros no se puede esperar nada bueno y ...
8,1,por que si a una mujer le pegan un tiro en la ...
9,1,analicemos esto si te pones unos shorts as√≠ en...


### Tokenizacion

In [14]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /Users/paco/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [16]:
# Definimos la funcion para tokenizar el data frame
def tokenizar_texto(oracion):
    return word_tokenize(oracion)

In [18]:
df_token = df.copy()
df_token['text'] = df_token['text'].apply(tokenizar_texto)
df_token

Unnamed: 0,label,text
0,1,"[esas, cosas, y, otras, pueden, pasar, por, ma..."
1,1,"[te, amodio, odio, a, la, perra, de, tu, amiga..."
2,1,"[callate, maldita, perra, o, seguro, eres, un,..."
3,1,"[mejor, callate, cara, de, puta, o, reputa, co..."
4,1,"[c√°llate, puta]"
5,1,"[callate, puta]"
6,1,"[y, el, inmigrante, recibe, ayuda, del, rico, ..."
7,1,"[de, los, moros, no, se, puede, esperar, nada,..."
8,1,"[por, que, si, a, una, mujer, le, pegan, un, t..."
9,1,"[analicemos, esto, si, te, pones, unos, shorts..."


### Stopwords

In [21]:
nltk.download('stopwords')
spanish_stopwords = stopwords.words('spanish')

[nltk_data] Downloading package stopwords to /Users/paco/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [23]:
# Definimos la funcion para eliminar palabras vacias
def eliminar_stopwords(texto):
    # Filtrar las palabras que no son stopwords
    palabras_limpias = [texto for texto in texto if texto not in spanish_stopwords]
    return ' '.join(palabras_limpias)  # Unir las palabras de nuevo en una oraci√≥n


In [25]:
df_token_stw = df_token.copy()
df_token_stw['text'] = df_token_stw['text'].apply(eliminar_stopwords)
df_token_stw

Unnamed: 0,label,text
0,1,cosas pueden pasar mantener inmigracion ilegal...
1,1,amodio odio perra amiga vida tijerazo
2,1,callate maldita perra seguro pobre marico detr...
3,1,mejor callate cara puta reputa madre nota hace...
4,1,c√°llate puta
5,1,callate puta
6,1,inmigrante recibe ayuda rico ladr√≥n olvida nac...
7,1,moros puede esperar bueno dicen propios √°rabes...
8,1,si mujer pegan tiro cabeza dura tres dias mori...
9,1,analicemos si pones shorts as√≠ calle esperas d...


### Lematizacion

In [28]:
nlp = spc.load('es_core_news_sm')
# Funci√≥n para lematizar el texto
def lematizar_texto(texto):
    doc = nlp(texto)  # Procesar el texto con spaCy
    # Extraer los lemas para cada token
    lemas = [token.lemma_ for token in doc]
    return " ".join(lemas)  # Unir los lemas en una cadena de texto

In [30]:
df_lema = df_token_stw.copy()
df_lema['text'] = df_lema['text'].apply(lematizar_texto)
df_lema

Unnamed: 0,label,text
0,1,cosa poder pasar mantener inmigracion ilegal e...
1,1,amodio odio perra amigo vida tijerazo
2,1,callate maldito perra seguro pobre marico detr...
3,1,mejor callate cara puta reputa madre nota hace...
4,1,c√°llate puto
5,1,callate puto
6,1,inmigrante recibir ayuda rico ladr√≥n olvidar n...
7,1,moro poder esperar bueno decir propio √°rabe lu...
8,1,si mujer peguir tiro cabeza durar tres dia mor...
9,1,analicer si p√≥n shorts as√≠ calle esperas decir...


### Bag of Words

In [33]:
# Instanciar el vectorizador
vectorizer = CountVectorizer()

# Aplicar Bag of Words a la columna 'text'
X = vectorizer.fit_transform(df_lema['text'])

# Convertir el resultado a un DataFrame con las palabras como columnas
df_bow = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())


# Convertir la columa "Label" de los datos originales a la columna "Clase". Ademas
# los 1 contenidos en esta columna representan si la oracion es sexista o no
df_lema.rename(columns={'label': 'Clase'}, inplace=True)
df_lema['Clase'] = df_lema['Clase'].replace(1, 'Sexismo')

# Agregamos la columna Clase a DataFrame del BagOfWords
df_bow['Clase'] = df_lema['Clase']
df_bow

Unnamed: 0,acoso,agar,agresi√≥n,amigo,amodio,analicer,aprieto,arab,arar,as√≠,...,vez,vida,viola,voolka,v√≠a,yogur√≠n,you,√°rabe,√©l,Clase
0,0,0,1,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,0,0,Sexismo
1,0,0,0,1,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,Sexismo
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Sexismo
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Sexismo
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Sexismo
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Sexismo
6,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,Sexismo
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,Sexismo
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,Sexismo
9,1,0,0,0,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,Sexismo
