# Tarea 2: BoW
## 1. Instalación e importación de paquetes

In [1]:
#!pip install spacy
#!pip install nltk
#!pip install scikit-learn

In [2]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
nlp = spc.load("es_core_news_sm")
nltk.download('stopwords')
nltk.download('punkt')
spanish_stopwords = stopwords.words('spanish')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Asus\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Asus\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 2. Lectura del archivo CSV

In [4]:
df = pd.read_csv("df_mini_HS.csv")
print(df.head())

   label                                               text
0      1  ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...
1      1  28: te amodio, odio a la perra de tu amiga ☺️☺...
2      1  @LaDivinaDiva Callate maldita perra. O seguro ...
3      1  @MarysabelPuerto Mejor callate cara de puta o ...
4      1  @xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...


## 3. Limpieza de texto

In [5]:
def text_cleaning(text):
    text = text.lower()
    text = re.sub(r"@\S+", "", text)  # Eliminar menciones a usuarios
    text = re.sub(r"http[s]?\://\S+", "", text)  # Eliminar enlaces
    text = re.sub(r"#\S+", "", text)  # Eliminar hashtags
    text = re.sub(r"[0-9]", "", text)  # Eliminar números
    text = re.sub(r"(\(.*\))|(\[.*\])", "", text)  # Eliminar paréntesis y corchetes
    text = re.sub(r"\n", "", text)  # Eliminar caracteres de nueva línea
    text = re.sub(r"(\.)|(,)", "", text)  # Eliminar puntos y comas
    text = re.sub(r"[¡!]", "", text)  # Eliminar signos de admiración 
    text = re.sub(r"[¿?]", "", text)  # Eliminar signos de exclamación
    return text

In [6]:
df['text'] = df['text'].apply(text_cleaning)

## 4. Tokenización

In [7]:
def tokenization(text):
    tokens = word_tokenize(text)
    return tokens

In [8]:
tokens = df['text'].apply(tokenization)
print(tokens)

0     [esas, cosas, y, otras, pueden, pasar, por, ma...
1     [:, te, amodio, odio, a, la, perra, de, tu, am...
2     [callate, maldita, perra, o, seguro, eres, un,...
3     [mejor, callate, cara, de, puta, o, reputa, co...
4                                       [cállate, puta]
5                                       [callate, puta]
6     [y, el, inmigrante, recibe, ayuda, del, rico, ...
7     [de, los, moros, no, se, puede, esperar, nada,...
8     [por, que, si, a, una, mujer, le, pegan, un, t...
9     [analicemos, esto, :, si, te, pones, unos, sho...
10    [``, see, tal, vez, les, recordo, como, peron,...
11    [pietrapierce, story, :, purs, sangs, arabes, ...
12    [qué, dice, este, de, frivolizar, el, acoso, e...
13    [🇨🇭, retira, el, permiso, a, refugiados, que, ...
14    [hoy, quiero, denunciaaaaaaar, a, la, gente, p...
15    [redomicilie, su, sociedad, offshore, en, emir...
16    [basta, poned, pie, en, pared, a, tanta, provo...
17    [semana, de, la, juventud, torneo, futbol,

## 5. Filtrar 'Stop Words'

In [9]:
filtered_words = [word for sublist in tokens for word in sublist if word not in spanish_stopwords]

filtered_texts = []
for token_list in tokens:
    filtered_text = " ".join([word for word in token_list if word not in spanish_stopwords])
    filtered_texts.append(filtered_text)
    
print(filtered_text)

cuántos inmigrantes creemos cuántos realidad ciudadanos lugar llamado mundo


## 6. Lematización

In [10]:
lemmas = [nlp(text) for text in filtered_texts]
lemma_texts = [" ".join([token.lemma_ for token in lemma]) for lemma in lemmas]
df['lemma_text'] = lemma_texts
print(lemma_texts)

['cosa poder pasar mantener inmigracion ilegal españa expulsarlos - agresión mantero turista poner colau aprieto vía', ': amodio odio perra amigo ☺ ️ ☺ ️pero vida * tijerazo *', 'callate maldito perra seguro pobre marico detras user femenino chavista colaborador', 'mejor callate cara puta reputa madre nota hacer falta', 'cállate puto', 'callate puto', 'inmigrante recibir ayuda rico ladrón olvidar nacional mientras viola mata pintado verdad medio', 'moro poder esperar bueno decir propio árabe luchado', 'si mujer peguir tiro cabeza durar tres dia morir él tres dia bala encontrar cerebro', 'analicer : si pón shorts así calle esperas decir acoso provocación', "` ` see tal vez recordo peron protegio eichmann ciento nazi conto arab ` ` '' chiste arar garcho camello '' ''", 'pietrapiercir story : purs sang arab stars des festivit agar m', 'decir frivolizar acoso escolar favor queréis dejar decir semejante tontería', '🇨 🇭 retirar permiso refugiado vacación país vía', 'hoy quiero denunciaaaaaaa

## 7. Bag of Words (BoW)

In [11]:
vectorizer = CountVectorizer()
vecs = vectorizer.fit_transform(df['lemma_text'])
vocabulary = vectorizer.get_feature_names_out()

In [12]:
print("Oración de entrada:", df['text'],"\n")
print("Oración lematizada:", df['lemma_text'],"\n")
print("Vectores Bag of Words:", vecs.toarray(),"\n")
print("Vocabulario:", vocabulary)

Oración de entrada: 0     esas cosas y otras pueden pasar por mantener a...
1     : te amodio odio a la perra de tu amiga ☺️☺️pe...
2      callate maldita perra o seguro eres un pobre ...
3      mejor callate cara de puta o reputa como tu m...
4                                          cállate puta
5                                          callate puta
6     y el inmigrante recibe ayuda del rico estado l...
7     de los moros no se puede esperar nada bueno y ...
8     por que si a una mujer le pegan un tiro en la ...
9     analicemos esto: si te pones unos shorts así e...
10    "see tal vez les recordo como peron protegio a...
11    pietrapierce story: purs sangs arabes stars de...
12    qué dice este de frivolizar el acoso escolar p...
13     🇨🇭 retira el permiso a  refugiados que fueron...
14    hoy quiero denunciaaaaaaar a la gente puto gua...
15    redomicilie su sociedad offshore en emiratos á...
16     basta poned pie en pared a tanta provocación ...
17    semana de la juventud 

In [13]:
bow = pd.DataFrame.sparse.from_spmatrix(vecs, columns=vocabulary)
bow['label'] = df['label'].values

In [14]:
bow.head()

Unnamed: 0,acoso,agar,agresión,amigo,amodio,analicer,aprieto,arab,arar,así,...,vez,vida,viola,voolka,vía,yogurines,you,árabe,él,label
0,0,0,1,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,0,0,1
1,0,0,0,1,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
