### Notebook Bow

###### Alumno (a): Cielo Aholiva Higuera Gutiérrez

In [225]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

##### Datos de entrada

In [239]:
df = pd.read_csv("df_mini_HS.csv")
print(df.head())

   label                                               text
0      1  ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...
1      1  28: te amodio, odio a la perra de tu amiga ☺️☺...
2      1  @LaDivinaDiva Callate maldita perra. O seguro ...
3      1  @MarysabelPuerto Mejor callate cara de puta o ...
4      1  @xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...


In [324]:
def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"@\S+", "", texto)  # Eliminar menciones a usuarios
    texto = re.sub(r"http[s]?://\S+", "", texto)  # Eliminar enlaces
    texto = re.sub(r"#\S+", "", texto)  # Eliminar hashtags
    texto = re.sub(r"[0-9]", "", texto)  # Eliminar números
    texto = re.sub(r"(\(.*\))|(\[.*\])", "", texto)  # Eliminar paréntesis y corchetes
    texto = re.sub(r"\n", "", texto)  # Eliminar caracteres de nueva línea
    texto = re.sub(r"(http[s]?://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", texto)  # Eliminar varios patrones
    texto = re.sub(r"(\.)|(,)", "", texto)  # Eliminar puntos y comas
    texto = re.sub(r"[¡!]", "", texto)  # Eliminar signos de admiración 
    texto = re.sub(r"[¿?]", "", texto)  # Eliminar signos de exclamación
    texto = re.sub(r"[/]", "", texto) #Eliminar slash
    texto = re.sub(r'[^\w\s,]', '', texto) # Eliminar emojis
    return texto
df['clean_text'] = df['text'].apply(limpiar_texto)
print(df[['clean_text']])

                                           clean_text
0   esas cosas y otras pueden pasar por mantener a...
1    te amodio odio a la perra de tu amiga pero tú...
2    callate maldita perra o seguro eres un pobre ...
3    mejor callate cara de puta o reputa como tu m...
4                                        cállate puta
5                                        callate puta
6   y el inmigrante recibe ayuda del rico estado l...
7   de los moros no se puede esperar nada bueno y ...
8   por que si a una mujer le pegan un tiro en la ...
9   analicemos esto si te pones unos shorts así en...
10  see tal vez les recordo como peron protegio a ...
11  pietrapierce story purs sangs arabes stars des...
12  qué dice este de frivolizar el acoso escolar p...
13    retira el permiso a  refugiados que fueron d...
14  hoy quiero denunciaaaaaaar a la gente puto gua...
15  redomicilie su sociedad offshore en emiratos á...
16   basta poned pie en pared a tanta provocación ...
17  semana de la juventud to

#### Tokenización

In [326]:
nltk.download('punkt')
tokens = df['clean_text'].apply(lambda x: word_tokenize(x) if isinstance(x, str) else [])
print(tokens)

0     [esas, cosas, y, otras, pueden, pasar, por, ma...
1     [te, amodio, odio, a, la, perra, de, tu, amiga...
2     [callate, maldita, perra, o, seguro, eres, un,...
3     [mejor, callate, cara, de, puta, o, reputa, co...
4                                       [cállate, puta]
5                                       [callate, puta]
6     [y, el, inmigrante, recibe, ayuda, del, rico, ...
7     [de, los, moros, no, se, puede, esperar, nada,...
8     [por, que, si, a, una, mujer, le, pegan, un, t...
9     [analicemos, esto, si, te, pones, unos, shorts...
10    [see, tal, vez, les, recordo, como, peron, pro...
11    [pietrapierce, story, purs, sangs, arabes, sta...
12    [qué, dice, este, de, frivolizar, el, acoso, e...
13    [retira, el, permiso, a, refugiados, que, fuer...
14    [hoy, quiero, denunciaaaaaaar, a, la, gente, p...
15    [redomicilie, su, sociedad, offshore, en, emir...
16    [basta, poned, pie, en, pared, a, tanta, provo...
17    [semana, de, la, juventud, torneo, futbol,

[nltk_data] Downloading package punkt to C:\Users\Cielo
[nltk_data]     Aholiva\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#### Stopwords

In [143]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     --------------------------------------- 0.0/12.9 MB 162.5 kB/s eta 0:01:20
     --------------------------------------- 0.0/12.9 MB 186.2 kB/s eta 0:01:10
     --------------------------------------- 0.0/12.9 MB 217.9 kB/s eta 0:00:59
     --------------------------------------- 0.1/12.9 MB 252.2 kB/s eta 0:00:51
     --------------------------------------- 0.1/12.9 MB 346.5 kB/s eta 0:00:37
      -------------------------------------- 0.2/12.9 MB 593.2 kB/s eta 0:00:22
     -- ------------------------------------- 0.6/12.9 MB 1.7 MB/s eta 0:00:08
     ----- ---------------------------------- 1.7/12.9 MB 4.2 MB/s eta 0:00:03
     ---------- -----------------------

In [249]:
nltk.download('stopwords')
spanish_stopwords = stopwords.words('spanish')
palabras_filtradas = [palabra for palabra in tokens if palabra not in spanish_stopwords]
print(palabras_filtradas)

[['esas', 'cosas', 'y', 'otras', 'pueden', 'pasar', 'por', 'mantener', 'a', 'la', 'inmigracion', 'ilegal', 'en', 'españa', 'y', 'no', 'expulsarlos', 'no', 'la', 'agresión', 'de', 'los', 'manteros', 'a', 'un', 'turista', 'pone', 'a', 'colau', 'en', 'un', 'aprieto', 'vía'], ['te', 'amodio', 'odio', 'a', 'la', 'perra', 'de', 'tu', 'amiga', 'pero', 'tú', 'eres', 'mi', 'vida', 'tijerazo'], ['callate', 'maldita', 'perra', 'o', 'seguro', 'eres', 'un', 'pobre', 'marico', 'detras', 'de', 'un', 'user', 'femenino', 'chavista', 'colaborador'], ['mejor', 'callate', 'cara', 'de', 'puta', 'o', 'reputa', 'como', 'tu', 'madre', 'se', 'nota', 'que', 'te', 'hacen', 'falta', 'estos'], ['cállate', 'puta'], ['callate', 'puta'], ['y', 'el', 'inmigrante', 'recibe', 'ayuda', 'del', 'rico', 'estado', 'ladrón', 'que', 'se', 'olvida', 'de', 'los', 'nacionales', 'mientras', 'nos', 'viola', 'y', 'mata', 'pintada', 'con', 'una', 'verdad', 'a', 'medias'], ['de', 'los', 'moros', 'no', 'se', 'puede', 'esperar', 'nada',

[nltk_data] Downloading package stopwords to C:\Users\Cielo
[nltk_data]     Aholiva\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#### Lematización

In [328]:
nlp = spacy.load("es_core_news_sm")

def lematizar(palabras):
    lema = nlp(" ".join(palabras))
    return " ".join([token.lemma_ for token in lema])

df['oracion_lematizada'] = df['palabras_filtradas'].apply(lematizar)

## Bag of Words

In [285]:
vectorizador = CountVectorizer()
vectores = vectorizador.fit_transform([oracion_lematizada])
vocabulario = vectorizador.get_feature_names_out()

### Resultados

In [281]:
print("Oración de entrada:", tokens)
print("Oración lematizada:", tokens)
print("Vectores Bag of Words:", vectores.toarray())
print("Vocabulario:", vocabulario)

Oración de entrada: 0     [esas, cosas, y, otras, pueden, pasar, por, ma...
1     [te, amodio, odio, a, la, perra, de, tu, amiga...
2     [callate, maldita, perra, o, seguro, eres, un,...
3     [mejor, callate, cara, de, puta, o, reputa, co...
4                                       [cállate, puta]
5                                       [callate, puta]
6     [y, el, inmigrante, recibe, ayuda, del, rico, ...
7     [de, los, moros, no, se, puede, esperar, nada,...
8     [por, que, si, a, una, mujer, le, pegan, un, t...
9     [analicemos, esto, si, te, pones, unos, shorts...
10    [see, tal, vez, les, recordo, como, peron, pro...
11    [pietrapierce, story, purs, sangs, arabes, sta...
12    [qué, dice, este, de, frivolizar, el, acoso, e...
13    [retira, el, permiso, a, refugiados, que, fuer...
14    [hoy, quiero, denunciaaaaaaar, a, la, gente, p...
15    [redomicilie, su, sociedad, offshore, en, emir...
16    [basta, poned, pie, en, pared, a, tanta, provo...
17    [semana, de, la, juven

In [332]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectores = vectorizer.fit_transform(df['text_limpio'])
df_bw = pd.DataFrame(vectores.toarray(), columns=vectorizer.get_feature_names_out())
df_bw['label'] = df['label']  
print(df_bw.head())

   acoso  agar  agresión  al  amiga  amodiir  analicer  aprieto  arab  arar  \
0      0     0         1   0      0        0         0        1     0     0   
1      0     0         0   0      1        1         0        0     0     0   
2      0     0         0   0      0        0         0        0     0     0   
3      0     0         0   0      0        0         0        0     0     0   
4      0     0         0   0      0        0         0        0     0     0   

   ...  vida  violar  voolka  vía  yo  yogurín  you  árabe  él  label  
0  ...     0       0       0    1   0        0    0      0   1      1  
1  ...     1       0       0    0   0        0    0      0   0      1  
2  ...     0       0       0    0   0        0    0      0   0      1  
3  ...     0       0       0    0   0        0    0      0   1      1  
4  ...     0       0       0    0   0        0    0      0   0      1  

[5 rows x 201 columns]


In [344]:
df_bw.to_csv("bag_of_words.csv", index=False)

In [342]:
# Frecuencia de cada palabra
word_frequencies = df_bw.drop(columns='label').sum().sort_values(ascending=False)
print(word_frequencies.head(10))

el         25
de         16
él         13
uno        11
que         9
en          8
tú          6
este        5
decir       4
callate     4
dtype: int64
