### Autor: Johnny Rubio Pecasso
### Fecha: 17/sep/2024
### Introduccion a la ciencia de datos
### Notebook ICD-7

In [10]:
# Importar librerias necesarias
import pandas as pd
import re
from sklearn.feature_extraction.text import CountVectorizer

# Leer el archivo CSV
df = pd.read_csv('df_mini_HS.csv')

# Ver las primeras filas del dataset
df.head()


Unnamed: 0,label,text
0,1,ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...
1,1,"28: te amodio, odio a la perra de tu amiga ☺️☺..."
2,1,@LaDivinaDiva Callate maldita perra. O seguro ...
3,1,@MarysabelPuerto Mejor callate cara de puta o ...
4,1,@xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...


Limpieza y tokenización del texto

In [11]:
# Limpiar el texto eliminando caracteres especiales, convirtiendo a minuscula
def preprocess_text(text):
    # Eliminar URLs
    text = re.sub(r'http\S+', '', text)
    # Eliminar caracteres no alfanumericos y convertir a minusculas
    text = re.sub(r'[^\w\s]', '', text.lower())
    return text

# Aplicar el preprocesamiento al dataset
df['clean_text'] = df['text'].apply(preprocess_text)

# Ver los primeros textos procesados
df[['text', 'clean_text']].head()


Unnamed: 0,text,clean_text
0,ESAS COSAS Y OTRAS PUEDEN PASAR POR MANTENER A...,esas cosas y otras pueden pasar por mantener a...
1,"28: te amodio, odio a la perra de tu amiga ☺️☺...",28 te amodio odio a la perra de tu amiga pero ...
2,@LaDivinaDiva Callate maldita perra. O seguro ...,ladivinadiva callate maldita perra o seguro er...
3,@MarysabelPuerto Mejor callate cara de puta o ...,marysabelpuerto mejor callate cara de puta o r...
4,@xarita327 @TRIKYHUMOR @yonier2012 @casTa1326 ...,xarita327 trikyhumor yonier2012 casta1326 lizm...


Creación del modelo Bag of Words (BoW)

In [12]:
# Usar CountVectorizer para crear el modelo Bag of Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['clean_text'])

# Convertir a un DataFrame para una mejor visualizacion
df_bow = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

# Ver las primeras filas del DataFrame
df_bow.head()


Unnamed: 0,189,28,abc_es,acoso,agar,agresión,al,amiga,amodio,analicemos,...,vida,viola,voolka,vía,xarita327,xtiko98,yogurines,yonier2012,you,árabes
0,0,0,0,0,0,1,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,1,1,0,...,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,1,0,0


Agregar la columna de clase

In [13]:
# Añadir la columna de clase al DataFrame BoW
df_bow['Clase'] = df['label']

# Ver el DataFrame con la columna de clase
df_bow.head()


Unnamed: 0,189,28,abc_es,acoso,agar,agresión,al,amiga,amodio,analicemos,...,viola,voolka,vía,xarita327,xtiko98,yogurines,yonier2012,you,árabes,Clase
0,0,0,0,0,0,1,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
1,0,1,0,0,0,0,0,1,1,0,...,0,0,0,0,0,0,0,0,0,1
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,1,0,0,1


Guardar el resultado

In [14]:
# Guardar el DataFrame en un archivo CSV
df_bow.to_csv('bag_of_words_con_clase.csv', index=False)


In [15]:
# Sumar la frecuencia de cada palabra
word_frequencies = df_bow.drop(columns='Clase').sum().sort_values(ascending=False)

# Mostrar las palabras más frecuentes
print(word_frequencies.head(10))


de      16
la      10
los      9
que      9
en       8
un       7
el       6
te       5
se       5
puta     4
dtype: int64


In [16]:
df_bow['Clase'] = df['label']

# Mostrar el DataFrame final con Bag of Words y la columna de clase
print(df_bow.head())  # Mostramos las primeras filas del vector de características


   189  28  abc_es  acoso  agar  agresión  al  amiga  amodio  analicemos  ...   
0    0   0       0      0     0         1   0      0       0           0  ...  \
1    0   1       0      0     0         0   0      1       1           0  ...   
2    0   0       0      0     0         0   0      0       0           0  ...   
3    0   0       0      0     0         0   0      0       0           0  ...   
4    0   0       0      0     0         0   0      0       0           0  ...   

   viola  voolka  vía  xarita327  xtiko98  yogurines  yonier2012  you  árabes   
0      0       0    1          0        0          0           0    0       0  \
1      0       0    0          0        0          0           0    0       0   
2      0       0    0          0        0          0           0    0       0   
3      0       0    0          0        0          0           0    0       0   
4      0       0    0          1        0          0           1    0       0   

   Clase  
0      1  
1   