# Filtrado

## Mensajes Sexistas

Primero realizamos un filtrado sobre los datos de nuestro *dataset* de mensajes de sexismo; para lo cual, cargamos la informacion haciendo uso de `pandas`

In [2]:
import pandas as pd

data_path = './datasets/sexism_data.csv'

# Carga los datos en un DataFrame
sexism_data = pd.read_csv(data_path)

# Muestra las primeras filas para entender la estructura
sexism_data.head()

Unnamed: 0,id,dataset,text,toxicity,sexist,of_id
0,0,other,MENTION3481 i didn't even know random was an o...,0.11818,False,-1
1,1,other,Bottom two should've gone! #mkr,0.25185,False,-1
2,2,callme,MENTION3111 MENTION3424 ladyboner deserves so ...,0.113331,False,-1
3,3,other,She shall now be known as Sourpuss #MKR #KatAn...,0.531153,False,-1
4,4,other,Tarah W threw a bunch of women under the bus s...,0.118718,False,-1


Posterormente, haremos la selección de los datos que hayan sido clasificados como sexistas, y eliminamos las columnas de datos innecesarias

In [6]:
# Selecciona los datos del dataframe 'data' donde la columna 'sexist' es igual a True
sexism_processed_data = sexism_data[sexism_data['sexist'] == True]

# Elimina las columnas 'id', 'dataset', 'toxicity' y 'of_id' del dataframe 'processed_data'
sexism_processed_data = sexism_processed_data.drop(columns=['id', 'dataset', 'toxicity', 'of_id'])

# Reemplaza los caracteres no alfanuméricos en la columna 'text' del dataframe 'processed_data' por una cadena vacía
sexism_processed_data['text'] = sexism_processed_data['text'].str.replace(r"[^a-zA-Z0-9\s]", "", regex=True)

# Renombra la columna 'sexist' del dataframe 'processed_data' a 'class'
sexism_processed_data = sexism_processed_data.rename(columns={'sexist': 'class'})

# Asigna el valor 'sexism' a la columna 'class' del dataframe 'processed_data'
sexism_processed_data['class'] = 'sexism'

# Muestra las primeras filas para entender la nueva estructura
sexism_processed_data.head()

Unnamed: 0,text,class
10,All my sons have grown up with computer games ...,sexism
14,Women have more intuition than men,sexism
30,Women do not belong in politics,sexism
45,On the average men are more arrogant than women,sexism
55,A woman will never be truly fulfilled in life ...,sexism


Y ya que hemos confirmado que se tiene la estructura deseada, podemos guardarla en nuestro nuevo dataser unificado

In [11]:
# Define la ruta de salida del archivo CSV
all_in_one_output_path = "./datasets/dataset.csv"

# Guarda el dataframe 'processed_data' en un archivo CSV en la ruta especificada
sexism_processed_data.to_csv(all_in_one_output_path, index=False , mode='w') 

## Mensajes Clasistas

El tratamiento para los mensajes clasistas fue distinto, pues en el dataset encontrado solo se tenían los mensajes sin otro tipo de información, por lo que directamente se decidió por incluirlos en el dataset unificado tras hacer una labor sencilla de limpieza; en que se retiraron las comas que obstaculizaban el manejo de la información.

In [7]:
data_path = './datasets/clasism.csv'

# Carga los datos en un DataFrame
clasism_data = pd.read_csv(data_path)

# Muestra las primeras filas para entender la estructura
clasism_data.head()

Unnamed: 0,text
0,I don't understand how people can travel by su...
1,Public education is in decline. Luckily my kid...
2,It bothers me to have to stand in line like th...
3,The poor are only poor because they want to be...
4,If you can't afford good wine better not to dr...


Se hace además un tratamiento preventivo, con el que hacemos una limpieza sencilla de datos

In [8]:
# Reemplaza los caracteres no alfanuméricos en la columna 'text' del dataframe por una cadena vacía
clasism_data['text'] = clasism_data['text'].str.replace(r"[^a-zA-Z0-9\s]", "", regex=True)

Como indiqué anteriormente, la información incluida es únicamente el propio mensaje, por lo que debo insertar la segunda columna yo mismo, columna que corresponde a la clasificación de la información.

In [10]:
# Agregar una nueva columna llamada 'class' con el valor por defecto "clasism"
clasism_data['class'] = "clasism"

# Muestra las primeras filas para entender la estructura resultante
clasism_data.head()

Unnamed: 0,text,class
0,I dont understand how people can travel by sub...,clasism
1,Public education is in decline Luckily my kids...,clasism
2,It bothers me to have to stand in line like th...,clasism
3,The poor are only poor because they want to be...,clasism
4,If you cant afford good wine better not to dri...,clasism


Ya que se tiene un formato de textos deseable, procedo a incluirlo dentro del dataset manufacturado por nosotros.

In [None]:
# Guarda el dataframe en el archivo CSV de la ruta especificada antes
clasism_data.to_csv(all_in_one_output_path, index=False , mode='a') 