### Imports

In [69]:
import re
import pandas as pd
import preprocessor as p
import emoji
import hackathon_somos_nlp_2023.data.load as load

### Load data

In [70]:
data_raw = load.data_raw
data_processed = load.data_processed

### Read data

In [71]:
# Read 'csv' file as dataframe
df1 = pd.read_csv(f'{data_processed}/comentarios-facebook.csv')

# Rename column names
df1.rename({'Text': 'text', 'Category': 'label'}, axis=1, inplace=True)

# Show dataframe
df1

Unnamed: 0,text,label
0,Y pensar que se habían ganado hace mucho tiemp...,1
1,Y para que? Que quiere demostrar? Soy mujer tr...,0
2,Estoy de acuerdo por qué se que la mayoría de ...,0
3,Que nadie entiende que esas mujeres estan sien...,0
4,"Pero vamos a ver, vamos a hacer una huelga par...",1
...,...,...
1753,Ojala logren algo,0
1754,Si está horrible,0
1755,Pónganse a trabajar hijos de la chingado en ve...,1
1756,Ni cuando les damos un día libre dejan de hace...,1


In [72]:
# Read 'csv' file as dataframe
df2 = pd.read_csv(f'{data_processed}/pmdm_es.csv')

df2 = df2[['Text', 'Label']]

# Rename column names
df2.rename({'Text': 'text', 'Label': 'label'}, axis=1, inplace=True)

# Show dataframe
df2.head(3)

Unnamed: 0,text,label
0,@alferdez se ve que tanta torta le cayo mal......,0
1,@alferdez @cfkargentina @sergiomassa @kicillof...,1
2,@alferdez @vivicanosaok vieron que es asi! est...,0


In [73]:
# Read 'csv' file as dataframe
df3 = pd.read_csv(f'{data_processed}/negatives.csv')

# Show dataframe
df3.head(3)

Unnamed: 0,text,label
0,@koicarpincho es lo más rico q hay dios Y LA M...,0
1,"""Qué bonita la naturaleza, cuánto hemos de apr...",0
2,el dolorcito en el pecho cuando ves algo que n...,0


### Process data

In [74]:
# Join dataframes
df_join = pd.concat([df1, df2, df3])

# Show dataframe
df_join

Unnamed: 0,text,label
0,Y pensar que se habían ganado hace mucho tiemp...,1
1,Y para que? Que quiere demostrar? Soy mujer tr...,0
2,Estoy de acuerdo por qué se que la mayoría de ...,0
3,Que nadie entiende que esas mujeres estan sien...,0
4,"Pero vamos a ver, vamos a hacer una huelga par...",1
...,...,...
257,Nominación directa para Alma #SVGala5,0
258,"Antes de emitir un Juicio sobre el Mechero, pi...",0
259,"Dónde me cuidan yo cuido el triple, y dónde me...",0
260,Les gusta mi corazón?🙈💗 https://t.co/vZrpiqHtbc,0


In [75]:
# Count values
df_join['label'].value_counts()

0    2406
1    1701
Name: label, dtype: int64

### Clean data

In [76]:
# Clean whitespaces at the beginning and at the end of the text
df_join['text'] = df_join['text'].apply(lambda x: re.sub(r'^\s+|\s+$', '', x))

# Show text
df_join

Unnamed: 0,text,label
0,Y pensar que se habían ganado hace mucho tiemp...,1
1,Y para que? Que quiere demostrar? Soy mujer tr...,0
2,Estoy de acuerdo por qué se que la mayoría de ...,0
3,Que nadie entiende que esas mujeres estan sien...,0
4,"Pero vamos a ver, vamos a hacer una huelga par...",1
...,...,...
257,Nominación directa para Alma #SVGala5,0
258,"Antes de emitir un Juicio sobre el Mechero, pi...",0
259,"Dónde me cuidan yo cuido el triple, y dónde me...",0
260,Les gusta mi corazón?🙈💗 https://t.co/vZrpiqHtbc,0


### Pre-process data

In [77]:
# Customize parameters
p.set_options(p.OPT.URL, p.OPT.MENTION, p.OPT.HASHTAG)

# Clean urls
df_join['text'] = df_join['text'].apply(lambda x: p.tokenize(x))

# Show dataframe
df_join

Unnamed: 0,text,label
0,Y pensar que se habían ganado hace mucho tiemp...,1
1,Y para que? Que quiere demostrar? Soy mujer tr...,0
2,Estoy de acuerdo por qué se que la mayoría de ...,0
3,Que nadie entiende que esas mujeres estan sien...,0
4,"Pero vamos a ver, vamos a hacer una huelga par...",1
...,...,...
257,Nominación directa para Alma $HASHTAG$,0
258,"Antes de emitir un Juicio sobre el Mechero, pi...",0
259,"Dónde me cuidan yo cuido el triple, y dónde me...",0
260,Les gusta mi corazón?🙈💗 $URL$,0


In [78]:
# Filter text with 3 or more tokens
df_join = df_join.loc[df_join["text"].str.count(" ") >= 2]

# Remove duplicates
df_join.drop_duplicates(subset=['text'], keep='first', inplace=True)

# Show dataframe
df_join

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_join.drop_duplicates(subset=['text'], keep='first', inplace=True)


Unnamed: 0,text,label
0,Y pensar que se habían ganado hace mucho tiemp...,1
1,Y para que? Que quiere demostrar? Soy mujer tr...,0
2,Estoy de acuerdo por qué se que la mayoría de ...,0
3,Que nadie entiende que esas mujeres estan sien...,0
4,"Pero vamos a ver, vamos a hacer una huelga par...",1
...,...,...
257,Nominación directa para Alma $HASHTAG$,0
258,"Antes de emitir un Juicio sobre el Mechero, pi...",0
259,"Dónde me cuidan yo cuido el triple, y dónde me...",0
260,Les gusta mi corazón?🙈💗 $URL$,0


In [79]:
# Count values from label
df_join['label'].value_counts()

0    2305
1    1661
Name: label, dtype: int64

### Export data

In [80]:
df_join.to_csv(f'{data_processed}/discurso-de-odio.csv', index=False)