In [84]:
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
import nltk
import emoji

In [85]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\chiri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [86]:
file = '..\\data\\dataSocialMediaRead.csv'
df = pd.read_csv(file, delimiter='\t', engine='python', header=0, index_col=0)

In [87]:
# First Look to the Data

print(df.describe())
print('*'*40)
print(df.info())

            id_post    created_at
count  2.225600e+04  2.225600e+04
mean   1.797374e+16  1.670452e+09
std    7.770939e+14  7.434932e+07
min    7.144340e+14  0.000000e+00
25%    1.794476e+16  1.673752e+09
50%    1.797380e+16  1.673758e+09
75%    1.801949e+16  1.673791e+09
max    1.835798e+16  1.674647e+09
****************************************
<class 'pandas.core.frame.DataFrame'>
Index: 22256 entries, 0 to 22373
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 22256 non-null  object 
 1   message            22255 non-null  object 
 2   name               22256 non-null  object 
 3   id_user            22256 non-null  object 
 4   username           22256 non-null  object 
 5   id_post            22256 non-null  int64  
 6   link               22256 non-null  object 
 7   date               22256 non-null  object 
 8   user_link          22256 non-null  object 
 9   weekday         

In [88]:
# Check how many nulls per column do we have
print(df.isnull().sum())
df.dropna(subset=['message'], inplace=True) # As we have just 1 message Null we can drop it

id                   0
message              1
name                 0
id_user              0
username             0
id_post              0
link                 0
date                 0
user_link            0
weekday              0
just_emoji           0
sentiment            0
reply_screen_name    0
created_at           0
owner                0
shortcode            0
hour                 0
dtype: int64


In [89]:
# Check for duplicates
print(df.duplicated().sum())

0


# Normalizar Texto

In [90]:
# Select the spanish set from stopwords
stop_words = set(stopwords.words('spanish')) 

def extract_emojis(text): # Get the emojis
    return ''.join(char for char in text if char in emoji.EMOJI_DATA)

def normalize_text(text):
    text = text.lower()
    # Extract Emojis
    emojis = extract_emojis(text)  
    # Remove punctuation
    text = re.sub(r'[^\w\s]', '', text)  
    tokens = word_tokenize(text)
    # Remove stop words
    tokens = [word for word in tokens if word not in stop_words] 

    return ' '.join(tokens) + ' ' + emojis, ' '.join(tokens)  # Conservar emojis al final del texto normalizado

In [91]:
df['clean_message'], df['clean_message_noemo'] = zip(*df['message'].apply(normalize_text))
df.head(10)

Unnamed: 0,id,message,name,id_user,username,id_post,link,date,user_link,weekday,just_emoji,sentiment,reply_screen_name,created_at,owner,shortcode,hour,clean_message,clean_message_noemo
0,63d415fe24f17c7a0a38762a,Lo que tiene que hacer el Miss Venezuela es r...,Lisette Diaz,marazul41,marazul41,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/marazul41,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,hacer miss venezuela retirarse miss uni señal ...,hacer miss venezuela retirarse miss uni señal ...
1,63d415fe24f17c7a0a38762b,Me imagino que dentro del plan de acción está ...,Kendra Pérez,kendra.pereztabares,kendra.pereztabares,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/kendra.pereztabares,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,imagino dentro plan acción tener sistema votac...,imagino dentro plan acción tener sistema votac...
2,63d415fe24f17c7a0a38762c,"No, esta el de seleccionar lo mejor para la or...",Karen Isabel,karen.isabel.5,karen.isabel.5,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/karen.isabel.5,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,seleccionar mejor organizacion tomando cuentas...,seleccionar mejor organizacion tomando cuentas...
3,63d415fe24f17c7a0a38762d,Hermosas 🌠💕,Mariaida Medina,MARIAIDA.MEDINA,MARIAIDA.MEDINA,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/MARIAIDA.MEDINA,Sabado,False,positivo,MissVenezuelaOficial,0.0,0,0,0,hermosas 🌠💕,hermosas
4,63d415fe24f17c7a0a38762e,Nada! Ando enojada! Que clase de robo y super ...,Mariam Sequera,mariam.sequera.3,mariam.sequera.3,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/mariam.sequera.3,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,ando enojada clase robo super descarado fe nue...,ando enojada clase robo super descarado fe nue...
5,63d415fe24f17c7a0a38762f,El peor Miss Universo de los últimos 10 años.....,Iremar Zamora,izamorapr,izamorapr,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/izamorapr,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,peor miss universo últimos 10 añosmediocre sho...,peor miss universo últimos 10 añosmediocre sho...
6,63d415fe24f17c7a0a387630,"Amiga estoy de acuerdo con ustedes, uno de los...",Lenin Fontana,lenin.fontana,lenin.fontana,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/lenin.fontana,Sabado,False,negativo,MissVenezuelaOficial,0.0,0,0,0,amiga acuerdo ustedes peores universo perdio s...,amiga acuerdo ustedes peores universo perdio s...
7,63d415fe24f17c7a0a387631,Sea cual sea el resultado nuestra reina marcó ...,Walther José,wjosecas,wjosecas,716989063132228,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-13,http://www.facebook.com/wjosecas,Viernes,False,negativo,MissVenezuelaOficial,0.0,0,0,0,resultado reina marcó diferencia demostró vene...,resultado reina marcó diferencia demostró vene...
8,63d415fe24f17c7a0a387632,"Ese verde, me recuerda al huracán Esser. Verde...",José Fernando Nieto,100073605782632,100073605782632,716989063132228,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-13,http://www.facebook.com/100073605782632,Viernes,False,neutro,MissVenezuelaOficial,0.0,0,0,0,verde recuerda huracán esser verde esperanza4,verde recuerda huracán esser verde esperanza4
9,63d415fe24f17c7a0a387633,Así si se ve bella no con los salvavidas que c...,Yovany Gudiño,yovany.gudino.1,yovany.gudino.1,716989063132228,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-13,http://www.facebook.com/yovany.gudino.1,Viernes,False,positivo,MissVenezuelaOficial,0.0,0,0,0,así si ve bella salvavidas cargaba brazos ayer...,así si ve bella salvavidas cargaba brazos ayer...


In [92]:
# Number of emojis en message

def count_emojis(text):
    return sum(1 for char in text if char in emoji.EMOJI_DATA)

df['emojis_in_message'] = df['clean_message'].apply(count_emojis)

In [93]:
df['sentiment_code'] = df['sentiment'].map({'positivo': 1, 'negativo': -1, 'neutro': 0})
df.head(2)

Unnamed: 0,id,message,name,id_user,username,id_post,link,date,user_link,weekday,...,sentiment,reply_screen_name,created_at,owner,shortcode,hour,clean_message,clean_message_noemo,emojis_in_message,sentiment_code
0,63d415fe24f17c7a0a38762a,Lo que tiene que hacer el Miss Venezuela es r...,Lisette Diaz,marazul41,marazul41,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/marazul41,Sabado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,hacer miss venezuela retirarse miss uni señal ...,hacer miss venezuela retirarse miss uni señal ...,0,-1
1,63d415fe24f17c7a0a38762b,Me imagino que dentro del plan de acción está ...,Kendra Pérez,kendra.pereztabares,kendra.pereztabares,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/kendra.pereztabares,Sabado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,imagino dentro plan acción tener sistema votac...,imagino dentro plan acción tener sistema votac...,0,-1


In [94]:
df['date'] = pd.to_datetime(df['date'])

In [95]:
df['weekday'] = df['date'].dt.strftime('%A')
df.head()

Unnamed: 0,id,message,name,id_user,username,id_post,link,date,user_link,weekday,...,sentiment,reply_screen_name,created_at,owner,shortcode,hour,clean_message,clean_message_noemo,emojis_in_message,sentiment_code
0,63d415fe24f17c7a0a38762a,Lo que tiene que hacer el Miss Venezuela es r...,Lisette Diaz,marazul41,marazul41,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/marazul41,Saturday,...,negativo,MissVenezuelaOficial,0.0,0,0,0,hacer miss venezuela retirarse miss uni señal ...,hacer miss venezuela retirarse miss uni señal ...,0,-1
1,63d415fe24f17c7a0a38762b,Me imagino que dentro del plan de acción está ...,Kendra Pérez,kendra.pereztabares,kendra.pereztabares,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/kendra.pereztabares,Saturday,...,negativo,MissVenezuelaOficial,0.0,0,0,0,imagino dentro plan acción tener sistema votac...,imagino dentro plan acción tener sistema votac...,0,-1
2,63d415fe24f17c7a0a38762c,"No, esta el de seleccionar lo mejor para la or...",Karen Isabel,karen.isabel.5,karen.isabel.5,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/karen.isabel.5,Saturday,...,negativo,MissVenezuelaOficial,0.0,0,0,0,seleccionar mejor organizacion tomando cuentas...,seleccionar mejor organizacion tomando cuentas...,0,-1
3,63d415fe24f17c7a0a38762d,Hermosas 🌠💕,Mariaida Medina,MARIAIDA.MEDINA,MARIAIDA.MEDINA,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/MARIAIDA.MEDINA,Saturday,...,positivo,MissVenezuelaOficial,0.0,0,0,0,hermosas 🌠💕,hermosas,2,1
4,63d415fe24f17c7a0a38762e,Nada! Ando enojada! Que clase de robo y super ...,Mariam Sequera,mariam.sequera.3,mariam.sequera.3,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/mariam.sequera.3,Saturday,...,negativo,MissVenezuelaOficial,0.0,0,0,0,ando enojada clase robo super descarado fe nue...,ando enojada clase robo super descarado fe nue...,3,-1


In [96]:
day_map = {'Monday': 'Lunes', 'Tuesday': 'Martes', 'Wednesday': 'Miércoles',
          'Thursday': 'Jueves', 'Friday': 'Viernes', 'Saturday': 'Sábado',
          'Sunday': 'Domingo'}

df['weekday'] = df['weekday'].map(day_map)
df.head()

Unnamed: 0,id,message,name,id_user,username,id_post,link,date,user_link,weekday,...,sentiment,reply_screen_name,created_at,owner,shortcode,hour,clean_message,clean_message_noemo,emojis_in_message,sentiment_code
0,63d415fe24f17c7a0a38762a,Lo que tiene que hacer el Miss Venezuela es r...,Lisette Diaz,marazul41,marazul41,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/marazul41,Sábado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,hacer miss venezuela retirarse miss uni señal ...,hacer miss venezuela retirarse miss uni señal ...,0,-1
1,63d415fe24f17c7a0a38762b,Me imagino que dentro del plan de acción está ...,Kendra Pérez,kendra.pereztabares,kendra.pereztabares,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/kendra.pereztabares,Sábado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,imagino dentro plan acción tener sistema votac...,imagino dentro plan acción tener sistema votac...,0,-1
2,63d415fe24f17c7a0a38762c,"No, esta el de seleccionar lo mejor para la or...",Karen Isabel,karen.isabel.5,karen.isabel.5,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/karen.isabel.5,Sábado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,seleccionar mejor organizacion tomando cuentas...,seleccionar mejor organizacion tomando cuentas...,0,-1
3,63d415fe24f17c7a0a38762d,Hermosas 🌠💕,Mariaida Medina,MARIAIDA.MEDINA,MARIAIDA.MEDINA,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/MARIAIDA.MEDINA,Sábado,...,positivo,MissVenezuelaOficial,0.0,0,0,0,hermosas 🌠💕,hermosas,2,1
4,63d415fe24f17c7a0a38762e,Nada! Ando enojada! Que clase de robo y super ...,Mariam Sequera,mariam.sequera.3,mariam.sequera.3,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/mariam.sequera.3,Sábado,...,negativo,MissVenezuelaOficial,0.0,0,0,0,ando enojada clase robo super descarado fe nue...,ando enojada clase robo super descarado fe nue...,3,-1


In [97]:
# 
mask = df['hour'] == '0'

df.loc[mask, 'hour'] = '00:00:00'
# df['hour'].loc[df['hour'] == '0'] = str('0:0:0')

In [98]:
# df['hour_datetime'] = pd.to_datetime(df['hour'], format='%H:%M:%S')
# df['hour'] = df['hour_datetime'].dt.strftime('%H:%M:%S')  # Extract time
# df.drop('hour_datetime', axis=1, inplace=True)  # Uncomment to drop

# df['hour'] = pd.to_datetime(df['hour'], format='%H:%M:%S')

In [99]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22255 entries, 0 to 22373
Data columns (total 21 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id                   22255 non-null  object        
 1   message              22255 non-null  object        
 2   name                 22255 non-null  object        
 3   id_user              22255 non-null  object        
 4   username             22255 non-null  object        
 5   id_post              22255 non-null  int64         
 6   link                 22255 non-null  object        
 7   date                 22255 non-null  datetime64[ns]
 8   user_link            22255 non-null  object        
 9   weekday              22255 non-null  object        
 10  just_emoji           22255 non-null  bool          
 11  sentiment            22255 non-null  object        
 12  reply_screen_name    22255 non-null  object        
 13  created_at           22255 non-null 

In [100]:
df

Unnamed: 0,id,message,name,id_user,username,id_post,link,date,user_link,weekday,...,sentiment,reply_screen_name,created_at,owner,shortcode,hour,clean_message,clean_message_noemo,emojis_in_message,sentiment_code
0,63d415fe24f17c7a0a38762a,Lo que tiene que hacer el Miss Venezuela es r...,Lisette Diaz,marazul41,marazul41,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/marazul41,Sábado,...,negativo,MissVenezuelaOficial,0.000000e+00,0,0,00:00:00,hacer miss venezuela retirarse miss uni señal ...,hacer miss venezuela retirarse miss uni señal ...,0,-1
1,63d415fe24f17c7a0a38762b,Me imagino que dentro del plan de acción está ...,Kendra Pérez,kendra.pereztabares,kendra.pereztabares,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/kendra.pereztabares,Sábado,...,negativo,MissVenezuelaOficial,0.000000e+00,0,0,00:00:00,imagino dentro plan acción tener sistema votac...,imagino dentro plan acción tener sistema votac...,0,-1
2,63d415fe24f17c7a0a38762c,"No, esta el de seleccionar lo mejor para la or...",Karen Isabel,karen.isabel.5,karen.isabel.5,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/karen.isabel.5,Sábado,...,negativo,MissVenezuelaOficial,0.000000e+00,0,0,00:00:00,seleccionar mejor organizacion tomando cuentas...,seleccionar mejor organizacion tomando cuentas...,0,-1
3,63d415fe24f17c7a0a38762d,Hermosas 🌠💕,Mariaida Medina,MARIAIDA.MEDINA,MARIAIDA.MEDINA,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/MARIAIDA.MEDINA,Sábado,...,positivo,MissVenezuelaOficial,0.000000e+00,0,0,00:00:00,hermosas 🌠💕,hermosas,2,1
4,63d415fe24f17c7a0a38762e,Nada! Ando enojada! Que clase de robo y super ...,Mariam Sequera,mariam.sequera.3,mariam.sequera.3,718139826350485,http://www.facebook.com/MissVenezuelaOficial/p...,2023-01-14,http://www.facebook.com/mariam.sequera.3,Sábado,...,negativo,MissVenezuelaOficial,0.000000e+00,0,0,00:00:00,ando enojada clase robo super descarado fe nue...,ando enojada clase robo super descarado fe nue...,3,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22369,63d415fe24f17c7a0a38cd8b,Inspiración total. 👏👏,amandadudamel,2161787255,mendjohandc,17968341544949856,https://www.instagram.com/p/CnM11RXjZIl/,2023-01-09,https://www.instagram.com/mendjohandc/,Lunes,...,neutro,amandadudamel,1.673281e+09,"{'id': '2161787255', 'profile_pic_url': 'https...",CnM11RXjZIl,12:16:34,inspiración total 👏👏,inspiración total,2,0
22370,63d415fe24f17c7a0a38cd8c,",💚💚💚",amandadudamel,1458075251,dakotadqueen,18335436424050625,https://www.instagram.com/p/CnM11RXjZIl/,2023-01-09,https://www.instagram.com/dakotadqueen/,Lunes,...,neutro,amandadudamel,1.673281e+09,"{'id': '1458075251', 'profile_pic_url': 'https...",CnM11RXjZIl,12:16:37,💚💚💚,,3,0
22371,63d415fe24f17c7a0a38cd8d,Quiero seguir viendo más 😍😢😢,amandadudamel,1935283826,l_redy,17951655986382603,https://www.instagram.com/p/CnM11RXjZIl/,2023-01-09,https://www.instagram.com/l_redy/,Lunes,...,neutro,amandadudamel,1.673281e+09,"{'id': '1935283826', 'profile_pic_url': 'https...",CnM11RXjZIl,12:16:43,quiero seguir viendo 😍😢😢,quiero seguir viendo,3,0
22372,63d415fe24f17c7a0a38cd8e,😍😍😍,amandadudamel,1041067605,isrrael.94,17956952825337928,https://www.instagram.com/p/CnM11RXjZIl/,2023-01-09,https://www.instagram.com/isrrael.94/,Lunes,...,positivo,amandadudamel,1.673281e+09,"{'id': '1041067605', 'profile_pic_url': 'https...",CnM11RXjZIl,12:14:48,😍😍😍,,3,1


In [101]:
df.to_csv('..\\data\\dataSocialMediaClean.csv', sep='\t')