# Preprocesado de datos
## Autor: Juan Carlos Alonso Valenzuela
En este notebook se preprocesarán los datos extraídos de la API de Twitter para expresarlos en un formato que pueda ser leído como un grafo.

In [1]:
import pandas as pd
import re

# Carga de datos

Comenzamos leyendo los archivos

In [2]:
# Neutral
realMadridEspanyol = pd.read_csv('dataset/RealMadridEspanyol.csv')
# Madrid
CAMPEON35 = pd.read_csv('dataset/CAMPEON35.csv')
RMFans = pd.read_csv('dataset/RMFans.csv')
# Espanyol
RCDE = pd.read_csv('dataset/RCDE.csv')
planterRCDE = pd.read_csv('dataset/planterRCDE.csv')

Unimos todos los DataFrames en una sola variable

In [3]:
df = pd.concat([realMadridEspanyol,CAMPEON35,RMFans,RCDE,planterRCDE])
# Shuffle data
df = df.sample(frac=1.)

# Drop Unnamed column
df = df.drop(columns='Unnamed: 0')

# Reset index
df = df.reset_index(drop=True)

In [4]:
df.head()

Unnamed: 0,username,tweet_content,n_favorites,timestamp,mentions
0,farahh_so,RT @LaLiga: 🎉🎊⚽ ¡@Benzema también se une a la ...,0,Sat Apr 30 23:57:34 +0000 2022,"['LaLiga', 'Benzema', 'realmadrid']"
1,RubenMusic4ever,RT @realmadrid: 🙌 ¡#CAMPEON35 DE @LALIGA! 🙌\n🏁...,0,Sat Apr 30 23:57:47 +0000 2022,"['realmadrid', 'LaLiga', 'realmadrid', 'RCDEsp..."
2,RCDEFutbolBase,90+4' | 2-2 | 🟥 Chico\n\n#RCDE | #planterRCDE ...,0,Sat Apr 30 18:24:43 +0000 2022,[]
3,wantan_ver2,RT @realmadrid: #RMFans x Cibeles x #CAMPEON35...,0,Sat Apr 30 23:59:56 +0000 2022,['realmadrid']
4,Neiva8814,RT @realmadrid: 👋 ¡@RafaelNadal hizo el saque ...,0,Sat Apr 30 23:54:26 +0000 2022,"['realmadrid', 'RafaelNadal']"
5,sergiorello3,RT @SBlanquia: Quien te ha visto y quien te ve...,0,Sat Apr 30 23:11:06 +0000 2022,['SBlanquia']
6,faxx2277,RT @realmadrid: 🤍 ¡NUESTRA DIOSA! 🤍\n#CAMPEON3...,0,Sat Apr 30 23:59:59 +0000 2022,['realmadrid']
7,RCDEFutbolBase,67' | 2-2 | Empata l'Ejea\n\n#RCDE | #planterRCDE,0,Sat Apr 30 17:56:27 +0000 2022,[]
8,DonTxingurri,RT @OldRcd: Presentaciones de las alineaciones...,0,Sat Apr 30 23:12:39 +0000 2022,['OldRcd']
9,RubenMusic4ever,RT @realmadrid: ✨ ¡SIEMPRE EN MI EQUIPO! ✨\n#C...,0,Sat Apr 30 23:59:59 +0000 2022,['realmadrid']


Un tweet es un retweet si comienza con los caracteres "RT @" seguidos del nombre el usuario al que se está retweeteando.

In [5]:
tweet_content_values = df['tweet_content'].values.tolist()
rt_column = []

for tweet in tweet_content_values:
    rt_regex = re.compile(r"^RT\s@.[a-zA-Z0-9]+(?::)")
    
    if rt_regex.match(tweet):
        # The tweet is a retweet
        retweet_from = tweet.split(":")[0][4:]
        rt_column.append(retweet_from)
    else:
        # The tweet is not a retweet
        rt_column.append(None)

df['retweet'] = rt_column

In [6]:
df.head()

Unnamed: 0,username,tweet_content,n_favorites,timestamp,mentions,retweet
0,farahh_so,RT @LaLiga: 🎉🎊⚽ ¡@Benzema también se une a la ...,0,Sat Apr 30 23:57:34 +0000 2022,"['LaLiga', 'Benzema', 'realmadrid']",LaLiga
1,RubenMusic4ever,RT @realmadrid: 🙌 ¡#CAMPEON35 DE @LALIGA! 🙌\n🏁...,0,Sat Apr 30 23:57:47 +0000 2022,"['realmadrid', 'LaLiga', 'realmadrid', 'RCDEsp...",realmadrid
2,RCDEFutbolBase,90+4' | 2-2 | 🟥 Chico\n\n#RCDE | #planterRCDE ...,0,Sat Apr 30 18:24:43 +0000 2022,[],
3,wantan_ver2,RT @realmadrid: #RMFans x Cibeles x #CAMPEON35...,0,Sat Apr 30 23:59:56 +0000 2022,['realmadrid'],realmadrid
4,Neiva8814,RT @realmadrid: 👋 ¡@RafaelNadal hizo el saque ...,0,Sat Apr 30 23:54:26 +0000 2022,"['realmadrid', 'RafaelNadal']",realmadrid
5,sergiorello3,RT @SBlanquia: Quien te ha visto y quien te ve...,0,Sat Apr 30 23:11:06 +0000 2022,['SBlanquia'],SBlanquia
6,faxx2277,RT @realmadrid: 🤍 ¡NUESTRA DIOSA! 🤍\n#CAMPEON3...,0,Sat Apr 30 23:59:59 +0000 2022,['realmadrid'],realmadrid
7,RCDEFutbolBase,67' | 2-2 | Empata l'Ejea\n\n#RCDE | #planterRCDE,0,Sat Apr 30 17:56:27 +0000 2022,[],
8,DonTxingurri,RT @OldRcd: Presentaciones de las alineaciones...,0,Sat Apr 30 23:12:39 +0000 2022,['OldRcd'],OldRcd
9,RubenMusic4ever,RT @realmadrid: ✨ ¡SIEMPRE EN MI EQUIPO! ✨\n#C...,0,Sat Apr 30 23:59:59 +0000 2022,['realmadrid'],realmadrid
