# Data cleaning of raw scrapped data

### 01. Import librairies and configurations

In [7]:
import pandas as pd
from pandas.io.json import json_normalize
import warnings
import os

warnings.filterwarnings('ignore')

In [53]:
#configurations
data_folder = '../data'

### 02. Foot01 data

In [13]:
foot01_data_raw = pd.read_json(f'{data_folder}/raw/foot01.jsonl', lines=True)
print(f'The shape of the dataset is {foot01_data_raw.shape}')

The shape of the dataset is (50000, 28)


In [15]:
foot01_data_raw.sample(5)

Unnamed: 0,_type,url,date,content,renderedContent,id,user,replyCount,retweetCount,likeCount,...,media,retweetedTweet,quotedTweet,inReplyToTweetId,inReplyToUser,mentionedUsers,coordinates,place,hashtags,cashtags
11937,snscrape.modules.twitter.Tweet,https://twitter.com/Foot01_com/status/14496693...,2021-10-17 09:31:16+00:00,PSG : Lewandowski le secret pour prolonger Mba...,PSG : Lewandowski le secret pour prolonger Mba...,1449669331839762433,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,0,...,,,,,,,,,,
31420,snscrape.modules.twitter.Tweet,https://twitter.com/Foot01_com/status/12644447...,2020-05-24 06:35:02+00:00,"L1 : « On est trop con », Aulas craque contre ...","L1 : « On est trop con », Aulas craque contre ...",1264444780991229952,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,0,...,"[{'_type': 'snscrape.modules.twitter.Photo', '...",,,,,,,,[Foot],
21363,snscrape.modules.twitter.Tweet,https://twitter.com/Foot01_com/status/13599896...,2021-02-11 22:16:05+00:00,"PSG : Mbappé va s’amuser, la défense du Barça ...","PSG : Mbappé va s’amuser, la défense du Barça ...",1359989611108261891,"{'_type': 'snscrape.modules.twitter.User', 'us...",1,0,0,...,"[{'_type': 'snscrape.modules.twitter.Photo', '...",,,,,,,,[Foot],
3640,snscrape.modules.twitter.Tweet,https://twitter.com/Foot01_com/status/15342290...,2022-06-07 17:41:22+00:00,Pascal Dupraz révèle avoir été menacé de mort ...,Pascal Dupraz révèle avoir été menacé de mort ...,1534229038797029377,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,0,...,,,,,,,,,,
35974,snscrape.modules.twitter.Tweet,https://twitter.com/Foot01_com/status/12192820...,2020-01-20 15:34:33+00:00,OL : Rayan Cherki est déjà en mode Kylian Mbap...,OL : Rayan Cherki est déjà en mode Kylian Mbap...,1219282069160751105,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,1,...,"[{'_type': 'snscrape.modules.twitter.Photo', '...",,,,,,,,[Foot],


In [17]:
# keep only  the relevant columns
cols_to_keep = ['date', 'content', 'renderedContent', 'replyCount', 'retweetCount', 'likeCount', 'quoteCount', 'tcooutlinks', 'hashtags']
foot01_data = foot01_data_raw[cols_to_keep]

In [44]:
foot01_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype              
---  ------           --------------  -----              
 0   date             50000 non-null  datetime64[ns, UTC]
 1   content          50000 non-null  object             
 2   renderedContent  50000 non-null  object             
 3   replyCount       50000 non-null  int64              
 4   retweetCount     50000 non-null  int64              
 5   likeCount        50000 non-null  int64              
 6   quoteCount       50000 non-null  int64              
 7   tcooutlinks      49999 non-null  object             
 8   hashtags         31649 non-null  object             
 9   article_link     50000 non-null  object             
 10  headline         50000 non-null  object             
dtypes: datetime64[ns, UTC](1), int64(4), object(6)
memory usage: 4.2+ MB


In [51]:
foot01_data.dropna(subset='tcooutlinks', inplace=True) # remove nan from tcootlinks
foot01_data['headline'] = foot01_data['renderedContent'].apply(lambda x : x[:x.find('foot01.com')]) # remove unecessary items from the headline
foot01_data['article_link'] = foot01_data['tcooutlinks'].apply(lambda x: x[0]) # get the link of all the article

In [54]:
foot01_data.to_csv(f'{data_folder}/interim/foot01_clean.csv', index = False)

### 03. Sofoot data

In [55]:
sofoot_data_raw = pd.read_json(f'{data_folder}/raw/sofoot.jsonl', lines=True)
print(f'The shape of the data is {sofoot_data_raw.shape}')
sofoot_data_raw.sample(5)

The shape of the data is (25000, 28)


Unnamed: 0,_type,url,date,content,renderedContent,id,user,replyCount,retweetCount,likeCount,...,media,retweetedTweet,quotedTweet,inReplyToTweetId,inReplyToUser,mentionedUsers,coordinates,place,hashtags,cashtags
18246,snscrape.modules.twitter.Tweet,https://twitter.com/sofoot/status/100682357648...,2018-06-13 09:00:21+00:00,"La blessure qui aurait pu ruiner sa carrière, ...","La blessure qui aurait pu ruiner sa carrière, ...",1006823576484372480,"{'_type': 'snscrape.modules.twitter.User', 'us...",3,3,15,...,,,,,,,,,,
1980,snscrape.modules.twitter.Tweet,https://twitter.com/sofoot/status/150164640875...,2022-03-09 19:49:37+00:00,Vous êtes prêts pour voir le Santiago Bernabeu...,Vous êtes prêts pour voir le Santiago Bernabeu...,1501646408755077123,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,2,14,...,,,,,,,,,,
23160,snscrape.modules.twitter.Tweet,https://twitter.com/sofoot/status/800028229612...,2016-11-19 17:29:28+00:00,Et encore désolé pour le spoiler.\nhttps://t.c...,Et encore désolé pour le spoiler.\nsofoot.com/...,800028229612564480,"{'_type': 'snscrape.modules.twitter.User', 'us...",1,4,10,...,,,,,,,,,,
21290,snscrape.modules.twitter.Tweet,https://twitter.com/sofoot/status/897072906785...,2017-08-14 12:30:22+00:00,On va voir si tu as bien suivi ce week-end de ...,On va voir si tu as bien suivi ce week-end de ...,897072906785652736,"{'_type': 'snscrape.modules.twitter.User', 'us...",5,1,10,...,,,,,,,,,[LeGrandQuiz],
2219,snscrape.modules.twitter.Tweet,https://twitter.com/sofoot/status/149621848403...,2022-02-22 20:20:59+00:00,"""Si je devais me résumer en un mot, ça serait ...","""Si je devais me résumer en un mot, ça serait ...",1496218484035964930,"{'_type': 'snscrape.modules.twitter.User', 'us...",1,1,27,...,,,,,,,,,[KohLanta],


In [56]:
# keep only  the relevant columns
cols_to_keep = ['date', 'content', 'renderedContent', 'replyCount', 'retweetCount', 'likeCount', 'quoteCount', 'tcooutlinks', 'hashtags']
sofoot_data = sofoot_data_raw[cols_to_keep]

In [57]:
sofoot_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000 entries, 0 to 24999
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype              
---  ------           --------------  -----              
 0   date             25000 non-null  datetime64[ns, UTC]
 1   content          25000 non-null  object             
 2   renderedContent  25000 non-null  object             
 3   replyCount       25000 non-null  int64              
 4   retweetCount     25000 non-null  int64              
 5   likeCount        25000 non-null  int64              
 6   quoteCount       25000 non-null  int64              
 7   tcooutlinks      19072 non-null  object             
 8   hashtags         4966 non-null   object             
dtypes: datetime64[ns, UTC](1), int64(4), object(4)
memory usage: 1.7+ MB


In [58]:
# drop missing link
sofoot_data.dropna(subset = ['tcooutlinks'], inplace=True)

In [63]:
sofoot_data['renderedContent'][896]

'On peut être élu meilleur joueur de Serie A et ne jamais avoir été titulaire en sélection. La preuve avec Rafael Leão et le Portugal. sofoot.com/apres-l-italie…'

In [65]:
# remove the link in the headline
sofoot_data['headline'] = sofoot_data['renderedContent'].apply(lambda x : x[ : x.find('sofoot.com')] )

# get the link of the corresponding article
sofoot_data['article_link'] = sofoot_data['tcooutlinks'].apply(lambda x : x[0])

In [66]:
sofoot_data

Unnamed: 0,date,content,renderedContent,replyCount,retweetCount,likeCount,quoteCount,tcooutlinks,hashtags,headline,article_link
0,2022-09-15 14:11:05+00:00,Obligé de saluer un homme qui respectait autan...,Obligé de saluer un homme qui respectait autan...,2,1,41,0,[https://t.co/yaSBFtlwzX],,Obligé de saluer un homme qui respectait autan...,https://t.co/yaSBFtlwzX
1,2022-09-15 12:24:40+00:00,"Non pas un, ni deux, mais trois petits nouveau...","Non pas un, ni deux, mais trois petits nouveau...",4,1,19,0,[https://t.co/LoH4QqpoDm],,"Non pas un, ni deux, mais trois petits nouveau...",https://t.co/LoH4QqpoDm
2,2022-09-15 11:50:39+00:00,"Avec toutes les absences, on n'est pas à l'abr...","Avec toutes les absences, on n'est pas à l'abr...",4,6,32,2,[https://t.co/kDdzzbLlWv],,"Avec toutes les absences, on n'est pas à l'abr...",https://t.co/kDdzzbLlWv
3,2022-09-15 09:30:41+00:00,"Des résultats en berne, un climat extrasportif...","Des résultats en berne, un climat extrasportif...",0,4,26,1,[https://t.co/LfbIhzXTX6],,"Des résultats en berne, un climat extrasportif...",https://t.co/LfbIhzXTX6
4,2022-09-15 08:22:24+00:00,"Avec son trio d'attaque, le PSG peut ouvrir n'...","Avec son trio d'attaque, le PSG peut ouvrir n'...",3,1,9,1,[https://t.co/shDtViy9Ti],,"Avec son trio d'attaque, le PSG peut ouvrir n'...",https://t.co/shDtViy9Ti
...,...,...,...,...,...,...,...,...,...,...,...
24990,2015-05-15 09:06:43+00:00,On est passé prendre des nouvelles de Robert V...,On est passé prendre des nouvelles de Robert V...,1,2,1,0,[http://t.co/C3UQgQ7fyU],,On est passé prendre des nouvelles de Robert V...,http://t.co/C3UQgQ7fyU
24992,2015-05-14 18:43:29+00:00,Saucisse ! Francfort prive les Parisiennes du ...,Saucisse ! Francfort prive les Parisiennes du ...,0,6,0,0,[http://t.co/g598IXnZO6],,Saucisse ! Francfort prive les Parisiennes du ...,http://t.co/g598IXnZO6
24993,2015-05-14 16:20:25+00:00,Pourquoi le football est-il meilleur que Faceb...,Pourquoi le football est-il meilleur que Faceb...,0,2,6,0,[http://t.co/7r1FmHFEeN],[sofoot],Pourquoi le football est-il meilleur que Faceb...,http://t.co/7r1FmHFEeN
24994,2015-05-14 12:38:20+00:00,Tu te rappelles du milieu Gago-Lass au Real? ...,Tu te rappelles du milieu Gago-Lass au Real? ...,1,9,10,0,[http://t.co/L60BjxKG62],,Tu te rappelles du milieu Gago-Lass au Real?,http://t.co/L60BjxKG62


In [67]:
sofoot_data.to_csv(f'{data_folder}/interim/sofoot_clean.csv', index = False)

### 04. foot365 data

In [68]:
foot365_data_raw = pd.read_json(f'{data_folder}/raw/foot365.jsonl', lines = True)
print(f'The shape of the dataset is {foot365_data_raw.shape}')
foot365_data_raw.sample(5)

The shape of the dataset is (50000, 28)


Unnamed: 0,_type,url,date,content,renderedContent,id,user,replyCount,retweetCount,likeCount,...,media,retweetedTweet,quotedTweet,inReplyToTweetId,inReplyToUser,mentionedUsers,coordinates,place,hashtags,cashtags
12161,snscrape.modules.twitter.Tweet,https://twitter.com/foot365/status/14547248956...,2021-10-31 08:20:17+00:00,"Leonardo, le coup de pression à Pochettino htt...","Leonardo, le coup de pression à Pochettino foo...",1454724895603105793,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,0,...,,,,,,,,,,
12722,snscrape.modules.twitter.Tweet,https://twitter.com/foot365/status/14496217730...,2021-10-17 06:22:18+00:00,PSG : Navas vers une absence prolongée https:/...,PSG : Navas vers une absence prolongée footbal...,1449621773025169411,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,1,1,...,,,,,,,,,,
29256,snscrape.modules.twitter.Tweet,https://twitter.com/foot365/status/12805018690...,2020-07-07 14:00:10+00:00,OM : un nouveau favori pour le poste de direct...,OM : un nouveau favori pour le poste de direct...,1280501869027229703,"{'_type': 'snscrape.modules.twitter.User', 'us...",1,0,1,...,,,,,,,,,,
44607,snscrape.modules.twitter.Tweet,https://twitter.com/foot365/status/67209002761...,2015-12-02 16:28:44+00:00,"#OL ""Ils peuvent battre Angers puis s'écrouler...","#OL ""Ils peuvent battre Angers puis s'écrouler...",672090027619405826,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,0,...,,,,,,"[{'_type': 'snscrape.modules.twitter.User', 'u...",,,[OL],
318,snscrape.modules.twitter.Tweet,https://twitter.com/foot365/status/15674068930...,2022-09-07 06:58:18+00:00,"Mbappé, du jamais vu en Ligue des champions ht...","Mbappé, du jamais vu en Ligue des champions fo...",1567406893009698816,"{'_type': 'snscrape.modules.twitter.User', 'us...",0,0,1,...,,,,,,,,,,


In [69]:
# keep only  the relevant columns
cols_to_keep = ['date', 'content', 'renderedContent', 'replyCount', 'retweetCount', 'likeCount', 'quoteCount', 'tcooutlinks', 'hashtags']
foot365_data = foot365_data_raw[cols_to_keep]

In [70]:
foot365_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype              
---  ------           --------------  -----              
 0   date             50000 non-null  datetime64[ns, UTC]
 1   content          50000 non-null  object             
 2   renderedContent  50000 non-null  object             
 3   replyCount       50000 non-null  int64              
 4   retweetCount     50000 non-null  int64              
 5   likeCount        50000 non-null  int64              
 6   quoteCount       50000 non-null  int64              
 7   tcooutlinks      46239 non-null  object             
 8   hashtags         3177 non-null   object             
dtypes: datetime64[ns, UTC](1), int64(4), object(4)
memory usage: 3.4+ MB


In [71]:
# drop nan on non articles
foot365_data.dropna(subset=['tcooutlinks'], inplace=True)

In [72]:
foot365_data['renderedContent'][777]

'Hwang ou les joies du foot moderne football365.fr/hwang-joies-fo…'

In [73]:
# remove the link in the headline
foot365_data['headline'] = foot365_data['renderedContent'].apply(lambda x : x[ : x.find('football365.fr')] )

# get the link of the corresponding article
foot365_data['article_link'] = foot365_data['tcooutlinks'].apply(lambda x : x[0])

In [74]:
foot365_data

Unnamed: 0,date,content,renderedContent,replyCount,retweetCount,likeCount,quoteCount,tcooutlinks,hashtags,headline,article_link
0,2022-09-15 11:24:19+00:00,Ancelotti fait la paix avec Asensio https://t....,Ancelotti fait la paix avec Asensio football36...,0,0,0,0,[https://t.co/0PCeVGMpB5],,Ancelotti fait la paix avec Asensio,https://t.co/0PCeVGMpB5
1,2022-09-15 10:25:16+00:00,Juve : Allegri n’a pas peur pour son poste htt...,Juve : Allegri n’a pas peur pour son poste foo...,0,0,2,0,[https://t.co/P6zmYF40nD],,Juve : Allegri n’a pas peur pour son poste,https://t.co/P6zmYF40nD
2,2022-09-15 10:24:18+00:00,Des orgies payées par la fédération ? Scandale...,Des orgies payées par la fédération ? Scandale...,0,0,0,0,[https://t.co/bvRIi6kFoF],,Des orgies payées par la fédération ? Scandale...,https://t.co/bvRIi6kFoF
3,2022-09-15 09:25:22+00:00,Isco pour marquer l’histoire de Séville https:...,Isco pour marquer l’histoire de Séville footba...,0,0,0,0,[https://t.co/UWkrp6yBg4],,Isco pour marquer l’histoire de Séville,https://t.co/UWkrp6yBg4
4,2022-09-15 09:24:18+00:00,"Après sa célébration clown, Neymar pète un câb...","Après sa célébration clown, Neymar pète un câb...",0,0,2,0,[https://t.co/VTQ3XlJ4hT],,"Après sa célébration clown, Neymar pète un câble",https://t.co/VTQ3XlJ4hT
...,...,...,...,...,...,...,...,...,...,...,...
49995,2015-07-12 20:40:24+00:00,Supercoupe : Le Zénith Saint-Pétersbourg vainq...,Supercoupe : Le Zénith Saint-Pétersbourg vainq...,0,2,0,0,[http://t.co/8kkio76k1A],,Supercoupe : Le Zénith Saint-Pétersbourg vainq...,http://t.co/8kkio76k1A
49996,2015-07-12 20:40:23+00:00,Bayern Munich : La présentation de Douglas Cos...,Bayern Munich : La présentation de Douglas Cos...,0,2,0,0,[http://t.co/jq4VWa7S8X],,Bayern Munich : La présentation de Douglas Cos...,http://t.co/jq4VWa7S8X
49997,2015-07-12 20:40:23+00:00,(Groupe A) : France - Grèce (2-0) http://t.co/...,(Groupe A) : France - Grèce (2-0) bit.ly/1fAxWQj,0,2,0,0,[http://t.co/J7g4kBhCZA],,(Groupe A) : France - Grèce (2-0) bit.ly/1fAxWQ,http://t.co/J7g4kBhCZA
49998,2015-07-12 20:40:23+00:00,Bayern Munich : Schweinsteiger explique son dé...,Bayern Munich : Schweinsteiger explique son dé...,0,2,0,0,[http://t.co/XEvsYWiG2u],,Bayern Munich : Schweinsteiger explique son dé...,http://t.co/XEvsYWiG2u


In [75]:
foot365_data.to_csv(f'{data_folder}/interim/foot365_clean.csv', index = False)