# Librerías

In [1]:
import pandas as pd
import sys
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
from datetime import datetime, timedelta
from datetime import datetime
from joblib import Parallel, delayed
import warnings
import re
import requests
warnings.filterwarnings('ignore')

sys.path.append('/home/marta/Desktop/IH/Shkrappy/src')
from fun import * 


# Establecemos la ruta al driver:

PATH = 'driver/chromedriver'

# Funciones de scrapeo

Vamos a diseñar las distintas funciones que usaremos en el scrapeo de reddit:

+ extract: Una función que reciba un post concreto y extraiga la información relevante, es decir, el títlo del post, la fecha y, si es un meme, la url de la imagen asociada.
+ scrappy: Una función que vaya scrolleando el subreddit en cuestión y que luego llame a extract para extraer la información de todos los posts que localice.

In [3]:
def extract(post):
    
    try:
        date = post.get_attribute('created-timestamp').split('T') # Partimos la fecha por la T
        time = pd.to_datetime(date[1].split('.')[0]).time() # La segunda parte es la hora UTC
        day = pd.to_datetime(date[0]).date() # La segunda parte es la fecha
        title = post.get_attribute('post-title') # Sacamos el título del post
        
        try: # Esta parte es para obtener la url de los posts que tengan una imagen 
            link = post.find_elements(By.TAG_NAME, 'faceplate-img')[1].get_attribute('src')
            return [day,time,title,link]
        except:
            return [day,time,title] # Por si no hay imagen
    except:
        print('Oups! Something went wrong.')

In [4]:
def scrappy(url):
    
    # Establecemos unos índices para el scrolleo contando el número de posts que podemos ver en la página:
    
    oldlen = 0
    newlen = 1
    newposts = newlen > oldlen 
    
    # Abrimos el navegador y buscamos los posts:
    
    driver = webdriver.Chrome(PATH)    
    driver.get(url)    
    posts = driver.find_elements(By.TAG_NAME, 'shreddit-post') # Busca los posts
    
    # Scrolling todo lo que podamos, hasta que no cambie el último post que encontremos:

    while newposts: 
        oldlen = newlen # Guardamos los posts que podemos ver ahora.
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # Scrolleamos hasta abajo.
        time.sleep(3) # Esperamos a que cargue.
        posts = driver.find_elements(By.TAG_NAME, 'shreddit-post') # Buscamos de nuevo los posts.
        newlen = len(posts) # Contamos cuantos hay.
        newposts = newlen > oldlen # Miramos si hay los mismos que antes de scrollear, y si no repetimos proceso.
                 
    print('Scroll completed.') 
    
    # Ahora usamos extract para extraer los datos de los posts totales que hemos conseguido.
    # Los guardamos en un dataframe, le ponemos nombre a las columnas y cerramos el navegador:
    
    data = pd.DataFrame([extract(i) for i in posts])
    
    try:
        data.columns = ['date','time','title']
    except:
        data.columns = ['date','time','title','link'] 
        
        
    driver.quit()

    return data

# URLs de Reddit a scrapear

In [17]:
# Hemos elegido 7 subforos. Construimos las url a partir de la principal y elegimos la vista que sabemos
# scrapear con las funciones anteriores:

main_url = 'https://www.reddit.com/r/'
subredd = ['memes','programming','science','relationships','usa','canada','unitedkingdom']
view ='/new/?feedViewType=classicView'

all_url = [main_url+i+view for i in subredd]

all_url

['https://www.reddit.com/r/memes/new/?feedViewType=classicView',
 'https://www.reddit.com/r/programming/new/?feedViewType=classicView',
 'https://www.reddit.com/r/science/new/?feedViewType=classicView',
 'https://www.reddit.com/r/relationships/new/?feedViewType=classicView',
 'https://www.reddit.com/r/usa/new/?feedViewType=classicView',
 'https://www.reddit.com/r/canada/new/?feedViewType=classicView',
 'https://www.reddit.com/r/unitedkingdom/new/?feedViewType=classicView']

# Processing

In [6]:
%%time

# Paralelizamos el proceso para poder scrapear todas las páginas a la vez:

parelelo = Parallel(n_jobs = 7, verbose = True)
lst_df = parelelo(delayed(scrappy)(u) for u in all_url)

[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.


Scroll completed.
CPU times: user 52 ms, sys: 31.2 ms, total: 83.2 ms
Wall time: 11min 11s


[Parallel(n_jobs=2)]: Done   2 out of   2 | elapsed: 11.2min remaining:    0.0s
[Parallel(n_jobs=2)]: Done   2 out of   2 | elapsed: 11.2min finished


In [16]:
# Hemos obtenido una lista de dataframes, uno por cada subreddit scrapeado. Echémosles un ojo:

memes = lst_df[0]
programming = lst_df[1]
science = lst_df[2]
relationships = lst_df[3]
usa = lst_df[4]
canada = lst_df[5]
uk = lst_df[6]

In [18]:
# Cada uno tiene un número de filas distinto, porque el scrolleo máximo permitido por reddit 
# parece variar según el foro.

memes.shape[0], programming.shape[0], science.shape[0], relationships.shape[0], usa.shape[0], canada.shape[0], uk.shape[0]

(432, 383, 450, 465, 333, 479, 471)

In [17]:
memes.head()

Unnamed: 0,date,time,title,link
0,2023-08-05,18:41:57,"It’s not a donkey, but it’s sooooooo close!",https://b.thumbs.redditmedia.com/UV_IXPBxkdRIy...
1,2023-08-05,18:25:56,"i mean, it's that simple, right?[Shrek]",https://b.thumbs.redditmedia.com/rIylb4UOJytxk...
2,2023-08-05,18:24:00,I have no idea what in the shrek is going on.,https://b.thumbs.redditmedia.com/kZYq6Q008yFx0...
3,2023-08-05,18:14:20,"This could be us Donkey, but I don't want it to.",https://b.thumbs.redditmedia.com/YHlalXXkYDcjf...
4,2023-08-05,17:48:25,You see a fairy everywhere,https://b.thumbs.redditmedia.com/AjrIhjiUijUmx...


In [18]:
programming.head()

Unnamed: 0,date,time,title,link
0,2023-08-05,18:10:03,Node.js vs Reactive Java,https://b.thumbs.redditmedia.com/mDYcAK-jpWnIw...
1,2023-08-05,17:11:43,Turing's Maze,
2,2023-08-05,17:03:54,Show Notifications in your Terminal,https://a.thumbs.redditmedia.com/LsNWQlGzD2Hfg...
3,2023-08-05,16:25:16,Software engineering diploma advice,
4,2023-08-05,16:15:17,What is UNIX: An Immersion in Bell Laboratorie...,https://b.thumbs.redditmedia.com/3iHyf-3CAMMk5...


# Guardado de datos

Parece que están bien. Ya vemos que algunos tienen nulos en la columna de links, porque no todos los posts tenían imágenes asociadas. En el dataframe de relationships no hay esa columna porque directamente no había ninguna imagen en ninguno de los posts. 

Guardémoslos en csv. y ya rellenaremos los nulos en el siguiente dataframe.

In [33]:
memes.to_csv('../data/raw_data/reddit/memes.csv', index = False)
programming.to_csv('../data/raw_data/reddit/programming.csv', index = False)
science.to_csv('../data/raw_data/reddit/science.csv', index = False)
relationships.to_csv('../data/raw_data/reddit/relationships.csv', index = False)
usa.to_csv('../data/raw_data/reddit/usa.csv', index = False)
canada.to_csv('../data/raw_data/reddit/canada.csv', index = False)
uk.to_csv('../data/raw_data/reddit/uk.csv', index = False)