> # Crawler de Rava Online

La idea consiste en implementar un scraper de los foros de Rava Online y bajar los datos de la accion GGAL (Grupo Financiero Galicia) utilizando la libreria de BeautifulSoup

El mismo esta desarrollado para bajar solamente los ultimos 600 posts a modo de ejemplo. 

El url inicial es el siguiente: http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=0

Mientras que el url final es: http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=15

Al final se creara una lista de tamaño 600 (cantidad de posteos) en donde cada elemento sean los datos bajados de los posts. Cada uno de estos elementos va a ser un diccionario con las claves "id" (id del posteo) y "content" (texto contenido dentro de cada post)

In [None]:
import urllib.request
from bs4 import BeautifulSoup
import pickle

> ## Funciones principales

> ### 1. Obtener codigo html

Dado un url del foro de rava, devuelve el codigo html

In [None]:
def gets_html_rava(url):
    req = urllib.request.Request(url,
                                 headers={'User-Agent':
                                          'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'})

    return(urllib.request.urlopen(req).read().decode("utf-8"))
    
#html = gets_html_rava("http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=0")

> ### 2. Formato beatiful soup

Dado un codigo html de una pagina de rava, lo transforma en formato beautiful soup

In [None]:
def parse_html(html):
    soup = BeautifulSoup(html, "lxml")
    return soup

#soup = BeautifulSoup(html, "lxml")

> ### 3. Obtener ids de una pagina

In [None]:
def process_ids(soup):
    ids = []
    contenido_con_ids = soup.find_all("dl", {"class":"postprofile"})
    for contenido in contenido_con_ids:
        ids_i = contenido.get('id').replace('rofile','')
        ids.append(ids_i)
        
    return ids
print(process_ids(soup))

['p5181158', 'p5181157', 'p5181156', 'p5181155', 'p5181154', 'p5181138', 'p5181135', 'p5181120', 'p5181118', 'p5181117', 'p5181115', 'p5181095', 'p5181094', 'p5181093', 'p5181092']


### 4. Obtener contenido de una pagina

In [None]:
def process_content(soup):
    content = []
    contenido_con_content = soup.find_all("div", {"class":"content"})
    for contenido in contenido_con_content:
        if bool(contenido.blockquote):
            content_i = str(contenido.text).replace(str(contenido.blockquote.text),'')
        else:
            content_i = str(contenido.text)
        content.append(content_i.replace('\n\n',""))
    
    return content
print(len(process_content(soup)))


15


### 5. Crear diccionario

In [None]:
def scraper():
    
    base_url = "http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start="
    
    #Genero una lista vacia para ser rellenada con los diccionarios de "ids" y "content" generados en el scrapping
    scraped_data = []
    
    for i in range(0, 40):  #Se puede modificar el rango para obtener una mayor cantidad de posteos
    
        url = "http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=" + str(15 * i)
    
        print(url)
        
        html_data = gets_html_rava(url)
        
        soup = parse_html(html_data)
    
        ids = process_ids(soup)
        content = process_content(soup)
        
        #Se genera un diccionario vacio y una lista de indices por cada comentario de la pagina. Por cada comentario, se genera
        #un diccionario con el id y el content que luego se agrega a la lista final "scraped_data".
        post = {}
        list_num = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]
        for index in list_num:
            post["id"] = ids[index]
            post["content"] = content[index]
            scraped_data.append(post)
              
    return(scraped_data)

> ## Implementacion

In [None]:
scraped_data = scraper()

with open("scraped_data.p", "wb") as f:
    pickle.dump(scraped_data, f)

http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=0
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=15
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=30
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=45
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=60
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=75
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=90
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=105
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=120
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=135
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=150
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=165
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=180
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=195
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=210
http://foro.rava.com/foro3/viewtopic.php?f=1&t=77&start=225
http://foro.rava.com/foro3/viewtopic.php?f=1&t=7

In [None]:
with open("scraped_data.p", "rb") as f:
    scraped_data = pickle.load(f)

print(scraped_data[0])
print(scraped_data[0]["id"])
print(scraped_data[0]["content"])

{'id': 'p5181092', 'content': 'Ultimo posteo. Asi no los molesto mas. Leo permanente kirchneristas cabeza de termo fanaticos.\nYo conozco muchos profesionales kirchneristas, empresarios kirchneristas, etc. Es muy comun que por un tema de represantacion sectorial sean minorias en clases medias altas y altas un sector de centro izquierda.\nComo tambien es poco comun que sectores de centro derecha o derecha ganen en barrios populares.\nEsto a mi entender no es por que sean cabeza de termos. Sino por que la mayoria votan.pensando en su propio bienestar. \nEsto cabe para ambos sectores. \nUno podria decir que un planero vota para mantener el plan o un empleado de sueldo basico vota un gobierno que supiestamente le va a jugar a fvor en la puja distributiva.\nComo tambien decir que un propietario de un campo chico o mediano vota una opcion que le prometa bajar retenciones o impuestos.\nConclusion fanaticos como los llaman hay en todos lados.'}
p5181092
Ultimo posteo. Asi no los molesto mas. L