# LAB: Webscraping

## Introducción

La idea de este LAB es poder fijar algunos conceptos vistos en la clase de webscraping. Para ello, utilizando las librerias vistas en clase, haremos un análisis comparativo básico entre algunas carácterísticas de cuentos de Borges y Cortazar.

Pasos a seguir:

- Inspeccionar la página a consultar
- Usar Requests para consultar la URL
- Extraer los links relevantes para scrapear los cuentos
- Almacenar los datos de manera conveniente
- Utilizar los datos y Pandas para hacer alguna comparación entre los autores

## Scrapeando datos

***1. Importá requests, BeautifulSoup y re***

In [0]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time
import numpy as np

***2. Guardá las URLS en variables*** 

In [0]:
url_cortazar = 'https://ciudadseva.com/autor/julio-cortazar/cuentos/'
url_borges = 'https://ciudadseva.com/autor/jorge-luis-borges/cuentos/'

***3. Hacé un pedido HTTP GET para descargar las páginas con los links*** 
***4. Usá regex para extraer los links a scrapear***
***5. Usá BeautifulSoup para extraer los textos de esos links***

Para ahorrar código considerá encapsularlo en una función!

In [0]:
def get_cuentos(url):
    titulos = []
    textos = []
    
    response = requests.get(url)

    for s_url in re.findall('(https://ciudadseva.com/texto/.+?/)', response.text):
        print('Fetching:', s_url)
        cuento = requests.get(s_url)
        soup = BeautifulSoup(cuento.content, 'html.parser')

        for elem in soup.findAll("div", { "class" : "text-justify" })[:2]:
            cuento = elem.text
            
        titulos.append(s_url.split('/')[-2])
        textos.append(cuento)
        time.sleep(np.random.randint(1,4))
        
    return {k:v for k,v in zip(titulos, textos)}

In [0]:
cuentos_bor = get_cuentos(url_borges)
cuentos_cor = get_cuentos(url_cortazar)

In [0]:
cuentos_bor

{}

***6. Guardalos en .csv***

In [0]:
df_cor.to_csv("df_cor.csv")
df_cor.to_csv("df_bor.csv")


***7. Cargalos a un dict o un DataFrame para hacer alguna comparación***

In [0]:
df_cor = pd.DataFrame.from_dict(cuentos_cor, orient="index")
df_bor = pd.DataFrame.from_dict(cuentos_bor, orient="index")

## Bonus:
    Usar time para dar al scraper un tiempo de espera tomado de una distibución uniforme de rango 3.
    Usar CountVectorizer de sci-kit learn para analizar los cuentos.
    

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

countv_bor = CountVectorizer()
countv_cor = CountVectorizer()

countv_bor.fit(cuentos_bor)
countv_cor.fit(cuentos_cor)

df_bor = pd.DataFrame(countv_bor.transform(cuentos_bor).toarray(), columns= countv_bor.get_feature_names())
df_cor = pd.DataFrame(countv_cor.transform(cuentos_cor).toarray(), columns= countv_cor.get_feature_names())

ValueError: ignored

In [0]:
df_bor.head()

In [0]:
df_cor.head()