# LAB: Webscraping

## Introducción

La idea de este LAB es poder fijar algunos conceptos vistos en la clase de webscraping. Para ello, utilizando las librerias vistas en clase, haremos un análisis comparativo básico entre algunas carácterísticas de cuentos de Borges y Cortazar.

Pasos a seguir:

- Inspeccionar la página a consultar
- Usar Requests para consultar la URL
- Extraer los links relevantes para scrapear los cuentos
- Almacenar los datos de manera conveniente
- Utilizar los datos y Pandas para hacer alguna comparación entre los autores

## Scrapeando datos

***1. Importá requests, BeautifulSoup y re***

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time
import numpy as np

***2. Guardá las URLS en variables*** 

In [2]:
url_cortazar = 'http://ciudadseva.com/autor/julio-cortazar/cuentos/'
url_borges = 'http://ciudadseva.com/autor/jorge-luis-borges/cuentos/'

***3. Hacé un pedido HTTP GET para descargar las páginas con los links*** 
***4. Usá regex para extraer los links a scrapear***
***5. Usá BeautifulSoup para extraer los textos de esos links***

Para ahorrar código considerá encapsularlo en una función!

In [3]:
def get_cuento_by_url(url):
    html_cuento = requests.get(url).text
    soup_cuento = BeautifulSoup(html_cuento, 'html.parser')
    text_cuento = soup_cuento.find('div',  {'class':'text-justify'})
    return text_cuento.text

def get_cuentos_by_author_url(url):
    resp = requests.get(url)

    html = resp.text
    soup = BeautifulSoup(html, 'html.parser')
    cuentos_ul = soup.find('ul', {'class':'list-stories'})
    links = cuentos_ul.findAll('a')
    
    cuentos = []

    for link in links:
        cuento_text = get_cuento_by_url(link.get('href'))
        cuentos.append({
            'title': link.text.strip(),
            'link': link.get('href'),
            'cuento': cuento_text.strip()
        })
    
    return cuentos

def get_cuentos_by_author_url_as_DataFrame(url):
    cuentos_dict = get_cuentos_by_author_url(url)
    return pd.DataFrame(cuentos_dict)

In [4]:
df_cortazar = get_cuentos_by_author_url_as_DataFrame(url_cortazar)
df_cortazar.head()

Unnamed: 0,cuento,link,title
0,En el restaurante de los cronopios pasan estas...,http://ciudadseva.com/texto/almuerzos/,Almuerzos
1,"Y después de hacer todo lo que hacen, se levan...",http://ciudadseva.com/texto/amor-77/,Amor 77
2,Hubo un tiempo en que yo pensaba mucho en los ...,http://ciudadseva.com/texto/axolotl/,Axolotl
3,"Andrée, yo no quería venirme a vivir a su depa...",http://ciudadseva.com/texto/carta-a-una-senori...,Carta a una señorita en París
4,Nos gustaba la casa porque aparte de espaciosa...,http://ciudadseva.com/texto/casa-tomada/,Casa tomada


In [5]:
df_borges = get_cuentos_by_author_url_as_DataFrame(url_borges)
df_borges.head()

Unnamed: 0,cuento,link,title
0,Abel y Caín se encontraron después de la muert...,http://ciudadseva.com/texto/abel-y-cain-borges/,Abel y Caín
1,"Era muy lindo, un pueblo laberíntico. A veces,...",http://ciudadseva.com/texto/adrogue/,Adrogué
2,¿Qué soñará el indescifrable futuro? Soñará qu...,http://ciudadseva.com/texto/alguien-sonara/,Alguien soñará
3,Los años le han dejado unas palabras en guaran...,http://ciudadseva.com/texto/andres-armoa/,Andrés Armoa
4,Cierro los ojos y veo una bandada de pájaros. ...,http://ciudadseva.com/texto/argumentum-ornitho...,Argumentum ornithologicum


***6. Guardalos en .csv***

In [6]:
df_cortazar.to_csv('cortazar.csv')

In [7]:
df_borges.to_csv('borges.csv')

***7. Cargalos a un dict o un DataFrame para hacer alguna comparación***

## Bonus:
    Usar time para dar al scraper un tiempo de espera tomado de una distibución uniforme de rango 3.
    Usar CountVectorizer de sci-kit learn para analizar los cuentos.
    

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

countv_bor = CountVectorizer()
countv_cor = CountVectorizer()

countv_bor.fit(df_borges)
countv_cor.fit(df_cortazar)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [10]:
countv_bor.toarray()

AttributeError: 'CountVectorizer' object has no attribute 'toarray'