# TP 0: Introducción al Web Scraping en Python

## 1. Realizar consultas HTTP en Python: _Requests_

[_Requests_](https://2.python-requests.org//es/latest/) es una librería Python que facilita el envio de consultas HTTP/1.1.

In [1]:
import requests

In [2]:
URL = "https://www.latercera.com/"

r = requests.get(URL)

In [3]:
print(r.headers)

{'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'X-Amz-Cf-Pop': 'GIG51-C1', 'Access-Control-Allow-Origin': '*', 'Server': 'nginx', 'DELIVERY': 'TKZP-2', 'X-Amz-Cf-Id': 'G9hyBQHov3-DGfv7IoQfBNiLYnq2enLkOf690xbHQv2D8n-boTG0Cw==', 'Date': 'Fri, 30 Aug 2019 20:55:12 GMT', 'Connection': 'keep-alive', 'Via': '1.1 2e92b6c08d7d34d4be9cc42c82d17530.cloudfront.net (CloudFront)', 'Age': '50', 'Cache-Control': 'public, max-age=128, s-maxage=128', 'Link': '<https://www.latercera.com/wp-json/>; rel="https://api.w.org/"', 'X-Cache': 'Hit from cloudfront', 'Vary': 'Accept-Encoding'}


In [4]:
print(r.headers['Content-Type'])
print(r.encoding)

text/html; charset=UTF-8
UTF-8


In [5]:
print(r.text)

<!DOCTYPE html>
<html lang="es-CL">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta http-equiv="refresh" content="300"><title>La Tercera - Noticias, deportes y actualidad de Chile y del mundo</title>
<link rel="profile" href="http://gmpg.org/xfn/11">

<!-- This site is optimized with the Yoast SEO plugin v5.1 - https://yoast.com/wordpress/plugins/seo/ -->
<meta name="description" content="Infórmate primero y con profundidad de todo el acontecer del país y el mundo en política, negocios, deportes, cultura, entretención y tendencias."/>
<link rel="canonical" href="https://www.latercera.com/" />
<meta property="og:locale" content="es_ES" />
<meta property="og:type" content="website" />
<meta property="og:title" content="La Tercera - Noticias, deportes y actualidad de Chile y del mundo" />
<meta property="og:description" content="Infórmate primero y con profundidad de todo el ac

Tutorial para uso más avanzado de _Requests_:
- _Requests_ quickstart [[1]](https://2.python-requests.org//es/latest/user/quickstart.html)
- uso avanzado de _Requests_ [[2]](https://2.python-requests.org//es/latest/user/advanced.html)

## 2. Extraer datos de documentos HTML en Python: _BeautifulSoup4_

[BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) es una librería Python que facilita la extracción de datos en archivos HTML y XML.

In [7]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [8]:
from bs4 import BeautifulSoup

bs = BeautifulSoup(html_doc, 'html5lib')

In [9]:
a_tags = bs.find_all('a')

for a_tag in a_tags:
    print(a_tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


In [10]:
for a_tag in a_tags:
    print(a_tag.text)

Elsie
Lacie
Tillie


In [11]:
for a_tag in a_tags:
    print(a_tag['href'])

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [12]:
p_tags = bs.find_all('p',attrs = {'class':'title'})
for p_tag in p_tags:
    print(p_tag.text)

The Dormouse's story


## 3. Extraer enlaces de noticias desde un medio de prensa: _Requests_ y _BeautifulSoup4_

**Nota Bene**: Multiplicar de forma automática las consultas HTTP hacia un sitio web es una mala práctica que no respeta las condiciones de uso del sitio. En ciertos paises, está prohibido por leyes.
Para evitar abusar las condiciones de uso de los sitios, cuidaremos no enviar más de 2 consultas por minuto hacia el mismo sitio.

Para evitar abusos, cada grupo de estudiantes utilizaran sitios de medios de prensa distintos:
- La Tercera: https://www.latercera.com/
- Cooperativa: https://www.cooperativa.cl/
- Bio Bio: https://www.biobiochile.cl/
- CNN Chile: https://www.cnnchile.com/
- 24 Horas TVN: https://www.24horas.cl/
- El País (España): https://elpais.com/elpais/portada_america.html
- El Mundo (españa): https://www.elmundo.es/
- 



In [13]:
URL = "https://www.elmundo.es/ultimas-noticias.html"

r = requests.get(URL)

In [14]:
print(r.text)

<!DOCTYPE html>
<html lang="es">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-15"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge;chrome=1"/>
<title data-ue-u="title" data-ue-c="innerHTML">Últimas noticias - Noticias de última hora | EL MUNDO</title>
<link href="https://e00-elmundo.uecdn.es/favicon.ico" type="image/ico" rel="icon"/>
<link href="https://e00-elmundo.uecdn.es/favicon.ico" type="image/ico" rel="shortcut icon"/>
<link rel="apple-touch-icon-precomposed" href="https://e00-elmundo.uecdn.es/apple-touch-icon-precomposed.png">
<link rel="apple-touch-icon-precomposed" sizes="72x72" href="https://e00-elmundo.uecdn.es/apple-touch-icon-72x72-precomposed.png">
<link rel="apple-touch-icon-precomposed" sizes="76x76" href="https://e00-elmundo.uecdn.es/apple-touch-icon-76x76-precomposed.png">
<link rel="apple-touch-icon-precomposed" sizes="114x114" href="https://e00-elmundo.uecdn.es/apple-touch-icon-114x114-precomposed.png">
<link rel="apple-touch-icon

In [15]:
bs = BeautifulSoup(r.text, 'html5lib')

a_tags = bs.find_all('a')

for a_tag in a_tags:
    print(a_tag['href'])

https://www.elmundo.es
https://clk.tradedoubler.com/click?p=271574&a=2404199&g=23242684
https://www.elmundo.es/espana.html?intcmp=MENUHOM24801&s_kw=espana
https://www.elmundo.es/espana.html?intcmp=MENUDES22301&s_kw=espana
https://www.elmundo.es/madrid.html?intcmp=MENUDES22301&s_kw=madrid
https://www.elmundo.es/andalucia.html?intcmp=MENUDES22301&s_kw=andalucia
https://www.elmundo.es/andalucia/sevilla.html?intcmp=MENUDES22301&s_kw=sevilla
https://www.elmundo.es/andalucia/malaga.html?intcmp=MENUDES22301&s_kw=malaga
https://www.elmundo.es/andalucia/el-caminante.html?intcmp=MENUDES22301&s_kw=el_caminante
https://www.elmundo.es/baleares.html?intcmp=MENUDES22301&s_kw=baleares
https://www.elmundo.es/baleares/ibiza.html?intcmp=MENUDES22301&s_kw=ibiza
https://www.elmundo.es/catalunya.html?intcmp=MENUDES22301&s_kw=catalunya
https://www.elmundo.es/comunidad-valenciana.html?intcmp=MENUDES22301&s_kw=comunidad-valenciana
https://www.elmundo.es/comunidad-valenciana/alicante.html?intcmp=MENUDES22301&s_

In [16]:
h2_tags = bs.find_all('h2', attrs={"class":"mod-title"})

enlaces=[]

for h2_tag in h2_tags:
    specific_a_tags = h2_tag.find_all('a')
    for a_tag in specific_a_tags:
        print(a_tag['href'])
        enlaces.append(a_tag['href'])

https://www.elmundo.es/espana/2019/08/30/5d696387fdddff44448b456e.html
https://www.elmundo.es/espana/2019/08/30/5d698be5fdddff830d8b458a.html
https://www.elmundo.es/cultura/toros/2019/08/30/5d69835dfc6c833a488b45de.html
https://www.elmundo.es/cultura/toros/2019/08/30/5d6980d7fc6c83235b8b463b.html
https://www.elmundo.es/salud/2019/08/30/5d69300c21efa0e32d8b4608.html
https://www.elmundo.es/espana/2019/08/30/5d696edefdddff73138b45de.html
https://www.elmundo.es/andalucia/2019/08/30/5d69732ffdddff0a968b4670.html
https://www.elmundo.es/deportes/baloncesto/2019/08/30/5d6816f8fc6c83843b8b464f.html
https://www.elmundo.es/deportes/mas-deporte/2019/08/30/5d694b2921efa0d5078b4582.html
https://www.elmundo.es/deportes/baloncesto/2019/08/30/5d694e17fdddff73138b45bd.html
https://www.elmundo.es/deportes/futbol/2019/08/30/5d69708921efa0d3258b45fe.html
https://www.elmundo.es/andalucia/sevilla/2019/08/30/5d696ff1fdddffca838b45e6.html
https://www.elmundo.es/cultura/cine/2019/08/30/5d696e9e21efa012118b4626.

## 4. Extraer contenidos de noticias

In [17]:
import time

noticias=[]

for enlace in enlaces:
    
    time.sleep(2)
    print(enlace)
    r = requests.get(enlace)

    bs = BeautifulSoup(r.text, 'html5lib')

    div_noticia = bs.find('div', attrs={'class':'ue-l-article__body ue-c-article__body'})

    p_tags = div_noticia.find_all('p')

    texto_noticia=""
    try:
        for p_tag in p_tags:
            texto_noticia = texto_noticia+p_tag.text
            
    except:
        continue
    noticias.append((enlace,texto_noticia)) 

https://www.elmundo.es/espana/2019/08/30/5d696387fdddff44448b456e.html
https://www.elmundo.es/espana/2019/08/30/5d698be5fdddff830d8b458a.html
https://www.elmundo.es/cultura/toros/2019/08/30/5d69835dfc6c833a488b45de.html
https://www.elmundo.es/cultura/toros/2019/08/30/5d6980d7fc6c83235b8b463b.html
https://www.elmundo.es/salud/2019/08/30/5d69300c21efa0e32d8b4608.html


KeyboardInterrupt: 

In [18]:
noticias[2]

('https://www.elmundo.es/cultura/toros/2019/08/30/5d69835dfc6c833a488b45de.html',
 'Tras romper el paseíllo, Daniel Luque fue obligado a saludar tras su encerrona del pasado 14 de agosto, saludo que compartió con sus compañeros de cartel.El primero de la tarde fue un toro muy bien presentado. Extraordinario quite por chicuelinas de Luque que replica por saltilleras Castella. Saludó tras parear José Chacon. Inició la faena el francés con dos pases cambiados por la espalda, tropezándole el toro, cayendo al suelo y teniendo los recursos de seguir toreando con las dos rodillas en tierra. La faena tuvo la virtud del temple hasta que el astado duró, recurriendo entonces Castella a acortar las distancias. Mató de media estocada, según informa Aplausos.Variado y largo fue el recibo de capote de Castella al cuarto de la tarde con verónicas y chicuelinas. Llevó al toro al caballo por chicuelinas ceñidas que realizó una buena pelea. Quitó por gaoneras Luque y saludaron tras parear Rafael Viotti y

## 5. Aplicar procesos de Tratamiento Automático del Lenguaje

[SpaCy](https://spacy.io) es una librería Python que permite facilitar la realización de ciertos procesos de Tratamiento Automático del Lenguaje (TAL). Ejemplos de procesos de TAL son por ejemplos:
- la tokenización: segmentar el texto en palabras,
- la clasificación gramatical (pos): identificar si una palabra es un sustantivo, verbo, adjetivo, etc.
- la lematización: determinar la forma genérica de una palabra (por ej.: "superó" --> "superar", "ocasiones" --> "ocasión")

In [19]:
import spacy
nlp = spacy.load('es_core_news_md')

In [28]:
doc=nlp(noticias[1][1])

In [29]:
for token in doc:
    print(token.text, token.pos_,token.lemma_)

Podemos AUX Podemos
ha AUX haber
cesado VERB cesar
este DET este
viernes NOUN viernes
a ADP a
Bruno PROPN Bruno
Pérez PROPN Pérez
Juncà PROPN Juncà
, PUNCT ,
recién ADV recién
nombrado ADJ nombrar
director NOUN director
general ADJ general
de ADP de
Administración PROPN Administración
Electrónica PROPN Electrónica
y CONJ y
Sociedad PROPN Sociedad
del ADP del
Conocimiento PROPN Conocimiento
del ADP del
Gobierno PROPN Gobierno
de ADP de
Aragón PROPN Aragón
, PUNCT ,
por ADP por
haber AUX haber
apoyado VERB apoyar
al ADP al
independentismo NOUN independentismo
catalán ADJ catalán
. PUNCT .
Su DET Su
elección NOUN elección
para ADP parir
el DET el
cargo NOUN cargar
, PUNCT ,
según ADP según
la DET lo
formación NOUN formación
morada ADJ morar
, PUNCT ,
había AUX haber
respondido VERB responder
a ADP a
su DET su
" PUNCT "
excelente ADJ excelente
currículo NOUN currículo
profesional ADJ profesional
como SCONJ comer
experto NOUN experto
informático ADJ informático
y CONJ y
en ADP en
cibersegur

In [30]:
for token in doc:
    if (token.pos_ == "NOUN"):
        print(token.text, token.pos_,token.lemma_)

viernes NOUN viernes
director NOUN director
independentismo NOUN independentismo
elección NOUN elección
cargo NOUN cargar
formación NOUN formación
currículo NOUN currículo
experto NOUN experto
ciberseguridad NOUN ciberseguridad
embargo NOUN embargar
responsables NOUN responsable
manos NOUN mano
información NOUN información
cuanto NOUN cuanto
actividad NOUN actividad
confianza NOUN confianza
pasado NOUN pasar
velas NOUN velar
esteladas NOUN estelado
banderas NOUN bandera
plazas NOUN plaza
municipios NOUN municipio
instalación NOUN instalación
antesala NOUN antesala
consulta NOUN consultar
octubre NOUN octubre
motivos NOUN motivo
creativo NOUN creativo
idoneidad NOUN idoneidad
cargo NOUN cargar
designación NOUN designación
cargo NOUN cargar
horas NOUN hora
biografía NOUN biografiar
condición NOUN condición
técnico NOUN técnico
ciberseguridad NOUN ciberseguridad
perito NOUN perito
medios NOUN medio
comunicación NOUN comunicación
pasado NOUN pasar
esteladas NOUN estelado
luz NOUN luz
direc

## 6. Almacenar los resultados en una base de datos: _MySQL_

In [31]:
import mysql.connector

db_connection = mysql.connector.connect(user="root",host="localhost",password="root")
cursor = db_connection.cursor()

In [32]:
##EJECUTAR 1 VEZ
#cursor.execute("CREATE DATABASE info229;")
cursor.execute("USE info229")
#cursor.execute("CREATE TABLE news (idNews INT PRIMARY KEY NOT NULL AUTO_INCREMENT, url VARCHAR(200), text TEXT);")


In [33]:
for noticia in noticias:
    query="INSERT INTO news(url,text) VALUES (%s,%s)"
    cursor.execute(query,noticia)

cursor.execute("COMMIT");